JPH0934716A - ルール誘導方法 - Google Patents

ルール誘導方法

Info

Publication number
JPH0934716A
JPH0934716A JP8176117A JP17611796A JPH0934716A JP H0934716 A JPH0934716 A JP H0934716A JP 8176117 A JP8176117 A JP 8176117A JP 17611796 A JP17611796 A JP 17611796A JP H0934716 A JPH0934716 A JP H0934716A
Authority
JP
Japan
Prior art keywords
rule
rule set
description length
rules
ruleset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8176117A
Other languages
English (en)
Inventor
William W Cohen
ダブリュー.コーエン ウィリアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH0934716A publication Critical patent/JPH0934716A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 高ノイズデータセットに対するデータアイテ
ムを分類するのに使用されるルールを誘導する方法を提
供する。 【解決手段】 各ルールを誘導し、剪定し、停止条件に
至るまで継続することにより分類ルールのセットを生成
するIREP法を剪定停止のルール・値距離とルールセ
ットの記述長さに左右される停止条件とにより改良す
る。改良法により得られるルールセットは、記述長さを
最小にするためにセットからルールを剪定することによ
り最適化され、かつ、各ルールについて置換ルール及び
修正ルールを作成し、ルールセット内で置換ルール、修
正ルール又はオリジナルルールを使用するか否か決定す
るために記述長さを使用することにより更に最適化され
る。オリジナルセットによりカバーされないデータアイ
テムのルールを誘導し、これらのルールを剪定すること
により更に改良される。カバーされないデータアイテム
のルールを誘導するステップを反復し、ルールを剪定
し、ルールを最適化し、所定回数再度剪定することによ
り更に改良される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は機械学習技術に関す
る。更に詳細には、本発明は高ノイズな巨大データ群を
効率的に分類する分類ルールを含む機械学習技術に関す
る。
【0002】
【従来の技術】
機械分類:図1 最も普遍的な人間活動の一つは分類である。例えば、一
群のオブジェクトがあると、人はこのオブジェクトの属
性に従ってこれらのオブジェクトを複数のサブセットに
分類する。例えば、このオブジェクトが請求書である場
合、人は支払日の属性に従ってこれらの請求書を分類す
る。例えば、支払期日を過ぎた請求書は一つのサブセッ
トを構成し、期日の来た請求書は別のサブセットを構成
し、未だ支払期日の来ない請求書は更に別のサブセット
を構成するように分類する。
【0003】分類は常に手間暇の掛かる厄介な作業であ
り、その結果、技術により可能化された程度にまで常に
機械化されている。デジタルコンピュータが開発される
と、このコンピュータは直ちに分類作業に適用された。
図1は従来技術による分類システム101を示す。分類
システム101はデジタルプロセッサ105と、デジタ
ルデータを記憶するためのメモリシステム103により
構成されている。メモリ103は未分類データ107と
分類器111を有する。
【0004】未分類データ107は一連のデータアイテ
ム108である。各データアイテム108は多数の属性
117(0...n)に関する属性値118(0...
n)を含む。前記の請求書例では、請求書を示すデータ
アイテム108の属性117(i)は請求書の支払期日
及びその過ぎ去った支払期日を含み、所定のデータアイ
テム108の属性値118(i)は支払期日及びこのデ
ータアイテムにより示される請求書に関する過ぎ去った
支払期日を含む。
【0005】分類器111は分類器プログラム115を
含む。次に、システム101の動作を説明する。プロセ
ッサ105は分類器プログラム115を実行する。分類
器プログラム115は未分類データ107から各データ
アイテム108をプロセッサ105に読み出し、データ
アイテム108を分類し、そのクラス110に従って既
分類データ109に配置する。前記の請求書例では、3
種類のクラス110(支払期日未了、期日及び期日経
過)が存在する。
【0006】分類ロジックがプログラムに構築されるよ
うに分類器プログラム105を構築することもできる
が、分類ロジック113とプログラムを分離させるのが
一般的である。そのため、様々な種類のアイテムを分類
するプログラムを使用するのに必要なことは、分類ロジ
ック113を変更することだけである。分類ロジック1
13の一つの共通種は一組のルール119である。各ル
ールは一連の論理表現121とクラス指定子123から
なる。
【0007】各論理表現121は分類されるデータアイ
テムの属性125、=,<,>,≦又は≧のような論理
オペレータ及び属性125の値と比較されるべき値13
1を有する。請求書例について更に説明すれば、請求書
の分類器論理113は次の3種類のルールから構成され
ている。 past due date < curr date
−−> 期日経過 due date =< curr date 及び past due date >= curr dat
e −−> 期日 due date > curr date −−>
期日未了
【0008】−−>記号の右側の表現が、ルールがデー
タアイテムに割り当てるクラスである。左側の表現は一
連の論理表現である。データアイテムを分類するため
に、全ての論理表現が真であることが発見されるまで、
分類器プログラム115はルール119をデータアイテ
ムに適用する。例えば、請求書の支払期日が6月1日で
あり、経過支払期日が6月15日であり、現在日が6月
8日である場合、前記のルールセットに従ってプログラ
ム115を実行すると、前記の第2のルールが請求書の
データアイテムに適用され、その結果、請求書を“期
日”であると分類する。
【0009】分類器論理113の誘導:図2 請求書分類システムと同様に単純な事例の分類器論理1
13の構築は人手により容易に行われる。しかし、分類
システムが複雑になるにつれて、分類器論理113の構
築を自動化する必要性が出てくる。従って、それぞれの
分類が付された一組のデータアイテムから一組のルール
を誘導するシステムが開発された。
【0010】図2はこのようなシステム201を示す。
システム201もプロセッサとメモリから構成されてい
る。システム201は、既分類データ210と誘導プロ
グラム205を含む。既分類データ201は単純な一組
のデータアイテム108であり、各データアイテム10
8は分類されている。203に示されるように、各既分
類データアイテム203は、多数の属性に関する値及び
データアイテムが属するクラスのクラス指定子123を
含む。分類器論理113は既分類データ201について
誘導プログラム205を実行することにより生成され
る。
【0011】分類器論理113を誘導する2つの公知技
術が存在する。第1の技法では、誘導プログラム205
は、最初は、データを正しく分類するのに最適な論理よ
りも一層大量の論理を包含し、その後、そのサイズを低
下させるために分類器論理113を剪定する分類器論理
113を構築することにより始まる。第2の技法では、
分類器論理113はピース毎に構築され、分類器論理1
13が正しいサイズに到達した時点で、構築が終了され
る。
【0012】分類器論理113が最初必要な個数よりも
非常に多量に生成され、その後剪定される第1の技法は
C4.5システムにより例証される。このC4.5シス
テムは、J.Ross Quinlan, C4.5: Programs for Machine
Learning, Morgan Kaufman,San Mateo, CA, 1993に記
載されている。このシステムでは、誘導プログラム20
5は、データを正しく分類する既分類データ201から
デシジョンツリーを生成し、その後、このデシジョンツ
リーを剪定する。
【0013】C4.5RULESと呼ばれるC4.5の
或るバージョンは、根本から各葉まで順に走査すること
により、非剪定デシジョンツリーを一組のルールに変換
する。葉までの各走査の結果はルールである。次いで、
一組のルールを剪定し、同様にデータを正しく分類する
一層小さなサイズの一組のルールを生成する。
【0014】この技術の欠点は、巨大で高ノイズなデー
タ群についてはうまく作用しないことである。機械学習
コンテクストでは、高ノイズデータセットは、所定のル
ールにより生成された分類が全く正しいものである一組
のルールを生成することは出来ず、むしろ、所定のルー
ルにより生成された分類が概ね正しいものである一組の
ルールの生成しかできない。実例データセットのサイズ
及び/又はノイズ性が増大するにつれて、計算時間及び
メモリスペースの両方の点から、この技術は高コスト的
になる。
【0015】計算時間に関して、この技術の時間要件は
漸近的にO(n4)に近ずく。ここで、nは既分類デー
タ201における既分類データアイテムの個数である。
メモリスペースに関して、この技術は、全体的デシジョ
ンツリーをメモリ内に構築することを必要とし、ルール
バージョンの場合には、デシジョンツリーから生成され
た全てのルールのための記憶スペースが存在しなければ
ならない。2種類のデータアイテムしか存在しない問題
については若干の改善が可能であるが、更に改善された
技術はO(n3)時間及びO(n2)スペースを必要とす
る。
【0016】第2の技法は計算時間及びメモリスペース
については非常に安価である。増分エラー低減剪定(Inc
remental Reduced Error Pruning)又はIREPと呼ば
れるこの技術は、Johannes Furnkranz and Gerhard Wid
mer, "Incremental reducederror pruning", in : Mach
ine Learning: Proceedings of the Eleventh Annual C
onference, Morgan Kaufmann, New Brunswick, NJ, 199
4に詳細に説明されている。
【0017】IREPは、一度に一つのルール毎に、一
組のルールとして分類器論理113を構築する。ルール
が発見された後、ルール(ポジティブ及びネガティブの
両方)によりカバーされる全ての事例を既分類データ2
01から削除する。この処理は、ポジティブ事例が存在
しなくなるまで、又はIREPにより発見された最後の
ルールが受け入れ不能なほど大きな誤り率を有するまで
繰り返される。
【0018】ルールを構築するために、IREPは下記
のような戦略を使用する。先ず、どんなルールにもカバ
ーされない既分類データ201からの事例を、成長セッ
トと剪定セットの2つのサブセットにランダムに区分け
する。
【0019】次に、FOILのような技術を使用してル
ールを“成長”させる。FOILはJ.R. Quinlan and
R.M. Cameron-Jones, "FOIL: a Midterm Report", in:
PavelB. Brazdil, ed., Machine Learning: ECML-1993,
(Lecture Note in ComputerScience #667), Spring-Ve
rlag, Vienna, Austria, 1993に詳細に説明されてい
る。
【0020】FOILは条件の空結合により開始され、
これに、An=υ,Ac≦θ又はAc≧θ(ここで、An
名目的属性であり、υはAnのリーガル値であるか、ま
たは、Acは連続的変数であり、θは学習データ内に生
じるAcの何らかの値である)の条件を追加することを
検討する。条件の追加がFOILの情報利得基準を最大
にする場合に、追加されるべき条件を選択する。ルール
が成長データベースからのネガティブ事例を全くカバー
しなくなるまで、条件が追加される。
【0021】成長したら、ルールは直ちに剪定される。
剪定は、ルールの単一の最終条件を削除し、下記の関数
を最大にする削除を選択することにより行われる。 υ(Rule,PrunePos,PruneNeg)≡{p+(N−n)}/P+N (1) 前記式中、PはPrunePos内の事例の総数であ
り、NはPruneNeg内の事例の総数であり、pは
ルールによりカバーされるPrunePos内の事例の
個数であり、nはルールによりカバーされるPrune
Neg内の事例の個数である。この処理は、削除により
υの値が改善されなくなるまで繰り返される。このよう
に成長され、かつ、剪定されたルールは、追加された最
後のルールの正確度が空ルールの正確度よりも低くなる
まで、ルールセットに追加される。
【0022】IREPは実際、第1の技法により提起さ
れた計算時間及びメモリスペース問題を解決する。IR
EPはO(nlog2n)の学習時間を有し、また、そ
のルールセットを成長させるので、第1の技法よりも遥
かに小さなメモリスペース要件を満たすだけでよい。I
REP及びC4.5RULESにより実験したところ、
500,000データアイテムを有する実例データセッ
トからルールセットを生成するのに、C4.5RULE
Sは約79CPU年を要したが、IREPは7CPU分
でこのデータセットからルールセットを生成することが
出来た。
【0023】従って、IREPは多くの双方向用途で使
用するのに十分に高速であるが、C4.5RULESは
このような用途には不適である。しかし、IREPにも
2つの問題点が存在する。第1の問題点は、第1の技法
を用いて作成されたルールセットは、IREPを用いて
作成されたルールセットよりも遥かに低い分類エラーし
か犯さない。第2の問題点は、IREPは幾つかのデー
タセットに収束することができない。すなわち、これら
のデータセットから一層多数の既分類事例にIREPを
暴露しても、ルールの誤り率を低下させることができな
い。
【0024】
【発明が解決しようとする課題】従って、本発明の目的
は、IREPと同程度の計算時間及びメモリスペース要
件を有するが、収束し、そして、第1の技法により生成
されるものと同様に分類する複数組のルールを生成す
る、一組のルールの誘導技法を提供することである。
【0025】
【課題を解決するための手段】前記課題は、使用されて
いる方法により作成することができる最大のルールセッ
トよりも遥かに小さなルールセットを作成し、次いで、
全体としてルールセットについて元々のルールセットを
最適化することにより最終ルールセットを生成すること
により解決される。小さなルールセットを作成すること
により、IREP法の計算時間及びメモリスペースの利
点を享受することができ、また、全体としてルールセッ
トについて最適化することによりルールセットにより生
成される分類の品質を改善することができる。
【0026】全体的ルールセットに関する最適化の特に
好都合な方法は、ルールセットの記述長さを低下させる
ために最適化することである。本発明はこのような最適
化の2つのタイプを特徴とする。一方のタイプでは、記
述長さを低下するために、ルールはルールセットから剪
定される。別のタイプでは、記述長さを低下するため
に、ルールセット内のルールを修正する。好ましい実施
態様では、先ずルールセットを剪定し、そして、その
後、この剪定ルールセットを修正する。
【0027】最適化ルールセット内のルールによりカバ
ーされない全ての実例データアイテムについて繰り返す
ことにより別の改善が得られる。新たなルールが前記の
ようにしてこれらのデータアイテムについて生成させ、
そして、最初の繰り返しにより生成されたルールセット
に追加される。その後、この新たなルールセットが最適
化される。繰り返しは所定回数にわたって継続するか、
または、ルールセットにより正確に分類されないデータ
アイテムが存在しなくなるまで継続する。
【0028】本発明の別の態様において、ルールセット
はルールを一つ毎に誘導し、そして、生成されるに応じ
て各ルールを剪定することにより生成される。ルールの
生成は、停止条件が満たされるまで続けられる。本発明
は更に、個々のルールの優れた剪定方法と、ルールの剪
定を停止させる時点を決定するための優れたルール・値
距離を提供する。また、これまで全てのルールセットに
ついて得られていた最小記述長さに関する新たなルール
を有するルールセットの記述長さに基づくルールセット
に関する停止条件を提供する。最後に、IREPはミッ
シング属性、数量的変数及び複数クラスをサポートする
ように改善されている。
【0029】
【発明の実施の形態】以下、本発明による一組のルール
の誘導方法を三段階に分けて説明する。先ず、IREP
*と呼ばれるIREPの改良バージョンについて説明
し:次いで、IREP*により生成されるルールセット
の最適化方法について説明し:その後、IREP*と最
適化を結合する方法について説明する。この方法はRI
PPER(Repeated Incremental Pruning to Produce E
rror Reduction)と命名されている。最後に、RIPP
ERkと呼ばれるRIPPERの反復バージョンについ
て説明する。そこで、IREP*及びRIPPERの顕
著な部分の好ましい実施態様について詳細に説明する。
【0030】IREP*:図4 図4はIREP*403の流れ図である。IREP*40
3の最初の部分はループ414である。ループ414は
ルールセットすなわちルールのためのルールを構築す
る。ステップ407において、ルール119(i)は、
IREPについて前記に説明したような仕方で成長され
る。次のステップ407において、ルール119(i)
は剪定される。IREPと異なり、ルール119(i)
における条件の全ての最終シーケンスは剪定対象と見做
され、下記のルール・値距離関数を最大にするこのシー
ケンスは保持される。 υ*(Rule,PrunePos,PruneNeg)≡p−n/p+n
【0031】この関数は、データアイテムを2つのクラ
スに分類するルールに関するものである。pはポジティ
ブデータアイテムの個数、すなわち、ルールがルールの
クラスのメンバーとしてうまく分類するデータアイテム
の個数を示す。nはネガティブデータアイテムの個数、
すなわち、ルールがルールのクラスのメンバーではない
としてうまく分類するデータアイテムの個数を示す。ル
ール119(i)が成長され、かつ、剪定された後、こ
れはルールセット120(ステップ411参照)に追加
される。
【0032】決定ブロック413は、ルールセット12
0に関する停止条件が満たされたか否かを決定する。満
たされていない場合、ループ414は反復される。停止
条件の適正な選択は、データを適正に分類するには十分
な大きさであるが、C4.5システムで使用されるよう
な技法の計算時間及びメモリスペース問題を避けるには
十分に小さいことを確保する。好ましい実施態様では、
停止条件は最小記述長さ原理を用いて次のように決定さ
れる。
【0033】Quinlan, C4.5: Programs for Machine Le
arning, supra, p. 51f.,に記載されているように、こ
の原理は、学習データから誘導可能な最良のルールセッ
トは、ルールにより正確に分類されず、従って、ルール
の例外であるデータアイテムと共にルール群からなるメ
ッセージを符号化するのに必要なビット数を最小にす
る。所定のルール群に関するこのメッセージの長さはル
ールセットの記述長さであり、最良のルールセットは最
小記述長さを有するルールセットである。
【0034】IREP*403において、ルールセット
の大きさが十分であるか否か決定するために、記述長さ
は、このように使用される。各ルールが追加された後、
新たなルールセットに関する記述長さが計算される。I
REP*403は、この記述長さがこれまでの全てのル
ールセットについて得られた最小記述長さよりも大き
く、dビット超であるか、又はポジティブ事例が最早全
く存在しない場合に、ルールの追加を停止する。好まし
い実施態様では、d=64である。
【0035】好ましい実施態様において、ルールセット
の記述長さを符号化するのに使用されたスキーム及びそ
の例外はJ.Ross Quinlan, "MDL and categorical theor
ies(continued)", in: Machine Learning: Proceedings
of the Twifth International Conference, Lake Taho
e, CA, 1995, Morgan Kaufmannに詳述されている。この
符号化スキームの一部分は、k個の条件を有するルール
を送信するのに必要なビット数を決定するのに使用でき
る。
【0036】その所望部分は、 S(n,k,p)≡klog21/p+(n−k)lo
21/1−p (前記式中、pはメッセージの受信者により既知であ
る)ビットを用いて、n個の要素の既知セットのk個の
要素のサブセットを識別することができる。従って、本
発明によれば、‖k‖+S(n,k,k/n)ビットに
より、k個の条件を有するルールを送信することができ
る。ここで、nはルール中に出現することができるであ
ろう可能条件の個数であり、‖k‖は整数kを送信する
のに必要なビット数である。このセオリーを送信するの
に必要なビット推定値は、その後、属性中で起こりうる
冗長度を調整するために0.5倍される。
【0037】例外を送信するのに必要なビット数は次の
ように決定される。下記の式において、Tは例外の個数
であり、Cはカバーされる事例の個数であり、Uはカバ
ーされない事例の個数であり、eはエラーの個数であ
り、fpは偽ポジティブエラーの個数であり、fnは偽
ネガティブエラーの個数である。例外を送信するための
ビット数は、(C>T/2)である場合、 log(T+1)+S(C,fp,e/2C)+S
(U,fn,fn/U) であるか、さもなければ、 log(T+1)+S(C,fn,e/2U)+S
(U,fp,fp/C) である。
【0038】停止条件が満たされた後、ステップ415
においてルールセットを剪定する。好ましい実施態様で
は、剪定は、各ルールを順番に(追加された最後のルー
ルから開始する)検査し、ルールを有する及び有しない
ルールセットの記述長さを計算し、そして、その不在に
より記述長さが低下される全てのルールを削除すること
により行われる。
【0039】剪定ステップ409で使用されたルール・
値距離及びIREP*403の停止条件413で使用さ
れた停止距離を一緒になってIREP性能を大幅に改善
する。IREPは収束できないが、IREP*403は
データセットに収束する。従って、IREP*403を
用いて生成されたルールセットは、IREPを用いて生
成された分類よりも正確な分類を極めて良好に行う。
【0040】ルールを誘導するシステムの性能を決定す
るのに使用される一連のデータセットに対する試験で
は、IREP*403により生成されたルールセットの
分類エラーは、C4.5RULESにより生成されたル
ールセットの分類エラーよりも6%も優れていたし、I
REPにより生成されたルールセットの分類エラーより
も13%も優れていた。
【0041】IREP*はIREPの別の側面も同様に
改善する。元々から構成されているように、IREPは
データアイテム内のミッシング属性値、数量的値を有す
る属性又は複数クラスをサポートしない。ミッシング属
性値は次のように処理される。属性Aを含む全てのテス
トは、Aの値が不明である事例について失敗するように
定義される。これによりIREP*は、成功することが
既知のテストを用いてポジティブ事例を分離することが
できる。
【0042】IREP*又は2つのクラスを識別するこ
とができるルールを含む全ての方法は次のような仕方で
複数のクラスを処理するように拡張させることができ
る。先ず、クラスを配列させる。好ましい実施態様で
は、配列は常に、優先度の増大順序に従う。すなわち、
配列はC1,...,Ck(ここで、C1は最低優先度ク
ラスであり、Ckは最高優先度クラスである)の順に行
われる。次に、2クラスルール誘導法を用いて、C1
残りのクラスから分離するルールセットを発見する。
【0043】これは、事例データをポジティブデータの
クラスとネガティブデータのクラスに分割し、次いで、
2クラスルール誘導法を呼出してC1に関するルールを
誘導することにより行われる。前記ポジティブデータの
クラスはC1標識を有する事例だけを包含し、前記ネガ
ティブデータのクラスはその他の全てのクラスの事例を
包含する。
【0044】これが行われると、これらのルールにより
1に属するとして分類された全てのデータアイテムが
データセットから取り除かれる。次に、学習ルールセッ
トによりカバーされる全ての事例がデータセットから取
り除かれる。前記の方法は、最後のCkだけが残るま
で、残りのC2,...,Ckの各々について繰り返され
る。このクラスはデフォルトクラスとして使用される。
【0045】ルールセットの最適化:図4 IREPが有する問題点は、全体としてのルール群の品
質に対する所定のルールの効果が考慮されないことであ
る。IREP*403は前記のように、ルールセットを
剪定するステップ415でこの問題点を処理する。この
問題点を処理する更なるステップは、最適化ステップ4
17である。最適化の目的は、全体的ルールセットのエ
ラーを最小にするためにルールセット内のルールを修正
することである。
【0046】好ましい実施態様では、最適化ステップ4
17で使用される方法は次の通りである。所定のルール
セット120R1,...,Rkを順番に各ルールを検討
する。最初にR1を、次いでR2を、これらが導入された
順番に検討する。各ルールRiについて、2つの選択肢
ルールが構築される。Riの置換は、成長及びそれに次
ぐルールR’iの剪定により形成される。剪定は、剪定
データに関する全体的ルールセットR1,...,
R’i,...,Rkのエラーを最小にするためにガイド
される。
【0047】Riの改訂は同様に行われる。但し、改訂
は空ルールよりもむしろ、Riに条件を貪欲に追加する
ことにより成長される。最後に、前記のデシジョン長さ
技法を使用し、最終ルールセット120が改訂ルール、
置換ルール又はオリジナルルールを包含するか否か決定
する。これは、Riの各変形体をルールセットに挿入
し、次いで、ルール及び事例の記述長さを増大させるル
ールを削除することにより行われる。その後、事例及び
簡易化ルールセットの記述長さを使用してRiの変形体
を比較し、最短記述長さを有するルールセットを生成す
る変形体を選択する。
【0048】RIPPER:図5 IREP*403及び最適化ステップ417は図5に示
されるRIPPER法501で使用される。流れ図40
1に示されるように、最初のルールセットは、IREP
*403を使用し、そして、その結果を最適化(ステッ
プ417)することにより得られる。次いで、決定ブロ
ック503に示されるように、ルールセットを事例デー
タアイテムに適用し、ルールセットによりカバーされな
い、すなわち、ルールセットにより正確に分類されない
データアイテムが存在するか否かチェックする。
【0049】存在すれば、ブロック509に示されるよ
うに、ループ511はIREP*403を使用し、この
事例がカバーされるまでルールセットにルールを追加す
る。RIPPER501はIREPを更に改善する。R
IPPER501により生成されたルールセットはC
4.5RULESにより生成されたルールセットよりも
僅かに1%高の分類エラーしか起こさない。
【0050】RIPPER:図6 RIPPER501からループ511を、ルールセット
によりカバーされないデータアイテムの発見を繰返す別
のループに配置し、これらのデータアイテムに関するル
ールをルールセットに追加して拡大ルールセットを生成
し、次いで、IREP*について前記で説明したような
技法を用いて拡大ルールセットを最適化することにより
更なる性能改善を得ることができる。RIPPER
k(ここで、kは繰返回数である)と呼ばれる、この態
様の技法を図6に示す。
【0051】RIPPERk601は流れ図401のス
テップ(すなわち、IREP*403+最適化417)
により開始される。その後、ループ615に進入する。
ループ615は所定回数実行される。ループ615の各
繰返において、RUPPERループ511を実行し、全
ての事例をカバーするルールセットを得る。その後、こ
のルールセットを、最適化ステップ417に関して前記
に説明した仕方により、ステップ613で最適化し、そ
の後、剪定ステップ415に関して説明したように剪定
する。
【0052】この最終バージョンの技法はk=2のトラ
イアルデータセットについて実行される。RIPPER
2により生成されたルールセットは、C4.5RULE
Sにより生成された分類と同様に良好な分類を行い、R
IPPER2はIREPのO(nlog2n)実行中時間
特性を保持する。
【0053】好ましい実施態様の詳細:図3,7−11 前記の技法は好ましい実施態様において、図2に示され
た改良された誘導プログラム301により実行される。
誘導プログラム301は2組の構成要素を包含する。一
方の組の構成要素303はルールセットを作成し、その
他のセット305はルールセットを最適化する。構成要
素303を作成するルールセットは、ルール成長構成要
素307(各ルールを成長する)、ルール剪定構成要素
309(ルールを剪定し、ルール・値距離を包含す
る)、停止条件構成要素311(ルールを更にルールセ
ットに添加すべきか否か決定する)、及びルールセット
剪定構成要素(ルールセットを剪定する)を有する。ル
ールセット最適化器305は、置換ルールを作成する構
成要素315、改訂ルールを作成する構成要素317、
及びルールセット内でオリジナルルール、置換ルール又
は改訂ルールを使用するか否か決定する決定構成要素3
19を有する。
【0054】好ましい実施態様の擬似コード 図7−11は、好ましい実施態様において、RIPPE
kについて必要な制御論理と共に、前記構成要素の処
理系用擬似コードを示す。処理系は2クラス分類システ
ムである。前記のように、このような2クラス分類シス
テムを使用し、複数クラス分類システムを実行すること
ができる。
【0055】ripper701 図7の冒頭において、ripper701は好ましい実
施態様においてRIPPERkを実行するトップレベル
関数である。これは、引数として一組の既分類事例20
1を獲得し、そして、一組のルールhypに戻る。符号
403が付されたripper部分はIREP*403
を実行するが、符号601が付された部分はRIPPE
kを実行する。703において、ripperは関数
add rulesを呼び出す。これは流れ図401のル
ープ414を実行し、データセット及び分類の最初のル
ールセットを生成する。次いで、関数reduce
lenはこのルールセットを剪定する。従って、流れ図
401のステップ415を実行する。
【0056】その後、剪定ルールセットはループ704
においてk回対話処理的に最適化される。従って、図6
のループ615を実行する。ループ704において、関
数optimize rules707は、関数add
rulesが現行のルールセットによりカバーされな
いデータアイテムに関するルールを追加する場合に、処
理ステップ611及び613を実行する。また、関数r
educe dlenは剪定ステップ614を実行す
る。ループ704が指定回数にわたって実行されたら、
ripperは最終ルールセットに戻る。
【0057】add rules ripperにより呼び出された関数について更に説明
する。図8の801はadd rulesを示す。最初
のステップ803は、既にルールセット内に存在するル
ールによりカバーされる事例を事例データから除去す
る。その後、停止条件が発生するまで、新たなルールを
ループ804で追加する。各ルールを構築するために、
事例データは先ず、ルール成長用のデータ群と、剪定処
理のためにこれをテストするデータ群に分割される(8
05)。斯くして、新たなルールが構築される(80
6)。構築は、クラス”+”(なぜなら、これは2クラ
ス分類器なので)を有する“空ルール”と論理表現12
1の空セットにより始められる。複数クラスシステムの
場合、空ルールは、ルールが現に作成されているクラス
を有する。
【0058】807において、refine関数は論理
表現121をルールに追加する。この関数は図9の90
3に示される。ループ904は、ルールによりカバーさ
れるネガティブ事例が存在しなくなるまで、論理表現を
一度に一つずつ追加する。各論理表現が追加されるに応
じて、その情報利得は、907で示されるように、re
value関数905で計算される。論理表現を追
加する停止条件に到達したら、ルールは戻される。さも
なければ、論理表現はルールに追加され、リファインさ
れたルールにより最早カバーされないネガティブ事例が
データセットから除去され、そして、ループが繰り返さ
れる。
【0059】次に、809において、simplify
関数は新たなルールを剪定する。simplify関数
は909に詳細に示されている。関数のループ910は
異なった剪定を行う。各剪定において、関数gen
alueはルール・値距離を計算する。現在の剪定に関
するルール・値距離が先に得られた最良値よりも優れて
いる場合、剪定は保留される。さもなければ、これは削
除される。剪定が保留される場合、剪定によりカバーさ
れないネガティブ事例はデータセットから除去され、ル
ールは反復される。gen value関数は図10の
1001に詳細に示される。現在の説明で特に重要なg
en value関数部分は1005である。前記に説
明したルール・値距離は1007に示される。
【0060】811において、関数reject ru
leが呼び出され、停止条件をチェックする。関数の擬
似コードは901に示される。ここに示されているよう
に、好ましい実施態様は2つの停止条件を有する。チェ
ックされるべき最初の停止条件(911)は記述長さを
使用し、現在のルールがルールセットに追加される場合
に生じる記述長さが、定量MAX DECOMPRES
SIONよりも大きいか又は等しい量だけ、ルールセッ
トについて既に達成された最短記述長さよりも大きい場
合に停止条件が生じることを示す。
【0061】停止条件が生じなかった場合、関数は91
3で、追加されるべきルールが50%超の誤り率を有す
るか否かチェックする。これが行われる場合、関数は、
停止条件が生じたことを示す。停止条件が生じたら、可
変last rule acceptedをFALSE
に設定する。このFALSEはループ804を停止させ
る。停止条件が生じていない場合、新たなルールにより
カバーされる事例をデータから除去し(813)、そし
て、新たなルールをルールセットに追加する(81
5)。
【0062】reduce dlen reduce dlen関数(705)はadd ru
lesにより生成されたルールセットを剪定する。この
関数は図11の1109に詳細に示されている。この関
数は主にループ1111からなる。ループ1111は、
各ルールについて順番に、ルール無しに現行ルールのコ
ピーを作成し、次いで、このルールを有するか又は有し
ない現行ルールセットの記述長さを計算する。
【0063】ルールを有しない現行ルールセットの記述
長さが短い場合(1113)、このルールセットは現行
ルールセットになる。1115に示されるように、記述
長さは関数total dlenにより計算される。t
otal dlen関数は最初data dlen関数
を使用し、現行ルールセットの例外であるデータアイテ
ムの記述長さを計算する(1117)。次いで、全体的
ルールセットの記述長さを作成する。
【0064】1119に示されるように、これはデータ
アイテムの記述長さにより開始され、次いで、各ルール
の記述長さを順番に追加することにより行われる。da
ta dlenに関して、この関数は1101に詳細に示
されている。この関数は前掲のQuinlan 1995の文献に記
載された方法を簡単に実行する。
【0065】optimize rules この関数はIREP*403により生成されたルールを
獲得し、このルールを最適化する。この最適化は、ルー
ルセット内の各ルールに関する新たなルールを作成し、
ルールセット内の各ルールに関する修正ルールを作成
し、次いで、オリジナルルールを有する、新たなルール
を有する、及び修正ルールを有するルールセットの記述
長さを用いて最適化ルールセットに含まれる3種類の内
から一つを選択することにより行われる。この関数はル
ープ712を有する。このループはルールセット内の各
ルールについて実行される。
【0066】各ルールについて、この関数は旧ルールを
セーブする(710)。その後、add rulesに
ついて説明した方法と同じ方法で新ルールを作成する
(713)。次いで、旧ルールに論理表現を追加するこ
とにより修正ルールを作成する(715)。追加及び剪
定もadd rulesについて説明した方法と同じ方
法で行われる。次いで、最短の記述長さを有するルール
セットを生成するルールを選択する(717)。次い
で、選択されたルールによりカバーされる事例を事例デ
ータから除去する(721)。
【0067】記述長さを計算するのに使用される関数は
relative compressionである。こ
の関数は図10の1009に詳細に示されている。この
関数は先ず、ルールを有するルールセットのコピーを生
成し、これをreduce dlenを用いて剪定する
(1011)。次いで、ルールを有しないルールセット
のコピーについて同じことを行う(1013)。
【0068】次いで、剪定ルールセットの各々に関する
例外の記述長さを計算し(1015)、そして最後に、
ルールを有しないルールセットに関する例外の記述長さ
と、ルールを有するルールセットに関する例外の記述長
さにルールの記述長さをプラスした合計との間の差を戻
す(1017)。記述長さの計算は、前記のようなda
ta dlenを用いて行われる。
【0069】結論 以上、事例データセットから分類用のルールセットを誘
導する本発明の方法の具体的内容及び具体的なやり方に
ついて詳細に説明した。本発明の方法は、C4.5のよ
うなシステムにより生成されたルールセットと同程度の
正確度を有するルールセットを生成することができる
が、本発明の方法によれば、このルールセットの生成に
必要な計算資源(リソース)は非常に僅少で済む。
【0070】資源は“必要十分”なルールを有するルー
ルセットを生成することによりセーブされ、正確度は、
ルールの剪定及びルールセットの成長を停止させるのに
使用される停止条件により、及び、ルールセットに関す
るルールセットを全体として最適化する最適化技術によ
り得られる。反復により、最適化技術の効率が高められ
る。本発明の方法の特別な利点は、停止条件の決定及び
ルールセットの最適化のために、記述長さを使用するこ
とである。
【0071】この明細書に具体的に説明した実施態様以
外の実施態様も当然実施可能である。例えば、好ましい
実施態様ではルールセットの生成のために改善されたI
REPを使用するが、“必要十分”なルールを同様に生
成するその他の技法も使用できる。更に、好ましい実施
態様では全体的ルールセットに対する最適化のために記
述長さを使用するが、全体的ルールセットを最適化する
その他の最適化技術も同様に使用できる。更に、この明
細書に示した剪定及び修正技術以外の最適化技術も使用
できる。最後に、本発明による擬似コードで説明した処
理系以外に、本発明の原理の処理系を構築することもで
きる。
【0072】
【発明の効果】以上説明したように、本発明によれば、
C4.5のようなシステムにより生成されたルールセッ
トと同程度の正確度を有するルールセットを生成するこ
とができ、しかも、このルールセットの生成に必要な計
算資源(リソース)は非常に僅少で済ませることができ
る。資源は“必要十分”なルールを有するルールセット
を生成することによりセーブされ、正確度は、ルールの
剪定及びルールセットの成長を停止させるのに使用され
る停止条件により、及び、ルールセットに関するルール
セットを全体として最適化する最適化技術により得られ
る。
【図面の簡単な説明】
【図1】従来技術の分類器のブロック図である。
【図2】分類器論理を誘導する従来技術のシステムのブ
ロック図である。
【図3】誘導プログラムにおけるモジュールのブロック
図である。
【図4】第1のルール誘導方法の流れ図である。
【図5】第2のルール誘導方法の流れ図である。
【図6】第3のルール誘導方法の流れ図である。
【図7】図6の方法の第1の部分の好ましい実施態様の
擬似コードである。
【図8】図6の方法の第2の部分の好ましい実施態様の
擬似コードである。
【図9】図6の方法の第3の部分の好ましい実施態様の
擬似コードである。
【図10】図6の方法の第4の部分の好ましい実施態様
の擬似コードである。
【図11】図6の方法の第5の部分の好ましい実施態様
の擬似コードである。
【符号の説明】
101 分類システム 103 メモリ 105 デジタルプロセッサ

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 データアイテムの事例データセットから
    データアイテムを分類する第2のルールセットを誘導す
    るメモリシステムとプロセッサを有するコンピュータシ
    ステムで実行されるルール誘導方法であり、 該ルール及び事例データセットはメモリシステムに記憶
    されており、 該方法は、プロセッサ内で実行される、 所定の方法に従って事例データセットから第1のルール
    セットを誘導し、そして、この第1のルールセットをメ
    モリシステムに記憶するステップと、ここで、第1のル
    ールセットは所定の方法で生成し得る最大のルールセッ
    トよりも大幅に小さい、 第2のルールセットを生成するために、第1のルールセ
    ット全体に対して第1のルールセットを最適化するステ
    ップと、からなることを特徴とするルール誘導方法。
  2. 【請求項2】 第2のルールセットを誘導した後、第2
    のルールセットによりカバーされない事例データセット
    からデータアイテムをカバーするために、第2のルール
    セットにルールを追加することにより第3のルールセッ
    トを誘導するステップを更に有する請求項1の方法。
  3. 【請求項3】 方法はn回反復され、第2のルールセッ
    トはn番目の反復で生成された新たな第2のルールセッ
    トである請求項2の方法。
  4. 【請求項4】 第1のルールセット又は第3のルールセ
    ットを最適化するステップは、第1のルールセット又は
    第3のルールセットの記述長さを計算し、この記述長さ
    を最適化において使用するステップを有する請求項1,
    2又は3の方法。
  5. 【請求項5】 第1のルールセット又は第3のルールセ
    ットを最適化するステップは、全第1のルールセットに
    関して第1のルールセットを剪定するステップを有する
    請求項4の方法。
  6. 【請求項6】 各ルールをルールとして剪定するステッ
    プは、関数p−n/p+n(ここで、pは事例データセ
    ット内のルールに関するポジティブ事例の個数であり、
    nはルールに関するネガティブ事例の個数である)を最
    大にさせる請求項5の方法。
  7. 【請求項7】 第1のルールセットの剪定ステップは、
    第1のルールセットの記述長さが短縮されるように、第
    1のルールセットからルールを削除することにより行わ
    れる請求項6の方法。
  8. 【請求項8】 第1のルールセットの剪定ステップは、
    第1のルールセットの記述長さが短縮されるように、第
    1のルールセットからルールを削除することにより行わ
    れる請求項5の方法。
  9. 【請求項9】 第1のルールセットの最適化ステップ又
    は第3のルールセットの最適化ステップは、 第1又は第3のルールセット内の各ルールについて行わ
    れる、 ルールの修正を行い、全ルールセットのエラーを最小に
    するために修正ルールを剪定するステップと、 ルールの記述長さ及び修正ルールから、ルールを修正ル
    ールと置換するか否か決定するステップと、からなる請
    求項1,2又は3の方法。
  10. 【請求項10】 修正を行うステップは、 ルールとは無関係に第1の修正を行うステップと、 条件をルールに追加することにより第2の修正を行うス
    テップとからなり、 決定ステップは、ルールを第1の修正ルール又は第2の
    修正ルールと置換するか否かを決定する請求項9の方
    法。
  11. 【請求項11】 最適化は、 第1のルールセットの記述長さが短縮されるように、第
    1のルールセットからルールを削除することにより第1
    のルールセットを剪定するステップを更に有する請求項
    9の方法。
  12. 【請求項12】 第1のルールセットの誘導ステップ
    は、所定の停止条件が生じるまで、ルール毎に、ルール
    を誘導することにより行われる請求項1,2又は3の方
    法。
  13. 【請求項13】 第1のルールセットの誘導ステップ
    は、停止条件が生じたか否か決定するために、第1のル
    ールセットの記述長さをチェックするステップを含む請
    求項12の方法。
  14. 【請求項14】 第1のルールセットの記述長さをチェ
    ックするステップは反復的に行われ、停止条件が生じた
    か否か決定するために、現行のルールセットの記述長さ
    を、これまでに得られた最短の記述長さと比較するステ
    ップを含む請求項13の方法。
  15. 【請求項15】 記述長さの比較ステップは、現行ルー
    ルセットの記述長さが最短記述長さよりも所定の値を超
    えるほど大きい場合に、停止条件が生じたと決定する請
    求項14の方法。
  16. 【請求項16】 データアイテムの事例データセットか
    らデータアイテムを分類するルールセットを誘導するメ
    モリシステムとプロセッサを有するコンピュータシステ
    ムで実行される方法であり、 該ルール及び事例データセットはメモリシステムに記憶
    されており、 該方法は、プロセッサ内で実行される、各ルールについ
    て、 事例データセットに対するルールを誘導するステップ
    と、 このルールをルールセットに追加するステップと、 追加ルールを有するルールセットの記述長さを計算する
    ステップと、 記述長さが所定の条件を満たす場合、該方法を停止させ
    るステップと、からなることを特徴とする方法。
  17. 【請求項17】 所定の条件は、最小の予め計算された
    記述長さよりも所定量だけ大きい記述長さである請求項
    16の方法。
  18. 【請求項18】 各ルールについて行われる、関数p−
    n/p+n(ここで、pは事例データセット内のルール
    に関するポジティブ事例の個数であり、nはルールに関
    するネガティブ事例の個数である)を最大にするために
    ルールを剪定するステップを更に有する請求項16の方
    法。
JP8176117A 1995-07-07 1996-07-05 ルール誘導方法 Pending JPH0934716A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/499,247 US5719692A (en) 1995-07-07 1995-07-07 Rule induction on large noisy data sets
US499247 1995-07-07

Publications (1)

Publication Number Publication Date
JPH0934716A true JPH0934716A (ja) 1997-02-07

Family

ID=23984472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8176117A Pending JPH0934716A (ja) 1995-07-07 1996-07-05 ルール誘導方法

Country Status (4)

Country Link
US (1) US5719692A (ja)
EP (1) EP0752648A1 (ja)
JP (1) JPH0934716A (ja)
CA (1) CA2179211A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3209163B2 (ja) * 1997-09-19 2001-09-17 日本電気株式会社 分類装置
US6131089A (en) * 1998-05-04 2000-10-10 Motorola, Inc. Pattern classifier with training system and methods of operation therefor
US6523020B1 (en) 2000-03-22 2003-02-18 International Business Machines Corporation Lightweight rule induction
US6516308B1 (en) * 2000-05-10 2003-02-04 At&T Corp. Method and apparatus for extracting data from data sources on a network
US20020049720A1 (en) * 2000-05-11 2002-04-25 Chase Manhattan Bank System and method of data mining
FI20010136A (fi) * 2001-01-23 2002-07-24 Republica Jyvaeskylae Oy Menetelmä ja laitteisto tiedon uudelleenryhmittelemiseksi
US6823323B2 (en) 2001-04-26 2004-11-23 Hewlett-Packard Development Company, L.P. Automatic classification method and apparatus
US7305122B2 (en) * 2002-08-13 2007-12-04 Lockheed Martin Corporation Method and computer program product for identifying and correcting systematic noise in a pattern recognition system
US7233692B2 (en) 2002-11-14 2007-06-19 Lockheed Martin Corporation Method and computer program product for identifying output classes with multi-modal dispersion in feature space and incorporating multi-modal structure into a pattern recognition system
US7305373B1 (en) * 2002-12-10 2007-12-04 Massachusetts Institute Of Technology Incremental reduced error pruning
AU2004263152B2 (en) * 2003-08-05 2009-08-27 Nuvasive, Inc. Systems and methods for performing dynamic pedicle integrity assessments
US7428515B2 (en) * 2003-09-30 2008-09-23 International Business Machines Corporation Object classification using an optimized Boolean expression
EP1704492A1 (en) 2003-11-27 2006-09-27 Quinetiq Limited Automated anomaly detection
GB2408597A (en) * 2003-11-28 2005-06-01 Qinetiq Ltd Inducing rules for fraud detection from background knowledge and training data
US7536369B2 (en) * 2005-09-23 2009-05-19 Xerox Corporation XML-based architecture for rule induction system
US20140180738A1 (en) * 2012-12-21 2014-06-26 Cloudvu, Inc. Machine learning for systems management
US10423889B2 (en) 2013-01-08 2019-09-24 Purepredictive, Inc. Native machine learning integration for a data management product
US9218574B2 (en) 2013-05-29 2015-12-22 Purepredictive, Inc. User interface for machine learning
US9646262B2 (en) 2013-06-17 2017-05-09 Purepredictive, Inc. Data intelligence using machine learning
JP2015114898A (ja) * 2013-12-12 2015-06-22 株式会社東芝 プログラム仕様推定装置およびその方法、ならびにプログラム
US11023830B2 (en) * 2014-06-30 2021-06-01 Oracle International Corporation Processing a request in accordance with original rules and configurations
US9996543B2 (en) 2016-01-06 2018-06-12 International Business Machines Corporation Compression and optimization of a specified schema that performs analytics on data within data systems
US11315018B2 (en) 2016-10-21 2022-04-26 Nvidia Corporation Systems and methods for pruning neural networks for resource efficient inference
US11509499B2 (en) * 2018-05-02 2022-11-22 Saferide Technologies Ltd. Detecting abnormal events in vehicle operation based on machine learning analysis of messages transmitted over communication channels
US11756290B2 (en) 2020-06-10 2023-09-12 Bank Of America Corporation System for intelligent drift matching for unstructured data in a machine learning environment
US11429601B2 (en) 2020-11-10 2022-08-30 Bank Of America Corporation System for generating customized data input options using machine learning techniques
US11966360B2 (en) 2021-01-04 2024-04-23 Bank Of America Corporation System for optimized archival using data detection and classification model

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5588091A (en) * 1989-05-17 1996-12-24 Environmental Research Institute Of Michigan Dynamically stable associative learning neural network system
US5222197A (en) * 1990-06-28 1993-06-22 Digital Equipment Corporation Rule invocation mechanism for inductive learning engine
US5265192A (en) * 1990-09-20 1993-11-23 Atlantic Richfield Company Method for the automated editing of seismic traces using an adaptive network
JP3184243B2 (ja) * 1991-06-20 2001-07-09 株式会社日立製作所 エキスパートシステムにおける知識獲得支援装置
US5481650A (en) * 1992-06-30 1996-01-02 At&T Corp. Biased learning system
US5373486A (en) * 1993-02-03 1994-12-13 The United States Department Of Energy Seismic event classification system
US5444796A (en) * 1993-10-18 1995-08-22 Bayer Corporation Method for unsupervised neural network classification with back propagation

Also Published As

Publication number Publication date
EP0752648A1 (en) 1997-01-08
CA2179211A1 (en) 1997-01-08
US5719692A (en) 1998-02-17

Similar Documents

Publication Publication Date Title
JPH0934716A (ja) ルール誘導方法
US20070005522A1 (en) Resource assignment optimization using direct encoding and genetic algorithms
CN110471913A (zh) 一种数据清洗方法及装置
CN106484401B (zh) 一种面向对象软件的自动化重构方法
WO2003012685A2 (en) A data quality system
US20080154808A1 (en) Use and construction of time series interactions in a predictive model
CN111310191A (zh) 一种基于深度学习的区块链智能合约漏洞检测方法
KR20200049273A (ko) 머신러닝을 위한 학습데이터 세트의 구성 방법 및 장치
CN113687821A (zh) 一种基于图形可视化的智能代码拼接方法
CN109857865A (zh) 一种文本分类方法及系统
CN115563610A (zh) 入侵检测模型的训练方法、识别方法和装置
Chong et al. Randomness in the higher setting
WO2004090797A2 (en) Decision tree analysis
CN111950579A (zh) 分类模型的训练方法和训练装置
CN112130896B (zh) 神经网络模型迁移方法、装置、电子设备及存储介质
CN110471854B (zh) 一种基于高维数据混合约简的缺陷报告指派方法
CN109409434A (zh) 基于随机森林的肝脏疾病数据分类规则提取的方法
Moraglio et al. Evolving recursive programs using non-recursive scaffolding
CN110879778B (zh) 一种新的动态反馈和改进型补丁评价的软件自动修复方法
EP4174722A1 (en) Method and apparatus for generating synthetic data
CN111324344A (zh) 代码语句的生成方法、装置、设备及可读存储介质
US20200356850A1 (en) Fusion of neural networks
JP2023051724A (ja) カスタマイズされたディープラーニングベースのテキスト修正のための方法及び装置
US7305373B1 (en) Incremental reduced error pruning
CN112749530B (zh) 文本编码方法、装置、设备及计算机可读存储介质