CN101147160A - 自适应分类器以及建立其分类参数的方法 - Google Patents

自适应分类器以及建立其分类参数的方法 Download PDF

Info

Publication number
CN101147160A
CN101147160A CNA2006800089540A CN200680008954A CN101147160A CN 101147160 A CN101147160 A CN 101147160A CN A2006800089540 A CNA2006800089540 A CN A2006800089540A CN 200680008954 A CN200680008954 A CN 200680008954A CN 101147160 A CN101147160 A CN 101147160A
Authority
CN
China
Prior art keywords
interval
data
attribute
variable
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800089540A
Other languages
English (en)
Other versions
CN101147160B (zh
Inventor
德特勒夫·丹尼尔·瑙克
弗兰克·克拉旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of CN101147160A publication Critical patent/CN101147160A/zh
Application granted granted Critical
Publication of CN101147160B publication Critical patent/CN101147160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • G06N7/023Learning or tuning the parameters of a fuzzy system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/24765Rule-based classification

Abstract

本发明涉及自适应分类器以及建立其分类参数的方法。用于根据多个多变量采样数据生成用于随后分类使用的分类器参数的方法,所述分类器参数涉及与多个变量中的各变量相关的多个区间,所述区间与类相关联,所述方法包括:输入所述采样数据;根据所述采样数据针对所述变量中的每一个计算多个边界;以及根据所述边界推导限定所述区间的参数。

Description

自适应分类器以及建立其分类参数的方法
技术领域
本发明涉及用于从多变量采样数据中生成分类器参数的装置和方法。
背景技术
模式识别器(Pattern recognizer)(分类器)是公知的。其用于各种机械识别任务。其中最具挑战性的任务是欺诈检测。例如,纸币的自动检测器必须将纸币分类为真币或者假币。同样,随着物理盗窃(physicaltheft)或者“身份盗窃(identity theft)”发生率的日益增长,自动交易系统(诸如自动取款机(ATM)系统或者信用卡网络)必须能够检测潜在的欺诈交易。对欺诈检测系统必须进行敏感地调节,从而使得假阳(falsepositive)与真阳(阳=欺诈)的比值以及假阴(false negative)与真阴的比值都很小。太多的假阳会由于错误地禁止用户而导致用户流失从而降低收入,而太多的假阴会由于欺诈会成功而直接导致收入损失。这种高度准确性、实时识别的任务完全超出了人类的能力,从而需要可靠的、高速的机器识别。欺诈检测系统通常使用分类模型,该分类模型接收作为输入的交易细节并产生作为输出的欺诈指示。
必须对许多识别系统进行更新以应付数据的累进变化。这一点对于欺诈检测系统来说尤其重要,这是因为欺诈模式随着欺诈人员因欺诈检测方案的成功而调整他们的行为而具有高度的动态性。
为了支持欺诈检测方案的设计、调整和维护,需要使用适合的分类模型。基于模糊规则的系统适于该用途,由于观察人员可以容易地解释该系统(从而允许在错误地使用该规则的情况进行方便的校正),这种系统容许数据的微小变化,容易对这种系统进行调节并且可以通过所谓的神经模糊(neuro-fuzzy)技术从数据中学习该系统。L.A.Zadeh引入了模糊集合(fuzzy set)的概念(L.A.Zadeh,Fuzzy Sets.Information and Control8(1965),338-353)。
模糊系统的初始设计和每次以后的更新都需要对各种参数进行定义和选择。当根据数据构建模糊系统时,必须确定:
每个属性的模糊集合的数量;
模糊集合的形状;
我们要使用的规则的数量;以及
每个规则的结构。
当前例如通过如由Nauck等人描述的NEFCLASS(D.Nauck,F.Klawonn,R.Kruse:“Foundations of Neuro-Fuzzy Systems”,Wiley,Chichester,1997)执行的神经模糊系统进行根据数据对模糊分类规则的学习。该系统接收作为输入的交易数据。每笔交易均被标明真实或者欺诈。
为了获得欺诈检测分类器,该神经模糊系统需要针对各个属性指定模糊集合的数量以及初始模糊集合。这是关键设计因素并且在现有技术中,由用户负责该任务。在该步骤后,基于这些模糊集合,可以学习规则库(rule base),接着对该模糊集合进行优化。最后,进行对规则和模糊集合的删改。
尽管在删改的步骤中可以消除某些冗余,但是初始模糊集合的不良选择可能明显降低学习处理的速度,甚至使训练算法在局部极小化方面发生停滞(get stuck)。因此,这种策略或者需要人为干预并且详细了解底层数据(这对于实时分类器的快速更新来说显然太慢),或者在没有此类干预或了解的情况下,需要进行长时间的反复试验来查找适当(多个)的模糊集合(同样太慢而无法用于更新实时分类器)。
发明内容
本发明的实施方式旨在提供一种快速的方法来确定模糊分类器(所述模糊分类器是通过学习处理从数据中建立的)的适当的初始模糊集合,从而使得能够快速更新在诸如欺诈检测等的时间关键应用(time-criticalapplication)中使用的分类器。通过根据权利要求1所述的装置或者根据权利要求14所述的方法可以实现这一点。
本发明的实施方式根据各属性的区间之间的分隔自动建立初始模糊分隔来操作。本发明的实施方式目的在于对于大量的属性和/或集合计算分隔。多个实施方式提供了通过考虑对属性进行组合来减少分隔的数量(从而减少集合数量)的方法。一实施方式通过同时成对地考虑属性对来减少高维问题的分隔数量。
多个实施方式使用基于熵的策略针对分类问题寻找模糊集合的初始数量以及初始分布。
优选实施方式首先独立考虑所有属性并为每个属性建立模糊分隔。在第二步骤,使用属性之间的依存性以针对尽可能多地减少属性的分隔(模糊集合的数量)。
以下,对其他优选特征和实施方式进行描述和请求保护,其优点通过如下描述将变得显而易见。
这里,应该提到的是事后发现与非模糊分类器相关的一些现有技术和本发明的实施方式存在着一些相似之处。例如,Fayyad和Irani(U.M.Fayyad,K.B.Irani:“On the Handling of Continuous-Valued Attributes inDecision Tree Generation”,Machine Learning,8(1992),87-102)描述了对于非模糊区间的边界点的计算方法,并且Elomaa和Rousu(T.Elomaa,J.Rousu:“Finding Optimal Multi-Splits for Numerical Attributes in DecisionTree Learning”,Technical Report NC-TR-96-041,Department of ComputerScience,Royal Holloway University of London(1996))提供了在问题的特征在于小低维数据集合的特殊情况下用来计算最优非模糊区间分隔的算法。然而,这些工作都远未暗示如何提供模糊分类器的参数。
Elomaa和Rousu的另一篇题目为“General and Efficient Multisplittingof Numerical Attributes”(Machine Learning,36(1999),201-244)的文章在基于边界点方法查找最优多重分割(即,对属性域进行分隔)的情况下检查不同属性评价函数和它们的性能。然而,该篇文章没有引入除了上述现有技术内容以外的任何新的分隔或者分割技术。该篇文章仅涉及验证某些评价指标限定了边界点的最优分割。这意味着并非必须检查所有可能的切割点,而是只检查作为切割点的子集的边界点。本发明的实施方式并不基于该“边界点”方法。
Elomaa和Rousu的另一篇题目为“Efficient Multisplitting Revisited:Optima Preserving Elimination of Partition Candidates”(Data Mining andKnowledge Discovery,8(2004),97-126)的文章将他们的论证从上面提到的文章扩展到作为边界点子集的分段边界(segment borders),即他们指出没必要为了寻找最优分割而检查所有的边界点。然而,这基本上仍然是边界点方法,并且如上面提到的,本发明的实施方式并不基于该方法。该篇文章继续指出如何在寻找最优分隔(分割)期间通过舍弃分隔候选(即,对分段边界进行组合)来使该改进的边界点方法(分段边界)执行得更快,但是应该理解这仍然不构成本发明所涉及的类型的分隔方法。
简单参照另外的两篇文章,Zeidler等人的“Fuzzy Decision Trees andNumerical Attributes”(Proceedings of the Fifth IEEE InternationalConference on Fuzzy Systems,1996,Volume 2,985-990)描述了应用边界点算法来生成在(模糊)决策树中使用的数值变量的模糊集合,并且Peng和Flach的“Soft Discretization to Enhance the Continuous Decision TreeInduction”(Integrating Aspects of Data Mining,Decision Support andMeta-Learning,ECML/PKDD workshop notes,September 2001,1-11)也仅应用边界点算法来分隔变量并且生成模糊集合,但是仅限于二进制分割。
参照与背景相关的现有专利文献,EP 0681249(IBM)涉及用于欺诈检测的模糊系统,并且EP 1081622(NCR international)涉及用于决策支持的专家系统。
附图说明
现在将参照附图对仅作为示例的本发明的实施方式进行描述,其中:
图1是示出了根据本发明优选实施方式的自适应分类器的结构的框图;
图2a是示出了自身为公知的模糊分类器的结构和图1的自适应分类器的形成部分的框图;
图2b是示出了用于产生图2a的分类器的更新参数的训练(training)装置的结构和图1的自适应分类器的形成部分的框图;
图3是示出了用于欺诈检测的图1的自适应分类器的整体操作的流程图;
图4是形成了图3的一部分的流程图,示出了图2的模糊分类器的操作;
图5是为了例示图2的分类器的操作而示出集合之间分隔(本身是公知的)的对照属性值的模糊隶属函数的示例图;
图6是示出了用于在优选实施方式中对属性进行分隔以产生模糊集合的主算法的流程图;
图7是形成了图6的一部分的流程图,示出了在优选实施方式中分隔单个属性的算法;
图8是形成了图7的一部分的流程图,示出了在优选实施方式中计算属性分隔的算法;
图9是形成了图8的一部分的流程图,示出了在优选实施方式中在存在过多边界点的情况用于计算分隔的试探法;
图10是形成了图6的一部分的流程图,示出了在优选实施方式中用于多维分隔简化的算法;
图11是形成了图6的一部分的流程图,示出了在优选实施方式中用于逐对地分隔简化的算法;
图12与图5相对应并且例示了根据采样数据的区间分隔而形成的模糊分隔;以及
图13是通过三个属性作为轴而限定的三位空间的图,示出由于其中遗漏了一个属性值的数据产生的盒。
具体实施方式
参照图1,根据本发明优选实施方式的自适应分类系统100包括分类器110和训练装置120。在诸如嵌入式微控制器的计算系统上实施该分类系统100,并且因此该分类系统100包括存储器150(例如RAM)、长期存储装置160(例如EPROM或者闪速存储器,或者另选地磁盘驱动器)、中央处理单元170(例如,微计算机)以及适当的通信总线180。为了清楚起见,在附图中省略了这些常规组件。
参照图2a,在该优选实施方式中的分类器是一种公知的基于模糊规则的分类器,Zadeh以及几份随后的文章中对其理论进行了描述。分类器110包括模糊集合存储器112(例如在存储装置160内的文件)、规则存储器114(例如在存储装置160内的文件)以及计算装置116(实践上由CPU 170实现,并在存储装置160中存储的控制程序的控制下操作)。
连接到分类器110的有多个传感器200a、200b、200c的输出,各传感器均响应于对应的输入产生输出。总体来说,响应于外部事件(诸如交易)的所有传感器200的输出包括多个属性值的矢量,该矢量是对分类器110的输入。
参照图2b,训练装置120包括训练数据存储器122(例如在存储装置160内的文件)以及计算装置126(实践中由CPU 170实现,并在存储装置160中存储的控制程序的控制下操作)。
参照图3,在欺诈检测中,图1和图2的系统如下操作。在步骤1002,用户请求进行交易,并因此通过传感器200a-200c收集一系列的属性值。例如,数据可以包括通过终端输入的信用卡号、在触控板(touch sensitivepad)上收集的签名以及多个生物测定测量值(例如,指纹和/或声音参数测量值)、关于用户位置的位置数据,以及表示交易的性质(例如,货物的类型)和交易的价格的产品数据。另选的是,传感器可以分别感测输入的货币单元(诸如纸币)的参数,因此属性可以是多个不同的尺寸和/或纸币的颜色测量值。
在步骤1004,执行图4的处理(后文描述)以对交易进行分类。在步骤1006,对各可能的类的输出进行处理以判断该交易是否是真实的。一个或者更多个输出类对应于欺诈交易,并且如果这样的类是来自分类器的最高类输出,则认为该交易是欺诈交易。此外例如如果另一(非欺诈)类具有较高的值,但是非欺诈类的输出和最接近的欺诈类的输出之间的差值没有超出预定阈值,则同样认为该交易是欺诈交易。如果将交易确定为欺诈,则该交易在步骤1008被阻止,而如果没有将该交易确定为欺诈,则在步骤1010许可该交易。存储交易数据和类输出(步骤1012)。如果随后确定出被认为是欺诈的交易实际上是真实的,或者随后确定出被认为是真实的交易实际上是欺诈的,则收集该数据(步骤1014)以供将来再次训练该分类器时使用(步骤1016)。
分类器的概述
现在将对步骤1004中执行的分类器110的操作进行更详细的说明。
来自传感器200的测试数据输入(步骤1102)形成了由n个属性值构成的矢量:
{ x 1 , . . . , x n } ⊆ Π j = 1 p ( I j ∪ { ? } )
各矢量数据xi具有位于区间I1,...Ip的p个实数值(real-valued)属性,但是在一个或者更多个属性中可能存在遗漏值(用符号“?”表示)。来自传感器200的整数值或者分类属性被编码在实数值属性输出中。
为各数据分配类。存在c个类,编号为{1,...,c}。C(xi)表示被分配给xi的类。分类器110执行映射K,使得:
K : Π j = 1 p ( I j ∪ { ? } ) → { 1 , . . . , c }
在优选实施方式中使用的模糊分类器利用存储在集合存储器112的各区间I1上的一个或者更多个合适的模糊集合私μ1 (j)...,
Figure A20068000895400103
以及“如果属性j1是μ1 (j)严并且...并且属性jr
Figure A20068000895400104
,则该类是k”形式的一组规则(存储在规则存储器114中)进行操作,其中k∈{1,...,c}是相应类的编号,而μi (j)是在相应属性范围上限定的模糊集合。不要求在一个规则中出现所有的属性。规则的前提中涉及属性的子集即可。
在图5中示出了模糊集合沿一个属性轴的典型分布。各集合均具有数值位于0和+1之间的隶属函数(membership function)。各集合均具有中点,在中点处隶属函数处于+1。第一个和最后一个集合的函数分别在中点以下和中点以上为+1。所有其他集合的隶属函数在中点以上和中点以下以线性或者非线性方式减小为0。相邻集合的隶属函数交叉的点限定了集合之间的分隔(partition)。
各集合与类相对应。多个集合可以对应于单个类(即,正讨论的属性的数据是双峰的或者多峰的)。
计算装置116确定各输入属性落入的集合(步骤1104),然后应用所述规则(步骤1106)来判断该输入的数据矢量被分到的类(步骤1108)。
评价单个规则
假设数据 x ∈ Π j = 1 p ( I j ∪ { ? } ) , 分类器通过计算在规则中提到的所有属性值的隶属程度(membership degree)的最小值(即,与模糊集合具有最差的对应性)而对单个规则进行评价。如Berthold等人所述的(M.Berthold,K.-P.Huber:“Tolerating Missing Values in a Fuzzy Environment”,M.Mares,R.Mesiar,V Novak,J.Ramik,A.Stupnanova(eds.):Proc.SeventhInternational Fuzzy Systems Association World Congress IFSA′97,Vol.I.Academia,Prague(1997),359-362),如果数据x的属性值被遗漏,则将对相应模糊集合的隶属程度设定为1(即,最大可能隶属程度)。
对于各类来说,分类器利用指向相应类的所有规则的最大值来确定x的隶属程度。该模糊分类器将x分配给具有最高隶属程度的类。
然后分类器通常以一个或者更多个类标签的形式(即,识别该类的文本,诸如“真实”或者“欺诈”)输出结果(步骤1110)。
训练
利用多个训练数据对分类器110进行“训练”(即,对分类器提供存储的以及在随后分类中使用的集合和规则),训练数据包括来自过去交易的传感器属性输出以及它们的(已知的)类。在训练数据集合中的各矢量均具有n个属性(虽然,如上所述,一个或者更多个属性可能被遗漏)。
基于一部分采样(训练)数据集合,通过训练装置120推导出集合参数和规则参数,然后根据针对未用于学习的数据计数的误分类来评价该训练。现在将对在优选实施方式中推导参数的处理进行更详细的描述。
在通过利用神经模糊学习程序(neuro-fuzzy learning procedure)建立用于欺诈检测系统的模糊分类器以前,必须对交易的各个属性指定模糊分隔,即模糊集合的数量、形状和位置。在以下的实施方式中,自动进行该操作。首先,对所有属性进行独立分析,并且为每个属性建立分隔,从而限定模糊集合的数量和位置。第二,为了尽可能多地减少属性的分隔数量(并因此减少模糊集合的数量),使用属性之间的依存性。
参照图6,在步骤1202中,输入训练数据集合,并将其存储在训练数据存储器122中。在步骤1204,计数器i被初始化为0,并在步骤1206将该计数器加1。
在步骤1208,计算装置126判断该属性计数器i是否已经超出了最末属性值n,如果没有,则执行图7的处理以计算所选择的属性的分隔,随后,计算装置126返回到步骤1206以选择下一属性。
在处理完所有属性时(步骤1208),接着在步骤1212,计算装置116判断能否在合理的时间内以计算方式处理该数量的针对所有属性的属性分隔的可能组合,如果可以,则在步骤1214,计算装置执行图11的逐对的分隔简化处理。如果以计算方式处理这些组合是不可行的(即,该组合超出了步骤1212的预定阈值T),则计算装置在步骤1216执行图10的多维分隔简化处理。在执行了图11或者图10的处理以后,在步骤1218从训练装置120输出针对属性计算的模糊集合参数数据,以通过分类器110存储供随后分类使用。
对单个属性进行分隔
仅使用单个属性的模糊分类器将属性范围分隔为多个没有交集的区间。至少在模糊集合满足典型限制(例如模糊集合是单峰的并且永远不会有两个以上的模糊集合交叠)的情况下,这是成立的。
在图5中示出了模糊集合的典型选择。在这种情况下,对于小于x1的值,模糊集合μ1占优,对于分布于x1和x2之间的值,μ2占优,对于分布于x2和x3之间的值,μ3占优,而对于大于x3的值,μ4占优。
如果考虑一个以上的属性,情况则大不相同。如图5所示的模糊分隔针对一个属性将分隔变为没有交集的区间。通过这些区间分隔,所有属性范围的乘积空间(product space)被分隔为多个超盒(hyper-boxes)。根据Kuncheva所述(LI.Kuncheva:“How Good are Fuzzy If-ThenClassifiers?”,IEEE Transactions on Systems,Man,and Cybernetics,Part B:30(2000),501-509),如果使用所有可能的规则,并且各规则都涉及所有的属性,则产生的分类器会向各超盒分配一个类。如果并没有使用所有的规则,则在超盒内可以找到类边界。
针对固定数量的区间查找分隔
为了更好地说明要执行的处理,现在给出一些背景描述。如果分类器近似地基于输入空间到超盒的分隔,则可以将分类器类似地看作决策树。设计标准决策树以利用二进制属性或者更通常地利用具有有限数量值的目录属性来构建该分类器。为了在存在实数值属性的情况下构造决策树,需要对相应范围进行离散化。然后,该决策树向因进行属性离散化而产生的超盒(这些超盒的并集(union))分配多个类来执行分类任务。
通过与决策树自身的构建一样的原理指导决策树的离散化任务。在构建决策树的各步骤中,针对最大化信息增益的进一步分隔来选择属性,这通常被限定为熵的预期减少。
在二进制决策树领域中,Elomaa和Rousu在“Finding OptimalMulti-Splits for Numerical Attributes in Decision Tree Learning”(1996)(前文中提到的)中提出了一种用于将一个范围分割/离散化为两个以上区间的技术。这一点是通过综合Fayyad和Irani在“On the Handling ofContinuous-Valued Attributes in Decision Tree Generation(1992)”(也在前文中提到过)中描述的二进制分割方法来实现的。
对该问题可以进行如下限定(当在考虑的属性中具有遗漏值的数据被忽略时)。我们考虑单个属性i并想将该范围分隔为固定数量的t个区间。这意味着我们必须在这个范围内指定t-1个切割点T1,...,Tt-1。应该以分隔的熵最小化的方式选择切割点。设T0和Tt分别表示该范围的左边界和右边界。
当我们仅考虑第j个属性时,假设n个数据中的ni(i=1,...,t)个落入Ti-1和Ti之间的区间。设kq表示ni个数据中属于类q的数量。则该区间的熵给定如下:
E i = - Σ q = 1 c k q n i · log ( k q n i )
公式1
通过切割点产生的分隔的总熵是单个熵的加权和:
E = Σ i = 1 t n i n · E i
公式2
应该通过切割点的选择对总熵进行最小化。这里,n是在属性j没有遗漏值的情况下数据的数量。
确定区间的数量
由于本实施方式没有提前固定区间的数量,因此必须使用应该提供多少个区间的标准。显然,熵公式2会随着至少用于最优分隔的区间t的数量而降低。因此,本发明的实施方式从两个区间的二元分隔开始,并且迭代增加区间的数量,直到与前一分隔相比该增加使熵的降低不大于某一百分比,或者直到超出了预定最大区间数。
参照图7,在步骤1302,分隔数量计数器i被初始化为1。在步骤1304,变量E(熵)被初始化为单个分隔时的数值。在步骤1306,计算装置1306将计数器i递增1。在步骤1308,执行图8的处理(后文进行更详细的描述)以针对i个分隔计算分隔位置。在步骤1310,计算具有i个区间的属性的熵E’。在步骤1312,计算熵的前一数值与当前数值E’的差(即,因又添加了一个分隔造成的熵降低),并且相对于经验确定的阈值q进行测试。如果熵的降低超出了该阈值,则在步骤1314,将当前熵值E设为E’,并且计算装置126返回步骤1306以重复再多一个分隔的处理。最后,当进一步添加的分隔不再导致熵明显降低时(步骤1312),则在步骤1316,存储所有前面的迭代中计算出的分隔位置(对其位置进行存储的原因将在后面进行描述),并且为随后的应用保存分隔数量以及区间的数值i-1。图7的处理返回到图6。
计算分隔
如果针对第i个属性中的数值对数据进行排序,Elomaa等人在“Finding Optimal Multi-Splits for Numerical Attributes in Decision TreeLearning”(1996)(参照前文)中证实:要想进行最优分隔,只有边界点必须被考虑为切割点。因此本实施方式计算各属性的边界点。
在以下情况下将属性i范围内的数值T在形式上定义为边界点:假设在按属性i的值排序的数据序列中,存在两个数据x和y,它们分别具有不同的类,满足Xj<T<yj,并且不存在满足xj<zj<yj的其他数据Z。
在如下的实施例(表1)中,在上行示出了数据点的属性j的数值,各数值根据它们的属性值以升序排列,并且在下行示出数据的相应分类。用线标记出边界点。
  值:   1 2   3 3 4   5 5   6 6   7 8 8 9   10   11 11 12
  类:   3 3   1 1 1   2 2   1 3   3 3 3 3   2   1 1 1
表1:边界点
应该指出的是,不同的数据可以具有相同的属性值(如表1所示)。尽管当该属性是实数形式的连续值时该情况很少出现,但是其对于整数取值的属性却很常见。边界点T是在相邻数据x和y之间的中间分配的值(例如,在表1的情况下为2.5、4.5、5.5、5.5、9.5和10.5)。
在步骤1352,利用Fayyad和Irani在“On the Handling ofContinuous-Valued Attributes in Decision Tree Generation(1992)”(前文中提到过)中描述方法来计算属性的边界点,并且在步骤1354中将计数器b设置得等于边界点的数量。
根据该计算出的边界点,可以确定用于固定数量的区间的最优离散化最小化公式2。对于b个边界点和t个区间来说,必然得到 b t - 1 个分
隔。最差的情况是边界点的数量b和采样数据n-1相等的情况(即,在每个数据和其相邻数据之间都存在边界)。但是通常b<<n,从而即使在较大数据集合的情况,
b t - 1 也能保持使t为易于计算处理的数量的小数值。
因此,在步骤1356,计算装置126判断在b个边界点内的具有不同排列的(t-1)个分隔的总数是否超出了预定阈值N,并且如果没有,在步骤1358通过以上引用的Elomaa和Rousu的方法直接计算最优的分隔。根据在前一段中提到的 b t - 1 数量,只要该基于边界点的方法似乎易于计算处理,我们就应用该边界点方法。另一方面,如果(步骤1360)在计算时间方面, b t - 1 是不可接受的,则使用图9中描述的试探法来查找用来产生公式2中的小值的分隔(步骤1360)。
无论以何种方式,都要将所选择的分隔位置的集合(即,选择b个边界点中的t-1个充当分隔)返回图7的处理(步骤1362)。
在存在太多边界点的情况下计算分隔
参照图9,如果对使用上述方法而言存在太多边界点(步骤1356),则执行如下步骤:
在步骤1402收到当前分隔数量i以后,建立初始边界组合,诸如将属性范围分隔为分别包含相同数量(或者大致相同)的数据点的区间,并对其进行存储。在步骤1404,如上所述地针对这些分隔计算属性的熵E。在步骤1406,将循环计数器i初始化为1。在步骤1408,重新调节区间以改变他们的宽度;具体地,缩短具有相对较高的熵的区间(如前面计算的),而延长具有相对较低的熵的区间。可以例如通过乘以预定常数的方式进行延长以及通过除以预定常数的方式进行缩短来执行该调整。
在步骤1410,计算经过重新调整了分隔后的属性的总熵E’(如步骤1404),并在步骤1412,计算装置126计算是否由于对区间进行的重新调整导致了熵的降低(即,是否E’小于E)。如果是,则在步骤1414存储经重新调整的分隔并用相关的熵E’替代以前计算的数值E。如果没有,则在步骤1416,降低缩放比例(例如通过降低所述预定常数的数值)。
在任一种情况下,不管是重新分隔还是降低缩放常数,在假设步骤1418循环计数器i没有到达预定阈值J,则在步骤1420对该循环计数器进行累加,然后计算装置126返回步骤1408。(在步骤1418)对分隔执行了J次反复,就将计算结果返回给图8的处理。
因此,该处理首先从对所述范围进行均匀分隔开始,该范围中的各区间具有一样的长度或者分别包含一样数量的数据。接着计算装置126参照公式1和公式2来确定各区间对于总的熵具有多少贡献,对于各区间,其确定如下数值:
- n i n &Sigma; q = 1 c k q n i &CenterDot; log ( k q n i ) = - 1 n &Sigma; q = 1 c k q &CenterDot; log ( k q n i )
公式3
基于这些数值,在宽度上放大对于其来讲公式3很小的区间并在宽度上缩小对于熵具有较大贡献的区间(即,对于这些区间,公式3很大)。重复该缩放步骤直到在固定数量的步骤内不能再实现进一步的改进为止。
从区间分隔到模糊分隔
根据针对各属性计算的分隔,参照图12通过计算装置16以如下方式构建模糊集合。
通过切割点T1,...,Tt-1限定对于t个区间的分隔。T0和Tt分别表示相应的属性范围的左边界和右边界。对除各范围的左、右边界以外的其他区间,应用三角隶属函数,并令最大值在各区间中心并且在相邻区间的中心到达隶属程度0。在该范围的左右边界处,使用梯形隶属函数,该函数在范围的边界和第一区间的中心之间以及在范围的边界与最后一个区间的中心之间分别是1,并且在相邻区间的中心处到达隶属程度0。
考虑相关性(分隔简化)
在独立地考虑每个变量时,模糊集合的构建(即,离散化)基于熵/信息增益的减少。然而,在对多个属性进行相关时,则可以进一步减少区间(即模糊集合)的数量。为了针对多个变量的组合的分隔的信息增益进行评估,我们必须考虑由单个域的区间分隔来产生乘积空间向超盒的分隔。
原则上,必须对超盒而不是区间应用公式1和公式2,并求出转为超盒的最优分隔。在这种情况下,我们不能忽略具有遗漏值的数据,而是将它们分配给与超盒的并集相对应的较大的超盒。在图13中,示出了这种较大的盒子,其中通过选择属性a1的第二个(三个中的)区间、属性a2的第一区间(两个中的)和属性a3的遗漏值得到该较大盒子。
然而,不幸的是,选择切割点作为边界点的技术对于多维空间来说并没有意义。原则上上述通过针对熵调整区间来最小化总熵的试探法也可以用于多维空间的情况,但是其是以在属性数量方面的计算成本成指数增加为代价的。
假设我们对属性j(j=1,...,p)设定tj个区间,则我们必须针对转为超盒的一次分隔的总熵值计算 &Pi; j = 1 p ( t j + 1 ) 个超盒的熵,包括表示具有遗漏值的区域的超盒。在具有6个属性、各属性被分割为3个区间的情况下,对一次分隔的评估,我们必须考虑(3+1)6=4096个超盒。
因此,根据优选实施方式,计算装置126并不尝试查找转为超盒的总体最优分隔,而是简化已经从单个域分隔获得的多个分隔。以如上所述的递增方式产生分隔。其好处在于,不但存储了最终产生的分隔,而且在查找最终产生的分隔的处理期间导出的这些分隔具有更少的区间。这使得计算装置126能够针对给定的属性来验证:在结合其他属性评论该属性时,在不明显增加熵的情况下是否能返回具有较少区间的分隔。
存在利用不同策略的两种实施方式,根据数据的数量和通过单个域分隔产生的超盒数量而应用相应的策略。在数据集合不太大并且超盒数量足够小的情况下,选择第一策略(图10)。
参照图10,在该实施方式中,首先(步骤1452),针对它们相关区间分隔所提供的熵的减少情况通过计算装置126对属性进行排序。为了进行比较,要求该排序应该考虑在训练数据中遗漏的属性值。
设E表示具有n个数据的数据集合的总熵。假定对于mj个数据,属性j有遗漏值。根据公式2,相应的熵是 E = &Sigma; i = 1 l n l n - m j &CenterDot; E l (忽略不计具有遗漏值的数据)。
在对于属性j来说除了一个以外的所有数据都有遗漏值的极端情况下,该熵降为0,通过了解属性j知道实际信息增益几乎为0。因此,我们定义:
E = n - m j n &CenterDot; &Sigma; i = 1 t n i n - m j &CenterDot; E i + m j n &CenterDot; E mis sin g = 1 n &CenterDot; &Sigma; i = 1 t n i &CenterDot; E i + m j n &CenterDot; E mis sin g
方程4
Emissing是对于第j个属性来说具有遗漏值的数据的熵。假设遗漏值随机出现,Emissing将与该数据集合的总熵一致。
在步骤1454,将属性循环计数器i初始化为0并且在步骤1456开始递增。因此对属性以如下次序进行处理,即该处理从其分隔导致熵产生最大降低的属性开始,并继续检查熵发生次最大降低的属性。在步骤1458,计算装置126判断是否已经处理完所有的属性(即,i是否不低于属性数量),并且如果是,则在步骤1460,返回当前分隔以供形成如上所述的模糊集合时的后续应用。
如果没有处理完所有属性,则在步骤1462,计算到现在为止并且包括当前属性的所有属性的总熵E。在步骤1464,计算装置126判断当前属性的区间数量是否可以被减少。考虑对这两个属性范围进行分隔产生的超盒。单独考虑单个属性,为对于熵减少次好的属性选择t个区间。检索在图7的处理期间先前对于t-1个区间计算(并存储)的分隔的熵(步骤1466)。将与利用该分隔的最优属性相关的(超盒)熵和检索到的熵进行比较(步骤1468)。再次针对属性1到i计算产生的熵E’(如步骤1462那样)。如果具有t-1个区间的分隔没有明显增加该熵(即,熵的增加量低于阈值p,步骤1470),则选择该分隔来替代当前分隔(步骤1466)并从步骤1464重复该过程,直到不能进一步进行简化。因此,该过程检查具有t-2、t-3等区间的分隔,直到熵的增加似乎不可接受为止。
此后,该处理返回到步骤1452以选择下一个属性(根据单个域熵减少进行排序的,如以上公开的)进行处理,直到处理完所有的属性(步骤1458)。
由于该策略意味着我们可能必须对要研究的最后属性考虑大量的超盒,因此当前一个策略(图10)似乎对计算来讲是无法接受的时候,应用第二策略(图11)。其遵循和第一策略一样的原则,但是向所有的属性对应用成对方法以在较少地减少每对的熵的情况下来尝试减少属性区间的数量。
步骤1552到步骤1570实质上对应于步骤1452到步骤1470,不同之处在于将属性成对排序,并依次选择每个对,然后处理下一对,直到完成所有处理,而不是逐个属性地进行处理。
此外,在步骤1562和1568中计算熵时,该熵是被计算的属性对的熵,而不是如图10所述到现在位置并包括当前属性的所有属性的熵。因此,在每次重复中执行的计算具有同样的复杂度,而不会像图10那样对于后面属性的计算变得越来越复杂,从而使该处理更加可扩展。
图6示出了如何通过考虑所有属性的相关性或者从属性对前面引入的算法进行组合从而获得针对所有属性计算适当分隔的整体策略。
其他实施方式和修改
显然可以对上述实施方式进行许多变型和修改。例如,上述实施方式可以用于任意形式的模式识别任务,而不限于检测欺诈文档或者交易领域。各上述的实施方式都可以独立于其他实施方式使用,而不是以所述组合方式使用。
替代三角集合(triangular set),可以通过某些可由中央和边缘参数描述的其他形状(例如高斯曲线)来计算隶属函数。
还可以通过t-共范数(最大值、代数和、或者OR类型)运算以及t-范数(乘积或者AND类型)运算的其他适合的组合来替代根据最大-最小(max-min)推导方案的规则评价。
因此,本发明扩展到任意以及所有此类修改和变型。为了避免出现疑义,这里要求对公开的所有新颖主题或者组合进行保护。

Claims (17)

1.一种根据多个多变量采样数据生成在随后的分类中使用的分类器参数的装置,所述分类器参数涉及与所述变量中的各变量相关的多个区间,所述区间与类相关联,所述装置包括:
输入装置,用于输入所述采样数据;
存储装置,用于存储所述采样数据;
计算装置,用于根据所述采样数据为所述变量中的每一个计算多个边界;以及
推导装置,用于根据所述边界推导限定所述区间的参数。
2.根据权利要求1所述的装置,其中,所述计算装置包括:
用于选择所述区间的第一数量的装置,所述区间具有基于所述边界的位置,以及
用于选择所述区间增加了的数量的装置,该装置用以判断所述增加了的数量是否比所述第一数量更有利于分类,如果有利,则用所述增加了的数量替换所述第一数量,而如果不利,则保留所述区间的数量。
3.根据权利要求1所述的装置,其中,所述计算装置包括如下装置,即,该装置用于评价可以由所述边界构造的区间的所有集合,并保留所述集合中的优选的一个。
4.根据权利要求1所述的装置,其中,所述计算装置包括如下装置,即,该装置用于确定所述边界的数量的装置,并且如果所述数量小于预定阈值,则评价由所述边界构造的区间的所有集合并保留所述集合中的优选的一个,如果所述数量大于所述阈值,则选择所述区间的增加数量,判断所述增加的数量是否比所述第一数量更有利于分类,如果有利,则用所述增加的数量替换所述第一数量,而如果不利,则保留所述区间的数量。
5.根据权利要求1所述的装置,包括这样的装置,该装置用于确定限定了预定数量的所述区间的边界的数据。
6.根据权利要求5所述的装置,其中,所述确定装置包括用于放大第一所述区间并缩小第二所述区间以改善对所述采样数据的分类的装置。
7.根据前述任一权利要求所述的装置,所述装置包括用于基于其他所述变量的所述边界对各所述变量上的所述边界的数量进行重新计算的装置。
8.根据权利要求7所述的装置,其中,所述重新计算装置包括用于测试各所述变量上的区间数量的减少带来的效果的装置。
9.根据权利要求8所述的装置,当从属于权利要求4时,所述装置包括存储用于各所述变量的各所述第一数量的装置。
10.根据前述任一权利要求所述的装置,其中,一个或者更多个所述区间是模糊集合。
11.根据前述任一权利要求所述的装置,所述装置包括用于输入多个测试数据并用于将所述测试数据进行分类使其属于多个类的其中之一的装置。
12.根据权利要求11所述的装置,其中,一个或者更多个所述类与被归类为表示一个或者更多个欺诈项或者欺诈行为的数据相对应。
13.根据权利要求12所述的装置,所述装置包括产生所述变量的多个传感器。
14.一种根据多个多变量采样数据生成在随后的分类中使用的分类器参数的方法,所述分类器参数涉及与所述变量中的各变量相关的多个区间,所述区间与类相关联,所述方法包括:
输入所述采样数据;
根据所述采样数据,针对所述变量中的每一个计算多个边界;以及
根据所述边界推导限定所述区间的参数。
15.根据权利要求14所述的方法,所述方法还包括利用所述参数对测试数据进行分类。
16.根据权利要求15所述的方法,所述方法还包括利用另外的采样数据再次生成所述参数。
17.根据权利要求16所述的方法,其中,所述另外的采样数据源自以前的测试数据。
CN2006800089540A 2005-04-01 2006-03-21 自适应分类器以及建立其分类参数的方法 Active CN101147160B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05252068 2005-04-01
EP05252068.1 2005-04-01
PCT/GB2006/001022 WO2006103396A1 (en) 2005-04-01 2006-03-21 Adaptive classifier, and method of creation of classification parameters therefor

Publications (2)

Publication Number Publication Date
CN101147160A true CN101147160A (zh) 2008-03-19
CN101147160B CN101147160B (zh) 2010-05-19

Family

ID=34940689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800089540A Active CN101147160B (zh) 2005-04-01 2006-03-21 自适应分类器以及建立其分类参数的方法

Country Status (5)

Country Link
US (1) US20080253645A1 (zh)
EP (1) EP1864247A1 (zh)
CN (1) CN101147160B (zh)
CA (1) CA2602640A1 (zh)
WO (1) WO2006103396A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102741860A (zh) * 2009-12-22 2012-10-17 赛布拉有限公司 用于记录和恢复事件的方法和系统
CN103400159A (zh) * 2013-08-05 2013-11-20 中国科学院上海微系统与信息技术研究所 快速移动场景中的目标分类识别方法及分类器获取方法
CN103678447A (zh) * 2012-09-04 2014-03-26 Sap股份公司 多变量交易分类
CN110545305A (zh) * 2018-05-28 2019-12-06 塔塔咨询服务有限公司 用于自适应参数采样的方法和系统
CN112488437A (zh) * 2019-09-12 2021-03-12 英业达科技有限公司 人力资源管理系统及其方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2023533B1 (fr) * 2007-08-10 2011-04-06 Alcatel Lucent Procédé et installation de classification de trafics dans les réseaux IP
CN101251896B (zh) * 2008-03-21 2010-06-23 腾讯科技(深圳)有限公司 一种基于多分类器的物体检测系统及方法
US8190647B1 (en) * 2009-09-15 2012-05-29 Symantec Corporation Decision tree induction that is sensitive to attribute computational complexity
CN101814149B (zh) * 2010-05-10 2012-01-25 华中科技大学 一种基于在线学习的自适应级联分类器训练方法
US8458069B2 (en) * 2011-03-04 2013-06-04 Brighterion, Inc. Systems and methods for adaptive identification of sources of fraud
US9953321B2 (en) * 2012-10-30 2018-04-24 Fair Isaac Corporation Card fraud detection utilizing real-time identification of merchant test sites
CN115689779B (zh) * 2022-09-30 2023-06-23 睿智合创(北京)科技有限公司 一种基于云端信用决策的用户风险预测方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664106A (en) * 1993-06-04 1997-09-02 Digital Equipment Corporation Phase-space surface representation of server computer performance in a computer network
US5524176A (en) * 1993-10-19 1996-06-04 Daido Steel Co., Ltd. Fuzzy expert system learning network
US5577169A (en) * 1994-04-29 1996-11-19 International Business Machines Corporation Fuzzy logic entity behavior profiler
US5721903A (en) * 1995-10-12 1998-02-24 Ncr Corporation System and method for generating reports from a computer database
AUPN727295A0 (en) * 1995-12-21 1996-01-18 Canon Kabushiki Kaisha Zone segmentation for image display
US5956634A (en) * 1997-02-28 1999-09-21 Cellular Technical Services Company, Inc. System and method for detection of fraud in a wireless telephone system
US6236978B1 (en) * 1997-11-14 2001-05-22 New York University System and method for dynamic profiling of users in one-to-one applications
US6078924A (en) * 1998-01-30 2000-06-20 Aeneid Corporation Method and apparatus for performing data collection, interpretation and analysis, in an information platform
US6542854B2 (en) * 1999-04-30 2003-04-01 Oracle Corporation Method and mechanism for profiling a system
GB9920661D0 (en) * 1999-09-01 1999-11-03 Ncr Int Inc Expert system
US6839680B1 (en) * 1999-09-30 2005-01-04 Fujitsu Limited Internet profiling
FR2813959B1 (fr) * 2000-09-11 2002-12-13 Inst Francais Du Petrole Methode pour faciliter la reconnaissance d'objets, notamment geologiques, par une technique d'analyse discriminante
US20030037063A1 (en) * 2001-08-10 2003-02-20 Qlinx Method and system for dynamic risk assessment, risk monitoring, and caseload management
AU2002329417A1 (en) * 2001-09-27 2003-04-07 British Telecommunications Public Limited Company Method and apparatus for data analysis
US6826568B2 (en) * 2001-12-20 2004-11-30 Microsoft Corporation Methods and system for model matching
US20040158567A1 (en) * 2003-02-12 2004-08-12 International Business Machines Corporation Constraint driven schema association
US7426520B2 (en) * 2003-09-10 2008-09-16 Exeros, Inc. Method and apparatus for semantic discovery and mapping between data sources
CN1604091A (zh) * 2004-11-04 2005-04-06 上海交通大学 基于数值仿真与粗糙集算法的塑性成形工艺规则获取方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102741860A (zh) * 2009-12-22 2012-10-17 赛布拉有限公司 用于记录和恢复事件的方法和系统
CN102741860B (zh) * 2009-12-22 2017-02-08 赛布拉有限公司 用于记录和恢复事件的方法和系统
CN103678447A (zh) * 2012-09-04 2014-03-26 Sap股份公司 多变量交易分类
CN103400159A (zh) * 2013-08-05 2013-11-20 中国科学院上海微系统与信息技术研究所 快速移动场景中的目标分类识别方法及分类器获取方法
CN103400159B (zh) * 2013-08-05 2016-09-07 中国科学院上海微系统与信息技术研究所 快速移动场景中的目标分类识别方法及分类器获取方法
CN110545305A (zh) * 2018-05-28 2019-12-06 塔塔咨询服务有限公司 用于自适应参数采样的方法和系统
CN110545305B (zh) * 2018-05-28 2022-03-18 塔塔咨询服务有限公司 用于自适应参数采样的方法和系统
CN112488437A (zh) * 2019-09-12 2021-03-12 英业达科技有限公司 人力资源管理系统及其方法

Also Published As

Publication number Publication date
CN101147160B (zh) 2010-05-19
US20080253645A1 (en) 2008-10-16
WO2006103396A1 (en) 2006-10-05
EP1864247A1 (en) 2007-12-12
CA2602640A1 (en) 2006-10-05

Similar Documents

Publication Publication Date Title
CN101147160B (zh) 自适应分类器以及建立其分类参数的方法
Du Jardin Dynamics of firm financial evolution and bankruptcy prediction
Karim et al. Decision tree and naive bayes algorithm for classification and generation of actionable knowledge for direct marketing
Shen et al. Applying rough sets to market timing decisions
Hua et al. Predicting corporate financial distress based on integration of support vector machine and logistic regression
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
Setnes et al. Fuzzy modeling of client preference from large data sets: an application to target selection in direct marketing
Lin et al. Developing a business failure prediction model via RST, GRA and CBR
CN110866819A (zh) 一种基于元学习的自动化信贷评分卡生成方法
CN101256631B (zh) 一种字符识别的方法、装置
CN112463971A (zh) 一种基于层级组合模型的电商商品分类方法及系统
Tamilselvi et al. An overview of data mining techniques and applications
Tsai et al. A comparative study of hybrid machine learning techniques for customer lifetime value prediction
AbdulSattar et al. Fraudulent transaction detection in FinTech using machine learning algorithms
Coenen et al. The improvement of response modeling: combining rule-induction and case-based reasoning
Anderies et al. Telekom-net: The embedded bi-lstm and expert knowledge model for stock forecasting and suggestion
Santos et al. Bayesian Method with Clustering Algorithm for Credit Card Transaction Fraud Detection.
Kirkos et al. Data mining in finance and accounting: a review of current research trends
Chandorkar Credit card fraud detection using machine learning
Gebru Association pattern discovery of import export items in ethiopia
Shah et al. Comparative study of machine learning based classification techniques for credit card fraud detection
García-Peñalvo et al. A Survey on Data mining classification approaches
Li SF EXPRESS Automated Robotic Sorting System Based on Machine Learning
CN113902533B (zh) 一种适用于财税领域指标自定义和自动化运行的应用方法
KIRELLİ et al. Detection of credit card fraud in e-commerce using data mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant