CN103703487B - 信息识别方法以及系统 - Google Patents

信息识别方法以及系统 Download PDF

Info

Publication number
CN103703487B
CN103703487B CN201280036705.8A CN201280036705A CN103703487B CN 103703487 B CN103703487 B CN 103703487B CN 201280036705 A CN201280036705 A CN 201280036705A CN 103703487 B CN103703487 B CN 103703487B
Authority
CN
China
Prior art keywords
data
grader
subclass
class
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280036705.8A
Other languages
English (en)
Other versions
CN103703487A (zh
Inventor
立堀道昭
比户将平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103703487A publication Critical patent/CN103703487A/zh
Application granted granted Critical
Publication of CN103703487B publication Critical patent/CN103703487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Abstract

提供一种技术,在通过受监督的机器学习对申请文件进行审查和评估的处理中,能够高精度地检测恶意生成的错误地接受的数据。根据本发明,在准备受监督(学习)的数据的情形和准备测试数据的情形这两种情形下,数据与附加到数据上的时间信息被记录。然后,在目标类中的学习数据受到聚类。相似的,在目标类中的测试数据也受到聚类。然后,对学习数据,对具有各种时间点和宽度的每个时间间隔,计算每个识别出的子类的概率密度,并且对测试数据,对具有各种宽度的最近时间周期中的每个时间间隔,计算每个识别出的子类的概率密度。然后,在每个子类的每个时间间隔,获得执行学习时获得的概率密度与执行测试时获得的概率密度的比值作为相对频度。将具有统计上显著增大的相对频度的输入检测为异常,并且发出警报,以便详细地检查该异常是否由攻击导致。

Description

信息识别方法以及系统
技术领域
本发明涉及通过受监督的机器学习的信息识别,特别是涉及用于应对信息被恶意篡改的攻击的技术。
背景技术
在此之前,例如保险公司的保险索赔评估、金融公司的贷款和信用卡的审查和授信(credit)是根本且重要的工作,并且在这些公司中的有经验的专家一直负责这些工作。然而,近来需要处理的工作数量在增加,无法由专家进行的人工步骤来处理这样的工作。
因此,为了减轻专家的负担,最近采用了一种方法,通过使用计算机的机器学习技术,来执行保险索赔评估和信用卡的授信。
由申请者提交的、用于评估和授信的信息包含对于问题的是/否回答,如年龄、年收入等数值,以及其它描述性文本信息。当在纸上给出此类信息时,规定的操作员用计算机的键盘或OCR方式来输入该信息,以便将信息转换为电子格式。另一方面,当申请人通过网页浏览器上的操作将信息提交到服务器时,则无须将信息转换为电子格式。
当通过这些方式收集到电子申请时,专家首先检查各个申请信息,然后,对于每个申请,判定接受/拒绝,并且以电子方式为它记录一个标签。由对于各申请信息的特征向量xi(i=1,...,n)和判定结果(类别标签)yi(i=1,...,n)构成的对的、代表由专家预先如上所述地进行的判定的受监督的(训练)数据集合被定义如下:
Dtraining={(x1,y1),…,(xn,yn)}
此处,yi∈C,其中C代表类别标签集合。例如,C={0,1},其中1代表接受,而0代表拒绝。
在图1中图示这样的训练数据集合的例子。即,受监督的数据包括接受的(标签1)数据102、104、106以及108,和拒绝的(标签0)数据110、112以及114。这些数据对应于单个的申请。
通过使用该训练数据,受监督的机器学习的系统构成了分类器。分类器相对于例如函数h
h:x→y
其中,x代表申请的特征向量,而y代表申请的标签。
在分类器被如上所述构成后,图2图示了使用分类器来分类作为测试数据的申请。即,数据202、204、206以及208被分类为接受的数据,而数据210、212、214以及216被分类为拒绝的数据。此处,将关注数据208和210。如果数据208已经被恰当地分类,则它应该已经被分类为拒绝的数据;然而,数据208已经由分类器被分类为接受的数据,并被称为错误地接受的数据(FP=false positive,伪阳性)。如果数据210已经被恰当地分类,则它应该已经被分类为接受的数据;然而,数据210已经由分类器被分类为拒绝的数据,并被称为错误地拒绝的数据(FN=false negative,伪阴性)。
分类器基于概率被构成。因此,不论采用何种机器学习的方式,也很难根除错误地接受的数据和错误地拒绝的数据。
分类器将样本的测试数据进行分类,分类结果如图3所示,数据302、304、306、308、310以及312被分类为接受的数据,而数据314、316、318、320以及322被分类为拒绝的数据。关于该分类结果,假设一个恶意的人偶然地发现数据312是被错误地接受的。该恶意的人可以分析在数据312中描述的内容,并获取将会被恶意利用的知识,即为了使本来将会被拒绝的数据变成接受的数据,哪些项要被重写以及怎么重写这些项,而且通过使用该知识制作指南。例如,该指南可以是被冠以“如何使远不会被接收的保险索赔被容易地接受”的指南。该恶意的人可能销售此指南,从而读过此指南的人可能产生并发送一系列可以变成如由图3中附图标记324表示的错误地接受的数据的案例。
用来检测这样的恶意攻击的已知技术在下面的文献中被描述。
在文献Shohei Hido,Yuta Tsuboi,Hisashi Kashima,Masashi Sugiyama,Takafumi Kanamori,“Inlier-based Outlier Detection via Direct Density RatioEstimation(通过直接密度比值估计的基于内围层的异常值检测)”,ICDM 2008 http://sugiyama-www.cs.titech.ac.jp/~sugi/2008/ICDM2008.pdf中披露了一种通过获得训练数据和测试数据之间的密度比值来检测异常的技术。
在文献Daniel Lowd,Christopher Meek,″Adversarial Learning(对抗性学习)″,KDD 2005 http://portal.acm.org/citation.cfm?id=1081950中披露了一种在垃圾邮件过滤领域的算法,其旨在持续处理单个攻击者使用不同技术进行攻击的情况。该算法将到攻击者想要通过的理想样本的距离定义为对抗成本,并且从多项式次的攻击中检测具有最小对抗成本(在能通过的样本中攻击者最想通过的样本)的样本和具有最多最小对抗成本的k倍的对抗成本的样本。
文献Adam J.Oliner,Ashutosh V.Kulkarni,Alex Aiken,Community EpidemicDetection using Time-Correlated Anomalies(使用时间相关的异常的社区疫情检测),RAID 2010 http://dx.doi.org/10.1007/978-3-642-15512-3_19描述了一种技术,当计算机受到恶意攻击时为了检测恶意攻击,多个客户端在相同条件下被集群,并且与周围的事物在行为上的差异作为异常度被计算。对于单个客户端的异常度暂时地增加的情况甚至可以出现在正常的情况下,而一定数目的异常客户端的异常度同时地增加的情况却表明发生攻击。这被称为时间相关的异常,并提议了一种检测时间相关的异常的监测方法。
文献杉山将(Masashi Sugiyama),「共変量シフト下での教師付き学習」(″Supervised Learning under Covariate Shift″,协变量移位下的受监督的学习)日本神経回路学会誌(The Brain&Neural Networks,大脑和神经网络),13(3),2006描述了关于当训练数据和测试数据具有不同概率分布时被执行的受监督的学习中,预测模型如何被修正的讨论。特别地,此文献描述了一种技术,对于在测试数据频繁出现的区域中存在的训练数据样本,重要度被增加,由此测试数据被成功分类。
根据上述现有技术,恶意攻击在特定情况下可能被检测到。然而,现有技术具有假设例如数据一致性和对于单个数据的异常度等特定于数据的属性的限制的问题。另一个问题是虽然能够评估脆弱度,但不能检测使用错误地接受的数据进行的集中攻击的行为。
现有技术文献
非专利文献
[非专利文献1]Shohei Hido,Yuta Tsuboi,Hisashi Kashima,MasashiSugiyama,Takafumi Kanamori,″Inlier-based Outlier Detection via Direct DensityRatio Estimation(通过直接密度比值估计的基于内围层的异常值检测n)″,ICDM 2008
[非专利文献2]Daniel Lowd,Christopher Meek,″Adversarial Learning(对抗性学习)″,KDD 2005 http://portal.acm.org/citation.cfm?id=1081950
[非专利文献3]Adam J.Oliner,Ashutosh V.Kulkarni,Alex Aiken,CommunityEpidemic Detection using Time-Correlated Anomalies(使用时间相关的异常的社区疫情检测),RAID 2010 http://dx.doi.org/10.1007/978-3-642-15512-3_19
[非专利文献4]杉山将(Masashi Sugiyama),「共変量シフト下での教師付き学習」(″Supervised Learning under Covariate Shift″,协变量移位下的受监督的学习),日本神経回路学会誌(The Brain&Neural Networks,大脑和神经网络),13(3),2006
发明内容
本发明所要解决的技术问题
因此,本发明的目的在于,在通过受监督的机器学习执行申请文件的审查和评估的处理中,提供使得能够高精确地检测恶意生成的错误地接受的数据的技术。
本发明的另一目的在于,在通过受监督的机器学习执行申请文件的审查和评估的处理中,通过利用不可避免的错误判定的线索来阻止损害 的扩大。
本发明的又一目的在于,在通过受监督的机器学习执行申请文件的审查和评估的处理中,避免损害发生但是没有被注意到的情况。
解决技术问题的技术方案
本发明是为解决以上问题而作出的。根据本发明,在准备受监督(学习)数据的情形和准备测试数据的情形这两种情形下,数据与附加到数据上的时间信息被记录。该时间是例如数据被输入的时间。
然后,根据本发明的系统对目标类(典型地为接受类)中的学习数据执行聚类(clustering)。相似地,系统对目标类(典型地为接受类)中的测试数据执行聚类。
然后,根据本发明的系统对于通过聚类获得的每个子类汇总识别的概率密度。按照具有不同时间点和宽度的每个时间间隔,对学习数据执行该汇总,并且按照具有不同宽度的最近时间周期的每个时间间隔,对测试数据执行该汇总。
然后,根据本发明的系统,在每个子类的每个时间间隔,获得执行学习时获得的概率密度与执行测试时获得的概率密度之间的比值作为相对频度。系统将具有统计上显著增大的相对频率的输入检测为异常,并且发出警报,以便详细地检查该异常是否由攻击导致。换句话说,根据本发明的发现,这样的情况潜在地表明很可能恶意的人可以绕过(circumvent)通过学习数据获得的学习。
发明效果
根据本发明,在通过受监督的机器学习对申请文件进行审查和评估的处理中,在准备受监督(学习)的数据的情形和准备测试数据的情形这两种情形下,数据与附加到数据上的时间信息被记录。另外,将在对学习数据的聚类后的每个时间间隔的频度与测试数据的相应频度进行比较,从而使得能够检测到潜在的恶意数据。因此,无需假设例如数据一致性和对于每个数据的异常度等特定于数据的属性,而能够高精度地检测恶意数据,结果提高了审查的可靠性。此外,甚至能够考虑到攻击者之间的社会联系。
附图说明
图1是用于解释受监督的机器学习处理的图示。
图2是用于解释使用通过受监督的机器学习处理构成的分类器的分类处理的图示。
图3是示出使用错误地接受的数据来攻击通过受监督的机器学习处理构成的分类器的状态的图示。
图4是用于实施本发明的硬件配置框图。
图5是用于实施本发明的功能配置框图。
图6是示出训练输入分析处理的流程图的图示。
图7是示出副分类器生成处理的流程图的图示。
图8是示出对测试输入数据的分析处理的流程图的图示。
图9是示出按照各时间窗的频度分析处理的流程图的图示。
图10是示出在训练数据和测试数据的子类中单个频度的图示。
图11是示出可能为异常数据的数据频度的图示。
附图标记
404:CPU
408:硬盘驱动器
502:训练数据
504:测试数据
506:分类器生成例程
510:分类器
514:聚类分析例程
516:划分数据
518,522:时间序列分析例程
520,524:时间序列数据
526:异常检测例程
具体实施方式
以下,将基于附图来描述本发明的实施例。除非另有规定,相同的附图标记在附图中代表相同的对象。请注意,以下将描述本发明的实施例,并且应当理解这并意在将本发明限于此实施例的解释。
参照图4,示出了图示用于实现根据本发明的实施例的系统配置和处理的计算机硬件的框图。在图4中,CPU 404、主存储器(RAM)406、硬盘驱动器(HDD)408、键盘410、鼠标412以及显示器414被连接到系统总线402上。CPU 404优选基于32位或64位体系结构,例如,Intel公司的Pentium(注册商标)4、Core(注册商标)2Duo以及Xeon(注册商标),以及AMD公司的Athlon(注册商标)可以用作CPU 404。主存储器406优选具有4GB或更多的容量。硬盘驱动器408优选具有例如500GB或以上的容量,以便用于存储例如保险公司的保险索赔评估和金融公司的贷款和信用卡的审查和授信等大量申请信息的训练数据和测试数据。
硬盘驱动器408预先存储未被明确图示的操作系统。此操作系统可以是任意与CPU404兼容的系统,例如Linux(注册商标)、微软公司的Windows XP(注册商标)或Windows(注册商标)2000、或者苹果电脑公司的Mac OS(注册商标)。
硬盘驱动器408可以存储程序语言处理器,例如C、C++、C#以及Java(注册商标),这些程序语言处理器被用于创建和维护根据如下所述的本发明的处理的例程或工具。硬盘驱动器408还包括开发环境,例如用于书写会被用程序语言处理器编译的源代码的文本编辑器和Eclipse(注册商标)。
键盘410和鼠标412被用于起动操作系统或从硬盘驱动器408加载到主存储器406并在显示器414上显示的程序(未图示),并用于键入字符。
显示器414优选是液晶显示器。例如,如XGA(1024×768分辨率)或UXGA(1600×1200分辨率)等任意分辨率的显示器可以被用于作为显示器414。显示器414被用于显示包含错误地接受的可能是恶意生成的数 据的聚类(未图示)。
图5是示出根据本发明的处理例程、训练数据502以及测试数据504的功能框图。使用现有的程序语言例如C、C++、C#以及Java(注册商标)来书写这些例程,并且将这些例程以可执行的二进制格式存储在硬盘驱动器408中。响应鼠标412或键盘410的操作,程序被调用进主存储器406中,并且通过操作系统的功能(未图示)被执行。
训练数据502被存储在硬盘驱动器408中,并且具有如下的数据结构:
D(training)={(x1 (training),y1 (training),t1 (training)),...,(xn (training),yn (training),tn (training))}
在此数据结构中,xi (training)代表第i个训练数据的特征向量,yi (training)代表第i个训练数据的类别标签,并且ti (training)代表第i个训练数据的时间戳。特征向量xi (training)(i=1,...,n)优选自动地通过计算机处理根据电子申请信息中的项目被生成,当特征向量被生成后,必要时会使用文本挖掘之类的技术。根据由预先检查申请信息的负责的熟练专家决定的结果,来设定类别标签yi (training)。时间戳ti (training)优选是申请信息的输入日期和时间,并且具有例如日期和时间的格式。
分类器生成程序506具有根据训练数据502生成分类参数508的功能,而分类器510使用此参数来对测试数据504进行分类。
测试数据504被存储在硬盘驱动器408中,并且具有如下的数据结构:
D′(test)={(x1 (test),t1 (test)),...,(xm (test),tm (test))}
在此数据结构中,xi (test)代表第i个测试数据的特征向量,ti (test)代表第i个测试数据的时间戳。特征向量xi (test)(i=1,...,m)优选自动地通过计算机处理根据电子申请信息中的项目被生成,时间戳ti (test)优选是申请信息的输入日期和时间,并且具有例如日期和时间的格式。
通过已知的受监督的机器学习处理,分类器510给每个测试数据(xi (test),ti (test))添加类别标签yi (test)。分类器510的功能可以被指定为函数h(),从而可以使用表达式yi (test)=h(xi (test))。
已知的受监督的机器学习大致上分为分类分析和回归分析,可以用 于本发明的目的的受监督的机器学习属于分类分析的范畴。已知的作为分类分析的技术包括线性分类器,例如Fisher线性判别函数、Logistic回归、朴素贝叶斯分类器以及感知器。除此之外,该技术包括二次分类器、K近邻算法、Boosting、决策树、神经网络、贝叶斯网络、支持向量机以及隐马尔可夫模型。对于本发明,可以从这些技术中选择任意技术。然而,根据实施例,特意使用支持向量机。更多详细描述,参见例如Christopher M.Bishop,″Pattern RecognitionAnd Machine Learning″(模式识别与机器学习),2006,Springer Verlag。
分类器510读取测试数据504,并给测试数据504添加类别标签,以生成分类数据512,例如下列表达式所示:
D(test)={(x1 (test),y1 (test),t1 (test)),...,(xm (test),ym (test),tm (test))}
聚类分析例程514定义了训练数据502中数据的特征向量之间的距离,例如欧氏距离或曼哈顿距离,并且通过使用此距离用例如K-means等已知的技术执行聚类,以便生成作为聚类的结果的划分数据516。划分数据516优选存储在硬盘驱动器408中。因为划分数据516规定了例如聚类的边界和中心等位置信息,所以通过参照划分数据516,可以确定哪一数据应该属于哪个聚类。简言之,划分数据516用作副分类器。请注意,可以用于本发明的聚类技术并不局限于K-means,任意与本发明兼容的聚类技术,例如高斯混合模型、凝聚聚类、分支聚类以及自组织映射,都可以被使用。或者,通过网格划分的方式,也可以获得划分数据群。
聚类分析例程514将代表聚类的结果的划分数据516写入硬盘驱动器408。
时间序列分析例程518读取训练数据502,对每个对应于划分数据516的聚类(子类)的每个预定的时间窗,计算数据频度和其它统计数据,并优选将结果作为时间序列数据520存储到硬盘驱动器408中。
时间序列分析例程522读取分类数据512,对每个对应于划分数据516的聚类(子类)的每个预定的时间窗,计算数据频度和其它统计数据,并优选将结果作为时间序列数据524存储到硬盘驱动器408中。
异常检测程序526计算关于对时间序列数据520的聚类的时间窗和关于对时间序列数据524的聚类的对应时间窗的数据,当结果值大于预定阀值时,异常检测例程526具有起动警报例程528的功能。
警报程序528具有如下功能:在显示器414上显示例如异常被检测到的聚类和时间窗,以便将该异常通知操作员。
参照图6至图9的流程图,被执行的处理会在下面逐一被描述。图6是示出训练数据分析流程的流程图的图示。
在图6的步骤602中,分类器生成例程506生成分类参数508,以便生成分类器510。
在步骤604中,聚类分析例程514生成副分类器,即用于聚类的划分数据516。
在步骤606中,时间序列分析例程518对每个子类的每个时间窗计算输入频度的统计值,以便生成时间序列数据520。
图7是示出具体地描述步骤604中处理的流程图的图示。即,在该处理中,聚类分析例程514执行对每个类的从步骤702到步骤706的循环,并在步骤704中为类中的数据生成副分类器。
请注意,在图7流程图的处理中,不是所有类都需要受到该处理,例如,如果要检测针对某个类的攻击,则只有该类受到该处理即可。
图8是示出对测试数据的分析处理的流程图的图示。在从步骤802到步骤810的循环中,包含在测试数据504中的所有数据都受到该处理。
在步骤804中,分类器510对测试数据504中的每个数据进行分类。然后,在步骤806中,基于划分数据516,时间序列分析例程522将该分类的数据分类到子类(即,聚类)。在步骤808中,伴随偏移具有预定宽度的时间窗,时间序列分析例程522增大当前时间窗中的子类的输入频度。
当完成对包含在测试数据504中的所有数据的从步骤802到步骤810的处理循环时,时间序列分析例程522将时间序列数据524写入硬盘驱动器408。
图9是示出异常检测例程526检测预定时间窗中异常出现的可能性 的处理的流程图的图示。在步骤902中,异常检测例程526计算时间窗中测试输入频度相对于训练数据频度的比率。
在步骤904中,异常检测例程526对每个子类计算统计上有意义的频度的增加得分。在此处,统计上有意义意思是准备有足够数量的样本。有意义的频度的增加得分可以通过简单的比值计算获得。然而,根据本实施例,用以下表达式来更精确地计算增加得分。
时间窗的宽度用W代表。函数g()代表求得子类的函数。在时间窗中,在时间t标记为j的输入特征向量的集合被表达为下式:
[式1]
X t ( mode ) ( j ) = { x i ( mode ) | g ( x i ( mode ) ) = j , t - W ≤ t i ( mode ) ≤ t }
此处,“mode”代表意思是训练数据的“training”和意思是测试数据的“test”的其中之一。有标记j的输入数据的发生概率被定义如下:
[式2]
P t ( mode ) ( j ) = P ( X t ( mode ) ( j ) )
然后,异常的增加得分被定义为下式:
[式3]
q ( x k ( test ) ) ≡ P s ( test ) ( j ) E ( P t ( training ) ( j ) ) ( σ ( P t ( training ) ( j ) ) + 1 )
此处, s = t k ( test ) j = g ( x k ( test ) ) .
在该表达式中,E()代表期望值,而σ()代表方差。
这个表达式基本上使用了频度的移动平均和移动平均的方差。作为替代,例如可以应用小波变换等频度变换,以考虑到相对频度的周期性波动。
在步骤906中,异常检测例程526判断上述的异常的增加得分的值是否超过阀值。当该值超过阀值时,在步骤908中警报程序528被起动,并且在显示器414上显示关于子类可能不正常的可能性的信息。
在该判断中,当需要时,可以根据每个样本的成本的大小而增加加权,或者可以通过利用会导致攻击的篡改特征来辨别自然变动。
在图9中的流程图的处理针对每个时间窗而被执行。
图10示出包括对于训练数据和测试数据的、对类A的每个子类A1、A2、…、和An的、沿时间的数据分布的图示。在本发明的处理中,通过用对同一类的同一子类的预定时间窗中的训练数据和测试数据之间的频度比来检测异常出现的可能性。
图11示出了检测到该异常出现的可能性的例子。即,在一定时间间隔内,在附图标记1104所示的第四个聚类(子类)中,异常检测例程526检测到测试数据的频度相对于训练数据的频度显著变大的状态,并且将通知警报程序528可能存在不正常数据。
通过警报程序528的活动,操作员被通知在该时间窗中的聚类中的数据可能存在问题,并能缩小将要从中识别问题的数据。通过数据的分析结果,识别被检测出的导致攻击的误分类,同时标签被暂时修改,数据被移动进拒绝集合中,并且获得在未来修改判别模型的机会。
另外,在受到识别的输入过程中,通过将识别限制为在具有经常出现的特点和导致较大统计偏差的子类可以被识别的情况下,可以仅当认为存在例如用于绕过自动识别的手册时,才进行报告。
如上所述,已经基于特定实施例对本发明进行了说明。应该理解本发明不限于特定实施例,而且本领域技术人员能够明显设想的如改进和替代等各种结构和技术可适应于本发明。
例如,根据本实施例,对本发明被应用到保险公司的保险索赔评估、金融公司的贷款和信用卡的审查和授信的应用例进行了说明。然而,本发明可以被应用到记载的内容能够被转换为特征向量的要被审查的任何文档。

Claims (12)

1.一种计算机实现的信息识别方法,该信息识别方法用于检测使用不正常数据进行的对通过受监督的机器学习构成的分类器的攻击,该方法包括如下步骤:
准备各自包含特征向量、类标签和时间戳的多个训练数据;
通过使用所述多个训练数据来构成分类器;
通过基于所述多个训练数据的特征向量之间的距离,将所述多个训练数据分类成第一子类,获得副分类器;
准备各自包含特征向量、类标签和时间戳的多个测试数据;
通过使用所述分类器对所述多个测试数据进行分类;
通过使用所述副分类器将已经被分类的所述多个测试数据分类为第二子类;
计算表示被分类成所述第二子类之一的所述多个测试数据相对于被分类成所述第一子类之一的所述多个训练数据的相对频度的统计数据,所述统计数据是在具有预定宽度的相同时间窗中对每个相同子类集合计算的;以及
响应于所述统计数据的值超过预定阀值,对发生使用不正常数据进行的攻击的可能性进行警报。
2.根据权利要求1所述的信息识别方法,其中
所述特征向量是通过将对金融申请文档中问题项的回答转换为电子形式而获得的,并且所述类标签表示包括接受类和拒绝类的类。
3.根据权利要求1所述的信息识别方法,其中
所述分类器由支持向量机构成。
4.根据权利要求1所述的信息识别方法,其中
基于K-means算法将所述多个训练数据分类成第一子类。
5.根据权利要求2所述的信息识别方法,其中
所述不正常数据是错误地接受的数据。
6.根据权利要求1所述的信息识别方法,其中
所述统计数据通过使用频度的移动平均和所述移动平均的方差来计算。
7.一种计算机实现的信息识别系统,该信息识别系统用于检测用不正常数据进行的对通过受监督的机器学习配置的分类器的攻击,该信息识别系统包括:
存储单元;
多个训练数据,各自包含特征向量、类标签和时间戳,并且被存储于所述存储单元;
分类器,通过使用所述多个训练数据而构成;
副分类器,通过基于所述多个训练数据的特征向量之间的距离、将所述多个训练数据分类成第一子类而获得;
在所述多个训练数据的子类中的第一数据,通过将副分类器应用于所述多个训练数据而生成,并被存储于所述存储单元;
多个测试数据,各自包含特征向量、类标签和时间戳,并被存储于所述存储单元,其中,通过使用所述分类器对所述多个测试数据进行分类;
在所述多个测试数据的子类中的第二数据,通过将副分类器应用于所述多个测试数据而生成,并被存储于所述存储单元;
计算单元,用于计算表示所述多个测试数据相对于所述多个训练数据的相对频度的统计数据,所述统计数据是在具有预定宽度的相同时间窗中对每个相同子类集合计算的;以及
警告单元,用于响应于所述统计数据的值超过预定阀值,对发生使用不正常数据进行的攻击的可能性进行警报。
8.根据权利要求7所述的信息识别系统,其中
所述特征向量是通过将对金融申请文档中问题项的回答转换为电子形式而获得,并且所述类标签表示包括接受类和拒绝类的类。
9.根据权利要求7所述的信息识别系统,其中
所述分类器由支持向量机构成。
10.根据权利要求7所述的信息识别系统,其中
所述副分类器使用K-means算法。
11.根据权利要求8所述的信息识别系统,其中
所述不正常数据是错误地接受的数据。
12.根据权利要求7所述的信息识别系统,其中
所述统计数据通过使用频度的移动平均和所述移动平均的方差来计算。
CN201280036705.8A 2011-07-25 2012-04-26 信息识别方法以及系统 Active CN103703487B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011-162082 2011-07-25
JP2011162082 2011-07-25
PCT/JP2012/061294 WO2013014987A1 (ja) 2011-07-25 2012-04-26 情報識別方法、プログラム及びシステム

Publications (2)

Publication Number Publication Date
CN103703487A CN103703487A (zh) 2014-04-02
CN103703487B true CN103703487B (zh) 2016-11-02

Family

ID=47600847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280036705.8A Active CN103703487B (zh) 2011-07-25 2012-04-26 信息识别方法以及系统

Country Status (6)

Country Link
US (1) US9471882B2 (zh)
JP (1) JP5568183B2 (zh)
CN (1) CN103703487B (zh)
DE (1) DE112012003110T5 (zh)
GB (1) GB2507217A (zh)
WO (1) WO2013014987A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10535014B2 (en) 2014-03-10 2020-01-14 California Institute Of Technology Alternative training distribution data in machine learning
US9953271B2 (en) 2013-11-22 2018-04-24 California Institute Of Technology Generation of weights in machine learning
US9858534B2 (en) 2013-11-22 2018-01-02 California Institute Of Technology Weight generation in machine learning
US10558935B2 (en) * 2013-11-22 2020-02-11 California Institute Of Technology Weight benefit evaluator for training data
US20150206064A1 (en) * 2014-01-19 2015-07-23 Jacob Levman Method for supervised machine learning
TWI528216B (zh) * 2014-04-30 2016-04-01 財團法人資訊工業策進會 隨選檢測惡意程式之方法、電子裝置、及使用者介面
US9686312B2 (en) * 2014-07-23 2017-06-20 Cisco Technology, Inc. Verifying network attack detector effectiveness
CN104616031B (zh) * 2015-01-22 2018-06-12 哈尔滨工业大学深圳研究生院 迁移学习方法及装置
US10713140B2 (en) 2015-06-10 2020-07-14 Fair Isaac Corporation Identifying latent states of machines based on machine logs
US10282458B2 (en) * 2015-06-15 2019-05-07 Vmware, Inc. Event notification system with cluster classification
US10825095B1 (en) * 2015-10-15 2020-11-03 State Farm Mutual Automobile Insurance Company Using images and voice recordings to facilitate underwriting life insurance
US10360093B2 (en) * 2015-11-18 2019-07-23 Fair Isaac Corporation Detecting anomalous states of machines
US10410113B2 (en) * 2016-01-14 2019-09-10 Preferred Networks, Inc. Time series data adaptation and sensor fusion systems, methods, and apparatus
JP6719724B2 (ja) * 2016-02-05 2020-07-08 富士ゼロックス株式会社 データ分類装置およびプログラム
KR102195223B1 (ko) * 2016-03-18 2020-12-24 구글 엘엘씨 전역적으로 노멀화된 신경 네트워크들
CN105653740A (zh) * 2016-03-22 2016-06-08 中南林业科技大学 一种用于文本挖掘的系统
CN106383812B (zh) * 2016-08-30 2020-05-26 泰康保险集团股份有限公司 新契约保单测试方法及装置
US11829868B2 (en) * 2017-02-02 2023-11-28 Nippon Telegraph And Telephone Corporation Feature value generation device, feature value generation method, and program
CN110770711B (zh) * 2017-03-31 2023-12-22 3M创新有限公司 基于图像的伪造品检测
CN109409529B (zh) * 2018-09-13 2020-12-08 北京中科闻歌科技股份有限公司 一种事件认知分析方法、系统及存储介质
JP7331369B2 (ja) * 2019-01-30 2023-08-23 日本電信電話株式会社 異常音追加学習方法、データ追加学習方法、異常度算出装置、指標値算出装置、およびプログラム
JP7171482B2 (ja) * 2019-03-25 2022-11-15 株式会社日立製作所 業務の外れケース抽出支援システムおよび業務の外れケース抽出支援方法
US11715030B2 (en) 2019-03-29 2023-08-01 Red Hat, Inc. Automatic object optimization to accelerate machine learning training
US11966851B2 (en) 2019-04-02 2024-04-23 International Business Machines Corporation Construction of a machine learning model
CN110012013A (zh) * 2019-04-04 2019-07-12 电子科技大学成都学院 一种基于knn的虚拟平台威胁行为分析方法及系统
JP7198405B2 (ja) * 2019-07-23 2023-01-04 イチロウホールディングス株式会社 リース契約システム及びリース契約プログラム
JP7332949B2 (ja) 2019-12-04 2023-08-24 富士通株式会社 評価方法、評価プログラム、および情報処理装置
CN111046379B (zh) * 2019-12-06 2021-06-18 支付宝(杭州)信息技术有限公司 一种对抗攻击的监测方法和装置
CN111046957B (zh) * 2019-12-13 2021-03-16 支付宝(杭州)信息技术有限公司 一种模型盗用的检测、模型的训练方法和装置
US11481679B2 (en) * 2020-03-02 2022-10-25 Kyndryl, Inc. Adaptive data ingestion rates
CN111797260A (zh) * 2020-07-10 2020-10-20 宁夏中科启创知识产权咨询有限公司 基于图像识别的商标检索方法及系统
US20230132720A1 (en) * 2021-10-29 2023-05-04 Intuit Inc. Multiple input machine learning framework for anomaly detection

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1475935A (zh) * 2002-06-19 2004-02-18 埃里科斯・皮特索斯 用于分类电子文件的方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239677B2 (en) * 2006-10-10 2012-08-07 Equifax Inc. Verification and authentication systems and methods
JP2009048402A (ja) * 2007-08-20 2009-03-05 Fujitsu Ltd 申請手続不正リスク評価装置
JP2010128674A (ja) * 2008-11-26 2010-06-10 Nec Corp コンピュータネットワーク、異常検出装置、異常検出方法および異常検出プログラム
EP2415022A4 (en) 2009-04-01 2016-12-14 I-Cetana Pty Ltd SYSTEMS AND METHODS FOR DETECTING ANOMALIES FROM DATA
US20110218948A1 (en) * 2009-12-15 2011-09-08 Fabricio Benevenuto De Souza Methods for detecting spammers and content promoters in online video social networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1475935A (zh) * 2002-06-19 2004-02-18 埃里科斯・皮特索斯 用于分类电子文件的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Detecting Spammers and Content Promoters in Online Video Social Networks;Fabricio Benevenuto etc;《Proc of Sigir》;20090719;第620-627页 *

Also Published As

Publication number Publication date
CN103703487A (zh) 2014-04-02
WO2013014987A1 (ja) 2013-01-31
GB201401147D0 (en) 2014-03-12
US9471882B2 (en) 2016-10-18
GB2507217A (en) 2014-04-23
DE112012003110T5 (de) 2014-04-10
US20140180980A1 (en) 2014-06-26
JP5568183B2 (ja) 2014-08-06
JPWO2013014987A1 (ja) 2015-02-23

Similar Documents

Publication Publication Date Title
CN103703487B (zh) 信息识别方法以及系统
US8886574B2 (en) Generalized pattern recognition for fault diagnosis in machine condition monitoring
García et al. An insight into the experimental design for credit risk and corporate bankruptcy prediction systems
Rodger Discovery of medical Big Data analytics: Improving the prediction of traumatic brain injury survival rates by data mining Patient Informatics Processing Software Hybrid Hadoop Hive
Yeager et al. On using robust Mahalanobis distance estimations for feature discrimination in a damage detection scenario
Lee et al. Early failure detection of paper manufacturing machinery using nearest neighbor‐based feature extraction
Ghiasi et al. An intelligent health monitoring method for processing data collected from the sensor network of structure
Sylligardos et al. Choose wisely: An extensive evaluation of model selection for anomaly detection in time series
US20220391724A1 (en) Unsupervised Anomaly Detection With Self-Trained Classification
Ghashghaei et al. Grayscale image statistics of COVID-19 patient CT scans characterize lung condition with machine and deep learning
Sandim Using stacked generalization for anomaly detection
Raghavendran et al. An Analysis on Classification Models to Predict Possibility for Type 2 Diabetes of a Patient
CN117850714B (zh) 一种云打印机数据审计方法以及相关装置
Larson False Positive Reduction in Credit Card Fraud Prediction: An Evaluation of Machine Learning Methodology on Imbalanced Data
CH et al. Fake News Classification in Twitter Data Using Innovative K Nearest Neighbor Comparing Logistics Regression
Raza et al. FakeWatch: A Framework for Detecting Fake News to Ensure Credible Elections
Awad et al. Anomaly Detection and Security Enhancement Through Machine Learning in Administrative Information Systems
Hossen et al. Machine Learning-Based Diabetic Risk Prediction Model for Early Detection
Dahlgren Enhancement of an Ad Reviewal Process through Interpretable Anomaly Detecting Machine Learning Models
Nti et al. Robust and resourceful automobile insurance fraud detection with multi-stacked LSTM network and adaptive synthetic oversampling
Quan Research on Detecting Auto Insurance Fraud
Buri et al. Early-Stage Prediction of Breast Cancer Using Suggested Machine Learning Techniques
Bolshibayeva et al. Machine Learning Methods to Detect Terrorist Financing
Manikanta et al. Detecting Cyberbullying Behavior in Cyber Data using Bagging Classifier and comparing its Capability over Support Vector Machine Algorithm
Sudhishna et al. Comparative Analysis of Different Machine Learning Algorithms to Predict Depression

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant