CN107391569A - 数据类型的识别、模型训练、风险识别方法、装置及设备 - Google Patents

数据类型的识别、模型训练、风险识别方法、装置及设备 Download PDF

Info

Publication number
CN107391569A
CN107391569A CN201710458652.3A CN201710458652A CN107391569A CN 107391569 A CN107391569 A CN 107391569A CN 201710458652 A CN201710458652 A CN 201710458652A CN 107391569 A CN107391569 A CN 107391569A
Authority
CN
China
Prior art keywords
data
abnormality detection
sample data
model
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710458652.3A
Other languages
English (en)
Other versions
CN107391569B (zh
Inventor
程羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710458652.3A priority Critical patent/CN107391569B/zh
Publication of CN107391569A publication Critical patent/CN107391569A/zh
Priority to TW107108576A priority patent/TWI664535B/zh
Priority to PCT/CN2018/091043 priority patent/WO2018228428A1/zh
Priority to SG11201906380PA priority patent/SG11201906380PA/en
Priority to MYPI2019003977A priority patent/MY201302A/en
Priority to US16/444,156 priority patent/US11113394B2/en
Priority to PH12019501621A priority patent/PH12019501621A1/en
Priority to US16/774,663 priority patent/US11100220B2/en
Application granted granted Critical
Publication of CN107391569B publication Critical patent/CN107391569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种数据类型的识别、模型训练方法、装置及计算机设备,该模型训练方法包括:获取第一样本数据集,利用所述第一样本数据集对异常检测模型进行训练;通过所述异常检测模型从第二样本数据集中检测出异常样本数据集,利用所述异常样本数据集对分类模型进行训练。本实施例能降低分类模型的打分事件量,也能提供相对平衡的样本数据集进行训练,得到准确率较高的分类模型。具体应用时,待识别数据先输入至异常检测模型中,能快速区分出是否为第一类数据,对于异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,在线进行数据识别速度较快。

Description

数据类型的识别、模型训练、风险识别方法、装置及设备
技术领域
本申请涉及数据分析技术领域,尤其涉及数据类型的识别、模型训练、风险识别方法、装置及设备。
背景技术
在数据分析领域中,经常需要识别数据的类型。例如,识别用户账户是否被盗用、识别交易是否为风险交易、识别用户行为是否为欺诈行为等等。相关技术中,通常根据历史数据确定黑白样本,其中,白样本表示历史数据中正常的一类样本,黑样本表示历史数据中出现账户盗用、高风险交易或欺诈行为等等事件的另一类样本。之后可基于分类算法,利用黑白样本训练得到分类器。
然而现实生活中,相对于正常事件,账户盗用、高风险或欺诈行为的事件的出现概率较低,因此,黑白样本在多数的场景下都是严重的不平衡,黑样本占总体样本的比例较低,因此会给分类器的训练带来较大挑战,分类器的识别准确率可能较低。
发明内容
为克服相关技术中存在的问题,本申请提供了数据类型的识别、模型训练、风险识别方法、装置及设备。
一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;
将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
可选的,所述异常检测模型通过如下方式预先训练得到:
获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;
利用所述第一样本数据集对异常检测模型进行训练。
可选的,所述分类模型通过如下方式预先训练得到:
通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;
利用所述异常样本数据集对所述分类模型进行训练。
可选的,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:
基于特征优化算法优化所述异常样本数据集。
一种模型训练方法,用于训练异常检测模型和分类模型;
所述异常检测模型用于检测输入数据出第一类数据;
所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;
所述方法包括:
通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;
通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
可选的,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:
基于特征优化算法优化所述异常样本数据集。
一种风险识别方法,用于识别数据为安全数据或风险数据,所述方法包括:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常数据;
若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;
若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。
一种数据类型的识别装置,用于识别数据为第一类数据或第二类数据,所述装置包括:
数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;
类型确定模块,用于:将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
可选的,还包括异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。
可选的,还包括分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
可选的,所述装置还包括优化模块,用于在利用所述异常样本数据集对所述分类模型进行训练前,基于特征优化算法优化所述异常样本数据集。
一种模型训练装置,用于训练异常检测模型和分类模型;
所述异常检测模型用于检测输入数据为第一类数据;
所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;
所述装置包括:
异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;
分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
可选的,所述装置还包括优化模块,用于在利用所述异常样本数据集对所述分类模型进行训练前,基于特征优化算法优化所述异常样本数据集。
一种风险识别装置,用于识别数据为安全数据或风险数据,所述装置包括:
数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;
风险确定模块,用于:若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。
一种计算机设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;
将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
一种计算机设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;
通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
一种计算机设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常数据;
若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;
若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请实施例中,在训练过程中,首先利用第一样本数据集训练得到异常检测模型,基于此,全量的第二样本数据集可以筛选出异常样本数据集。由于分类模型是利用异常检测模型识别出的异常样本数据集训练得到,因此对于分类模型,可以剔除大部分的第一类数据,快速区分出相比较大多数样本而言异常的样本,而剩余的异常样本可能包含了绝大多数的第二类数据,以及部分第一类数据。之后利用异常样本进行分类模型训练,既可以降低最终分类模型的打分事件量,又可以提供相对平衡的样本数据集供分类模型训练,由于异常样本数据集中第一类数据和第二类数据的比例相对均衡,因此能够训练得到准确率较高的分类模型,因此可以结合这两个部分提升数据识别能力。在具体应用时,可以线上部署异常检测模型和分类模型,待识别数据首先输入至异常检测模型中,从而可以快速区分出该待识别数据是否为异常,如果异常,则进一步由分类模型进行分类。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1A是本申请根据一示例性实施例示出的一种模型训练方法的示意图。
图1B是本申请根据一示例性实施例示出的一种异常检测的示意图。
图2是本申请根据一示例性实施例示出的一种数据类型的识别方法的示意图。
图3A是本申请根据一示例性实施例示出的风险识别方法的示意图。
图3B是本申请根据一示例性实施例示出的模型训练和风险识别方法的应用场景示意图。
图4是本申请数据类型的识别装置/模型训练装置/风险识别装置所在计算机设备的一种硬件结构图。
图5是本申请根据一示例性实施例示出的一种数据类型的识别装置的框图。
图6是本申请根据一示例性实施例示出的一种模型训练装置的框图。
图7是本申请根据一示例性实施例示出的一种风险识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在数据分析领域中,经常需要识别数据的类型。例如,识别用户账户是否被盗用、识别交易是否为风险交易、识别用户行为是否为欺诈行为等等。
以风险识别为例,风险识别是风控体系中重要的组成部分,是风险决策的主要依据来源。随着机器学习和数据挖掘技术的普及和进步,利用模型进行风险识别成为一种趋势。一种典型的模型风险识别是利用有监督学习算法,根据历史行为和业务经验知识,构建模型及入模变量,再以黑白标签训练模型。最后训练好的模型部署于线上,实时对风险进行判别。这类方案相比于传统基于规则的识别不仅更加精确,而且难以被轻易攻破,但仍旧存在问题和挑战:
一方面,黑白样本在多数的场景下严重不平衡。在现实生活中,大部分的时间都可以认为是安全的或者低风险的,因此这一类正常数据(白样本)的数量非常大。相比较而言,高风险事件的这一类数据(黑样本)只占很小部分,如万分之一甚至比例更低。因此,在利用历史数据确定样本时,样本中的黑白比例会有严重的不平衡情况。虽然很多方案会通过采样、惩罚等技术提高黑样本占总体训练样本的比例,但无法从根本上解决样本不平衡给分类器带来的挑战,所训练的分类器的准确率可能无法保证。
另一方面,线上高并发海量数据对分类器的性能不断提出更高的要求。线上模型需要在短时间内,如200ms内识别出风险,否则会影响系统的稳定和用户体验,风险形势和用户体验对快速识别的精准性和性能正在提出更多的挑战。
基于此,本申请实施例一方面提供了一种模型训练方案,该模型训练方案能训练有异常检测模型和分类模型,该异常检测模型用于通过检测输入数据是否异常,从而识别出第一类数据;该分类模型用于对异常检测模型识别出的第一类数据之外的其他数据进行分类。本实施例的分类模型是利用异常检测模型识别出的异常样本数据集训练得到,由于异常检测模型可以剔除大部分的第一类数据,并能快速区分出相比较大多数样本而言异常的样本,而剩余的异常样本可能包含了绝大多数的第二类数据,以及部分第一类数据。之后利用异常样本进行分类模型训练,既可以降低最终分类模型的打分事件量,又可以提供相对平衡的样本数据集供分类模型训练。由于异常样本数据集中第一类数据和第二类数据的比例相对均衡,因此能够训练得到准确率较高的分类模型,可以结合这两个部分提升数据识别能力。在具体应用时,可以线上部署异常检测模型和分类模型,待识别数据首先输入至异常检测模型中,从而可以快速区分出该待识别数据是否异常,对于异常的数据,则进一步由分类模型准确地进行分类。接下来对本申请实施例进行详细说明。
首先对模型训练过程进行说明,如图1A所示,是本申请根据一示例性实施例示出的一种模型训练方法的示意图,该模型训练方法用于训练异常检测模型和分类模型。所述异常检测模型用于检测输入数据是否异常,以检测出第一类数据;所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类。
该方法包括如下步骤:
在步骤102中,通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。
在步骤104中,通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
本申请实施例中,采用第一类数据和第二类数据对数据类型进行区分,其中,第一类数据表示数量相对较多的一类数据,第二类数据表示数量相对较少的一类数据。在不同场景下,第一类数据和第二类数据可以根据具体场景的需要,代表相应场景中不同类型的数据。例如,以风险识别场景为例,低风险数据的安全数据量较大,而发生高风险的概率较低,高风险数据量较少,因此,第一类数据可以是指低风险的安全数据,第二类数据可以是指高风险数据。以账户盗用场景为例,正常行为的数据量较大,而发生账户盗用行为的概率较低,高风险数据量较少,因此,第一类数据可以是指正常行为数据,第二类数据可以是指账户盗用行为数据。实际应用中,可以根据具体场景而灵活确定。
在模型训练过程中,首先进行异常检测模型的训练。具体的,可以获取历史数据集,历史数据集中包含了第一类数据和第二类数据,进一步地,可以结合业务经验,选择出包括有多个特征的特征集合,各特征的组合表征每一条数据的特点,在不同应用场景中可以根据业务需要选择合适的特征,例如风险识别场景中,特征集合可以包括有历史支付天数、支付金额、支付时刻、支付设备特征或用户使用习惯等等。通过特征集合,可以对历史数据集中每一条数据转换为相应的用各特征向量表示的样本数据,从而获得样本数据集。本实施例中,为了区分,将用于训练异常检测模型的样本数据集称为第一样本数据集。
接着,利用所述第一样本数据集对异常检测模型进行训练,具体的,可以是基于异常检测算法,确定初始化的异常检测模型,利用所述第一样本数据集进行训练,得到所述异常检测模型中的参数值。实际应用中,可以根据需要灵活选择异常检测算法,例如支持向量聚类机、隔离树算法等等。
以支持向量聚类机为例,支持向量聚类是一种无监督异常检测方法,该方法可以把复杂维度的样本映射到高维空间,使得样本可以尽可能聚拢在一个区域中。如图1B所示,是本申请根据一示例性实施例示出的一种异常检测的示意图,图1B中的圆圈表示超球体,被超球体包裹在内部的数据表示正常数据,用矩形表示,在超球体外部的数据为异常数据,用星状图形表示。本实施例中,模式越是相近的个体之间离得越近并接近中心,而模式异常或不同的个体会远离中心。因此可以在映射好的高维空间中形成一超球体对样本数据进行包裹,使尽可能多的样本数据被包裹在超球体内部,在外部的剩余样本可以被视为异常数据。在实际使用过程中,可以根据需要确定超球体半径R的约束,只需确保数据量较大的正常的第一类样本数据被包裹在球体中,而外部的异常数据,与正常的第一类样本数据相似度较低,有可能是第一类数据,也有可能是第二类数据。具体的异常数据选择比例或异常模式的抓取力度可以通过支持向量聚类机的输出分值来刻画,根据实际应用场景,通过样本数据集可训练出合适的大小。
本实施例中,当异常检测模型训练好并部署应用后,全量的样本数据集可以通过异常检测模型,由异常检测模型可以筛选出其中的异常样本数据集,而异常样本数据集则可以用于训练分类模型。接下来对分类模型的训练过程进行说明。
与异常检测模型的训练过程相同,分类模型的训练同样需要样本数据集,本实施例中将用于分类模型训练的样本数据集称为第二样本数据集。实际应用中,第二样本数据集可以与第一样本数据集不同,也可以是相同的样本数据集。
具体训练时,全量的第二样本数据集可以通过异常检测模型筛选出异常样本数据集,由于进行分类模型训练时,输入的样本数据集不再是全量,大量正常的第一类数据被剔除掉,只剩余部分可能为第一类数据也可能为第二类数据的异常样本,因此黑白样本数据相对平衡,更有利于保证模型训练和应用的一致性。之后,可利用所述异常样本数据集对所述分类模型进行训练,具体的,可以是基于分类算法确定初始化的分类模型,利用所述异常样本数据集进行训练,得到所述分类模型中的参数值。实际应用中可以根据需要灵活选择分类算法,例如决策树、贝叶斯分类算法、人工神经网络、K-近邻算法或随机森林分类算法等等。
在利用异常检测模型筛选出异常样本数据集后,由于异常样本数据集具有的特征是前述的特征集合中的特征,考虑到此时第一类数据和第二类数据的比例相对平衡,可以考虑尝试优化特征,以提高训练速度。在一个可选的实现方式中,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:
基于特征优化算法优化所述异常样本数据集。
本实施例中,由于样本较为均衡,可以尝试考虑采用特征优化算法对异常样本数据集所具有的特征进行优化,以选择出更优的特征子集,获得优化后的异常样本数据集。作为一种典型方法,可以采用遗传算法进行优化。举例来说,对所有的特征进行二值编码,1为选择入模,0为拒绝入模,适应性函数(fitness function)可以采用模型的输出分值与入模变量个数做一个平衡,例如采用贝叶斯信息准则(BIC,beyesian information criterion)等等,实际应用中可以根据需要灵活选择特征优化算法。
上述过程涉及模型的训练过程,接下来对模型上线后的应用过程进行描述。如图2所示,是本申请根据一示例性实施例示出的一种数据类型的识别方法的示意图,该方案可用于识别数据为第一类数据或第二类数据,该方法包括如下步骤:
在步骤202中,获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据。
在步骤204中,将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
由前述模型训练过程可知,异常检测模型用于检测输入是否异常,而分类模型可用于识别输入的异常的数据为第一类数据或第二类数据。因此,本实施例在需要对数据的类型进行识别时,可以获取待识别数据,待识别数据具有与异常检测模型检测时所需的特征。根据待识别数据所具有的特征,首先利用异常检测模型检测所述待识别数据是否异常,若待识别数据被检测为非异常,确定所述待识别数据为第一类数据;若为异常,则利用预设的分类模型识别所述待识别数据为第一类数据或第二类数据。
其中,所述异常检测模型通过如下方式预先训练得到:
获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;
利用所述第一样本数据集对异常检测模型进行训练。
其中,所述分类模型通过如下方式预先训练得到:
通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;
利用所述异常样本数据集对所述分类模型进行训练。
在一个可选的实现方式中,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:
基于特征优化算法优化所述异常样本数据集。
上述两个模型的训练过程可参看图1A所示实施例的说明,本实施例对此不再赘述。
接下来以风险识别场景为例,对本申请实施例再次进行说明。如图3A所示,是本申请根据一示例性实施例示出的一种风险识别方法,用于识别数据为安全数据或风险数据,所述方法包括:
在步骤302中,获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;
在步骤304中,若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;
在步骤306中,若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。
如图3B所示,是本申请根据一示例性实施例示出的模型训练和风险识别方法的应用场景示意图。本实施例可以构建一个异常检测模型和分类模型结合的风险识别系统,用于对输入数据进行风险识别,以识别输入数据为低风险的正常数据还是风险数据。该方案具体涉及异常检测、特征优化和有监督的分类学习。实际应用中,以上三个过程可以使用多种算法。本实施例中,异常检测以支持向量聚类(support vector clustering)为例,特征优化以遗传算法(genetic algorithm)为例,有监督的分类学习以随机森林为例进行描述。
训练过程包括:
获取历史数据,首先结合业务场景,选择出特征集合刻画风险,如历史支付天数,支付设备特征,用户使用习惯等,根据历史数据,确定包含了黑白样本形成样本数据集。
利用样本数据集对设定的异常检测模型进行训练。本实施例中,异常检测采用支持向量聚类机为例,将样本数据集输入到支持向量聚类机中学习。支持向量聚类是一种无监督异常检测方法,它可以把复杂维度的样本映射到高维空间,使得样本可以尽可能聚拢在一个区域中。聚拢的数据即为数据量较大的正常的一类数据,而没有聚拢在中心区域的,则为异常数据。
如图1B所示,模式越是相近的个体之间离得越近并接近中心,而模式异常或不同的个体会远离中心。因此可以在映射好的高维空间中形成一超球体对样本进行包裹,使尽可能多的样本被包裹在超球体内部,在外部的剩余样本可以被视为异常点。在实际使用过程中,可以根据需要灵活设定超球体半径R的约束,只需确保正常样本被包裹在球体中,而外部的异常样本集可以包括真正的高危样本和部分的低危样本。因此,当模型训练好并部署线上应用时,全量的样本通过模型后,非异常样本被直接识别为低危,异常样本则输入至下一环节进一步分析判别。具体的异常数据选择比例或异常模式的抓取力度可以通过支持向量聚类机的输出分值来刻画,根据实际应用场景,通过样本数据集可训练出合适的大小。
利用异常检测模型对初始的样本数据集进行检测,检测出的异常样本数据集可对分类模型进行训练。本实施例的分类模型以随机森林分类器为例,异常样本数据集可输入到随机森林分类器中训练。在训练分类模型之前,由于输入的样本不再是全量,黑白样本相对平衡,更有利于保证模型训练和应用的一致性。此时可以考虑采用特征优化算法对特征集进行优化,选择出更优的特征集。作为一种典型方法,可以采用遗传算法进行优化。比如对所有的特征进行二值编码,1为选择入模,0为拒绝入模,fitness function采用模型的输出分值与入模变量个数做一个平衡,例如采用BIC(beyesian information criterion)。
在具体应用时,可以获取待识别数据,根据待识别数据的特征,首先利用异常检测模型检测所述待识别数据是否异常,若被检测为非异常,确定所述待识别数据为低风险的安全数据;若所述待识别数据被检测为异常,利用预设的分类模型进一步识别所述待识别数据为低风险的安全数据或风险数据。
与前述数据类型的识别、模型训练、风险识别方法的实施例相对应,本申请还提供了数据类型的识别、模型训练装置、风险识别装置及其所应用的计算机设备的实施例。
本申请数据类型的识别装置/模型训练装置/风险识别装置的实施例都可以应用在计算机设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在数据类型的识别/模型训练/风险识别的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本申请数据类型的识别装置/模型训练装置/风险识别装置所在计算机设备的一种硬件结构图,除了图4所示的处理器410、内存430、网络接口420、以及非易失性存储器440之外,实施例中装置431所在的计算机设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
如图5所示,图5是本申请根据一示例性实施例示出的一种数据类型的识别装置的框图,用于识别数据为第一类数据或第二类数据,所述装置包括:
数据获取模块51,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;
类型确定模块52,用于:将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
可选的,还包括异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。
可选的,还包括分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
可选的,所述装置还包括优化模块,用于利用所述异常样本数据集对所述分类模型进行训练前,基于特征优化算法优化所述异常样本数据集。
如图6所示,图6是本申请根据一示例性实施例示出的一种模型训练装置的框图,用于训练异常检测模型和分类模型;
所述异常检测模型用于检测出第一类数据;
所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;
所述装置包括:
异常检测模型训练模块61,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练;
分类模型训练模块62,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
可选的,所述装置还包括优化模块,用于在利用所述异常样本数据集对所述分类模型进行训练,基于特征优化算法优化所述异常样本数据集。
如图7所示,图7是本申请根据一示例性实施例示出的一种风险识别装置的框图,所述装置包括:
数据获取模块71,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;
风险确定模块72,用于:若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。
相应的,本申请还提供一种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;
将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
相应的,本申请还提供一种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;基于异常检测算法,确定初始化的异常检测模型,利用所述第一样本数据集进行训练,得到所述异常检测模型中的参数值;
通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;基于分类算法,确定初始化的分类模型,利用所述异常样本数据集进行训练,得到所述分类模型中的参数值。
相应的,本申请还提供一种计算机设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常数据;
若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;
若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (17)

1.一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;
将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
2.根据权利要求1所述的方法,所述异常检测模型通过如下方式预先训练得到:
获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;
利用所述第一样本数据集对异常检测模型进行训练。
3.根据权利要求2所述的方法,所述分类模型通过如下方式预先训练得到:
通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;
利用所述异常样本数据集对所述分类模型进行训练。
4.根据权利要求1所述的方法,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:
基于特征优化算法优化所述异常样本数据集。
5.一种模型训练方法,用于训练异常检测模型和分类模型;
所述异常检测模型用于检测出第一类数据;
所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;
所述方法包括:
通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;
通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对分类模型进行训练。
6.根据权利要求5所述的方法,在利用所述异常样本数据集对分类模型进行训练前,所述方法还包括:
基于特征优化算法优化所述异常样本数据集。
7.一种风险识别方法,用于识别数据为安全数据或风险数据,所述方法包括:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;
若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;
若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。
8.根据权利要求7所述的方法,所述异常检测模型通过如下方式预先训练得到:
获取第一样本数据集,所述第一样本数据集中安全数据的数量大于风险数据的数量;
利用所述第一样本数据集对异常检测模型进行训练。
9.根据权利要求7所述的方法,所述分类模型通过如下方式预先训练得到:
通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;
利用所述异常样本数据集对所述分类模型进行训练。
10.一种数据类型的识别装置,用于识别数据为第一类数据或第二类数据,所述装置包括:
数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;
类型确定模块,用于:将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
11.根据权利要求10所述的装置,还包括异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;利用所述第一样本数据集对异常检测模型进行训练。
12.根据权利要求11所述的装置,还包括分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
13.一种模型训练装置,用于训练异常检测模型和分类模型;
所述异常检测模型用于检测出第一类数据;
所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;
所述装置包括:
异常检测模型训练模块,用于:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;
分类模型训练模块,用于:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
14.一种风险识别装置,用于识别数据为安全数据或风险数据,所述装置包括:
数据获取模块,用于:获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常;
风险确定模块,用于:若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。
15.一种计算机设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;
将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
16.一种计算机设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;
通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
17.一种计算机设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否异常数据;
若所述待识别数据被检测为非异常,确定所述待识别数据为安全数据;
若所述待识别数据被检测为异常,利用预设的分类模型识别所述待识别数据为安全数据或风险数据;其中,所述分类模型预先利用所述异常检测模型识别出的异常样本数据集训练得到。
CN201710458652.3A 2017-06-16 2017-06-16 数据类型的识别、模型训练、风险识别方法、装置及设备 Active CN107391569B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201710458652.3A CN107391569B (zh) 2017-06-16 2017-06-16 数据类型的识别、模型训练、风险识别方法、装置及设备
TW107108576A TWI664535B (zh) 2017-06-16 2018-03-14 資料類型的識別、模型訓練、風險識別方法、裝置及設備
MYPI2019003977A MY201302A (en) 2017-06-16 2018-06-13 Data type recognition, model training and risk recognition methods, apparatuses and devices
SG11201906380PA SG11201906380PA (en) 2017-06-16 2018-06-13 Data type recognition, model training and risk recognition methods, apparatuses and devices
PCT/CN2018/091043 WO2018228428A1 (zh) 2017-06-16 2018-06-13 数据类型的识别、模型训练、风险识别方法、装置及设备
US16/444,156 US11113394B2 (en) 2017-06-16 2019-06-18 Data type recognition, model training and risk recognition methods, apparatuses and devices
PH12019501621A PH12019501621A1 (en) 2017-06-16 2019-07-11 Data type recognition, model training and risk recognition methods, apparatuses and devices
US16/774,663 US11100220B2 (en) 2017-06-16 2020-01-28 Data type recognition, model training and risk recognition methods, apparatuses and devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710458652.3A CN107391569B (zh) 2017-06-16 2017-06-16 数据类型的识别、模型训练、风险识别方法、装置及设备

Publications (2)

Publication Number Publication Date
CN107391569A true CN107391569A (zh) 2017-11-24
CN107391569B CN107391569B (zh) 2020-09-15

Family

ID=60333026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710458652.3A Active CN107391569B (zh) 2017-06-16 2017-06-16 数据类型的识别、模型训练、风险识别方法、装置及设备

Country Status (7)

Country Link
US (2) US11113394B2 (zh)
CN (1) CN107391569B (zh)
MY (1) MY201302A (zh)
PH (1) PH12019501621A1 (zh)
SG (1) SG11201906380PA (zh)
TW (1) TWI664535B (zh)
WO (1) WO2018228428A1 (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944874A (zh) * 2017-12-13 2018-04-20 阿里巴巴集团控股有限公司 基于迁移学习的风控方法、装置及系统
CN108173708A (zh) * 2017-12-18 2018-06-15 北京天融信网络安全技术有限公司 基于增量学习的异常流量检测方法、装置及存储介质
CN108304287A (zh) * 2018-01-22 2018-07-20 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN108346098A (zh) * 2018-01-19 2018-07-31 阿里巴巴集团控股有限公司 一种风控规则挖掘的方法及装置
CN109034209A (zh) * 2018-07-03 2018-12-18 阿里巴巴集团控股有限公司 主动风险实时识别模型的训练方法和装置
WO2018228428A1 (zh) * 2017-06-16 2018-12-20 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
CN109145030A (zh) * 2018-06-26 2019-01-04 阿里巴巴集团控股有限公司 一种异常数据访问的检测方法和装置
CN109190676A (zh) * 2018-08-06 2019-01-11 百度在线网络技术(北京)有限公司 模型训练方法、装置、设备及存储介质
CN109461001A (zh) * 2018-10-22 2019-03-12 阿里巴巴集团控股有限公司 基于第二模型获取第一模型的训练样本的方法和装置
CN109670267A (zh) * 2018-12-29 2019-04-23 北京航天数据股份有限公司 一种数据处理方法和装置
CN109684118A (zh) * 2018-12-10 2019-04-26 深圳前海微众银行股份有限公司 异常数据的检测方法、装置、设备及计算机可读存储介质
CN109905362A (zh) * 2019-01-08 2019-06-18 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
CN109992578A (zh) * 2019-01-07 2019-07-09 平安科技(深圳)有限公司 基于无监督学习的反欺诈方法、装置、计算机设备及存储介质
CN110046632A (zh) * 2018-11-09 2019-07-23 阿里巴巴集团控股有限公司 模型训练方法和装置
CN110363534A (zh) * 2019-06-28 2019-10-22 阿里巴巴集团控股有限公司 用于识别异常交易的方法及装置
CN110472646A (zh) * 2018-05-09 2019-11-19 富士通株式会社 数据处理设备、数据处理方法及介质
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
CN110826621A (zh) * 2019-11-01 2020-02-21 北京芯盾时代科技有限公司 一种风险事件处理方法及装置
CN110941607A (zh) * 2019-12-10 2020-03-31 医渡云(北京)技术有限公司 脏数据的识别方法、装置、设备及存储介质
CN111126577A (zh) * 2020-03-30 2020-05-08 北京精诊医疗科技有限公司 一种针对不均衡样本的损失函数设计方法
CN111275507A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 一种订单异常识别和订单风险管控的方法及其系统
WO2020140678A1 (zh) * 2019-01-04 2020-07-09 深圳壹账通智能科技有限公司 异常申请检测方法、装置、计算机设备和存储介质
CN111667065A (zh) * 2019-03-05 2020-09-15 埃莱西株式会社 异常模式检测系统和方法
CN111760292A (zh) * 2020-07-07 2020-10-13 网易(杭州)网络有限公司 采样数据的检测方法、装置及电子设备
CN111986027A (zh) * 2020-08-21 2020-11-24 腾讯科技(上海)有限公司 基于人工智能的异常交易处理方法、装置
CN112016600A (zh) * 2020-08-14 2020-12-01 中国石油大学(北京) 管道异常识别方法、装置及系统
CN112308104A (zh) * 2019-08-02 2021-02-02 杭州海康威视数字技术股份有限公司 异常识别方法、装置及计算机存储介质
CN112529109A (zh) * 2020-12-29 2021-03-19 四川长虹电器股份有限公司 一种基于无监督多模型的异常检测方法及系统
CN112861895A (zh) * 2019-11-27 2021-05-28 北京京东振世信息技术有限公司 一种异常物品的检测方法和装置
CN113228077A (zh) * 2018-12-27 2021-08-06 未来集团股份有限公司 在协调响应于在政策下进行承保的请求的服务和/或支付中用于自动质量管理和识别错误、遗漏和/或偏差的系统、方法和平台
CN115238805A (zh) * 2022-07-29 2022-10-25 中国电信股份有限公司 异常数据识别模型的训练方法及相关设备
CN115277205A (zh) * 2022-07-28 2022-11-01 中国电信股份有限公司 模型训练方法及装置、端口的风险识别方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069725B2 (en) 2011-08-19 2015-06-30 Hartford Steam Boiler Inspection & Insurance Company Dynamic outlier bias reduction system and method
JP6795488B2 (ja) 2014-04-11 2020-12-02 ハートフォード スチーム ボイラー インスペクション アンド インシュランス カンパニー システム運転および性能データをモデル化に基づいた将来信頼度予測の改善
US10845079B1 (en) * 2017-06-28 2020-11-24 Alarm.Com Incorporated HVAC analytics
US10878388B2 (en) * 2018-07-12 2020-12-29 Visionx, Llc Systems and methods for artificial-intelligence-based automated surface inspection
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
CN109936561B (zh) * 2019-01-08 2022-05-13 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
CN110084468B (zh) * 2019-03-14 2020-09-01 阿里巴巴集团控股有限公司 一种风险识别方法及装置
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
US11288602B2 (en) 2019-09-18 2022-03-29 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
CN110995681B (zh) * 2019-11-25 2022-04-22 北京奇艺世纪科技有限公司 用户识别方法、装置、电子设备及存储介质
US11687806B2 (en) 2020-11-03 2023-06-27 International Business Machines Corporation Problem solving using selected datasets of internet-of-things system
CN113521750B (zh) * 2021-07-15 2023-10-24 珠海金山数字网络科技有限公司 异常账号检测模型训练方法和异常账号检测方法
US11803778B2 (en) * 2021-08-04 2023-10-31 Watsco Ventures Llc Actionable alerting and diagnostic system for water metering systems
US11353840B1 (en) * 2021-08-04 2022-06-07 Watsco Ventures Llc Actionable alerting and diagnostic system for electromechanical devices
US20230186152A1 (en) * 2021-12-09 2023-06-15 Kinaxis Inc. Iterative data-driven configuration of optimization methods and systems
CN114726749B (zh) * 2022-03-02 2023-10-31 阿里巴巴(中国)有限公司 数据异常检测模型获取方法、装置、设备及介质
CN114692892B (zh) * 2022-03-23 2023-08-29 支付宝(杭州)信息技术有限公司 对数值特征进行处理的方法、模型训练方法和装置
CN114978616B (zh) * 2022-05-06 2024-01-09 支付宝(杭州)信息技术有限公司 风险评估系统的构建方法及装置、风险评估方法及装置
CN115118505B (zh) * 2022-06-29 2023-06-09 上海众人智能科技有限公司 一种基于入侵数据溯源的行为基线靶向抓取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN104794192A (zh) * 2015-04-17 2015-07-22 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CN105279382A (zh) * 2015-11-10 2016-01-27 成都数联易康科技有限公司 一种医疗保险异常数据在线智能检测方法
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法
WO2016138041A2 (en) * 2015-02-23 2016-09-01 Cellanyx Diagnostics, Llc Cell imaging and analysis to differentiate clinically relevant sub-populations of cells
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN106503562A (zh) * 2015-09-06 2017-03-15 阿里巴巴集团控股有限公司 一种风险识别方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9306966B2 (en) * 2001-12-14 2016-04-05 The Trustees Of Columbia University In The City Of New York Methods of unsupervised anomaly detection using a geometric framework
TW200802018A (en) * 2006-06-01 2008-01-01 Academia Sinica Detection device and method thereof
CN102176698A (zh) * 2010-12-20 2011-09-07 北京邮电大学 一种基于迁移学习的用户异常行为检测方法
US10599999B2 (en) * 2014-06-02 2020-03-24 Yottamine Analytics, Inc. Digital event profile filters based on cost sensitive support vector machine for fraud detection, risk rating or electronic transaction classification
US9985984B1 (en) * 2014-10-27 2018-05-29 National Technology & Engineering Solutions Of Sandia, Llc Dynamic defense and network randomization for computer systems
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
CN106779272A (zh) * 2015-11-24 2017-05-31 阿里巴巴集团控股有限公司 一种风险预测方法和设备
CN107391569B (zh) * 2017-06-16 2020-09-15 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
WO2016138041A2 (en) * 2015-02-23 2016-09-01 Cellanyx Diagnostics, Llc Cell imaging and analysis to differentiate clinically relevant sub-populations of cells
CN104794192A (zh) * 2015-04-17 2015-07-22 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN106503562A (zh) * 2015-09-06 2017-03-15 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN105279382A (zh) * 2015-11-10 2016-01-27 成都数联易康科技有限公司 一种医疗保险异常数据在线智能检测方法
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018228428A1 (zh) * 2017-06-16 2018-12-20 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
CN107944874B (zh) * 2017-12-13 2021-07-20 创新先进技术有限公司 基于迁移学习的风控方法、装置及系统
CN107944874A (zh) * 2017-12-13 2018-04-20 阿里巴巴集团控股有限公司 基于迁移学习的风控方法、装置及系统
CN108173708A (zh) * 2017-12-18 2018-06-15 北京天融信网络安全技术有限公司 基于增量学习的异常流量检测方法、装置及存储介质
CN108346098B (zh) * 2018-01-19 2022-05-31 创新先进技术有限公司 一种风控规则挖掘的方法及装置
CN108346098A (zh) * 2018-01-19 2018-07-31 阿里巴巴集团控股有限公司 一种风控规则挖掘的方法及装置
CN108304287A (zh) * 2018-01-22 2018-07-20 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN108304287B (zh) * 2018-01-22 2021-05-28 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN110472646B (zh) * 2018-05-09 2023-02-28 富士通株式会社 数据处理设备、数据处理方法及介质
CN110472646A (zh) * 2018-05-09 2019-11-19 富士通株式会社 数据处理设备、数据处理方法及介质
CN109145030A (zh) * 2018-06-26 2019-01-04 阿里巴巴集团控股有限公司 一种异常数据访问的检测方法和装置
CN109034209B (zh) * 2018-07-03 2021-07-30 创新先进技术有限公司 主动风险实时识别模型的训练方法和装置
CN109034209A (zh) * 2018-07-03 2018-12-18 阿里巴巴集团控股有限公司 主动风险实时识别模型的训练方法和装置
CN109190676A (zh) * 2018-08-06 2019-01-11 百度在线网络技术(北京)有限公司 模型训练方法、装置、设备及存储介质
CN109190676B (zh) * 2018-08-06 2022-11-08 百度在线网络技术(北京)有限公司 一种用于图像识别的模型训练方法、装置、设备及存储介质
WO2020082828A1 (zh) * 2018-10-22 2020-04-30 阿里巴巴集团控股有限公司 基于第二模型获取第一模型的训练样本的方法和装置
CN109461001A (zh) * 2018-10-22 2019-03-12 阿里巴巴集团控股有限公司 基于第二模型获取第一模型的训练样本的方法和装置
CN109461001B (zh) * 2018-10-22 2021-07-09 创新先进技术有限公司 基于第二模型获取第一模型的训练样本的方法和装置
CN110046632A (zh) * 2018-11-09 2019-07-23 阿里巴巴集团控股有限公司 模型训练方法和装置
CN110046632B (zh) * 2018-11-09 2023-06-02 创新先进技术有限公司 模型训练方法和装置
CN111275507A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 一种订单异常识别和订单风险管控的方法及其系统
CN109684118B (zh) * 2018-12-10 2022-04-26 深圳前海微众银行股份有限公司 异常数据的检测方法、装置、设备及计算机可读存储介质
CN109684118A (zh) * 2018-12-10 2019-04-26 深圳前海微众银行股份有限公司 异常数据的检测方法、装置、设备及计算机可读存储介质
CN113228077A (zh) * 2018-12-27 2021-08-06 未来集团股份有限公司 在协调响应于在政策下进行承保的请求的服务和/或支付中用于自动质量管理和识别错误、遗漏和/或偏差的系统、方法和平台
CN113228077B (zh) * 2018-12-27 2023-09-19 未来集团股份有限公司 在协调响应于在政策下进行承保的请求的服务和/或支付中用于自动质量管理和识别错误、遗漏和/或偏差的系统、方法和平台
CN109670267A (zh) * 2018-12-29 2019-04-23 北京航天数据股份有限公司 一种数据处理方法和装置
WO2020140678A1 (zh) * 2019-01-04 2020-07-09 深圳壹账通智能科技有限公司 异常申请检测方法、装置、计算机设备和存储介质
CN109992578B (zh) * 2019-01-07 2023-08-08 平安科技(深圳)有限公司 基于无监督学习的反欺诈方法、装置、计算机设备及存储介质
CN109992578A (zh) * 2019-01-07 2019-07-09 平安科技(深圳)有限公司 基于无监督学习的反欺诈方法、装置、计算机设备及存储介质
CN109905362B (zh) * 2019-01-08 2022-05-13 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
CN109905362A (zh) * 2019-01-08 2019-06-18 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
CN111667065A (zh) * 2019-03-05 2020-09-15 埃莱西株式会社 异常模式检测系统和方法
CN110363534A (zh) * 2019-06-28 2019-10-22 阿里巴巴集团控股有限公司 用于识别异常交易的方法及装置
CN112308104A (zh) * 2019-08-02 2021-02-02 杭州海康威视数字技术股份有限公司 异常识别方法、装置及计算机存储介质
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
CN110826621A (zh) * 2019-11-01 2020-02-21 北京芯盾时代科技有限公司 一种风险事件处理方法及装置
CN112861895B (zh) * 2019-11-27 2023-11-03 北京京东振世信息技术有限公司 一种异常物品的检测方法和装置
CN112861895A (zh) * 2019-11-27 2021-05-28 北京京东振世信息技术有限公司 一种异常物品的检测方法和装置
CN110941607A (zh) * 2019-12-10 2020-03-31 医渡云(北京)技术有限公司 脏数据的识别方法、装置、设备及存储介质
CN111126577A (zh) * 2020-03-30 2020-05-08 北京精诊医疗科技有限公司 一种针对不均衡样本的损失函数设计方法
CN111760292A (zh) * 2020-07-07 2020-10-13 网易(杭州)网络有限公司 采样数据的检测方法、装置及电子设备
CN112016600A (zh) * 2020-08-14 2020-12-01 中国石油大学(北京) 管道异常识别方法、装置及系统
CN111986027A (zh) * 2020-08-21 2020-11-24 腾讯科技(上海)有限公司 基于人工智能的异常交易处理方法、装置
CN112529109A (zh) * 2020-12-29 2021-03-19 四川长虹电器股份有限公司 一种基于无监督多模型的异常检测方法及系统
CN115277205A (zh) * 2022-07-28 2022-11-01 中国电信股份有限公司 模型训练方法及装置、端口的风险识别方法
CN115277205B (zh) * 2022-07-28 2024-05-14 中国电信股份有限公司 模型训练方法及装置、端口的风险识别方法
CN115238805A (zh) * 2022-07-29 2022-10-25 中国电信股份有限公司 异常数据识别模型的训练方法及相关设备
CN115238805B (zh) * 2022-07-29 2023-12-15 中国电信股份有限公司 异常数据识别模型的训练方法及相关设备

Also Published As

Publication number Publication date
US11113394B2 (en) 2021-09-07
US20200167466A1 (en) 2020-05-28
TWI664535B (zh) 2019-07-01
US11100220B2 (en) 2021-08-24
PH12019501621A1 (en) 2020-01-20
US20190303569A1 (en) 2019-10-03
MY201302A (en) 2024-02-15
SG11201906380PA (en) 2019-08-27
CN107391569B (zh) 2020-09-15
WO2018228428A1 (zh) 2018-12-20
TW201905728A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN107391569A (zh) 数据类型的识别、模型训练、风险识别方法、装置及设备
Dhankhad et al. Supervised machine learning algorithms for credit card fraudulent transaction detection: a comparative study
US20210350382A1 (en) Machine learning system for transaction reconciliation
Vuttipittayamongkol et al. Overlap-based undersampling for improving imbalanced data classification
CN108629168A (zh) 脸部验证方法、设备以及计算设备
Megdad et al. Fraudulent financial transactions detection using machine learning
CN107924491A (zh) 未知类别的检测和用于未知类别的分类器的初始化
CN108351985A (zh) 用于大规模机器学习的方法和装置
WO2015078018A1 (en) Method and system for face image recognition
US11501303B2 (en) Utilizing card movement data to identify fraudulent transactions
US20230252291A1 (en) Counter data generation for data profiling using only true samples
CN115147874A (zh) 用于生物特征信息伪造检测的方法和设备
CN109993229A (zh) 一种严重不平衡数据分类方法
CN108615144A (zh) 区块链节点的身份信息处理方法、装置及计算设备
CN107392018A (zh) 应用程序脱壳方法及装置
US20200302443A1 (en) Determining a body mass index of a user of a transaction device and verifying the user for utilization of the transaction device based on the body mass index
Aung et al. Random forest classifier for detecting credit card fraud based on performance metrics
CN108717511A (zh) 一种Android应用威胁度评估模型建立方法、评估方法及系统
Ojugo et al. Comparative stochastic study for credit-card fraud detection models
CN116361488A (zh) 一种基于知识图谱挖掘风险对象的方法及装置
CN108710800A (zh) 一种安卓应用程序的加壳识别方法
Pristyanto et al. Comparison of ensemble models as solutions for imbalanced class classification of datasets
Sandhya et al. Credit Card Fraud Detection using Machine Learning Algorithms
Islam et al. iNote: a low cost banknote recognition system for visually impaired persons
Chhabra et al. A voting ensemble machine learning based credit card fraud detection using highly imbalance data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.