CN107657453B - 欺诈数据的识别方法及装置 - Google Patents

欺诈数据的识别方法及装置 Download PDF

Info

Publication number
CN107657453B
CN107657453B CN201610589290.7A CN201610589290A CN107657453B CN 107657453 B CN107657453 B CN 107657453B CN 201610589290 A CN201610589290 A CN 201610589290A CN 107657453 B CN107657453 B CN 107657453B
Authority
CN
China
Prior art keywords
data
training
model
tested
fraud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610589290.7A
Other languages
English (en)
Other versions
CN107657453A (zh
Inventor
莫涛
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201610589290.7A priority Critical patent/CN107657453B/zh
Publication of CN107657453A publication Critical patent/CN107657453A/zh
Application granted granted Critical
Publication of CN107657453B publication Critical patent/CN107657453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Pinball Game Machines (AREA)

Abstract

本发明公开了一种欺诈数据的识别方法,包括:采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。本发明还公开了一种欺诈数据的识别装置。本发明由于针对待测试数据中欺诈数据为不均衡数据的特征,采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别,相比普通单模型能提高欺诈数据的识别精度和召回率,更加精确地判断欺诈案例,从而缩小人工审查的范围和成本。

Description

欺诈数据的识别方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种欺诈数据的识别方法及装置。
背景技术
目前,对于一些容易出现的欺诈行为需对其中的欺诈数据进行分析、识别,例如像社保医疗报销体系中存在一些恶意或者非法的刷卡、报销行为,这些行为的存在会浪费医疗资源,激化社会矛盾。对于成千上万的医疗账单报销,很难通过有限的人力资源进行逐一的筛查。而且,这些数据为不均衡数据,即欺诈交易数据相对稀少,而现今对于欺诈数据挖掘和预测运用的普通单模型仅利用最大准确率作为判断标准,在欺诈交易数据相对于正常交易数据的比例非常稀少时,普通单模型对需判断欺诈的数据集的正确估计率都较高,使得数据集中的欺诈交易数据很难被识别及显示出来,从而使得模型对欺诈交易数据的识别精度和召回率偏低。
发明内容
本发明的主要目的在于提供一种欺诈数据的识别方法及装置,旨在提高欺诈数据的识别精度。
为实现上述目的,本发明提供的一种欺诈数据的识别方法,所述方法包括以下步骤:
A、采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;
B、基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。
优选地,所述连续型反欺诈模型为直接连续型模型,所述步骤A替换为:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的训练集和测试集;
依次重复划分训练集至预设次数;
分别利用划分的多层训练集,使用预设的经典模型来训练模型,并在保留的多层测试集上进行测试,建立直接连续型模型。
优选地,所述步骤B替换为:
对待测试数据进行与所述训练数据集中训练集比例相同的多层划分,并利用所述直接连续型模型对多层划分后的待测试数据分别进行训练,识别所述待测试数据中的欺诈数据。
优选地,所述连续型反欺诈模型为优化连续型模型,所述步骤A替换为:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型。
优选地,所述步骤B替换为:
在待测试数据上利用所述优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
优选地,所述步骤B之后还包括:
C、对所述欺诈数据的类型和/或来源进行标记。
此外,为实现上述目的,本发明还提供一种欺诈数据的识别装置,所述欺诈数据的识别装置包括:
建模模块,用于采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;
识别模块,用于基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。
优选地,所述建模模块还用于:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的训练集和测试集;
依次重复划分训练集至预设次数;
分别利用划分的多层训练集,使用预设的经典模型来训练模型,并在保留的多层测试集上进行测试,建立直接连续型模型。
优选地,所述识别模块还用于:
对待测试数据进行与所述训练数据集中训练集比例相同的划分,并利用所述直接连续型模型对划分后的待测试数据分别进行训练,识别所述待测试数据中的欺诈数据。
优选地,所述建模模块还用于:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型。
优选地,所述识别模块还用于:
在待测试数据上利用所述优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
优选地,所述欺诈数据的识别装置还包括:
标记模块,用于对所述欺诈数据的类型和/或来源进行标记。
本发明提出的一种欺诈数据的识别方法及装置,采用预设的连续型模型训练方式建立连续型反欺诈模型,利用建立的连续型反欺诈模型来对待测试数据进行训练,识别所述待测试数据中的欺诈数据。由于针对待测试数据中欺诈数据为不均衡数据的特征,采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别,相比普通单模型能提高欺诈数据的识别精度和召回率,更加精确地判断欺诈案例,从而缩小人工审查的范围和成本。
附图说明
图1为本发明欺诈数据的识别方法第一实施例的流程示意图;
图2为本发明欺诈数据的识别方法第二实施例的流程示意图;
图3为本发明欺诈数据的识别装置第一实施例的功能模块示意图;
图4为本发明欺诈数据的识别装置第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种欺诈数据的识别方法。
参照图1,图1为本发明欺诈数据的识别方法第一实施例的流程示意图。
在第一实施例中,该欺诈数据的识别方法包括:
步骤S10,采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;
本实施例中,首先采用预设的连续型模型训练方式,结合决策树、随机森林等数据分析理论以及R、SAS等数据分析工具,对预设的训练数据集进行训练来建立连续型反欺诈模型。如可将预设的训练数据集分为多个组,分别进行训练和中间测试,以建立连续型反欺诈模型。在利用预设的连续型模型训练方式来进行训练时,在一种实施方式中,可将预设的训练数据集分为多个组,分别在每一组中进行模型训练及测试,每一组的训练结果相对独立,互不影响,再将每一组经训练、测试后得到的模型进行整合,得到最终的连续型反欺诈模型。
在另一种实施方式中,可将预设的训练数据集分为多个组,依次对每一组进行模型训练及测试,将上一组模型训练及测试的结果作为下一组模型训练及测试的基础,即上下两组的训练结果相互关联,在整个训练过程中,模型能得到不断的优化、改进,得到最终的连续型反欺诈模型。
当然,也不限定采用其他的模型训练方式对预设的训练数据集进行训练,来建立连续型反欺诈模型。
步骤S20,基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。
在建立连续型反欺诈模型之后,即可利用建立的连续型反欺诈模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。如可按建立连续型反欺诈模型时对预设的训练数据集的测试方式,以相同或相似的测试方式对需识别的待测试数据套用建立的连续型反欺诈模型进行训练、测试,根据训练、测试的结果识别出所述待测试数据中的欺诈数据。
由于在一些容易出现欺诈行为的场景如社保恶意报销等场景中,欺诈数据在整个社保大数据中的占比极其小,即欺诈数据存在大量的不均衡性,而若采用普通单模型来识别其中的欺诈数据,则会因为欺诈数据的不均衡特性,使得识别的精度和召回率偏低。因此,本实施例中针对欺诈数据的不均衡特性,建立连续型反欺诈模型来对待测试数据进行识别,如可同时利用多种模型共同投票的方法来进行欺诈数据的识别,能有效提高欺诈数据的识别精度和召回率,能够更加精确地判断欺诈案例从而缩小人工审查的范围和成本。
本实施例采用预设的连续型模型训练方式建立连续型反欺诈模型,利用建立的连续型反欺诈模型来对待测试数据进行训练,识别所述待测试数据中的欺诈数据。由于针对待测试数据中欺诈数据为不均衡数据的特征,采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别,相比普通单模型能提高欺诈数据的识别精度和召回率,更加精确地判断欺诈案例,从而缩小人工审查的范围和成本。
进一步地,在其他实施例中,对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用直接连续型模型,上述步骤S10可以替换为:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的训练集和测试集;
依次重复划分训练集至预设次数;
分别利用划分的多层训练集,使用预设的经典模型来训练模型,并在保留的多层测试集上进行测试,建立直接连续型模型。
本实施例中,可进行N重连续型模型的训练来建立直接连续型模型,其中,N为大于等于2的正整数,如可按以下步骤进行直接连续型模型的训练:
第一步:按照一定的预设比例分解预设的训练数据集为训练集Train_set和测试集Test_set,保留测试集Test_set。
第二步:按照一定的预设比例对训练集Train_set进行进一步分解为两个子训练集Train_set11和Train_set12,将两个子训练集Train_set11和Train_set12分别作为下一层模型的训练集和测试集。
重复第二步划分训练集至一定的预设次数。
第三步:分别利用N层训练集使用预设的常用经典模型来训练模型并进行参数调优,在N层测试集上进行测试,进行参数调优并保留模型。其中,该经典模型包括但不限于决策树模型、随机森林模型等。
第四步:对保留的模型进行收集整理并调优,获取直接连续型模型。
进一步地,上述步骤S20可以替换为:
对待测试数据进行与所述训练数据集中训练集比例相同的多层划分,并利用所述直接连续型模型对多层划分后的待测试数据分别进行训练,识别所述待测试数据中的欺诈数据。
在建立直接连续型模型之后,可利用建立的直接连续型模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。具体地,可对需进行欺诈识别的待测试数据进行与建立模型时重复多次划分训练集比例相同的随机分割,再利用建立的直接连续型模型对与所述训练数据集中训练集比例相同的多层划分后的所述待测试数据分别进行对应的模型训练,汇总对多层划分后的所述待测试数据分别进行对应模型训练的训练结果。根据该训练结果可获取对多层划分后的所述待测试数据分别进行对应模型训练后每一层中测试识别的欺诈数据,将每一层中测试识别的欺诈数据进行汇总即可获取最终所述待测试数据中的欺诈数据。
进一步地,在其他实施例中,对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用优化连续型模型,上述步骤S10可以替换为:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型。
本实施例中,可进行N重连续型模型的训练来建立优化连续型模型,如可按以下步骤进行优化连续型模型的训练:
第一步:按照一定的预设比例分解预设的训练数据集为训练集Train_set和测试集Test_set,保留测试集Test_set。
第二步:按照一定的预设比例对训练集Train_set进行进一步分解为两个子训练集Train_set11和Train_set12,将两个子训练集Train_set11和Train_set12分别作为下一层模型的下层训练集和下层测试集。
第三步:利用下层训练集Train_set11作为训练集来训练模型并调优,在下层测试集Train_set12上进行测试,根据测试结果获取阳性样本并保留模型。
第四步:提取第三步中得到的阳性样本组成训练集。
第五步:重复第二步至第四部直至第N重模型已经构建或者阳性样本数量为零,其中,N为大于等于2的正整数。
第六步:对构建的N重模型即多重训练模型进行收集整理并调优,获取优化连续型模型。
进一步地,上述步骤S20可以替换为:
在待测试数据上利用优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
在建立优化连续型模型之后,可利用建立的优化连续型模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。具体地,可直接在待测试数据上利用建立的优化连续型模型进行自上而下的预测,保留该优化连续型模型对待测试数据进行预测过程中的阳性样本,循环直到该优化连续型模型的第N重模型,将每一重模型对待测试数据预测的阳性样本进行汇总即可获取最终所述待测试数据中的欺诈数据。
如图2所示,本发明第二实施例提出一种欺诈数据的识别方法,在上述实施例的基础上,在上述步骤S20之后还包括:
步骤S30,对所述欺诈数据的类型和/或来源进行标记。
本实施例中,在利用建立的连续型反欺诈模型识别出待测试数据中的欺诈数据之后,进一步地,还对识别出的欺诈数据的类型和/或来源进行标记,以标明欺诈数据的特征类型和/或来源,使得相关审查部门或相关工作人员对与已标记欺诈数据的类型、来源相同或相似的其他数据进行重点识别,缩小人工审查范围。例如社保医疗报销体系中存在一些恶意或者非法的刷卡、报销行为。在利用建立的连续型反欺诈模型识别出待测试的社保医疗报销数据中的欺诈数据之后,可对识别出的欺诈数据的类型和/或来源进行标记,如标记为中药、西药、诊疗等。这样,社保部门即可将中药、西药、诊疗作为可能出现虚假报销的高危区域进行严格管控,从而减少审查范围,提高欺诈数据识别的精度和效率。
本发明进一步提供一种欺诈数据的识别装置。
参照图3,图3为本发明欺诈数据的识别装置第一实施例的功能模块示意图。
在第一实施例中,该欺诈数据的识别装置包括:
建模模块01,用于采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;
本实施例中,首先采用预设的连续型模型训练方式,结合决策树、随机森林等数据分析理论以及R、SAS等数据分析工具,对预设的训练数据集进行训练来建立连续型反欺诈模型。如可将预设的训练数据集分为多个组,分别进行训练和中间测试,以建立连续型反欺诈模型。
在利用预设的连续型模型训练方式来进行训练时,在一种实施方式中,可将预设的训练数据集分为多个组,分别在每一组中进行模型训练及测试,每一组的训练结果相对独立,互不影响,再将每一组经训练、测试后得到的模型进行整合,得到最终的连续型反欺诈模型。
在另一种实施方式中,可将预设的训练数据集分为多个组,依次对每一组进行模型训练及测试,将上一组模型训练及测试的结果作为下一组模型训练及测试的基础,即上下两组的训练结果相互关联,在整个训练过程中,模型能得到不断的优化、改进,得到最终的连续型反欺诈模型。
当然,也不限定采用其他的模型训练方式对预设的训练数据集进行训练,来建立连续型反欺诈模型。
识别模块02,用于基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。
在建立连续型反欺诈模型之后,即可利用建立的连续型反欺诈模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。如可按建立连续型反欺诈模型时对预设的训练数据集的测试方式,以相同或相似的测试方式对需识别的待测试数据套用建立的连续型反欺诈模型进行训练、测试,根据训练、测试的结果识别出所述待测试数据中的欺诈数据。
由于在一些容易出现欺诈行为的场景如社保恶意报销等场景中,欺诈数据在整个社保大数据中的占比极其小,即欺诈数据存在大量的不均衡性,而若采用普通单模型来识别其中的欺诈数据,则会因为欺诈数据的不均衡特性,使得识别的精度和召回率偏低。因此,本实施例中针对欺诈数据的不均衡特性,建立连续型反欺诈模型来对待测试数据进行识别,如可同时利用多种模型共同投票的方法来进行欺诈数据的识别,能有效提高欺诈数据的识别精度和召回率,能够更加精确地判断欺诈案例从而缩小人工审查的范围和成本。
本实施例采用预设的连续型模型训练方式建立连续型反欺诈模型,利用建立的连续型反欺诈模型来对待测试数据进行训练,识别所述待测试数据中的欺诈数据。由于针对待测试数据中欺诈数据为不均衡数据的特征,采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别,相比普通单模型能提高欺诈数据的识别精度和召回率,更加精确地判断欺诈案例,从而缩小人工审查的范围和成本。
进一步地,在其他实施例中,对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用直接连续型模型,上述建模模块01还用于:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的训练集和测试集;
依次重复划分训练集至预设次数;
分别利用划分的多层训练集,使用预设的经典模型来训练模型,并在保留的多层测试集上进行测试,建立直接连续型模型。
本实施例中,可进行N重连续型模型的训练来建立直接连续型模型,其中,N为大于等于2的正整数,如可按以下步骤进行直接连续型模型的训练:
第一步:按照一定的预设比例分解预设的训练数据集为训练集Train_set和测试集Test_set,保留测试集Test_set。
第二步:按照一定的预设比例对训练集Train_set进行进一步分解为两个子训练集Train_set11和Train_set12,将两个子训练集Train_set11和Train_set12分别作为下一层模型的训练集和测试集。
重复第二步划分训练集至一定的预设次数。
第三步:分别利用N层训练集使用预设的常用经典模型来训练模型并进行参数调优,在N层测试集上进行测试,进行参数调优并保留模型。其中,该经典模型包括但不限于决策树模型、随机森林模型等。
第四步:对保留的模型进行收集整理并调优,获取直接连续型模型。
进一步地,上述识别模块02还用于:
对待测试数据进行与所述训练数据集中训练集比例相同的多层划分,并利用所述直接连续型模型对多层划分后的待测试数据分别进行训练,识别所述待测试数据中的欺诈数据。
在建立直接连续型模型之后,可利用建立的直接连续型模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。具体地,可对需进行欺诈识别的待测试数据进行与建立模型时重复多次划分训练集比例相同的随机分割,再利用建立的直接连续型模型对与所述训练数据集中训练集比例相同的多层划分后的所述待测试数据分别进行对应的模型训练,汇总对多层划分后的所述待测试数据分别进行对应模型训练的训练结果。根据该训练结果可获取对多层划分后的所述待测试数据分别进行对应模型训练后每一层中测试识别的欺诈数据,将每一层中测试识别的欺诈数据进行汇总即可获取最终所述待测试数据中的欺诈数据。
进一步地,在其他实施例中,对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用优化连续型模型,上述建模模块01还用于:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型。
本实施例中,可进行N重连续型模型的训练来建立优化连续型模型,如可按以下步骤进行优化连续型模型的训练:
第一步:按照一定的预设比例分解预设的训练数据集为训练集Train_set和测试集Test_set,保留测试集Test_set。
第二步:按照一定的预设比例对训练集Train_set进行进一步分解为两个子训练集Train_set11和Train_set12,将两个子训练集Train_set11和Train_set12分别作为下一层模型的下层训练集和下层测试集。
第三步:利用下层训练集Train_set11作为训练集来训练模型并调优,在下层测试集Train_set12上进行测试,根据测试结果获取阳性样本并保留模型。
第四步:提取第三步中得到的阳性样本组成训练集。
第五步:重复第二步至第四部直至第N重模型已经构建或者阳性样本数量为零,其中,N为大于等于2的正整数。
第六步:对构建的N重模型即多重训练模型进行收集整理并调优,获取优化连续型模型。
进一步地,上述识别模块02还用于:
在待测试数据上利用优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
在建立优化连续型模型之后,可利用建立的优化连续型模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。具体地,可直接在待测试数据上利用建立的优化连续型模型进行自上而下的预测,保留该优化连续型模型对待测试数据进行预测过程中的阳性样本,循环直到该优化连续型模型的第N重模型,将每一重模型对待测试数据预测的阳性样本进行汇总即可获取最终所述待测试数据中的欺诈数据。
如图4所示,本发明第二实施例提出一种欺诈数据的识别装置,在上述实施例的基础上,还包括:
标记模块03,用于对所述欺诈数据的类型和/或来源进行标记。
本实施例中,在利用建立的连续型反欺诈模型识别出待测试数据中的欺诈数据之后,进一步地,还对识别出的欺诈数据的类型和/或来源进行标记,以标明欺诈数据的特征类型和/或来源,使得相关审查部门或相关工作人员对与已标记欺诈数据的类型、来源相同或相似的其他数据进行重点识别,缩小人工审查范围。例如社保医疗报销体系中存在一些恶意或者非法的刷卡、报销行为。在利用建立的连续型反欺诈模型识别出待测试的社保医疗报销数据中的欺诈数据之后,可对识别出的欺诈数据的类型和/或来源进行标记,如标记为中药、西药、诊疗等。这样,社保部门即可将中药、西药、诊疗作为可能出现虚假报销的高危区域进行严格管控,从而减少审查范围,提高欺诈数据识别的精度和效率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种欺诈数据的识别方法,其特征在于,所述方法包括以下步骤:
A、将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型;
B、基于所述优化连续型模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据,所述基于所述优化连续型模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据包括:在待测试数据上利用建立的优化连续型模型进行自上而下的预测,保留该优化连续型模型对待测试数据进行预测过程中的阳性样本,循环直到该优化连续型模型的第N重模型,将每一重模型对待测试数据预测的阳性样本进行汇总,得到所述待测试数据中的欺诈数据。
2.如权利要求1所述的欺诈数据的识别方法,其特征在于,所述步骤B替换为:
在待测试数据上利用所述优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
3.如权利要求1至2中任意一项所述的欺诈数据的识别方法,其特征在于,所述步骤B之后还包括:
C、对所述欺诈数据的类型和/或来源进行标记。
4.一种欺诈数据的识别装置,其特征在于,所述欺诈数据的识别装置包括:
建模模块,用于将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型;
识别模块,用于基于所述优化连续型模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据,所述基于所述优化连续型模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据包括:在待测试数据上利用建立的优化连续型模型进行自上而下的预测,保留该优化连续型模型对待测试数据进行预测过程中的阳性样本,循环直到该优化连续型模型的第N重模型,将每一重模型对待测试数据预测的阳性样本进行汇总,得到所述待测试数据中的欺诈数据。
5.如权利要求4所述的欺诈数据的识别装置,其特征在于,所述识别模块还用于:
在待测试数据上利用所述优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
6.如权利要求4至5中任意一项所述的欺诈数据的识别装置,其特征在于,还包括:
标记模块,用于对所述欺诈数据的类型和/或来源进行标记。
CN201610589290.7A 2016-07-25 2016-07-25 欺诈数据的识别方法及装置 Active CN107657453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610589290.7A CN107657453B (zh) 2016-07-25 2016-07-25 欺诈数据的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610589290.7A CN107657453B (zh) 2016-07-25 2016-07-25 欺诈数据的识别方法及装置

Publications (2)

Publication Number Publication Date
CN107657453A CN107657453A (zh) 2018-02-02
CN107657453B true CN107657453B (zh) 2020-10-20

Family

ID=61127150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610589290.7A Active CN107657453B (zh) 2016-07-25 2016-07-25 欺诈数据的识别方法及装置

Country Status (1)

Country Link
CN (1) CN107657453B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785058A (zh) * 2017-07-24 2018-03-09 平安科技(深圳)有限公司 反欺诈识别方法、存储介质和承载平安脑的服务器
CN109413031B (zh) * 2018-08-31 2022-04-15 深圳壹账通智能科技有限公司 反欺诈模型的构建方法、装置、设备及可读存储介质
CN109410029A (zh) * 2018-09-04 2019-03-01 深圳市佰仟金融服务有限公司 一种面向金融领域的反欺诈调查方法及系统
CN113469695B (zh) * 2020-03-30 2023-06-30 同济大学 基于核监督哈希模型的电子欺诈交易识别方法、系统、装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6513025B1 (en) * 1999-12-09 2003-01-28 Teradyne, Inc. Multistage machine learning process
CN105095238B (zh) * 2014-05-04 2019-01-18 中国银联股份有限公司 用于检测欺诈交易的决策树生成方法
CN105787743A (zh) * 2016-02-26 2016-07-20 中国银联股份有限公司 基于样本聚类的欺诈交易检测方法

Also Published As

Publication number Publication date
CN107657453A (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN107657453B (zh) 欺诈数据的识别方法及装置
CN111079755B (zh) 一种财务报销数据处理方法、装置及系统
CN107423613A (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN108038052A (zh) 自动化测试管理方法、装置、终端设备及存储介质
CN109919781A (zh) 团伙欺诈案件识别方法、电子装置及计算机可读存储介质
CN105446741B (zh) 一种基于api比对的移动应用程序辨识方法
CN112966583A (zh) 图像处理方法、装置、计算机设备和存储介质
CN107437088B (zh) 文件识别方法和装置
CN111985789A (zh) 一种车载终端信息安全威胁分析和风险评估系统及方法
CN109710240A (zh) 流程图分解方法及系统
CN113516417A (zh) 基于智能建模的业务评估方法、装置、电子设备及介质
CN109413047A (zh) 行为模拟的判定方法、系统、服务器及存储介质
CN114021440B (zh) 一种基于matlab的fpga时序仿真验证方法及装置
CN114005530A (zh) 区域内医学重复检查、检验智能提醒与监管方法及系统
CN109800797A (zh) 基于ai的文件黑白判断方法、装置及设备
CN116842240B (zh) 一种基于全链路治理管控的数据治理系统
CN106936561B (zh) 一种侧信道攻击防护能力评估方法和系统
CN116910650A (zh) 数据识别方法、装置、存储介质及计算机设备
CN114971642A (zh) 基于知识图谱的异常识别方法、装置、设备及存储介质
CN110310897A (zh) 基于空间密度分析的半导体晶片的引导检查
CN115696337A (zh) 一种移动终端安全监测分析方法及装置
CN105733921A (zh) 下一代测序分析系统及其下一代测序分析方法
CN110458707B (zh) 基于分类模型的行为评估方法、装置及终端设备
CN111831904A (zh) 一种旅客行为数据分析方法及系统
CN110889103B (zh) 滑块验证的方法和系统及其模型训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant