CN107657453A - 欺诈数据的识别方法及装置 - Google Patents
欺诈数据的识别方法及装置 Download PDFInfo
- Publication number
- CN107657453A CN107657453A CN201610589290.7A CN201610589290A CN107657453A CN 107657453 A CN107657453 A CN 107657453A CN 201610589290 A CN201610589290 A CN 201610589290A CN 107657453 A CN107657453 A CN 107657453A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- model
- test
- tested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 259
- 238000012360 testing method Methods 0.000 claims abstract description 137
- 238000005457 optimization Methods 0.000 claims description 29
- 239000012141 concentrate Substances 0.000 claims description 4
- 238000012552 review Methods 0.000 abstract description 8
- 239000003814 drug Substances 0.000 description 8
- 230000006399 behavior Effects 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 241000209202 Bromus secalinus Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Pinball Game Machines (AREA)
Abstract
本发明公开了一种欺诈数据的识别方法,包括:采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。本发明还公开了一种欺诈数据的识别装置。本发明由于针对待测试数据中欺诈数据为不均衡数据的特征,采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别,相比普通单模型能提高欺诈数据的识别精度和召回率,更加精确地判断欺诈案例,从而缩小人工审查的范围和成本。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种欺诈数据的识别方法及装置。
背景技术
目前,对于一些容易出现的欺诈行为需对其中的欺诈数据进行分析、识别,例如像社保医疗报销体系中存在一些恶意或者非法的刷卡、报销行为,这些行为的存在会浪费医疗资源,激化社会矛盾。对于成千上万的医疗账单报销,很难通过有限的人力资源进行逐一的筛查。而且,这些数据为不均衡数据,即欺诈交易数据相对稀少,而现今对于欺诈数据挖掘和预测运用的普通单模型仅利用最大准确率作为判断标准,在欺诈交易数据相对于正常交易数据的比例非常稀少时,普通单模型对需判断欺诈的数据集的正确估计率都较高,使得数据集中的欺诈交易数据很难被识别及显示出来,从而使得模型对欺诈交易数据的识别精度和召回率偏低。
发明内容
本发明的主要目的在于提供一种欺诈数据的识别方法及装置,旨在提高欺诈数据的识别精度。
为实现上述目的,本发明提供的一种欺诈数据的识别方法,所述方法包括以下步骤:
A、采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;
B、基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。
优选地,所述连续型反欺诈模型为直接连续型模型,所述步骤A替换为:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的训练集和测试集;
依次重复划分训练集至预设次数;
分别利用划分的多层训练集,使用预设的经典模型来训练模型,并在保留的多层测试集上进行测试,建立直接连续型模型。
优选地,所述步骤B替换为:
对待测试数据进行与所述训练数据集中训练集比例相同的多层划分,并利用所述直接连续型模型对多层划分后的待测试数据分别进行训练,识别所述待测试数据中的欺诈数据。
优选地,所述连续型反欺诈模型为优化连续型模型,所述步骤A替换为:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型。
优选地,所述步骤B替换为:
在待测试数据上利用所述优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
优选地,所述步骤B之后还包括:
C、对所述欺诈数据的类型和/或来源进行标记。
此外,为实现上述目的,本发明还提供一种欺诈数据的识别装置,所述欺诈数据的识别装置包括:
建模模块,用于采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;
识别模块,用于基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。
优选地,所述建模模块还用于:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的训练集和测试集;
依次重复划分训练集至预设次数;
分别利用划分的多层训练集,使用预设的经典模型来训练模型,并在保留的多层测试集上进行测试,建立直接连续型模型。
优选地,所述识别模块还用于:
对待测试数据进行与所述训练数据集中训练集比例相同的划分,并利用所述直接连续型模型对划分后的待测试数据分别进行训练,识别所述待测试数据中的欺诈数据。
优选地,所述建模模块还用于:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型。
优选地,所述识别模块还用于:
在待测试数据上利用所述优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
优选地,所述欺诈数据的识别装置还包括:
标记模块,用于对所述欺诈数据的类型和/或来源进行标记。
本发明提出的一种欺诈数据的识别方法及装置,采用预设的连续型模型训练方式建立连续型反欺诈模型,利用建立的连续型反欺诈模型来对待测试数据进行训练,识别所述待测试数据中的欺诈数据。由于针对待测试数据中欺诈数据为不均衡数据的特征,采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别,相比普通单模型能提高欺诈数据的识别精度和召回率,更加精确地判断欺诈案例,从而缩小人工审查的范围和成本。
附图说明
图1为本发明欺诈数据的识别方法第一实施例的流程示意图;
图2为本发明欺诈数据的识别方法第二实施例的流程示意图;
图3为本发明欺诈数据的识别装置第一实施例的功能模块示意图;
图4为本发明欺诈数据的识别装置第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种欺诈数据的识别方法。
参照图1,图1为本发明欺诈数据的识别方法第一实施例的流程示意图。
在第一实施例中,该欺诈数据的识别方法包括:
步骤S10,采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;
本实施例中,首先采用预设的连续型模型训练方式,结合决策树、随机森林等数据分析理论以及R、SAS等数据分析工具,对预设的训练数据集进行训练来建立连续型反欺诈模型。如可将预设的训练数据集分为多个组,分别进行训练和中间测试,以建立连续型反欺诈模型。在利用预设的连续型模型训练方式来进行训练时,在一种实施方式中,可将预设的训练数据集分为多个组,分别在每一组中进行模型训练及测试,每一组的训练结果相对独立,互不影响,再将每一组经训练、测试后得到的模型进行整合,得到最终的连续型反欺诈模型。
在另一种实施方式中,可将预设的训练数据集分为多个组,依次对每一组进行模型训练及测试,将上一组模型训练及测试的结果作为下一组模型训练及测试的基础,即上下两组的训练结果相互关联,在整个训练过程中,模型能得到不断的优化、改进,得到最终的连续型反欺诈模型。
当然,也不限定采用其他的模型训练方式对预设的训练数据集进行训练,来建立连续型反欺诈模型。
步骤S20,基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。
在建立连续型反欺诈模型之后,即可利用建立的连续型反欺诈模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。如可按建立连续型反欺诈模型时对预设的训练数据集的测试方式,以相同或相似的测试方式对需识别的待测试数据套用建立的连续型反欺诈模型进行训练、测试,根据训练、测试的结果识别出所述待测试数据中的欺诈数据。
由于在一些容易出现欺诈行为的场景如社保恶意报销等场景中,欺诈数据在整个社保大数据中的占比极其小,即欺诈数据存在大量的不均衡性,而若采用普通单模型来识别其中的欺诈数据,则会因为欺诈数据的不均衡特性,使得识别的精度和召回率偏低。因此,本实施例中针对欺诈数据的不均衡特性,建立连续型反欺诈模型来对待测试数据进行识别,如可同时利用多种模型共同投票的方法来进行欺诈数据的识别,能有效提高欺诈数据的识别精度和召回率,能够更加精确地判断欺诈案例从而缩小人工审查的范围和成本。
本实施例采用预设的连续型模型训练方式建立连续型反欺诈模型,利用建立的连续型反欺诈模型来对待测试数据进行训练,识别所述待测试数据中的欺诈数据。由于针对待测试数据中欺诈数据为不均衡数据的特征,采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别,相比普通单模型能提高欺诈数据的识别精度和召回率,更加精确地判断欺诈案例,从而缩小人工审查的范围和成本。
进一步地,在其他实施例中,对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用直接连续型模型,上述步骤S10可以替换为:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的训练集和测试集;
依次重复划分训练集至预设次数;
分别利用划分的多层训练集,使用预设的经典模型来训练模型,并在保留的多层测试集上进行测试,建立直接连续型模型。
本实施例中,可进行N重连续型模型的训练来建立直接连续型模型,其中,N为大于等于2的正整数,如可按以下步骤进行直接连续型模型的训练:
第一步:按照一定的预设比例分解预设的训练数据集为训练集Train_set和测试集Test_set,保留测试集Test_set。
第二步:按照一定的预设比例对训练集Train_set进行进一步分解为两个子训练集Train_set11和Train_set12,将两个子训练集Train_set11和Train_set12分别作为下一层模型的训练集和测试集。
重复第二步划分训练集至一定的预设次数。
第三步:分别利用N层训练集使用预设的常用经典模型来训练模型并进行参数调优,在N层测试集上进行测试,进行参数调优并保留模型。其中,该经典模型包括但不限于决策树模型、随机森林模型等。
第四步:对保留的模型进行收集整理并调优,获取直接连续型模型。
进一步地,上述步骤S20可以替换为:
对待测试数据进行与所述训练数据集中训练集比例相同的多层划分,并利用所述直接连续型模型对多层划分后的待测试数据分别进行训练,识别所述待测试数据中的欺诈数据。
在建立直接连续型模型之后,可利用建立的直接连续型模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。具体地,可对需进行欺诈识别的待测试数据进行与建立模型时重复多次划分训练集比例相同的随机分割,再利用建立的直接连续型模型对与所述训练数据集中训练集比例相同的多层划分后的所述待测试数据分别进行对应的模型训练,汇总对多层划分后的所述待测试数据分别进行对应模型训练的训练结果。根据该训练结果可获取对多层划分后的所述待测试数据分别进行对应模型训练后每一层中测试识别的欺诈数据,将每一层中测试识别的欺诈数据进行汇总即可获取最终所述待测试数据中的欺诈数据。
进一步地,在其他实施例中,对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用优化连续型模型,上述步骤S10可以替换为:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型。
本实施例中,可进行N重连续型模型的训练来建立优化连续型模型,如可按以下步骤进行优化连续型模型的训练:
第一步:按照一定的预设比例分解预设的训练数据集为训练集Train_set和测试集Test_set,保留测试集Test_set。
第二步:按照一定的预设比例对训练集Train_set进行进一步分解为两个子训练集Train_set11和Train_set12,将两个子训练集Train_set11和Train_set12分别作为下一层模型的下层训练集和下层测试集。
第三步:利用下层训练集Train_set11作为训练集来训练模型并调优,在下层测试集Train_set12上进行测试,根据测试结果获取阳性样本并保留模型。
第四步:提取第三步中得到的阳性样本组成训练集。
第五步:重复第二步至第四部直至第N重模型已经构建或者阳性样本数量为零,其中,N为大于等于2的正整数。
第六步:对构建的N重模型即多重训练模型进行收集整理并调优,获取优化连续型模型。
进一步地,上述步骤S20可以替换为:
在待测试数据上利用优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
在建立优化连续型模型之后,可利用建立的优化连续型模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。具体地,可直接在待测试数据上利用建立的优化连续型模型进行自上而下的预测,保留该优化连续型模型对待测试数据进行预测过程中的阳性样本,循环直到该优化连续型模型的第N重模型,将每一重模型对待测试数据预测的阳性样本进行汇总即可获取最终所述待测试数据中的欺诈数据。
如图2所示,本发明第二实施例提出一种欺诈数据的识别方法,在上述实施例的基础上,在上述步骤S20之后还包括:
步骤S30,对所述欺诈数据的类型和/或来源进行标记。
本实施例中,在利用建立的连续型反欺诈模型识别出待测试数据中的欺诈数据之后,进一步地,还对识别出的欺诈数据的类型和/或来源进行标记,以标明欺诈数据的特征类型和/或来源,使得相关审查部门或相关工作人员对与已标记欺诈数据的类型、来源相同或相似的其他数据进行重点识别,缩小人工审查范围。例如社保医疗报销体系中存在一些恶意或者非法的刷卡、报销行为。在利用建立的连续型反欺诈模型识别出待测试的社保医疗报销数据中的欺诈数据之后,可对识别出的欺诈数据的类型和/或来源进行标记,如标记为中药、西药、诊疗等。这样,社保部门即可将中药、西药、诊疗作为可能出现虚假报销的高危区域进行严格管控,从而减少审查范围,提高欺诈数据识别的精度和效率。
本发明进一步提供一种欺诈数据的识别装置。
参照图3,图3为本发明欺诈数据的识别装置第一实施例的功能模块示意图。
在第一实施例中,该欺诈数据的识别装置包括:
建模模块01,用于采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;
本实施例中,首先采用预设的连续型模型训练方式,结合决策树、随机森林等数据分析理论以及R、SAS等数据分析工具,对预设的训练数据集进行训练来建立连续型反欺诈模型。如可将预设的训练数据集分为多个组,分别进行训练和中间测试,以建立连续型反欺诈模型。
在利用预设的连续型模型训练方式来进行训练时,在一种实施方式中,可将预设的训练数据集分为多个组,分别在每一组中进行模型训练及测试,每一组的训练结果相对独立,互不影响,再将每一组经训练、测试后得到的模型进行整合,得到最终的连续型反欺诈模型。
在另一种实施方式中,可将预设的训练数据集分为多个组,依次对每一组进行模型训练及测试,将上一组模型训练及测试的结果作为下一组模型训练及测试的基础,即上下两组的训练结果相互关联,在整个训练过程中,模型能得到不断的优化、改进,得到最终的连续型反欺诈模型。
当然,也不限定采用其他的模型训练方式对预设的训练数据集进行训练,来建立连续型反欺诈模型。
识别模块02,用于基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。
在建立连续型反欺诈模型之后,即可利用建立的连续型反欺诈模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。如可按建立连续型反欺诈模型时对预设的训练数据集的测试方式,以相同或相似的测试方式对需识别的待测试数据套用建立的连续型反欺诈模型进行训练、测试,根据训练、测试的结果识别出所述待测试数据中的欺诈数据。
由于在一些容易出现欺诈行为的场景如社保恶意报销等场景中,欺诈数据在整个社保大数据中的占比极其小,即欺诈数据存在大量的不均衡性,而若采用普通单模型来识别其中的欺诈数据,则会因为欺诈数据的不均衡特性,使得识别的精度和召回率偏低。因此,本实施例中针对欺诈数据的不均衡特性,建立连续型反欺诈模型来对待测试数据进行识别,如可同时利用多种模型共同投票的方法来进行欺诈数据的识别,能有效提高欺诈数据的识别精度和召回率,能够更加精确地判断欺诈案例从而缩小人工审查的范围和成本。
本实施例采用预设的连续型模型训练方式建立连续型反欺诈模型,利用建立的连续型反欺诈模型来对待测试数据进行训练,识别所述待测试数据中的欺诈数据。由于针对待测试数据中欺诈数据为不均衡数据的特征,采用连续型反欺诈模型对待测试数据中的欺诈数据进行分析、识别,相比普通单模型能提高欺诈数据的识别精度和召回率,更加精确地判断欺诈案例,从而缩小人工审查的范围和成本。
进一步地,在其他实施例中,对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用直接连续型模型,上述建模模块01还用于:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的训练集和测试集;
依次重复划分训练集至预设次数;
分别利用划分的多层训练集,使用预设的经典模型来训练模型,并在保留的多层测试集上进行测试,建立直接连续型模型。
本实施例中,可进行N重连续型模型的训练来建立直接连续型模型,其中,N为大于等于2的正整数,如可按以下步骤进行直接连续型模型的训练:
第一步:按照一定的预设比例分解预设的训练数据集为训练集Train_set和测试集Test_set,保留测试集Test_set。
第二步:按照一定的预设比例对训练集Train_set进行进一步分解为两个子训练集Train_set11和Train_set12,将两个子训练集Train_set11和Train_set12分别作为下一层模型的训练集和测试集。
重复第二步划分训练集至一定的预设次数。
第三步:分别利用N层训练集使用预设的常用经典模型来训练模型并进行参数调优,在N层测试集上进行测试,进行参数调优并保留模型。其中,该经典模型包括但不限于决策树模型、随机森林模型等。
第四步:对保留的模型进行收集整理并调优,获取直接连续型模型。
进一步地,上述识别模块02还用于:
对待测试数据进行与所述训练数据集中训练集比例相同的多层划分,并利用所述直接连续型模型对多层划分后的待测试数据分别进行训练,识别所述待测试数据中的欺诈数据。
在建立直接连续型模型之后,可利用建立的直接连续型模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。具体地,可对需进行欺诈识别的待测试数据进行与建立模型时重复多次划分训练集比例相同的随机分割,再利用建立的直接连续型模型对与所述训练数据集中训练集比例相同的多层划分后的所述待测试数据分别进行对应的模型训练,汇总对多层划分后的所述待测试数据分别进行对应模型训练的训练结果。根据该训练结果可获取对多层划分后的所述待测试数据分别进行对应模型训练后每一层中测试识别的欺诈数据,将每一层中测试识别的欺诈数据进行汇总即可获取最终所述待测试数据中的欺诈数据。
进一步地,在其他实施例中,对待测试数据中的欺诈数据进行分析、识别的连续型反欺诈模型采用优化连续型模型,上述建模模块01还用于:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型。
本实施例中,可进行N重连续型模型的训练来建立优化连续型模型,如可按以下步骤进行优化连续型模型的训练:
第一步:按照一定的预设比例分解预设的训练数据集为训练集Train_set和测试集Test_set,保留测试集Test_set。
第二步:按照一定的预设比例对训练集Train_set进行进一步分解为两个子训练集Train_set11和Train_set12,将两个子训练集Train_set11和Train_set12分别作为下一层模型的下层训练集和下层测试集。
第三步:利用下层训练集Train_set11作为训练集来训练模型并调优,在下层测试集Train_set12上进行测试,根据测试结果获取阳性样本并保留模型。
第四步:提取第三步中得到的阳性样本组成训练集。
第五步:重复第二步至第四部直至第N重模型已经构建或者阳性样本数量为零,其中,N为大于等于2的正整数。
第六步:对构建的N重模型即多重训练模型进行收集整理并调优,获取优化连续型模型。
进一步地,上述识别模块02还用于:
在待测试数据上利用优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
在建立优化连续型模型之后,可利用建立的优化连续型模型来对待测试数据进行训练,以分析、识别出所述待测试数据中的欺诈数据。具体地,可直接在待测试数据上利用建立的优化连续型模型进行自上而下的预测,保留该优化连续型模型对待测试数据进行预测过程中的阳性样本,循环直到该优化连续型模型的第N重模型,将每一重模型对待测试数据预测的阳性样本进行汇总即可获取最终所述待测试数据中的欺诈数据。
如图4所示,本发明第二实施例提出一种欺诈数据的识别装置,在上述实施例的基础上,还包括:
标记模块03,用于对所述欺诈数据的类型和/或来源进行标记。
本实施例中,在利用建立的连续型反欺诈模型识别出待测试数据中的欺诈数据之后,进一步地,还对识别出的欺诈数据的类型和/或来源进行标记,以标明欺诈数据的特征类型和/或来源,使得相关审查部门或相关工作人员对与已标记欺诈数据的类型、来源相同或相似的其他数据进行重点识别,缩小人工审查范围。例如社保医疗报销体系中存在一些恶意或者非法的刷卡、报销行为。在利用建立的连续型反欺诈模型识别出待测试的社保医疗报销数据中的欺诈数据之后,可对识别出的欺诈数据的类型和/或来源进行标记,如标记为中药、西药、诊疗等。这样,社保部门即可将中药、西药、诊疗作为可能出现虚假报销的高危区域进行严格管控,从而减少审查范围,提高欺诈数据识别的精度和效率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (12)
1.一种欺诈数据的识别方法,其特征在于,所述方法包括以下步骤:
A、采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;
B、基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。
2.如权利要求1所述的欺诈数据的识别方法,其特征在于,所述连续型反欺诈模型为直接连续型模型,所述步骤A替换为:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的训练集和测试集;
依次重复划分训练集至预设次数;
分别利用划分的多层训练集,使用预设的经典模型来训练模型,并在保留的多层测试集上进行测试,建立直接连续型模型。
3.如权利要求2所述的欺诈数据的识别方法,其特征在于,所述步骤B替换为:
对待测试数据进行与所述训练数据集中训练集比例相同的多层划分,并利用所述直接连续型模型对多层划分后的待测试数据分别进行训练,识别所述待测试数据中的欺诈数据。
4.如权利要求1所述的欺诈数据的识别方法,其特征在于,所述连续型反欺诈模型为优化连续型模型,所述步骤A替换为:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型。
5.如权利要求4所述的欺诈数据的识别方法,其特征在于,所述步骤B替换为:
在待测试数据上利用所述优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
6.如权利要求1至5中任意一项所述的欺诈数据的识别方法,其特征在于,所述步骤B之后还包括:
C、对所述欺诈数据的类型和/或来源进行标记。
7.一种欺诈数据的识别装置,其特征在于,所述欺诈数据的识别装置包括:
建模模块,用于采用预设的连续型模型训练方式对预设的训练数据集进行训练,建立连续型反欺诈模型;
识别模块,用于基于所述连续型反欺诈模型对待测试数据进行训练,识别所述待测试数据中的欺诈数据。
8.如权利要求7所述的欺诈数据的识别装置,其特征在于,所述建模模块还用于:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的训练集和测试集;
依次重复划分训练集至预设次数;
分别利用划分的多层训练集,使用预设的经典模型来训练模型,并在保留的多层测试集上进行测试,建立直接连续型模型。
9.如权利要求8所述的欺诈数据的识别装置,其特征在于,所述识别模块还用于:
对待测试数据进行与所述训练数据集中训练集比例相同的划分,并利用所述直接连续型模型对划分后的待测试数据分别进行训练,识别所述待测试数据中的欺诈数据。
10.如权利要求7所述的欺诈数据的识别装置,其特征在于,所述建模模块还用于:
将预设的训练数据集按预设比例分解为训练集和测试集;
保留所述测试集,按预设比例将所述训练集进一步分解为两个子训练集,所述两个子训练集分别作为下一层模型的下层训练集和下层测试集;
利用下层训练集来训练模型,并在下层测试集上进行测试,根据测试结果获取阳性样本并保留训练模型,将获取的阳性样本作为新的训练集;
依次重复进行划分训练集、测试的步骤,直至获取的阳性样本数量为零或者建立完多重训练模型;
对建立的多重训练模型进行收集整理,获取优化连续型模型。
11.如权利要求10所述的欺诈数据的识别装置,其特征在于,所述识别模块还用于:
在待测试数据上利用所述优化连续型模型进行自上而下的测试,根据测试结果获取并保留阳性样本,以根据所述阳性样本识别所述待测试数据中的欺诈数据。
12.如权利要求7至11中任意一项所述的欺诈数据的识别装置,其特征在于,还包括:
标记模块,用于对所述欺诈数据的类型和/或来源进行标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610589290.7A CN107657453B (zh) | 2016-07-25 | 2016-07-25 | 欺诈数据的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610589290.7A CN107657453B (zh) | 2016-07-25 | 2016-07-25 | 欺诈数据的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107657453A true CN107657453A (zh) | 2018-02-02 |
CN107657453B CN107657453B (zh) | 2020-10-20 |
Family
ID=61127150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610589290.7A Active CN107657453B (zh) | 2016-07-25 | 2016-07-25 | 欺诈数据的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107657453B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019019630A1 (zh) * | 2017-07-24 | 2019-01-31 | 平安科技(深圳)有限公司 | 反欺诈识别方法、存储介质、承载平安脑的服务器及装置 |
CN109413031A (zh) * | 2018-08-31 | 2019-03-01 | 深圳壹账通智能科技有限公司 | 反欺诈模型的构建方法、装置、设备及可读存储介质 |
CN109410029A (zh) * | 2018-09-04 | 2019-03-01 | 深圳市佰仟金融服务有限公司 | 一种面向金融领域的反欺诈调查方法及系统 |
CN113469695A (zh) * | 2020-03-30 | 2021-10-01 | 同济大学 | 基于核监督哈希模型的电子欺诈交易识别方法、系统、装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6513025B1 (en) * | 1999-12-09 | 2003-01-28 | Teradyne, Inc. | Multistage machine learning process |
CN105095238A (zh) * | 2014-05-04 | 2015-11-25 | 中国银联股份有限公司 | 用于检测欺诈交易的决策树生成方法 |
CN105787743A (zh) * | 2016-02-26 | 2016-07-20 | 中国银联股份有限公司 | 基于样本聚类的欺诈交易检测方法 |
-
2016
- 2016-07-25 CN CN201610589290.7A patent/CN107657453B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6513025B1 (en) * | 1999-12-09 | 2003-01-28 | Teradyne, Inc. | Multistage machine learning process |
CN105095238A (zh) * | 2014-05-04 | 2015-11-25 | 中国银联股份有限公司 | 用于检测欺诈交易的决策树生成方法 |
CN105787743A (zh) * | 2016-02-26 | 2016-07-20 | 中国银联股份有限公司 | 基于样本聚类的欺诈交易检测方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019019630A1 (zh) * | 2017-07-24 | 2019-01-31 | 平安科技(深圳)有限公司 | 反欺诈识别方法、存储介质、承载平安脑的服务器及装置 |
CN109413031A (zh) * | 2018-08-31 | 2019-03-01 | 深圳壹账通智能科技有限公司 | 反欺诈模型的构建方法、装置、设备及可读存储介质 |
CN109410029A (zh) * | 2018-09-04 | 2019-03-01 | 深圳市佰仟金融服务有限公司 | 一种面向金融领域的反欺诈调查方法及系统 |
CN113469695A (zh) * | 2020-03-30 | 2021-10-01 | 同济大学 | 基于核监督哈希模型的电子欺诈交易识别方法、系统、装置 |
CN113469695B (zh) * | 2020-03-30 | 2023-06-30 | 同济大学 | 基于核监督哈希模型的电子欺诈交易识别方法、系统、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107657453B (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609708A (zh) | 一种基于手机游戏商店的用户流失预测方法及系统 | |
CN110198310A (zh) | 一种网络行为反作弊方法、装置及存储介质 | |
CN104951894B (zh) | 医院疾病管理智能分析和评估系统 | |
CN107657453A (zh) | 欺诈数据的识别方法及装置 | |
CN108665159A (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN107545245A (zh) | 一种年龄估计方法及设备 | |
CN108171280A (zh) | 一种分类器构建方法及预测分类的方法 | |
CN110610193A (zh) | 标注数据的处理方法及装置 | |
CN105446741B (zh) | 一种基于api比对的移动应用程序辨识方法 | |
CN107730377A (zh) | 贷款资质筛选方法、装置及计算机可读存储介质 | |
CN110188209A (zh) | 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置 | |
CN107517394A (zh) | 识别非法用户的方法、装置及计算机可读存储介质 | |
CN109615012A (zh) | 基于机器学习的就诊数据异常识别方法、设备及存储介质 | |
CN107273704A (zh) | 一种脑卒中复发预测模型的建立方法及装置 | |
CN111784040B (zh) | 政策模拟分析的优化方法、装置及计算机设备 | |
CN106529110A (zh) | 一种用户数据分类的方法和设备 | |
CN107291902A (zh) | 一种基于混合分类技术的大众贡献审阅自动标注方法 | |
CN109376766A (zh) | 一种画像预测分类方法、装置及设备 | |
CN110276369A (zh) | 基于机器学习的特征选择方法、装置、设备及存储介质 | |
CN107506350A (zh) | 一种识别信息的方法和设备 | |
CN204557484U (zh) | 个人基因服务结构 | |
US11514815B1 (en) | System, method, and device for generating flight training scheme oriented to individual difference | |
CN104899493B (zh) | 一种新型的考试人脸认证系统 | |
CN113724061A (zh) | 基于客户分群的消费金融产品信用评分方法及装置 | |
CN108549654A (zh) | 一种基于图像处理的大数据分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |