CN114119037B - 一种基于大数据的营销反作弊系统 - Google Patents
一种基于大数据的营销反作弊系统 Download PDFInfo
- Publication number
- CN114119037B CN114119037B CN202210079401.5A CN202210079401A CN114119037B CN 114119037 B CN114119037 B CN 114119037B CN 202210079401 A CN202210079401 A CN 202210079401A CN 114119037 B CN114119037 B CN 114119037B
- Authority
- CN
- China
- Prior art keywords
- data
- risk
- black
- user
- white list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000000694 effects Effects 0.000 claims abstract description 12
- 230000004044 response Effects 0.000 claims abstract description 4
- 238000012937 correction Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 22
- 238000007405 data analysis Methods 0.000 claims description 17
- 230000006399 behavior Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000003066 decision tree Methods 0.000 claims description 2
- 230000002068 genetic effect Effects 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims description 2
- 238000004806 packaging method and process Methods 0.000 claims description 2
- 238000007637 random forest analysis Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 208000012260 Accidental injury Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004992 fission Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000002268 wool Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于大数据的营销反作弊系统,应用于营销反作弊,所述系统包括云服务器和用户终端;当所述系统工作时,通过以下步骤实现营销反作弊功能:当用户在用户终端进行营销活动相关操作时,向云服务器发出风险识别请求,云服务器接收请求后调用数据采集模块向用户终端发出数据采集指令;用户终端响应数据采集指令,云服务器在接收到数据后调用风险识别控制模块分别采用黑白名单数据库对比和风险模型判断的方法进行风险判断;云服务器得到风险判断指令;云服务器将风险判断指令作为所述风险识别请求的响应传输给用户终端,用户终端根据风险判断指令通过或拒绝用户操作。
Description
技术领域
本发明涉及计算机软件技术领域,具体涉及一种基于大数据的营销反作弊系统。
背景技术
在电子商务及互联网服务日益普及的当下,各电子商务与互联网平台普遍采用发放优惠、推广奖励、新用户奖励等营销方式,提高自身的运营收益。但由于“羊毛党”这一灰黑产业的存在,给互联网平台造成大量的经济损失,同时也带来了个人信息泄漏等安全风险。营销反作弊是指,针对电子商城、互联网平台等各渠道上存在的营销活动刷单、渠道推广造假、虚假用户裂变等营销活动作弊手段,采取一定技术或规则,阻止上述作弊手段的行为。
当前营销反作弊普遍采用的方式有规则策略法、黑名单法及风险模型识别法。上述方法中,规则策略法往往对新产生的营销漏洞反应不够敏捷;黑名单法则容易误伤部分正常用户,导致平台口碑下降;风险模型识别法由于建模数据维度单一,准确性也大打折扣。
发明内容
鉴于所述问题,为更加准确的识别营销作弊行为,避免误伤带来的平台声誉下降问题,提出了一种基于大数据的营销反作弊系统,包括:
一种基于大数据的营销反作弊系统,应用于营销反作弊,所述系统包括云服务器和用户终端;所述云服务器包括数据库、处理器和存储器;当所述系统工作时,通过以下步骤实现营销反作弊功能:
步骤S1、当用户在用户终端进行营销活动相关操作时,向云服务器发出风险识别
请求;云服务器接收请求后调用数据采集模块,向用户终端发出数据采集指令,采集预设样
本采集时间区间内的用户终端内的所有第一操作数据;
步骤S2、用户终端响应数据采集指令,云服务器在接收到第一操作数据后调用风险识别控制模块分别采用黑白名单数据库对比和风险模型判断的方法进行风险判断,得到第一风险判断结果、第二风险判断结果;
步骤S3、云服务器检测到第一风险判断结果、第二风险判断结果生成后,再次调用风险识别控制模块,以第一风险判断结果、第二风险判断结果为输入数据进行风险判断,得到风险判断指令;
步骤S4、云服务器将风险判断指令作为所述风险识别请求的响应传输给用户终端,用户终端根据风险判断指令通过或拒绝用户操作;
其中,黑白名单数据库及风险模型通过以下方式构建:
步骤S7、云服务器调用风险模型训练分析模块以第一数据分析样本为数据集,利用机器学习算法训练风险模型,得到第一风险判断模型,并存储至风险模型数据库中;
步骤S9、分别按照用户id、IP、设备指纹对第一分类结果进行聚合,得到第一校正数据,并按照第一校正数据对所述黑白名单数据库中的数据进行更新。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种基于大数据的营销反作弊系统达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明结合传统黑名单法及风险模型法,但并非为二者的简单结合,而是通过算法使风险模型与黑名单数据互相迭代优化,提高了营销反作弊系统的可靠性与准确性;同时依靠所述风险识别控制模块对风险模型与黑名单判断的结果进行评估分析,进一步降低了误判漏判风险,提升了系统准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种基于大数据的营销反作弊系统的结构框图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的营销反作弊系统,详细说明如后。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
本发明实施例提供了一种基于大数据的营销反作弊系统,包括:
一种基于大数据的营销反作弊系统,应用于营销反作弊,所述系统涉及云服务器和用户终端。如图1所示,云服务器包括数据库、处理器和存储有分析控制模块程序、数据采集接口模块的存储器;其中,数据库包括基础数据库、黑白名单数据库、风险模型数据库;所述分析控制模块包括风险模型训练分析模块、风险识别控制模块。
所述基础数据库用于存储用户操作数据,所述黑白名单数据库用于存储高风险的用户数据,所述风险模型数据库用于存储高风险用户特征模型数据。
所述风险模型训练分析模块是指用于对具有风险标识的用户操作数据采用机器学习算法进行模型训练得到风险特征模型的程序模块;所述风险识别控制模块是指用于对在用户参与互联网平台营销活动时产生的行为数据及历史数据与所述黑白名单数据库数据或所述风险模型数据库数据进行对比判断、并作出风控措施的程序模块;所述数据采集接口模块是指实现获取用户的平台操作行为环境数据、获取第三方黑白名单数据、获取用户操作数据及输出风控指令的程序模块。
当所述系统工作时,通过以下步骤实现营销反作弊功能:
步骤S1、当用户在用户终端进行营销活动相关操作时,向云服务器发出风险识别
请求;云服务器接收请求后调用数据采集模块,向用户终端发出数据采集指令,采集预设样
本采集时间区间内的用户终端内的所有第一操作数据;
步骤S2、用户终端响应数据采集指令,云服务器在接收到第一操作数据后调用风险识别控制模块分别采用黑白名单数据库对比和风险模型判断的方法进行风险判断,得到第一风险判断结果、第二风险判断结果;
步骤S3、云服务器检测到第一风险判断结果、第二风险判断结果生成后,再次调用风险识别控制模块,以第一风险判断结果、第二风险判断结果为输入数据进行风险判断,得到风险判断指令;
步骤S4、云服务器将风险判断指令作为所述风险识别请求的响应传输给用户终端,用户终端根据风险判断指令通过或拒绝用户操作;
其中,黑白名单数据库及风险模型通过以下方式构建:
步骤S7、云服务器调用风险模型训练分析模块以第一数据分析样本为数据集,利用机器学习算法训练风险模型,得到第一风险判断模型,并存储至风险模型数据库中;
步骤S9、分别按照用户id、IP、设备指纹对第一分类结果进行聚合,得到第一校正数据,并按照第一校正数据对所述黑白名单数据库中的数据进行更新。
作为一种实施例,所述步骤S2包括:
步骤S21、所述风险识别控制模块提取第一用户操作数据中的用户id、IP、设备指纹数据作为第一判断数据集,并将第一判断指标与所述黑白名单数据库进行对比,得到第一风险判断结果;
其中,所述第一风险判断结果为数据字典,形式为{"id结果":, "ip结果":, "
设备指纹结果":},其中、、分别代表用户id、ip、设备指纹数据是否命中所述黑白名
单数据库中对应的黑白名单列表的结果;、、可取值为“0”、“1”或“2”,其中“0”代表第
一判断指标可在对应黑白名单列表中查询到结果、且结果中风险等级标识字段为“0”,“1”
代表第一判断指标可在对应黑白名单列表中查询到结果、且结果中风险等级标识字段为
“1”,“2”代表第一判断指标未在对应黑白名单列表中查询到结果。
所述第二风险判断结果为数据字典,包括利用第一风险模型对所述第二判断数据
集的分类结果,形式为{"classification":},其中可取值为“0”或“1”,“0”代表风险判
断为“安全”,“1”代表风险判断为“异常”。
所述第一判断规则为:
作为一种实施例,
步骤S5中所述第一用户平台操作行为环境数据包括:用户id、登陆地址、登陆IP、登陆途径、设备指纹、营销类型信息、操作对象、操作时间、关联id;所述第三方灰名单数据包括风险id、风险IP、风险设备、风险地址。
所述基础数据库包括用户信息列表、用户行为列表、用户环境列表。所述用户信息列表包括用户id字段、用户性别标识、用户年龄字段、关联手机号字段、电子邮箱字段、关联社交平台账号字符串字段。所述用户行为列表包括操作id字段、用户id字段、操作类型id字段、操作对象id字段、操作时间字段、营销活动标识、营销商品价格、价格优惠等级;所述营销活动标识包括“0”、“1”、“2”,其中“0”表示非营销活动、“1”表示商品价格优惠活动、“2”表示其他营销活动。所述用户环境列表包括操作id字段、设备指纹字符串字段、IP字符串字段、地址字符串字段。
所述黑白名单数据库包括IP黑白名单列表,设备指纹黑白名单列表,用户id黑白名单列表。所述IP黑白名单列表包括IP字符串字段;所述IP黑白名单列表包括IP字符串字段;所述设备指纹黑白名单列表包括设备指纹字符串字段;所述用户id黑白名单列表包括用户id字段。所述黑白名单数据库中的列表均包括风险等级标识字段和数据来源标识字段;所述风险等级标识字段包括“0”、“1”,其中“0”表示白名单、“1”表示黑名单;所述数据来源标识字段包括“0”、“1”,“0”表示经系统或人工确认的内部数据,“1”表示来自第三方黑白名单数据库的未经确认的外部数据。
所述风险模型数据库包括风险模型记录列表。所述风险模型记录列表包括模型算法类型字符串字段、生成时间字段、数据累积周期时间字段、模型表达式字符串字段、模型参数字典字符串字段。
作为一种实施例,所述步骤S6包括:
步骤S62、以所述第一id数据样本的用户id、第一IP数据样本中的IP、第一设备指纹数据样本中的设备指纹,分别在所述用户id黑白名单列表、所述IP黑白名单列表、所述设备指纹黑白名单列表进行查询,并返回查询结果;
步骤S63、若上述查询操作有查询结果,则根据查询结果给对应的数据样本打上数据来源标签及风险等级标签;若上述查询操作无查询结果,则其数据来源标签字段设为“1”、其风险等级标签字段设为“0”;
步骤S64、将上述步骤操作得到的数据样本打包,得到第一数据分析样本;
可以理解的是,所述第一数据分析样本包括第一id分析样本、第一IP分析样本、第一设备指纹分析样本。
作为一种实施例,所述步骤S7包括:
步骤S71、所述风险模型训练分析模块对所述第一数据分析样本进行数据清洗,并根据所述数据来源标签字段拆分第一数据分析样本,其中所述数据来源标签字段为“0”的数据拆分后得到第一测试集样本,所述数据来源标签字段为“1”的数据拆分后得到第一训练集样本;
步骤S72、根据所述风险模型训练分析模块根据预设的第一统计特征规则分别对所述第一测试集样本及第一训练集样本进行特征提取,得到第一测试集样本特征数据、第一训练集样本特征数据;
步骤S73、利用第一训练集样本特征数据采用机器学习算法训练风险模型;
步骤S74、利用第一测试集样本特征数据对步骤S73中的风险模型进行评估,计算召回率和准确率;当召回率和准确率满足预设召回率阈值和准确率阈值,输出当前风险模型,得到第一风险模型;当召回率和准确率不满足预设召回率阈值和准确率阈值,返回步骤S73,重新调整参数或更换算法,直到满足预设阈值条件。
可以理解的是,所述步骤S71中所述数据清洗包括归一化、离散化、因子化、缺失值处理、去除共线性等,属于常规数据处理手段,在此不赘述。
步骤S72中所述第一统计特征规则规定了对步骤S71中第一测试集样本、第一训练集样本进行特征提取时所需要统计的数据特征,包括ID特征数据、IP特征数据、设备指纹特征数据;所述ID特征数据包括:登陆地址频率分布、登陆IP频率分布、设备指纹频率分布,不同营销活动标识下的各操作类型频率分布、各营销商品价格特征、各价格优惠等级分布、操作时间频率分布;所述IP特征数据包括:用户id频率分布、设备指纹频率分布、登陆地址频率分布、不同营销活动标识下的操作类型频率分布、各营销商品价格特征、各优惠等级分布、操作时间频率分布;所述设备指纹特征数据包括:用户id频率分布、登陆IP分布、登陆地址频率分布、不同营销活动标识下的操作类型频率分布、各营销商品价格特征、各优惠等级分布、操作时间频率分布。
可以理解的是,步骤S72中所述特征提取为常规的数据分析方法,依靠包括但不限于SQL、Python、C++语言均可实现所述统计操作,在此不赘述。
可以理解的是,所述步骤S73中所述机器学习算法包括:逻辑回归算法、决策树、遗传算法、支持向量机(SVN)、K-means算法、随机森林和朴素贝叶斯算法,采用不同算法时其程序设计有所差异,但均为成熟技术手段,本领域的技术人员根据上述实施例的描述,完全可顺利实现该算法,在此不赘述。
作为一种实施例,所述步骤S9包括:
步骤S91、分别按照用户id字段、IP字段、设备指纹字段对第一分类结果进行分组聚合,保留对应分组聚合字段及分类结果字段,得到第一id校正数据、第一IP校正数据、第一设备指纹校正数据;
所述分类结果字段包括“0”和“1”,其中“0”代表分类结果为“安全”,“1”代表分类结果为“异常”;
所述第一校正数据为第一id校正数据、第一IP校正数据、第一设备指纹校正数据的集合;
步骤S92、分别将第一id校正数据、第一IP校正数据、第一设备指纹校正数据与用户id黑白名单列表、IP黑白名单列表、设备指纹黑白名单列表进行对比校验;
步骤S93、若上述黑白名单列表中存在对应校正数据,且黑白名单列表中数据来源标识字段为“1”,则将所述数据来源标识字段设为“0”;若上述黑白名单列表中不存在对应校正数据,则将对应校正数据中分类结果字段为“1”的数据写入对应的黑白名单列表中,其数据来源标识字段设为“1”, 风险等级标识字段设为“1”; 若上述黑白名单列表中不存在对应校正数据,则将对应校正数据中分类结果字段为“0”的数据写入对应的黑白名单列表中,其数据来源标识字段设为“1”, 风险等级标识字段设为“0”。
本发明实施例提供的云服务器包括数据库、处理器和存储器。其中存储器可以是磁盘、闪存或其他非易失性存储器。
本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机、可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后,需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (9)
1.一种基于大数据的营销反作弊系统,应用于营销反作弊,所述系统包括云服务器和用户终端;当所述系统工作时,通过以下步骤实现营销反作弊功能:
步骤S1、当用户在用户终端进行营销活动相关操作时,向云服务器发出风险识别请求;云服务器接收请求后调用数据采集模块,向用户终端发出数据采集指令,采集预设样本采集时间区间TS内的用户终端内的所有第一操作数据;
步骤S2、用户终端响应数据采集指令,云服务器在接收到第一操作数据后调用风险识别控制模块分别采用黑白名单数据库对比和风险模型判断的方法进行风险判断,得到第一风险判断结果、第二风险判断结果;
步骤S3、云服务器检测到第一风险判断结果、第二风险判断结果生成后,再次调用风险识别控制模块,以第一风险判断结果、第二风险判断结果为输入数据进行风险判断,得到风险判断指令;
步骤S4、云服务器将风险判断指令作为所述风险识别请求的响应传输给用户终端,用户终端根据风险判断指令通过或拒绝用户操作;
其中,黑白名单数据库及风险模型通过以下方式构建:
步骤S5、云服务器在当前数据周期Tn+T0内,通过数据采集接口模块持续获取第一用户平台操作行为环境数据及第三方黑白名单数据,分别存储在基础数据库、黑白名单数据库中;
其中,Tn为当前系统所处的运行周期;T0为系统预设的第一系统数据积累时间,在T0内所述系统进行数据采集工作;
步骤S6、当第一系统数据积累周期T0结束时,所述风险识别控制模块立即开始对所述基础数据库中存储的第一用户平台操作行为环境数据执行风险预判断操作,得到第一数据分析样本;
步骤S7、云服务器调用风险模型训练分析模块以第一数据分析样本为数据集,利用机器学习算法训练风险模型,得到第一风险判断模型,并存储至风险模型数据库中;
步骤S8、云服务器调用风险识别控制模块查询所述基础数据库中时间戳在Tn-1+T0内的数据得到第二基础数据,并将其输入第一风险判断模型中得到对应数据的第一分类结果;
其中,Tn-1为当前系统所处的运行周期Tn前一个运行周期;
步骤S9、分别按照用户id、IP、设备指纹对第一分类结果进行聚合,得到第一校正数据,并按照第一校正数据对所述黑白名单数据库中的数据进行更新;
步骤S3所述的风险判断为所述风险识别控制模块根据预设的第一判断规则判断得出风险判断指令;
其中,第一判断规则包括,通过计算第一风险判断结果的风险概率,结合第一风险判断结果和第二风险判断结果的一致性,输出第三风险判断结果。
2.根据权利要求1所述的基于大数据的营销反作弊系统,其特征在于,
所述云服务器包括数据库、处理器和存储器;
所述数据库包括基础数据库、黑白名单数据库、风险模型数据库;基础数据库用于存储用户操作数据,黑白名单数据库用于存储异常或正常的用户数据,风险模型数据库用于存储异常用户特征模型数据。
3.根据权利要求1所述的基于大数据的营销反作弊系统,其特征在于,
所述数据采集接口模块、风险识别控制模块均为存储在云服务器存储器中的程序模块,由云服务器调用。
4.根据权利要求1所述的基于大数据的营销反作弊系统,其特征在于,
步骤S2中所述风险判断包括:
步骤S21、所述风险识别控制模块提取第一用户操作数据中的用户id、IP、设备指纹数据作为第一判断数据集,并将第一判断指标与所述黑白名单数据库进行对比,得到第一风险判断结果;
步骤S22、预设样本采集时间区间TS,所述风险识别控制模块提取包括当前操作时间戳的前TS内的用户操作数据集作为第二判断数据集,并将第二判断数据集输入第一风险模型,得到第二风险判断结果。
5.根据权利要求1所述的基于大数据的营销反作弊系统,其特征在于,
所述步骤S6包括:
步骤S61、所述风险识别控制模块从所述基础数据库中分别以用户id、IP、设备指纹为关键字提取Tn+T0内积累的第一用户平台操作行为环境数据,得到第一id数据样本、第一IP数据样本、第一设备指纹数据样本;
步骤S62、以所述第一id数据样本的用户id、第一IP数据样本中的IP、第一设备指纹数据样本中的设备指纹,分别在用户id黑白名单列表、IP黑白名单列表、设备指纹黑白名单列表进行查询,并返回查询结果;
步骤S63、若上述查询操作有查询结果,则根据查询结果给对应的数据样本打上数据来源标签及风险等级标签;若上述查询操作无查询结果,则其数据来源标签字段设为“1”、其风险等级标签字段设为“0”;
步骤S64、将上述步骤操作得到的数据样本打包,得到第一数据分析样本。
6.根据权利要求1所述的基于大数据的营销反作弊系统,其特征在于,
所述步骤S7包括:
步骤S71、所述风险模型训练分析模块对所述第一数据分析样本进行数据清洗,并根据数据来源标签字段拆分第一数据分析样本,其中所述数据来源标签字段为“0”的数据拆分后得到第一测试集样本,所述数据来源标签字段为“1”的数据拆分后得到第一训练集样本;
步骤S72、根据所述风险模型训练分析模块根据预设的第一统计特征规则分别对所述第一测试集样本及第一训练集样本进行特征提取,得到第一测试集样本特征数据、第一训练集样本特征数据;
步骤S73、利用第一训练集样本特征数据采用机器学习算法训练风险模型;
步骤S74、利用第一测试集样本特征数据对步骤S73中的风险模型进行评估,计算召回率和准确率;当召回率和准确率满足预设召回率阈值和准确率阈值,输出当前风险模型,得到第一风险模型;当召回率和准确率不满足预设召回率阈值和准确率阈值,返回步骤S73,重新调整参数或更换算法,直到满足预设阈值条件。
7.根据权利要求1所述的基于大数据的营销反作弊系统,其特征在于,
所述机器学习算法包括:逻辑回归算法、决策树、遗传算法、支持向量机(SVN)、K-means算法、随机森林和朴素贝叶斯算法。
8.根据权利要求6所述的基于大数据的营销反作弊系统,其特征在于,
所述第一统计特征规则规定了对所述步骤S71中第一测试集样本、第一训练集样本进行特征提取时所需要统计的数据特征,包括ID特征数据、IP特征数据、设备指纹特征数据。
9.根据权利要求1所述的基于大数据的营销反作弊系统,其特征在于,
所述步骤S9包括:
步骤S91、分别按照用户id字段、IP字段、设备指纹字段对第一分类结果进行分组聚合,保留对应分组聚合字段及分类结果字段,得到第一id校正数据、第一IP校正数据、第一设备指纹校正数据;
步骤S92、分别将第一id校正数据、第一IP校正数据、第一设备指纹校正数据与用户id黑白名单列表、IP黑白名单列表、设备指纹黑白名单列表进行对比校验;
步骤S93、若上述黑白名单列表中存在对应校正数据,且黑白名单列表中数据来源标识字段为“1”,则将所述数据来源标识字段设为“0”;若上述黑白名单列表中不存在对应校正数据,则将对应校正数据中分类结果字段为“1”的数据写入对应的黑白名单列表中,其数据来源标识字段设为“1”, 风险等级标识字段设为“1”; 若上述黑白名单列表中不存在对应校正数据,则将对应校正数据中分类结果字段为“0”的数据写入对应的黑白名单列表中,其数据来源标识字段设为“1”, 风险等级标识字段设为“0”。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210079401.5A CN114119037B (zh) | 2022-01-24 | 2022-01-24 | 一种基于大数据的营销反作弊系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210079401.5A CN114119037B (zh) | 2022-01-24 | 2022-01-24 | 一种基于大数据的营销反作弊系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114119037A CN114119037A (zh) | 2022-03-01 |
CN114119037B true CN114119037B (zh) | 2022-05-17 |
Family
ID=80361182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210079401.5A Active CN114119037B (zh) | 2022-01-24 | 2022-01-24 | 一种基于大数据的营销反作弊系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114119037B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114912510B (zh) * | 2022-04-07 | 2023-08-15 | 央视市场研究股份有限公司 | 一种线上调研样本质量评估系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596632A (zh) * | 2017-03-07 | 2018-09-28 | 北京嘀嘀无限科技发展有限公司 | 一种基于订单属性和用户行为的反作弊识别方法及系统 |
CN108920948A (zh) * | 2018-05-25 | 2018-11-30 | 众安信息技术服务有限公司 | 一种反欺诈流式计算装置及方法 |
CN110198310A (zh) * | 2019-05-20 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种网络行为反作弊方法、装置及存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103294669A (zh) * | 2012-02-22 | 2013-09-11 | 腾讯科技(深圳)有限公司 | 一种基于用户行为的反作弊方法和系统 |
CN106603554B (zh) * | 2016-12-29 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 一种自适应实时视频数据的反作弊方法及装置 |
CN109120429B (zh) * | 2017-06-26 | 2022-04-15 | 南京星云数字技术有限公司 | 一种风险识别方法及系统 |
CN109872174A (zh) * | 2017-12-05 | 2019-06-11 | 上海花事电子商务有限公司 | 一种广告反作弊系统 |
CN108596415B (zh) * | 2017-12-15 | 2023-11-24 | 创新先进技术有限公司 | 一种模型整合方法及装置 |
CN110147823B (zh) * | 2019-04-16 | 2023-04-07 | 创新先进技术有限公司 | 一种风控模型训练方法、装置及设备 |
CN110378699A (zh) * | 2019-07-25 | 2019-10-25 | 中国工商银行股份有限公司 | 一种交易反欺诈方法、装置及系统 |
CN110827094B (zh) * | 2019-11-15 | 2023-05-23 | 湖南快乐阳光互动娱乐传媒有限公司 | 广告投放的反作弊方法及系统 |
CN111049809A (zh) * | 2019-11-27 | 2020-04-21 | 深圳壹账通智能科技有限公司 | 风险用户识别方法、装置、计算机设备及存储介质 |
CN111401950B (zh) * | 2020-03-12 | 2024-09-06 | 上海数川数据科技有限公司 | 基于小波特征聚类的广告流量反作弊方法及装置 |
CN111401914B (zh) * | 2020-04-02 | 2022-07-22 | 支付宝(杭州)信息技术有限公司 | 风险评估模型的训练、风险评估方法及装置 |
CN112488754A (zh) * | 2020-11-30 | 2021-03-12 | 上海酷量信息技术有限公司 | 一种广告点击的反作弊系统和方法 |
CN112580952A (zh) * | 2020-12-09 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 用户行为风险预测方法、装置、电子设备及存储介质 |
CN112700287A (zh) * | 2021-01-11 | 2021-04-23 | 郑州阿帕斯数云信息科技有限公司 | 一种应用程序的反作弊方法和装置 |
CN113922977A (zh) * | 2021-08-16 | 2022-01-11 | 广州优盟电子商务有限公司 | 基于移动端的反作弊方法和系统 |
-
2022
- 2022-01-24 CN CN202210079401.5A patent/CN114119037B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596632A (zh) * | 2017-03-07 | 2018-09-28 | 北京嘀嘀无限科技发展有限公司 | 一种基于订单属性和用户行为的反作弊识别方法及系统 |
CN108920948A (zh) * | 2018-05-25 | 2018-11-30 | 众安信息技术服务有限公司 | 一种反欺诈流式计算装置及方法 |
CN110198310A (zh) * | 2019-05-20 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种网络行为反作弊方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114119037A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210224832A1 (en) | Method and apparatus for predicting customer purchase intention, electronic device and medium | |
CN112329811B (zh) | 异常账号识别方法、装置、计算机设备和存储介质 | |
CN107341716A (zh) | 一种恶意订单识别的方法、装置及电子设备 | |
CN110717509B (zh) | 基于树分裂算法的数据样本分析方法及装置 | |
CN112990386B (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN111652622A (zh) | 一种风险网址的识别方法、装置及电子设备 | |
CN113627566A (zh) | 一种网络诈骗的预警方法、装置和计算机设备 | |
CN111461827B (zh) | 产品评价信息的推送方法和装置 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN114119037B (zh) | 一种基于大数据的营销反作弊系统 | |
CN112487284A (zh) | 银行客户画像生成方法、设备、存储介质及装置 | |
Zheng et al. | Anomalous telecom customer behavior detection and clustering analysis based on ISP’s operating data | |
CN115577172A (zh) | 物品推荐方法、装置、设备及介质 | |
CN115630221A (zh) | 终端应用界面展示数据处理方法、装置及计算机设备 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN118396786A (zh) | 合同文档审核方法和装置、电子设备及计算机可读存储介质 | |
CN105389714B (zh) | 一种从行为数据识别用户特性的方法 | |
CN115797020B (zh) | 基于图数据库的数据处理的零售推荐方法、系统和介质 | |
CN117151855A (zh) | 欺诈风险预测方法、装置、计算机设备和可读存储介质 | |
CN117196630A (zh) | 交易风险预测方法、装置、终端设备以及存储介质 | |
CN111784360A (zh) | 一种基于网络链接回溯的反欺诈预测方法及系统 | |
CN114817518B (zh) | 基于大数据档案识别的证照办理方法、系统及介质 | |
CN116402625A (zh) | 客户评估方法、装置、计算机设备及存储介质 | |
CN111047336A (zh) | 用户标签推送、用户标签展示方法、装置和计算机设备 | |
CN114282119A (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |