CN106991139B - 一种基于人工神经网络的应用分发平台作弊检测方法 - Google Patents

一种基于人工神经网络的应用分发平台作弊检测方法 Download PDF

Info

Publication number
CN106991139B
CN106991139B CN201710158574.5A CN201710158574A CN106991139B CN 106991139 B CN106991139 B CN 106991139B CN 201710158574 A CN201710158574 A CN 201710158574A CN 106991139 B CN106991139 B CN 106991139B
Authority
CN
China
Prior art keywords
training
mlp
comentropy
neural network
artificial neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710158574.5A
Other languages
English (en)
Other versions
CN106991139A (zh
Inventor
梁达俊
林冬娴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bee Assistant Co., Ltd.
Original Assignee
Guangdong Bee Assistant Network Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Bee Assistant Network Technology Ltd By Share Ltd filed Critical Guangdong Bee Assistant Network Technology Ltd By Share Ltd
Priority to CN201710158574.5A priority Critical patent/CN106991139B/zh
Publication of CN106991139A publication Critical patent/CN106991139A/zh
Application granted granted Critical
Publication of CN106991139B publication Critical patent/CN106991139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种基于人工神经网络的应用分发平台作弊检测方法,该方法包括从数据按用户计算出多个统计数值,通过监督学习训练的人工神经网络根据统计数值进行用户作弊可能性的判断,无需设定阈值,用训练代替,只要人工能完成个案判定就可以训练,不需要对总体的分布情况有了解;具体个案更正就可以重新训练,理论上,可以保证结果符合当前所有个案的预期;通过训练就可以获得MLP程序,不需要重新编程。

Description

一种基于人工神经网络的应用分发平台作弊检测方法
技术领域
本发明涉及网络技术领域,尤其涉及一种基于人工神经网络的应用分发平台作弊检测方法。
背景技术
在手机应用分发推广过程中,由于利益驱动,推广人会制造假的安装数据骗取酬金。为了应对这种情况,需要一套方法,从分发平台的用户操作信息中获取作弊的蛛丝马迹,从而避免不正当竞争。
但是现有技术中针对作弊的判断均是设定一个固定的阈值,从应用分发平台的日志中,对多个维度进行求和、计数、平均值和参数之间算术运算等合计相关的统计,将统计结果与预先人为设定的阈值比较,以是否满足一个或多个阈值作为作弊的判断条件,例如指定某时段的安装量是否过大,平均每台手机应用安装量是否过大。经过多种计算获得的数值超过阈值,则判断为作弊。
但作弊行为是一种动态变化的过程,随着作弊用户对作弊判断规则的了解,其会不断改变作弊方式,从而尽可能避开作弊算法的惩罚。因此,作弊检测方法也是需要随着实际情况而逐步变化的。统计维度越多阈值越多,阈值间关系越复杂,设定完全靠人为经验猜测,往往只能满足一部分个案情况;出现误判后几乎无法更正,往往针对某个个案更正设定后其他个案就出问题;无任何学习能力,无法将人工审核的比较模糊的经验转化为可执行的程序,任何算法更改都要重新编程;而且将人的经验准确转化为定量的计算程序是非常困难的。
发明内容
本发明的目的在于提出一种能够与时俱进,随着作弊办法的变化而调整自己的作弊判断阈值的应用分发平台作弊检测方法,其基于人工神经网络算法,动态调整作弊判断阈值,从而最大程度保证了应用分发平台的秩序。
为达此目的,本发明采用以下技术方案:
一种基于人工神经网络的应用分发平台作弊检测方法,步骤包括:
步骤A:每次应用安装时,记录日志到服务器上的数据库,所述日志包含用户、应用ID、安装时间、手机IMEI、机型、产地和厂商信息;
步骤B:从数据库中提取指定时间段的日志作为基础数据,按用户分组统计一批统计数值,选定以下参数:日志总条数、机型的信息熵、产地的信息熵、手机IMEI的信息熵、应用ID的信息熵;所述统计数值作为训练样本;
步骤C:人工审核一遍所述训练样本,对认为作弊的用户打上标签1,否则打上标签0,1和0是数字;
步骤D:将所述训练样本随机抽样分成3份,其中10%为验证集,60%为训练集,30%为测试集;
步骤E:选定开源项目提供的MLP作为人工神经网络程序;
步骤F:设定MLP的参数:输入神经元数为5,对应5个所述统计数值;输出神经元数为1,对应人工审核中打上的标签;中间层暂定为1层,输入神经元数暂定为5,之后的训练过程中可能做调整;
步骤G:将所述验证集输入到MLP做训练,设定允许误差为0.0001,最大训练递归次数为1,000,000;
步骤H:训练完成后用MLP对验证集做判定,从5个所述统计数值输入中得到1个输出值,对比输出值与人工打上的标签的差异;
要求:人工标签为1的,对应输出值应尽量接近1,否则尽量接近0,无任何超过0.1的差异;如果差异不满足要求,回到步骤G重新训练,如果重复多次达不到要求,回到步骤F重新设定中间层的层数和输入神经元数;
步骤I:保持上面步骤的参数,用所述训练集重新训练MLP;
步骤J:用MLP对所述测试集做判定:
同样要求:人工标签为1的,对应输出值应尽量接近1,否则尽量接近0,无任何超过0.1的差异;如果差异不满足要求,回到步骤I重新训练,如果重复多次达不到要求,回到步骤F重新设定中间层的层数和输入神经元数;
步骤K:经过以上步骤后,获得了判定实际数据的MLP,部署到服务器;
步骤L:每天定时从数据库中提取过往30天日志,同样按用户分组计算日志总条数、机型的信息熵、产地的信息熵、手机IMEI的信息熵、应用ID的信息熵,输入到MLP做判定,得出的输出就是作弊可能性判定;
步骤M:当出现误判,将当前的统计数值的作弊判定四舍五入取整到0和1,人工纠正误判的部分;这套数据作为训练样本回到步骤D重新训练。
本发明通过监督学习训练的人工神经网络根据统计数值进行用户作弊可能性的判断,无需设定阈值,用训练代替,只要人工能完成个案判定就可以训练,不需要对总体的分布情况有了解;具体个案更正就可以重新训练,理论上,可以保证结果符合当前所有个案的预期;通过训练就可以获得MLP程序,不需要重新编程。
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案。
一种基于人工神经网络的应用分发平台作弊检测方法,步骤包括:
步骤A:每次应用安装时,记录日志到服务器上的数据库,所述日志包含用户、应用ID、安装时间、手机IMEI、机型、产地和厂商信息;
步骤B:从数据库中提取指定时间段的日志作为基础数据,按用户分组统计一批统计数值,选定以下参数:日志总条数、机型的信息熵、产地的信息熵、手机IMEI的信息熵、应用ID的信息熵;所述统计数值作为训练样本;
所述指定时间段例如是30天,可以根据应用分发周期自己设定。
步骤C:人工审核一遍所述训练样本,对认为作弊的用户打上标签1,否则打上标签0,1和0是数字;
步骤D:将所述训练样本随机抽样分成3份,其中10%为验证集,60%为训练集,30%为测试集;
步骤E:选定开源项目提供的MLP作为人工神经网络程序;
Joone、Encog 和 Neuroph是三个著名的开源的java的神经网络的组件,优选为Neuroph作为开源的神经网络组件。
多层感知器Multi-layer Perceptron,MLP,是一种前向结构的人工神经网络。
步骤F:设定MLP的参数:输入神经元数为5,对应5个所述统计数值;输出神经元数为1,对应人工审核中打上的标签;中间层暂定为1层,输入神经元数暂定为5,之后的训练过程中可能做调整;
步骤G:将所述验证集输入到MLP做训练,设定允许误差为0.0001,最大训练递归次数为1,000,000;
步骤H:训练完成后用MLP对验证集做判定,从5个所述统计数值输入中得到1个输出值,对比输出值与人工打上的标签的差异;
要求:人工标签为1的,对应输出值应尽量接近1,否则尽量接近0,无任何超过0.1的差异;如果差异不满足要求,回到步骤G重新训练,如果重复多次达不到要求,回到步骤F重新设定中间层的层数和输入神经元数;
步骤I:保持上面步骤的参数,用所述训练集重新训练MLP;
步骤J:用MLP对所述测试集做判定:
同样要求:人工标签为1的,对应输出值应尽量接近1,否则尽量接近0,无任何超过0.1的差异;如果差异不满足要求,回到步骤I重新训练,如果重复多次达不到要求,回到步骤F重新设定中间层的层数和输入神经元数;
步骤K:经过以上步骤后,获得了判定实际数据的MLP,部署到服务器;
以上过程相当于将人工审核的经验教授给MLP。
步骤L:每天定时从数据库中提取过往30天日志,同样按用户分组计算日志总条数、机型的信息熵、产地的信息熵、手机IMEI的信息熵、应用ID的信息熵,输入到MLP做判定,得出的输出就是作弊可能性判定;
0至1的数值可以标识概率。
步骤M:当出现误判,将当前的统计数值的作弊判定四舍五入取整到0和1,人工纠正误判的部分;这套数据作为训练样本回到步骤D重新训练。
误判例如客户投诉成立时。
以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理,而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。

Claims (1)

1.一种基于人工神经网络的应用分发平台作弊检测方法,其特征在于:步骤包括:
步骤A:每次应用安装时,记录日志到服务器上的数据库,所述日志包含用户、应用ID、安装时间、手机IMEI、机型、产地和厂商信息;
步骤B:从数据库中提取指定时间段的日志作为基础数据,按用户分组统计一批统计数值,选定以下参数:日志总条数、机型的信息熵、产地的信息熵、手机IMEI的信息熵、应用ID的信息熵;所述统计数值作为训练样本;
步骤C:人工审核一遍所述训练样本,对认为作弊的用户打上标签1,否则打上标签0,1和0是数字;
步骤D:将所述训练样本随机抽样分成3份,其中10%为验证集,60%为训练集,30%为测试集;
步骤E:选定开源项目提供的MLP作为人工神经网络程序;
步骤F:设定MLP的参数:输入神经元数为5,对应5个所述统计数值;输出神经元数为1,对应人工审核中打上的标签;中间层暂定为1层,输入神经元数暂定为5,之后的训练过程中可能做调整;
步骤G:将所述验证集输入到MLP做训练,设定允许误差为0.0001,最大训练递归次数为1,000,000;
步骤H:训练完成后用MLP对验证集做判定,从5个所述统计数值输入中得到1个输出值,对比输出值与人工打上的标签的差异;
要求:人工标签为1的,对应输出值应尽量接近1,否则尽量接近0,无任何超过0.1的差异;如果差异不满足要求,回到步骤G重新训练,如果重复多次达不到要求,回到步骤F重新设定中间层的层数和输入神经元数;
步骤I:保持上面步骤的参数,用所述训练集重新训练MLP;
步骤J:用MLP对所述测试集做判定:
同样要求:人工标签为1的,对应输出值应尽量接近1,否则尽量接近0,无任何超过0.1的差异;如果差异不满足要求,回到步骤I重新训练,如果重复多次达不到要求,回到步骤F重新设定中间层的层数和输入神经元数;
步骤K:经过以上步骤后,获得了判定实际数据的MLP,部署到服务器;
步骤L:每天定时从数据库中提取过往30天日志,同样按用户分组计算日志总条数、机型的信息熵、产地的信息熵、手机IMEI的信息熵、应用ID的信息熵,输入到MLP做判定,得出的输出就是作弊可能性判定;
步骤M:当出现误判,将当前的统计数值的作弊判定四舍五入取整到0和1,人工纠正误判的部分;这套数据作为训练样本回到步骤D重新训练。
CN201710158574.5A 2017-03-17 2017-03-17 一种基于人工神经网络的应用分发平台作弊检测方法 Active CN106991139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710158574.5A CN106991139B (zh) 2017-03-17 2017-03-17 一种基于人工神经网络的应用分发平台作弊检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710158574.5A CN106991139B (zh) 2017-03-17 2017-03-17 一种基于人工神经网络的应用分发平台作弊检测方法

Publications (2)

Publication Number Publication Date
CN106991139A CN106991139A (zh) 2017-07-28
CN106991139B true CN106991139B (zh) 2018-08-07

Family

ID=59413427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710158574.5A Active CN106991139B (zh) 2017-03-17 2017-03-17 一种基于人工神经网络的应用分发平台作弊检测方法

Country Status (1)

Country Link
CN (1) CN106991139B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909414A (zh) * 2017-12-13 2018-04-13 北京奇虎科技有限公司 应用程序的反作弊方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4175296B2 (ja) * 2004-06-25 2008-11-05 キャタピラージャパン株式会社 建設機械のデータ処理装置及び建設機械のデータ処理方法
CN104809069A (zh) * 2015-05-11 2015-07-29 中国电力科学研究院 一种基于集成神经网络的源代码漏洞检测方法
CN106203625B (zh) * 2016-06-29 2019-08-02 中国电子科技集团公司第二十八研究所 一种基于多重预训练的深层神经网络训练方法

Also Published As

Publication number Publication date
CN106991139A (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
US10880181B2 (en) Methods and apparatus for analysing performance of a telecommunications network
US10929879B2 (en) Method and apparatus for identification of fraudulent click activity
JP6010719B1 (ja) 健康管理サーバおよび健康管理サーバ制御方法並びに健康管理プログラム
Naveena et al. Hybrid ARIMA-ANN modelling for forecasting the price of Robusta coffee in India
JP2018516412A (ja) 畳み込みニューラルネットワークに基づいたフルリファレンス画像品質評価方法
US11734606B2 (en) Method for predicting operational effectiveness
CN107633323A (zh) 核保难度预测的方法、装置、计算机设备及存储介质
CN106897404A (zh) 一种基于多gru层神经网络的推荐方法与系统
US20220283566A1 (en) Defect detection during an automated production process
CN106991139B (zh) 一种基于人工神经网络的应用分发平台作弊检测方法
CN107230090B (zh) 一种净推荐值nps分类方法及装置
US11514815B1 (en) System, method, and device for generating flight training scheme oriented to individual difference
CN116739759A (zh) 基于订单风险识别的资产资金匹配方法、装置及设备
CN108737813A (zh) QoE的确定方法、装置、存储介质及处理器
CN110966731A (zh) 调节工作参数的方法
US20140052425A1 (en) Method and apparatus for evaluating a model of an industrial plant process
Tamura et al. Software reliability assessment and optimal version-upgrade problem for open source software
Miller et al. Calibrating recruitment estimates for mourning doves from harvest age ratios
CN110807606B (zh) 一种基于大数据的智能自适应教育培训系统
CN115767069A (zh) 摄像头的故障判定方法、装置和计算机可读存储介质
CN111416847A (zh) 方案决策方法、装置及服务器
EP3579245A1 (en) A method and apparatus for use in detecting malingering by a first subject in tests of physical and/or mental function of the first subject
Powers Introduction to program evaluation
TWI730288B (zh) 深度學習方法、系統、伺服器及可讀存儲介質
CN115842812B (zh) 基于pca和集成自编码器的用户感知评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liang Dajun

Inventor after: Lin Dongxian

Inventor before: Liang Dajun

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 510635 Lieber International Hotel, 28 Dongheng Street, Longkou, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: Bee Assistant Co., Ltd.

Address before: 510635 Lieber International Hotel, 28 Dongheng Street, Longkou, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: Guangdong bee assistant network technology Limited by Share Ltd

CP01 Change in the name or title of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An artificial neural network-based application distribution platform cheat detection method

Effective date of registration: 20190530

Granted publication date: 20180807

Pledgee: Bank of China Limited by Share Ltd Guangzhou Tianhe branch

Pledgor: Bee Assistant Co., Ltd.

Registration number: 2019440000191

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220214

Granted publication date: 20180807

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Tianhe branch

Pledgor: Bee Assistant Co.,Ltd.

Registration number: 2019440000191

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A cheating detection method of application distribution platform based on artificial neural network

Effective date of registration: 20220216

Granted publication date: 20180807

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Tianhe branch

Pledgor: Bee Assistant Co.,Ltd.

Registration number: Y2022440000030

PE01 Entry into force of the registration of the contract for pledge of patent right