CN109886017A - 一种基于c4.5决策树的手机特征检测优化改进算法 - Google Patents

一种基于c4.5决策树的手机特征检测优化改进算法 Download PDF

Info

Publication number
CN109886017A
CN109886017A CN201910066867.XA CN201910066867A CN109886017A CN 109886017 A CN109886017 A CN 109886017A CN 201910066867 A CN201910066867 A CN 201910066867A CN 109886017 A CN109886017 A CN 109886017A
Authority
CN
China
Prior art keywords
mobile phone
factors
decision tree
information gain
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910066867.XA
Other languages
English (en)
Inventor
孙歆
汪自翔
李沁园
孙昌华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910066867.XA priority Critical patent/CN109886017A/zh
Publication of CN109886017A publication Critical patent/CN109886017A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于C4.5决策树的手机特征检测优化改进算法。本发明在C4.5算法基础上,对各个因子计算信息增益和信息增益比的过程中,针对不同因子的划分给予一个权重参数,使得不同因子的信息增益度数据差异相比于之前更大,从而提升机器学习对不同用户使用特征差异性的识别,增加了结果的可信度。本发明通过分析记录手机用户的使用特征,并将当前手机使用者的特征与手机用户的特征进行匹配,从而判断出手机的用户是否合法,使手机不会被第三方用户非法使用。本发明旨在通过改进优化C4.5决策树机器学习算法提升手机特征检测准确率,更加精准识别手机的非法使用操作。

Description

一种基于C4.5决策树的手机特征检测优化改进算法
技术领域
本发明属于电子类机器学习算法领域,具体地说是一种基于C4.5决策树的手机特征检 测优化改进算法。
背景技术
近些年来,随着手机的普及以及手机应用的多样化,手机在人类生活中起着越来越重 要的作用。然而伴随着手机的高速发展,手机所面临的威胁也越来越多。4G网络的大范围 使用,手机功能的日益强大,手机与日常生活的联系日益紧密,这些都是威胁原来越多的 重要原因。截止今年,我国的手机用户已达12.56亿人,已经覆盖了绝大部分人群。同时, 根据中科院2010年的《智能手机用户对手机安全威胁的感知与应对行为》中可以看到,68.6%的手机用户存在着安全威胁,所以大部分用户都面临着手机安全的风险。
由于手机的使用越来越普遍,手机安全也变得越来越重要。研究者们也使用很多方法 来防止手机病毒或者垃圾短信等一些传统的对手机的威胁。而近些年来,手机被盗用已成 为威胁手机安全的重要原因之一,然而现如今可以保护手机免于陌生人使用的方法或工具 很少。
发明内容
本发明所要解决的技术问题是克服上述现有技术存在的缺陷,提供一种基于C4.5决 策树的手机特征检测优化改进算法,其通过分析记录手机用户的使用特征,并将当前手机 使用者的特征与手机用户的特征进行匹配,从而判断出手机的用户是否合法,使手机不会 被第三方用户非法使用。
为此,本发明采用如下的技术方案:一种基于C4.5决策树的手机特征检测优化改进 算法,在C4.5算法基础上,对各个因子计算信息增益和信息增益比的过程中,针对不同因子的划分给予一个权重参数β,定义如下:
对于每一个不同的因子A,假设在按照因子A划分之后得到的n个不同子集对应着n个不同的结果A′={A1,A2,...,An},于是假设对于因子A的不同结果的权重参数为 Aβ={β12,...βn},那么整个因子A的权重参数为βA=β12+...+βn
对于给定的几个S,集合S更新后的熵为:
其中S表示给定的集合,p′i表示新的子集Si的样本数量占总样本数量的 比例,m表示S的子集数量,Si表示S的具体第i个子集,βi为子集Si的权重参数;
在按照因子A划分之后,新的划分之后的几个S的熵为:
其中S′oi=βiS′i,So=∑βnSn,S′i表示根据A因子划分后S的具体第i个子集,S′oi为根据A因子得到的新的子集乘以权重后的结果,So表示所有子集乘以权重之和,n为新的 子集数量,Sn表示集合S的第n个新子集;
所以因子A的信息增益为:
那么因子A的信息增益比为:
其中更新后的集合S按照A因子划分得到的分裂信息度为:
进一步地,在对权重参数β进行训练的过程中,先将β设置成一个默认值,再根据这个β计算得出决策树,之后将训练结果和测试结果进行对比;如果其中有误差生成,训练 得到的分类为m,而实际分类为n,那么就将训练参数βm向βn调整一定的幅度γ,使误差 变小。
进一步地,在计算误差的时候,损失函数将设置为:L(S)=C(S)+α′|S|+α″|β|,防止 β过度拟合而造成实际误差的变大,其中,α′为步进速率,α″为学习速率,C为决策树 的训练误差。
本发明所述方法是通过在现有C4.5算法基础上,针对不同因子的划分给予一个权重参 数,使得不同因子的信息增益度数据差异相比于之前更大,从而提升机器学习对不同用户 使用特征差异性的识别。
相较于现有C4.5算法而言,改进后的算法同的因子划分后的子集之间相比于之前产生 了更大的差异,从而使得不同因子划分得到的信息增益和信息增益比差别变大,增加了结 果的可信度。
本发明旨在通过改进优化C4.5决策树机器学习算法提升手机特征检测准确率,更加 精准识别手机的非法使用操作。
具体实施方式
下面结合实施例来对本发明进行进一步说明,但本发明的保护范围不限于下述实施例。 在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和变更,都落入本发 明的保护范围。
本实施例提供一种基于C4.5决策树的手机特征检测优化改进算法,在现有C4.5算法 基础上,对各个因子计算信息增益和信息增益比的过程中,针对不同因子的划分给予一个 权重参数β,定义如下:
对于每一个不同的因子A,假设在按照因子A划分之后得到的n个不同子集对应着n个不同的结果A′={A1,A2,...,An},于是假设对于因子A的不同结果的权重参数为 Aβ={β12,...βn},那么整个因子A的权重参数为βA=β12+...+βn
对于给定的几个S,集合S更新后的熵为:
其中S表示给定的集合,p′i表示新的子集Si的样本数量占总样本数量的 比例,m表示S的子集数量,Si表示S的具体第i个子集,βi为子集Si的权重参数。
在按照因子A划分之后,新的划分之后的几个S的熵为:
其中S′oi=βiS′i,So=∑βnSn,S′i表示根据A因子划分后S的具体第i个子集,S′oi为根据A因子得到的新的子集乘以权重后的结果,So表示所有子集乘以权重之和,n 为新的子集数量,Sn表示集合S的第n个新子集。
所以因子A的信息增益为:
那么因子A的信息增益比为:
其中更新后的集合S按照A因子划分得到的分裂信息度为:
进一步地,在对权重参数β进行训练的过程中,先将β设置成一个默认值,再根据这个β计算得出决策树,之后将训练结果和测试结果进行对比;如果其中有误差生成,训练 得到的分类为m,而实际分类为n,那么就将训练参数βm向βn调整一定的幅度γ,使误差 变小。
进一步地,在计算误差的时候,损失函数将设置为:L(S)=C(S)+α′|S|+α″|β|,防止 β过度拟合而造成实际误差的变大,其中,α′为步进速率,α″为学习速率,C为决策树 的训练误差。
为了对本发明提出的基于改进的C4.5的手机特征检测决策树算法进行评估,表现出该 方法的优越性,这里选择未修改的C4.5算法和ID3算法作为改进的C4.5算法(即本发明) 的对比算法。C4.5算法为现有的公知算法。ID3算法整体与C4.5算法类似,所不同的是在 进行节点分裂时,C4.5算法选择的是信息增益比最大的特征进行分裂,而ID3算法选择的 是信息增益最大的特征进行分裂,即如果按照A因子对集合S进行划分,那么按照A因 子划分之后的信息增益为G(A),那么在比较不同因子的信息增益G之后,选择其中最大 的信息增益G(X)所对应的因子X,以该因子X作为该节点划分的特征。实验结果如下表 所示:
三种不同算法的准确率、召回率以及F值对比
从实验结果中可以看出:
1、三种算法的准确率,召回率和F值都要大于0.5,可以得出三种决策树算法都可以 一定程度上有效地对使用手机的用户进行判断,说明决策树算法在手机的特征检测上是可 行的;
2、现有C4.5算法和改进的C4.5算法在准确率、召回率和F值上都要大大高于ID3算法,这说明相比于使用信息增益,使用信息增益比将大大提高模型的精确性。造成这个的原因可能是因为信息增益量并不能完全地体现出不同信息的差异。在本实验中,不同因子之间的差异性十分大,如果只是使用信息增益量,某些因子可能会存在单纯的增益数值增加特别多,而实际上增加比例较少的情况,而这与实际情况可能恰恰相反,最终也许就会造成判断上的错误。所以使用信息增益比来代替信息增益会更加合理,从而使得预测的准确率,召回率和F值大大上升。
3、与现有C4.5算法相比,改进的C4.5算法在准确率、召回率和F值方面有略微提升。 这说明为每个因子增加参数的方法是有效的,相比而言该方法计算得到的熵值会更加准确, 因而信息增益比也会更加准确,最终使得预测精度略微上升。但是C4.5算法和改进的C4.5 算法差异并不大,说明该改进算法也只是略微提升了部分性能,并没有从根本上改进基于 C4.5的决策树模型。

Claims (3)

1.一种基于C4.5决策树的手机特征检测优化改进算法,其特征在于,在C4.5算法基础上,对各个因子计算信息增益和信息增益比的过程中,针对不同因子的划分给予一个权重参数β,定义如下:
对于每一个不同的因子A,假设在按照因子A划分之后得到的n个不同子集对应着n个不同的结果A′={A1,A2,...,An},于是假设对于因子A的不同结果的权重参数为Aβ={β12,...βn},那么整个因子A的权重参数为βA=β12+...+βn
对于给定的几个S,集合S更新后的熵为:
其中S表示给定的集合,p′i表示新的子集Si的样本数量占总样本数量的比例,m表示S的子集数量,Si表示S的具体第i个子集,βi为子集Si的权重参数;
在按照因子A划分之后,新的划分之后的几个S的熵为:
其中S′oi=βiS′i,So=∑βnSn,S′i表示根据A因子划分后S的具体第i个子集,S′oi为根据A因子得到的新的子集乘以权重后的结果,So表示所有子集乘以权重之和,n为新的子集数量,Sn表示集合S的第n个新子集;
所以因子A的信息增益为:
那么因子A的信息增益比为:
其中更新后的集合S按照A因子划分得到的分裂信息度为:
2.根据权利要求1所述的手机特征检测优化改进算法,其特征在于,在对权重参数β进行训练的过程中,先将β设置成一个默认值,再根据这个β计算得出决策树,之后将训练结果和测试结果进行对比;如果其中有误差生成,训练得到的分类为m,而实际分类为n,那么就将训练参数βm向βn调整一定的幅度γ,使误差变小。
3.根据权利要求2所述的手机特征检测优化改进算法,其特征在于,在计算误差的时候,损失函数将设置为:L(S)=C(S)+α′|S|+α″|β|,防止β过度拟合而造成实际误差的变大,其中,α′为步进速率,α″为学习速率,C为决策树的训练误差。
CN201910066867.XA 2019-01-24 2019-01-24 一种基于c4.5决策树的手机特征检测优化改进算法 Pending CN109886017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910066867.XA CN109886017A (zh) 2019-01-24 2019-01-24 一种基于c4.5决策树的手机特征检测优化改进算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910066867.XA CN109886017A (zh) 2019-01-24 2019-01-24 一种基于c4.5决策树的手机特征检测优化改进算法

Publications (1)

Publication Number Publication Date
CN109886017A true CN109886017A (zh) 2019-06-14

Family

ID=66926657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910066867.XA Pending CN109886017A (zh) 2019-01-24 2019-01-24 一种基于c4.5决策树的手机特征检测优化改进算法

Country Status (1)

Country Link
CN (1) CN109886017A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241056A (zh) * 2019-12-31 2020-06-05 国网浙江省电力有限公司电力科学研究院 一种基于决策树模型的电力用能数据存储优化方法
CN111757249A (zh) * 2020-05-21 2020-10-09 重庆邮电大学 一种基于信息增益比的多特征模糊映射接入点优化方法
CN112446435A (zh) * 2020-12-10 2021-03-05 长春理工大学 一种城市数据分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368717A (zh) * 2017-06-05 2017-11-21 深圳市金立通信设备有限公司 一种身份识别的方法和终端
CN107426397A (zh) * 2017-04-18 2017-12-01 中国科学院计算技术研究所 基于用户行为特征的模型训练方法及身份验证方法
US20180101534A1 (en) * 2016-10-12 2018-04-12 Salesforce.Com, Inc. Accounting for Positional Bias in A Document Retrieval System Using Machine Learning
CN108702356A (zh) * 2017-05-19 2018-10-23 深圳市大疆创新科技有限公司 身份验证方法、设备、机器可读存储介质以及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180101534A1 (en) * 2016-10-12 2018-04-12 Salesforce.Com, Inc. Accounting for Positional Bias in A Document Retrieval System Using Machine Learning
CN107426397A (zh) * 2017-04-18 2017-12-01 中国科学院计算技术研究所 基于用户行为特征的模型训练方法及身份验证方法
CN108702356A (zh) * 2017-05-19 2018-10-23 深圳市大疆创新科技有限公司 身份验证方法、设备、机器可读存储介质以及系统
CN107368717A (zh) * 2017-06-05 2017-11-21 深圳市金立通信设备有限公司 一种身份识别的方法和终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241056A (zh) * 2019-12-31 2020-06-05 国网浙江省电力有限公司电力科学研究院 一种基于决策树模型的电力用能数据存储优化方法
CN111241056B (zh) * 2019-12-31 2024-03-01 国网浙江省电力有限公司营销服务中心 一种基于决策树模型的电力用能数据存储优化方法
CN111757249A (zh) * 2020-05-21 2020-10-09 重庆邮电大学 一种基于信息增益比的多特征模糊映射接入点优化方法
CN112446435A (zh) * 2020-12-10 2021-03-05 长春理工大学 一种城市数据分类方法及系统
CN112446435B (zh) * 2020-12-10 2023-12-05 长春理工大学 一种城市数据分类方法及系统

Similar Documents

Publication Publication Date Title
CN109886017A (zh) 一种基于c4.5决策树的手机特征检测优化改进算法
CN103617256B (zh) 待变异检测文件的处理方法及装置
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN104573000B (zh) 基于排序学习的自动问答装置及方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN104077407B (zh) 一种智能数据搜索系统及方法
CN102572744B (zh) 识别特征库获取方法、装置及短消息识别方法、装置
CN104331502B (zh) 针对快递员周边人群营销中快递员数据的识别方法
CN105426426A (zh) 一种基于改进的K-Medoids的KNN文本分类方法
CN109784368A (zh) 一种应用程序分类的确定方法和装置
CN110874744A (zh) 一种数据异常检测方法及装置
CN107292193A (zh) 一种实现数据泄露防护的方法和系统
CN110675263B (zh) 交易数据的风险识别方法以及装置
CN107358346A (zh) 针对于通信质量的评价信息处理方法和装置
Wang Research on bank marketing behavior based on machine learning
CN106293354A (zh) 快捷菜单自适应显示控制方法、服务器及便携式终端
CN109274834B (zh) 一种基于通话行为的快递号码识别方法
CN108763242B (zh) 标签生成方法及装置
CN114219245B (zh) 基于大数据的乡村电力指数评价方法、装置及存储介质
CN109345049B (zh) 一种基于区块链技术的区块链项目epi评价方法
CN117217929A (zh) 注册对象风险识别方法、装置、计算机设备和存储介质
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
CN114511330A (zh) 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及系统
CN107506398B (zh) 一种为图书添加标签属性的方法
CN107180022A (zh) 对象分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190614

RJ01 Rejection of invention patent application after publication