CN106843941B - 信息处理方法、装置和计算机设备 - Google Patents
信息处理方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN106843941B CN106843941B CN201611266540.XA CN201611266540A CN106843941B CN 106843941 B CN106843941 B CN 106843941B CN 201611266540 A CN201611266540 A CN 201611266540A CN 106843941 B CN106843941 B CN 106843941B
- Authority
- CN
- China
- Prior art keywords
- downloading
- data
- attribute
- sample data
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/61—Installation
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Stored Programmes (AREA)
Abstract
本发明涉及一种信息处理方法、装置和计算机设备。所述方法包括:获取对应用程序的下载数据;提取所述下载数据的属性的特征值;将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的;将下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。通过下载分类决策树对下载数据的属性的特征值进行判断,识别出下载数据的类别,采用下载分类决策树对下载数据进行分类,可快速发现非正常下载,且准确率高。
Description
技术领域
本发明涉及信息处理领域,特别是涉及一种信息处理方法和装置、构建下载分类决策树的方法和装置、计算机设备。
背景技术
随着网络技术的发展,产生了提供各种服务的应用程序。在应用商店等提供应用程序的下载平台上会记录应用程序被下载的次数,通常应用程序被下载的次数越多,表明使用者越多,会吸引更多的用户下载。为此,导致一些非正常下载行为的出现,即模拟正常用户下载应用程序,增加该应用程序的下载记录。目前无法准确的区分哪些下载行为是正常的下载行为,哪些下载行为是非正常下载行为。
发明内容
本发明实施例提供一种信息处理方法、装置、构建下载分类决策树的方法和装置和计算机设备,可以准确区分出非正常下载行为。
一种信息处理方法,包括:
获取对应用程序的下载数据;
提取对所述下载数据的属性的特征值;
将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的;
将所述下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。
一种信息处理装置,包括:
数据获取模块,用于应用程序的获取下载数据;
属性特征获取模块,用于提取所述下载数据的属性的特征值;
导入模块,用于将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的;
类别识别模块,用于将下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。
一种构建下载分类决策树的方法,包括:
获取对应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集;
对所述训练样本数据集中每一样本数据提取多个属性的特征值;
获取所述训练样本数据集的各个属性的信息增益;
选取信息增益最大的属性;
将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集;
依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
一种构建下载分类决策树的装置,包括:
样本采集模块,用于获取对应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集;
属性提取模块,用于对所述训练样本数据集中每一样本数据提取多个属性及对应的特征值;
信息增益获取模块,用于获取所述训练样本数据集的各个属性的信息增益;
选取模块,用于选取信息增益最大的属性;
分类模块,用于将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集;
递归构建模块,用于依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取对应用程序的下载数据;
提取所述下载数据的属性的特征值;
将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的;
将下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。
上述信息处理方法和装置、构建下载分类决策树的方法和装置、计算机设备,通过下载分类决策树对应用程序的下载数据的属性的特征值进行判断,识别出应用程序的下载数据的类别,采用下载分类决策树对下载数据进行分类,可快速发现非正常下载,且准确率高。
附图说明
图1为一个实施例中计算机设备的内部结构示意图;
图2为一个实施例中信息处理方法的流程图;
图3为另一个实施例中信息处理方法的流程图;
图4为一个实施例中网络类型分类的示意图;
图5为网络类型、下载频率和是否为新用户三属性分类的示意图;
图6为一个实施例中构建下载分类决策树的方法的流程图;
图7为一个实施例中信息处理装置的结构框图;
图8为另一个实施例中信息处理装置的结构框图;
图9为另一个实施例中信息处理装置的结构框图;
图10为一个实施例中构建下载分类决策树的装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中计算机设备的内部结构示意图。如图1所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库、信息处理装置、构建下载分类决策树的装置,数据库中存储有下载分类决策树,该信息处理装置用于实现适用于计算机设备的一种信息处理方法。该构建下载分类决策树的装置用于实现适用于计算机设备的一种构建下载分类决策树的方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的内存储器为非易失性存储介质中的信息处理装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被所述处理器执行时,可使得所述处理器执行一种信息处理方法。该计算机设备的网络接口用于据以与外部的设备通过网络连接通信等。计算机设备可以用独立的计算机设备或者是多个计算机设备组成的计算机设备集群来实现。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图2为一个实施例中信息处理方法的流程图。如图2所示,一种信息处理方法,运行于图1中的计算机设备上,包括步骤202至步骤206。其中:
步骤202,获取对应用程序的下载数据。
在一个实施例中,对应用程序的下载数据是指下载应用程序时所产生的数据。下载数据中可包括下载的内容、下载行为的发起者(即用户)、下载时的网络环境、下载时间等。下载的内容可包括应用程序安装包等。下载行为的发起者可采用用户标识表示。用户标识是用于唯一表示用户身份的。用户标识可为在服务平台上注册的用户账号。用户账号可为即时通信应用账号、电子邮箱号码、移动通信号码或字符串。字符串可包括数字、字母和字符中的至少一种。下载时的网络环境可包括网络类别、下载设备标识、下载设备参数等。网络类别可包括蜂窝数据网络、WiFi网络等。下载设备标识是用于唯一表示下载设备的。下载设备标识可为设备MAC(Media Access Control,硬件地址)地址、设备IMEI(International Mobile Equipment Identity,国际移动设备身份码)等。下载设备参数可包括设备的处理器型号、机型型号等。
步骤204,提取所述下载数据的属性的特征值。
在一个实施例中,按照下载分类决策树中属性对下载数据进行分析,提取下载数据中属性的特征值。一个属性的特征值可为一个或多个。例如,属性为网络类别。网络类别的特征值可为蜂窝数据网络或WiFi网络。属性为是否为新用户。是否为新用户的特征值可为是或否。属性为下载频率,下载频率的特征值可为低、中、高。下载频率的特征值为低是指在指定时间段内下载的次数小于或等于第一频率阈值;下载频率的特征值为中是指在指定时间段内下载的次数大于第一频率阈值,小于第二频率阈值,且第一频率阈值小于或等于第二频率阈值;下载频率的特征值为高是指在指定时间段内下载的次数大于第二频率阈值。指定时间段、第一频率阈值和第二频率阈值均可根据需要设定。例如,指定时间段为一天,第一频率阈值为5,第二频率阈值为10。
步骤206,将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的。
在一个实施例中,获取应用程序的历史下载数据,对应用程序的历史下载数据进行训练归类得到下载分类决策树。
步骤208,将下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。
在一个实施例中,下载分类决策树是预先根据历史下载数据抽样训练得到的。历史下载数据可采集正负样本数据。下载分类决策树中自上到下每个决策(属性)都可能引出两个或多个事件,导致不同的结果。将下载数据的属性的特征值与下载分类决策树中各属性节点的特征值进行比较得到比较结果,根据比较结果得到下载数据的类别。下载数据的类别可为正常下载或非正常下载。正常下载是指按照应用需求进行的下载。非正常下载是指为了增加内容被下载的次数记录而进行的大量下载,即欺诈下载。
上述信息处理方法,通过下载分类决策树对下载数据的属性的特征值进行判断,识别出下载数据的类别,采用下载分类决策树对下载数据进行分类,可快速发现非正常下载,且准确率高。
因应用程序发布平台上有各种排序算法,为了衡量各个应用程序的表现,往往会参考应用程序的被下载情况,为了避免应用程序的非正常下载,采用本发明的实施例中所提供的信息处理方法可以基于下载分类决策树快速的识别出非正常下载行为,删除非正常下载数据,再进行排序,使得排序结果更加准确。
在一个实施例中,上述信息处理方法还包括(1)至(4):
(1)获取应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集。
通过从历史的下载数据中筛选出正样本下载数据和负样本下载数据。正样本下载数据是指应用程序的正常下载数据。负样本下载数据是指应用程序的非正常下载数据。非正常下载数据是指欺诈下载行为产生的数据。正常下载数据是指正常下载行为产生的数据。通过对历史的非正常下载数据和正常下载数据进行采样形成训练样本数据集,采样时确保样本数据集中的样本数据既有非正常下载数据,也有正常下载数据。
(2)对所述训练样本数据集中每一样本数据提取多个属性及对应的特征值。
属性包括下载频率、网络类别、是否为新用户、用户的置信度、下载时间段、应用程序大小、应用程序上架时长中至少两种。
(3)获取所述训练样本数据集的各个属性的信息增益。
(4)根据各个属性的信息增益将样本数据进行归类,得到下载分类决策树。
通过属性的信息增益对样本数据进行归类构建下载分类决策树,计算简单,操作方便。
在一个实施例中,根据各个属性的信息增益将样本数据进行归类,得到下载分类决策树,包括:选取信息增益最大的属性;将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集;依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
通过选择信息增益最大的属性对样本数据进行归类,计算简便。
图3为另一个实施例中信息处理方法的流程图。如图3所示,一种信息处理方法,包括:
步骤302,获取应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集。
在一个实施例中,通过从历史的下载数据中筛选出正样本下载数据和负样本下载数据。正样本下载数据是指应用程序的正常下载数据。负样本下载数据是指应用程序的非正常下载数据。非正常下载数据是指欺诈下载行为产生的数据。正常下载数据是指正常下载行为产生的数据。通过对历史的非正常下载数据和正常下载数据进行采样形成训练样本数据集,采样时确保样本数据集中的样本数据既有非正常下载数据,也有正常下载数据。
步骤304,对所述训练样本数据集中每一样本数据提取多个属性及对应的特征值。
在一个实施例中,属性包括下载频率、网络类别、是否为新用户、用户的置信度、下载时间段、应用程序大小、应用程序上架时长中至少两种。
下载频率是在指定时间段内下载的频繁程度。下载频率的特征值可为低、中、高。下载频率的特征值为低是指在指定时间段内下载的次数小于或等于第一频率阈值;下载频率的特征值为中是指在指定时间段内下载的次数大于第一频率阈值,小于第二频率阈值,且第一频率阈值小于或等于第二频率阈值;下载频率的特征值为高是指在指定时间段内下载的次数大于第二频率阈值。指定时间段、第一频率阈值和第二频率阈值均可根据需要设定。
网络类别是指下载时所使用的网络所属的类别。网络类别的特征值可为蜂窝数据网络或WiFi网络等。
是否为新用户是指用户的类别。用户类别可为老用户和新用户。老用户是指注册超过预设时长的用户。新用户是指注册未超过预设时长的用户。是否为新用户的特征值可为是或否。
用户置信度是指用户可信程度。用户置信度的特征值可为可信或不可信。
下载时间段是指下载行为发生的时间区间。例如,可将24小时划分为2个时间段,如第一天8点至第一天的18点,第一天的18点至第二天8点,将下载时间与时间段进行比较确定下载时间段。下载时间段的特征值可为白天或夜间。
应用程序大小的特征值可为大或小。应用程序大小大于或等于大小阈值,则应用程序大小的特征值为大,应用程序大小小于大小阈值,则应用程序大小的特征值为小。
应用程序的上架时长是指应用程序发布在服务平台上持续的时长。应用程序的上架时长的特征值可为长或短。应用程序的上架时长的特征值为长是指应用程序的上架时长大于时长阈值,应用程序的上架时长的特征值为短是指应用程序的上架时长小于时长阈值。
步骤306,获取所述训练样本数据集的各个属性的信息增益。
在一个实施例中,获取训练样本数据集的各个属性的信息增益可通过求取用类别对训练样本数据集进行的划分D的熵与属性A对划分D的期望信息之差得到。熵表示D中训练样本数据集的类标号所需要的平均信息量。
用类别对训练样本数据集进行的划分D的熵的计算公式如式(1)。
公式(1)中,info(D)表示D的熵,pi表示第i个类别在整个训练样本数据集中出现的概率,可以用属于此类别样本数据的数量除以训练样本数据集中样本数据总数量得到。m表示类别的个数。
将用类别对训练样本数据集进行的划分D按属性A进行划分,则A对D划分的期望信息可采用公式(2)计算得到。
公式(2)中,infoA(D)表示A对D划分的期望信息。v表示类别的个数。Dj表示属性A的样本数据中第j类别的样本数据的数量。
信息增益的计算公式如公式(3)。
gain(A)=info(D)-infoA(D) 公式(3)
公式(3)中,gain(A)为属性A的信息增益。
步骤308,选取信息增益最大的属性。
在一个实施例中,计算得到训练样本数据集中各属性的信息增益后,比较各属性的信息增益,获取信息增益最大的属性。
步骤310,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集。
在一个实施例中,将信息增益最大的属性进行分裂,即将信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集。信息增益最大的属性的特征值有多种,则得到多个训练样本数据子集。此外属性的特征值为三个以上时,也可以将样本数据按照属性的特征值分成两个训练样本数据子集,即可将属性的不同特征值的样本数据归类到同一训练样本数据子集中。
步骤312,依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
在一个实施例中,对训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,逐次递归分裂,构建下载分类决策树。
若训练样本数据子集只含有单个属性,则表示训练样本数据子集中的样本数据可作为一个叶子节点,根据单个属性的特征值标记单个属性对应的下载类别。
步骤314,获取对应用程序的下载数据。
步骤316,提取所述下载数据的属性的特征值。
步骤318,将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的。
步骤320,将下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。
上述信息处理方法,基于应用程序的历史下载数据进行训练得到下载分类决策树,通过下载分类决策树对下载数据的属性的特征值进行判断,识别出下载数据的类别,采用下载分类决策树对下载数据进行分类,可快速发现非正常下载,且准确率高。且下载分类决策树可读性好,具有描述性,有助于人工分析,效率高,且决策树只需一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。
为了更清楚的说明下载分类决策树的构建过程,结合具体的训练样本数据集进行描述。假设训练样本数据集如表1所示。
表1
下载频率 | 网络类别 | 是否为新用户 | 是否为正常下载 |
高 | wifi | 否 | 否 |
高 | wifi | 是 | 是 |
低 | 数据网络 | 是 | 是 |
中 | 数据网络 | 是 | 是 |
低 | 数据网络 | 是 | 是 |
中 | 数据网络 | 否 | 是 |
中 | wifi | 否 | 否 |
低 | wifi | 否 | 是 |
中 | 数据网络 | 否 | 是 |
高 | wifi | 是 | 否 |
表1中的训练样本数据集包括10个样本数据,每个样本数据的属性包括下载频率、网络类别、是否新用户。分类结果包括正常下载和非正常下载。采用F表示下载频率,N表示网络类别,U表示是否为新用户。
根据公式(1)计算划分D的熵:
info(D)=-0.7*log20.7-0.3*log20.3=0.7*0.51+0.3*1.74=0.879
根据公式(2),各属性的信息增益分别是:
下载频率F的信息增益为0.879-0.603=0.276
网络类别N的信息增益为0.879-0.485=0.394
是否为新用户U的信息增益为0.879-0.845=0.034
因N的信息增益最大,所以第一次分裂选择N为分裂属性,因N的特征值为蜂窝数据网络和WiFi网络,将蜂窝数据网络的样本数据归为同一训练样本数据子集,将WiFi网络的样本数据归为同一训练样本数据子集,得到的分裂结果如图4所示。图4中网络类别为蜂窝数据网络的样本数据的类别为正常下载,网络类别为WiFi网络的样本数据还包括下载频率和是否为新用户两个属性,需要对两个属性继续进行分裂。
在图4的基础上,递归计算训练样本数据子集的各个属性的信息增益,选取信息增益最大的属性进行分裂,最终得到下载分类决策树。
info(D)=-0.4*log20.4-0.6*log20.6=0.971
各属性的信息增益:
下载频率F的信息增益为0.971-0.55=0.421
是否为新用户U的信息增益为0.971-0.95=0.021
选取信息增益最大的下载频率F进行分裂,将下载频率低的样本数据归为同一样本数据子集,并标记为正常下载,将下载频率中或高的样本数据归为同一样本数据子集,再根据属性“是否为新用户”的特征值标记,若是否为新用户的特征值为是,则标记为正常下载,若是否为新用户的特征值为否,则标记为非正常下载,如图4所示。
在一个实施例中,上述信息处理方法,还包括:统计指定时间内或指定次数的下载数据的分类结果的正确率;若所述正确率小于阈值,则选取训练样本数据集及选取新的属性进行训练得到新的下载分类决策树。
指定时间可为根据需要设定的时间。指定次数可根据需要设定的,如1000次。正确率小于阈值,则表示下载分类决策树存在一定的错误,需要进行修正。通过重新选取训练样本数据集及选取新的属性进行训练得到新的下载分类决策树,并可采用新的分类决策树对测试样本数据进行测试,判断是否准确。
在一个实施例中,上述信息处理方法,还包括:根据下载分类决策树筛选出非正常下载的下载数据,并删除非正常下载数据。
将非正常下载的数据删除后,统计正常下载的数据进行排序,得到的排序结果更加准确,更能体现数据下载的真实性。
例如,删除非正常下载数据后,统计得到应用程序A被下载次数为32999,应用程序B被下载次数为24000,应用程序C被下载次数为12000,应用程序D被下载次数为4800,应用程序E被下载次数为100等。将应用程序按照下载次数从高到低进行排序。
图6为一个实施例中构建下载分类决策树的方法的流程图。如图6所示,一种构建下载分类决策树的方法,包括:
步骤602,获取应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集。
在一个实施例中,通过从应用程序的历史的下载数据中筛选出正负样本下载数据。正样本下载数据是指应用程序的正常下载数据。负样本下载数据是指应用程序的非正常下载数据。非正常下载数据是指欺诈下载行为产生的数据。正常下载数据是指正常下载行为产生的数据。通过对历史的非正常下载数据和正常下载数据进行采样形成训练样本数据集,采样时确保样本数据集中的样本数据既有非正常下载数据,也有正常下载数据。
步骤604,对所述训练样本数据集中每一样本数据提取多个属性的特征值。
在一个实施例中,属性包括下载频率、网络类别、是否为新用户、用户的置信度、下载时间段、应用程序大小、应用程序上架时长中至少两种。
步骤606,获取所述训练样本数据集的各个属性的信息增益。
在一个实施例中,获取训练样本数据集的各个属性的信息增益可通过求取用类别对训练样本数据集进行的划分D的熵与属性A对划分D的期望信息之差得到。
步骤608,选取信息增益最大的属性。
在一个实施例中,计算得到训练样本数据集中各属性的信息增益后,比较各属性的信息增益,获取信息增益最大的属性。
步骤610,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集。
在一个实施例中,将信息增益最大的属性进行分裂,即将信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集。信息增益最大的属性的特征值有多种,则得到多个训练样本数据子集。此外属性的特征值为三个以上时,也可以将样本数据按照属性的特征值分成两个训练样本数据子集,即可将属性的不同特征值的样本数据归类到同一训练样本数据子集中。
步骤612,依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
若训练样本数据子集只含有单个属性,则将所述训练样本数据子集作为一个叶子节点,根据所述单个属性的特征值标记对应的类别,构建下载分类决策树。
上述构建下载分类决策树的方法,通过对历史正常下载数据和非正常下载数据采样得到训练样本数据集,对训练样本数据集提取属性及属性的特征值,选取信息增益最大的属性进行分裂构建下载分类决策树,下载分类决策树构建准确,可以用于快速识别下载行为是否正常。
图7为一个实施例中信息处理装置的结构框图。如图7所示,一种信息处理装置700,包括数据获取模块702、属性特征获取模块704、导入模块706和类别识别模块708。其中:
数据获取模块702用于获取对应用程序的下载数据。
属性特征获取模块704用于提取所述下载数据的属性的特征值。
导入模块706用于将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的。
类别识别模块708用于将下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。
上述信息处理装置,通过下载分类决策树对应用程序的下载数据的属性的特征值进行判断,识别出下载数据的类别,采用下载分类决策树对应用程序的下载数据进行分类,可快速发现非正常下载,且准确率高。
图8为另一个实施例中信息处理装置的结构框图。如图8所示,一种信息处理装置700,除了包括数据获取模块702、属性特征获取模块704、导入模块706和类别识别模块708,还包括样本采集模块710、属性提取模块712、信息增益获取模块714、构建模块716。其中:
样本采集模块710用于获取应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集。
属性提取模块712用于对所述训练样本数据集中每一样本数据提取多个属性及对应的特征值。
所述属性包括下载频率、网络类别、是否新用户、用户的置信度、下载时间段、应用程序大小、应用程序上架时长中至少两种。
信息增益获取模块714用于获取所述训练样本数据集的各个属性的信息增益。
构建模块716用于根据各个属性的信息增益将样本数据进行归类,得到下载分类决策树。
如图8所示,构建模块716包括选取单元7162、归类单元7164和递归构建单元7166。
选取单元7162用于选取信息增益最大的属性。
归类单元7164用于将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集。
递归构建单元7166用于依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
若训练样本数据子集只含有单个属性,则表示训练样本数据子集中的样本数据可作为一个叶子节点,根据单个属性的特征值标记单个属性对应的下载类别。
图9为另一个实施例中信息处理装置的结构框图。如图9所示,一种信息处理装置700,除了包括数据获取模块702、属性特征获取模块704、导入模块706和类别识别模块708,还包括样本采集模块710、属性提取模块712、信息增益获取模块714、构建模块716,还包括统计模块718和训练模块720。
统计模块718用于统计指定时间内或指定次数的下载数据的分类结果的正确率。
训练模块720用于若所述正确率小于阈值,则选取训练样本数据集及选取新的属性进行训练得到新的下载分类决策树。
图10为一个实施例中构建下载分类决策树的装置的结构框图。如图10所示,一种构建下载分类决策树的装置1000,包括样本采集模块1002、属性提取模块1004、信息增益获取模块1006、选取模块1008、分类模块1010和递归构建模块1012。其中:
样本采集模块1002用于获取应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集。
属性提取模块1004用于对所述训练样本数据集中每一样本数据提取多个属性及对应的特征值。
信息增益获取模块1006用于获取所述训练样本数据集的各个属性的信息增益。
选取模块108用于选取信息增益最大的属性。
分类模块1010用于将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集。
递归构建模块1012用于依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集逐次递归分裂,构建下载分类决策树。
若训练样本数据子集只含有单个属性,则表示训练样本数据子集中的样本数据可作为一个叶子节点,根据单个属性的特征值标记单个属性对应的下载类别。
需要说明的是,上述信息处理装置或构建下载分类决策树的装置中各个模块的划分仅用于举例说明,在其他实施例中,可将信息处理装置或构建下载分类决策树的装置按照需要划分为不同的模块,以完成上述信息处理装置或构建下载分类决策树的装置的全部或部分功能。
本发明的实施例还提供了一种计算机设备。一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:获取对应用程序的下载数据;提取所述下载数据的属性的特征值;将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的;将下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。
在一个实施例中,所述处理器执行所述程序时实现以下步骤:
获取应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集;
对所述训练样本数据集中每一样本数据提取多个属性及对应的特征值;
获取所述训练样本数据集的各个属性的信息增益;
选取信息增益最大的属性;
将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集;
依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,逐次递归分裂,构建下载分类决策树。
若训练样本数据子集只含有单个属性,则表示训练样本数据子集中的样本数据可作为一个叶子节点,根据单个属性的特征值标记单个属性对应的下载类别。
所述属性包括下载频率、网络类别、是否新用户、用户的置信度、下载时间段、应用程序大小、应用程序上架时长中至少两种。
在一个实施例中,上述计算机设备中的处理器还用于执行以下步骤:统计指定时间内或指定次数的下载数据的分类结果的正确率;若所述正确率小于阈值,则选取训练样本数据集及选取新的属性进行训练得到新的下载分类决策树。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种信息处理方法,其特征在于,包括:
获取对应用程序的下载数据,所述对应用程序的下载数据是指下载应用程序时所产生的数据;所述下载数据包括下载的内容、下载行为的发起者、下载时的网络环境和下载时间;
提取所述下载数据的属性的特征值;
将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的;
将所述下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。
2.根据权利要求1所述的信息处理方法,其特征在于,所述方法还包括:
获取应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集;
对所述训练样本数据集中每一样本数据提取多个属性及对应的特征值;
获取所述训练样本数据集的各个属性的信息增益;
根据各个属性的信息增益将样本数据进行归类,得到下载分类决策树。
3.根据权利要求2所述的信息处理方法,其特征在于,所述根据各个属性的信息增益将样本数据进行归类,得到下载分类决策树,包括:
选取信息增益最大的属性;
将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集;
依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
4.根据权利要求1至3中任一项所述的信息处理方法,其特征在于,所述方法还包括:
统计指定时间内或指定次数的下载数据的分类结果的正确率;
若所述正确率小于阈值,则选取训练样本数据集及选取新的属性进行训练得到新的下载分类决策树。
5.一种构建下载分类决策树的方法,其特征在于,包括:
获取应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集,所述应用程序的历史下载数据是指下载应用程序时所产生的数据;所述下载数据包括下载的内容、下载行为的发起者、下载时的网络环境和下载时间;
对所述训练样本数据集中每一样本数据提取多个属性的特征值;
获取所述训练样本数据集的各个属性的信息增益;
选取信息增益最大的属性;
将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集;
依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
6.一种信息处理装置,其特征在于,包括:
数据获取模块,用于获取对应用程序的下载数据,所述对应用程序的下载数据是指下载应用程序时所产生的数据;所述下载数据包括下载的内容、下载行为的发起者、下载时的网络环境和下载时间;
属性特征获取模块,用于提取所述下载数据的属性的特征值;
导入模块,用于将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的;
类别识别模块,用于将下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。
7.根据权利要求6所述的信息处理装置,其特征在于,所述装置还包括:
样本采集模块,用于获取应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集;
属性提取模块,用于对所述训练样本数据集中每一样本数据提取多个属性及对应的特征值;
信息增益获取模块,用于获取所述训练样本数据集的各个属性的信息增益;
构建模块,用于根据各个属性的信息增益将样本数据进行归类,得到下载分类决策树。
8.根据权利要求7所述的信息处理装置,其特征在于,所述构建模块包括:
选取单元,用于选取信息增益最大的属性;
归类单元,用于将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集;
递归构建单元,用于依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
9.根据权利要求6至8中任一项所述的信息处理装置,其特征在于,所述装置还包括:
统计模块,用于统计指定时间内或指定次数的下载数据的分类结果的正确率;
训练模块,用于若所述正确率小于阈值,则选取训练样本数据集及选取新的属性进行训练得到新的下载分类决策树。
10.一种构建下载分类决策树的装置,其特征在于,包括:
样本采集模块,用于获取对应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集,所述应用程序的历史下载数据是指下载应用程序时所产生的数据;所述下载数据包括下载的内容、下载行为的发起者、下载时的网络环境和下载时间;
属性提取模块,用于对所述训练样本数据集中每一样本数据提取多个属性及对应的特征值;
信息增益获取模块,用于获取所述训练样本数据集的各个属性的信息增益;
选取模块,用于选取信息增益最大的属性;
分类模块,用于将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集;
递归构建模块,用于依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
11.一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取对应用程序的下载数据,所述对应用程序的下载数据是指下载应用程序时所产生的数据;所述下载数据包括下载的内容、下载行为的发起者、下载时的网络环境和下载时间;
提取所述下载数据的属性的特征值;
将所述下载数据的属性的特征值导入到下载分类决策树中,所述下载分类决策树是根据应用程序的历史下载数据训练得到的;
将下载数据的属性的特征值与所述下载分类决策树中各属性节点的特征值进行比较,根据比较结果得到所述下载数据的类别。
12.根据权利要求11所述的计算机设备,其特征在于,所述处理器执行所述程序时实现以下步骤:
获取应用程序的历史下载数据,对所述历史下载数据进行采样形成训练样本数据集;
对所述训练样本数据集中每一样本数据提取多个属性及对应的特征值;
获取所述训练样本数据集的各个属性的信息增益;
选取信息增益最大的属性;
将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集;
依次对各训练样本数据子集获取训练样本数据子集中的各个属性的信息增益,选取信息增益最大的属性,将所述信息增益最大的属性的特征值相同的样本数据归类到同一训练样本数据子集,递归分裂构建下载分类决策树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611266540.XA CN106843941B (zh) | 2016-12-31 | 2016-12-31 | 信息处理方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611266540.XA CN106843941B (zh) | 2016-12-31 | 2016-12-31 | 信息处理方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106843941A CN106843941A (zh) | 2017-06-13 |
CN106843941B true CN106843941B (zh) | 2019-02-05 |
Family
ID=59117040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611266540.XA Active CN106843941B (zh) | 2016-12-31 | 2016-12-31 | 信息处理方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106843941B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480698B (zh) * | 2017-07-12 | 2021-02-12 | 中山大学 | 基于多个监测指标的质量控制方法 |
CN109947760A (zh) * | 2017-07-26 | 2019-06-28 | 华为技术有限公司 | 一种挖掘kpi根因的方法及装置 |
CN107590697A (zh) * | 2017-09-18 | 2018-01-16 | 北京京东尚科信息技术有限公司 | 数据处理方法及其系统 |
CN109936525B (zh) | 2017-12-15 | 2020-07-31 | 阿里巴巴集团控股有限公司 | 一种基于图结构模型的异常账号防控方法、装置以及设备 |
CN109936561B (zh) * | 2019-01-08 | 2022-05-13 | 平安科技(深圳)有限公司 | 用户请求的检测方法、装置、计算机设备及存储介质 |
CN111336066A (zh) * | 2020-03-04 | 2020-06-26 | 湖南城市学院 | 一种用于产生能量的风力发电系统及控制方法 |
CN112817563B (zh) * | 2020-03-26 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 目标属性配置信息确定方法、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101105854A (zh) * | 2007-08-23 | 2008-01-16 | 上海交通大学 | 基于决策树的远程教育环境中学生情况在线检测方法 |
CN102163251A (zh) * | 2010-02-22 | 2011-08-24 | 深圳市腾讯计算机系统有限公司 | 一种游戏作弊的识别方法和设备 |
CN104617574A (zh) * | 2015-01-19 | 2015-05-13 | 清华大学 | 一种电力系统负荷区域暂态电压稳定的评估方法 |
CN106095916A (zh) * | 2016-06-08 | 2016-11-09 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819601B (zh) * | 2010-05-11 | 2012-02-08 | 同方知网(北京)技术有限公司 | 学术文献自动分类的方法 |
CN103077172B (zh) * | 2011-10-26 | 2017-06-06 | 腾讯科技(深圳)有限公司 | 一种挖掘作弊用户的方法与装置 |
US9652362B2 (en) * | 2013-12-06 | 2017-05-16 | Qualcomm Incorporated | Methods and systems of using application-specific and application-type-specific models for the efficient classification of mobile device behaviors |
CN106022826A (zh) * | 2016-05-18 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种网络直播平台中的作弊用户识别方法与系统 |
-
2016
- 2016-12-31 CN CN201611266540.XA patent/CN106843941B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101105854A (zh) * | 2007-08-23 | 2008-01-16 | 上海交通大学 | 基于决策树的远程教育环境中学生情况在线检测方法 |
CN102163251A (zh) * | 2010-02-22 | 2011-08-24 | 深圳市腾讯计算机系统有限公司 | 一种游戏作弊的识别方法和设备 |
CN104617574A (zh) * | 2015-01-19 | 2015-05-13 | 清华大学 | 一种电力系统负荷区域暂态电压稳定的评估方法 |
CN106095916A (zh) * | 2016-06-08 | 2016-11-09 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106843941A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106843941B (zh) | 信息处理方法、装置和计算机设备 | |
WO2021135105A1 (zh) | 基于大数据的对象识别方法、装置、设备及存储介质 | |
CN109284380A (zh) | 基于大数据分析的非法用户识别方法及装置、电子设备 | |
CN107368856A (zh) | 恶意软件的聚类方法及装置、计算机装置及可读存储介质 | |
CN107357902A (zh) | 一种基于关联规则的数据表分类系统与方法 | |
CN112733146B (zh) | 基于机器学习的渗透测试方法、装置、设备及存储介质 | |
CN103810162A (zh) | 推荐网络信息的方法和系统 | |
CN114187036B (zh) | 一种基于行为特征识别的互联网广告智能推荐管理系统 | |
CN109150873A (zh) | 基于pso_svm优化算法的恶意域名检测系统及方法 | |
CN112463859B (zh) | 基于大数据和业务分析的用户数据处理方法及服务器 | |
CN107092592A (zh) | 一种基于多情境数据和代价敏感集成模型的场所个性化语义识别方法 | |
CN112347100B (zh) | 数据库索引优化方法、装置、计算机设备和存储介质 | |
CN107977445A (zh) | 应用程序推荐方法及装置 | |
CN105825232A (zh) | 对电动汽车用户进行分类的方法及装置 | |
CN109690571A (zh) | 基于学习的组标记系统和方法 | |
CN107741958A (zh) | 一种数据处理方法及系统 | |
CN111210158B (zh) | 目标地址确定方法、装置、计算机设备和存储介质 | |
CN104778388A (zh) | 一种两个不同平台下同一用户识别方法及系统 | |
CN104809104A (zh) | 一种微博文本情绪识别方法及系统 | |
CN106910135A (zh) | 用户推荐方法及装置 | |
CN110866249A (zh) | 一种动态检测恶意代码的方法、装置及电子设备 | |
CN109816004A (zh) | 房源图片分类方法、装置、设备及存储介质 | |
CN112199388A (zh) | 陌电识别方法、装置、电子设备及存储介质 | |
CN115510331B (zh) | 一种基于闲置量聚合的共享资源匹配方法 | |
CN108763242B (zh) | 标签生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 523860 No. 18, Wu Sha Beach Road, Changan Town, Dongguan, Guangdong Applicant after: OPPO Guangdong Mobile Communications Co., Ltd. Address before: 523860 No. 18, Wu Sha Beach Road, Changan Town, Dongguan, Guangdong Applicant before: Guangdong OPPO Mobile Communications Co., Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |