CN105868394A

CN105868394A - 一种基于web和日志信息的app分类方法及其装置

Info

Publication number: CN105868394A
Application number: CN201610242410.6A
Authority: CN
Inventors: 陈湘萍; 周强; 魏相沛
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2016-04-19
Filing date: 2016-04-19
Publication date: 2016-08-17

Abstract

本发明实施例公开了一种基于WEB和日志信息的APP分类方法及其装置，其中，该方法包括：将APP名字提交到搜索引擎，获得前M条搜索片段；对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量；获取APP的使用日志信息，根据所述使用日志信息获得APP的上下文向量；对所述文本向量和上下文向量进行训练，获得APP分类。在本发明实施例中，将APP的名字提交到WEB搜索引擎上，得到前几个搜索片段，通过VSM模型得到文本特征，同时利用日志信息得到现实特征向量，采用MaxEnt模型训练APP分类，可以提高分类的准确性和效率。

Description

一种基于WEB和日志信息的APP分类方法及其装置

技术领域

本发明涉及移动应用(APP)技术领域，尤其涉及一种基于WEB和日志信息的APP分类方法及其装置。

背景技术

随着移动终端的普及，适用于移动终端的应用(APP)也越来越多，APP的分类直接影响用户对移动终端的日常使用。现有一种分类方法，在这方法中，利用移动终端所附带的配置文件：移动终端连接应用商店服务器，获取并存储应用商店服务器提供的应用类别与应用特征数据库；移动终端分析应用附带的配置文件，获取配置文件包含的特征信息；将获取的特征信息和应用类别与应用特征数据库中存储的特征信息比对，根据比对结果将应用显示到所属应用类别文件夹中。

移动终端连接应用商店服务器，获取并存储应用商店服务器提供的应用类别与应用特征数据库；移动终端分析应用附带的配置文件，获取配置文件包含的特征信息；将获取的特征信息和应用类别与应用特征数据库中存储的特征信息比对，根据比对结果将应用显示到所属应用类别文件夹中。移动终端设置同步时间，自动连接应用商店服务器，更新分类列表。

利用配置文件分类结果存在很大的不可靠性。由于应用的分类完全由Manifest文件来控制，一旦Manifest文件是被更改过的，对应的应用分类也就随之改变，很容易造成分类错误。而且在第三方服务平台获取这些配置信息有难度，App也可能来自不同的应用商店，比如Apple store，google play,它们之间的分类标准也不一样。

另有一种基于功耗的应用分类方法，移动终端启动飞行模式，保持屏幕常亮，获取并记录电池的初始电压和初始时间，打开被测应用后每隔预设时间获取一次电池电压及时间，并判断当前的时间是否为被测应用的功耗稳定时间点；若是，则记录当前的电池电压和时间；根据当前的电池电压和时间，初始电压和初始时间计算出被测应用的功耗值，根据该功耗值对被测应用进行功耗级别分类。这种分类方法存在一定的局限性，将应用的分类完全由功耗来决定，虽然易于操作，但分类效果不是非常好。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于WEB和日志信息的APP分类方法及其装置，基于WEB和日志信息对APP进行分类，可以提高分类的准确性和效率。

为了解决上述问题，本发明提出了一种基于WEB和日志信息的APP分类方法，所述方法包括：

将APP名字提交到搜索引擎，获得前M条搜索片段；

对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量；

获取APP的使用日志信息，根据所述使用日志信息获得APP的上下文向量；

对所述文本向量和上下文向量进行训练，获得APP分类。

优选地，所述对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量的步骤，包括：

通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量。

优选地，所述通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量的步骤，包括：

根据APP分类目录建立类型配置文件；

为每一个APP类型构造规范化单词向量；

获取所述搜索片段中待分类APP的词向量；

将规范化单词向量和待分类APP的词向量进行相似匹配，获得每个搜索片段的相似值；

选取相似值最大的搜索片段的文本向量。

优选地，所述获取APP的使用日志信息，根据所述使用日志信息获得APP的上下文向量的步骤，包括：

获取所有用户使用同一APP的使用日志信息；

为每个已经分类的APP建立环境配置文件；

为每个APP类型建立上下文配置文件；

为每个APP类型建立上下文向量；

将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配；

选取相似值最大的APP的上下文向量。

优选地，所述对所述文本向量和上下文向量进行训练，获得APP分类的步骤，包括：

使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练，获得APP分类。

相应地，本发明还提供一种基于WEB和日志信息的APP分类装置，所述装置包括：

搜索模块，用于将APP名字提交到搜索引擎，获得前M条搜索片段；

匹配模块，用于对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量；

日志信息处理模块，用于获取APP的使用日志信息，根据所述使用日志信息获得APP的上下文向量；

训练模块，用于对所述文本向量和上下文向量进行训练，获得APP分类。

优选地，所述匹配模块还用于通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量。

优选地，所述匹配模块包括：

第一建立单元，用于根据APP分类目录建立类型配置文件；

构造单元，用于为每一个APP类型构造规范化单词向量；

第一获取单元，用于获取所述搜索片段中待分类APP的词向量；

第一匹配单元，用于将规范化单词向量和待分类APP的词向量进行相似匹配，获得每个搜索片段的相似值；

第一选取单元，用于选取相似值最大的搜索片段的文本向量。

优选地，所述日志信息处理模块包括：

第二建立单元，用于获取所有用户使用同一APP的使用日志信息，为每个APP类型建立上下文配置文件，为每个APP类型建立上下文向量；

第二建立单元，用于为每个已经分类的APP建立环境配置文件；

第二匹配单元，用于将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配；

第二选取单元，用于选取相似值最大的APP的上下文向量。

优选地，所述训练模块还用于使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练，获得APP分类。

在本发明实施例中，将APP的名字提交到WEB搜索引擎上，得到前几个搜索片段，通过VSM模型得到文本特征，同时利用日志信息得到现实特征向量，采用MaxEnt模型训练APP分类，可以提高分类的准确性和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的基于WEB和日志信息的APP分类方法的流程示意图；

图2是本发明实施例的基于WEB和日志信息的APP分类装置的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的基于WEB和日志信息的APP分类方法的流程示意图，如图1所示，该方法包括：

S1，将APP名字提交到搜索引擎，获得前M条搜索片段；

S2，对搜索片段进行匹配，获得相似值最大的搜索片段的文本向量；

S3，获取APP的使用日志信息，根据使用日志信息获得APP的上下文向量；

S4，对文本向量和上下文向量进行训练，获得APP分类。

在S2中，通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量。

进一步地，S2包括：

根据APP分类目录建立类型配置文件；

为每一个APP类型构造规范化单词向量；

获取所述搜索片段中待分类APP的词向量；

选取相似值最大的搜索片段的文本向量。

具体地，通过余弦公式进行相似匹配。

S3进一步包括：

获取所有用户使用同一APP的使用日志信息；

为每个已经分类的APP建立环境配置文件；

为每个APP类型建立上下文配置文件；

为每个APP类型建立上下文向量；

选取相似值最大的APP的上下文向量。

具体地，通过余弦公式进行相似匹配。

在S4中，使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练，获得APP分类。根据条件概率公式，得到不同的概率值，选取最大的。采用L_BFGS来模型训练，得到参数之后，就可以推测出App的分类。

相应地，本发明实施例还提供一种基于WEB和日志信息的APP分类装置，如图2所示，该装置包括：

搜索模块1，用于将APP名字提交到搜索引擎，获得前M条搜索片段；

匹配模块2，用于对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量；

日志信息处理模块3，用于获取APP的使用日志信息，根据所述使用日志信息获得APP的上下文向量；

训练模块4，用于对所述文本向量和上下文向量进行训练，获得APP分类。

其中，匹配模块2还用于通过VSM模型与APP分类树的分类标签对搜索片段进行匹配，获得相似值最大的搜索片段的文本向量。

匹配模块2进一步包括：

第一建立单元，用于根据APP分类目录建立类型配置文件；

构造单元，用于为每一个APP类型构造规范化单词向量；

日志信息处理模块3进一步包括：

第二选取单元，用于选取相似值最大的APP的上下文向量。

训练模块4还用于使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练，获得APP分类。

本发明的装置实施例中各功能模块的功能可参见本发明方法实施例中的流程处理，这里不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的基于WEB和日志信息的APP分类方法及其装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于WEB和日志信息的APP分类方法，其特征在于，所述方法包括：

将APP名字提交到搜索引擎，获得前M条搜索片段；

对所述文本向量和上下文向量进行训练，获得APP分类。

2.如权利要求1所述的基于WEB和日志信息的APP分类方法，其特征在于，所述对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量的步骤，包括：

3.如权利要求2所述的基于WEB和日志信息的APP分类方法，其特征在于，所述通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量的步骤，包括：

根据APP分类目录建立类型配置文件；

为每一个APP类型构造规范化单词向量；

获取所述搜索片段中待分类APP的词向量；

选取相似值最大的搜索片段的文本向量。

4.如权利要求1所述的基于WEB和日志信息的APP分类方法，其特征在于，所述获取APP的使用日志信息，根据所述使用日志信息获得APP的上下文向量的步骤，包括：

获取所有用户使用同一APP的使用日志信息；

为每个已经分类的APP建立环境配置文件；

为每个APP类型建立上下文配置文件；

为每个APP类型建立上下文向量；

选取相似值最大的APP的上下文向量。

5.如权利要求1所述的基于WEB和日志信息的APP分类方法，其特征在于，所述对所述文本向量和上下文向量进行训练，获得APP分类的步骤，包括：

6.一种基于WEB和日志信息的APP分类装置，其特征在于，所述装置包括：

7.如权利要求6所述的基于WEB和日志信息的APP分类装置，其特征在于，所述匹配模块还用于通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配，获得相似值最大的搜索片段的文本向量。

8.如权利要求7所述的基于WEB和日志信息的APP分类装置，其特征在于，所述匹配模块包括：

第一建立单元，用于根据APP分类目录建立类型配置文件；

构造单元，用于为每一个APP类型构造规范化单词向量；

9.如权利要求6所述的基于WEB和日志信息的APP分类装置，其特征在于，所述日志信息处理模块包括：

第二选取单元，用于选取相似值最大的APP的上下文向量。

10.如权利要求6所述的基于WEB和日志信息的APP分类装置，其特征在于，所述训练模块还用于使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练，获得APP分类。