CN105868394A - 一种基于web和日志信息的app分类方法及其装置 - Google Patents

一种基于web和日志信息的app分类方法及其装置 Download PDF

Info

Publication number
CN105868394A
CN105868394A CN201610242410.6A CN201610242410A CN105868394A CN 105868394 A CN105868394 A CN 105868394A CN 201610242410 A CN201610242410 A CN 201610242410A CN 105868394 A CN105868394 A CN 105868394A
Authority
CN
China
Prior art keywords
app
vector
log information
search
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610242410.6A
Other languages
English (en)
Inventor
陈湘萍
周强
魏相沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201610242410.6A priority Critical patent/CN105868394A/zh
Publication of CN105868394A publication Critical patent/CN105868394A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于WEB和日志信息的APP分类方法及其装置,其中,该方法包括:将APP名字提交到搜索引擎,获得前M条搜索片段;对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;对所述文本向量和上下文向量进行训练,获得APP分类。在本发明实施例中,将APP的名字提交到WEB搜索引擎上,得到前几个搜索片段,通过VSM模型得到文本特征,同时利用日志信息得到现实特征向量,采用MaxEnt模型训练APP分类,可以提高分类的准确性和效率。

Description

一种基于WEB和日志信息的APP分类方法及其装置
技术领域
本发明涉及移动应用(APP)技术领域,尤其涉及一种基于WEB和日志信息的APP分类方法及其装置。
背景技术
随着移动终端的普及,适用于移动终端的应用(APP)也越来越多,APP的分类直接影响用户对移动终端的日常使用。现有一种分类方法,在这方法中,利用移动终端所附带的配置文件:移动终端连接应用商店服务器,获取并存储应用商店服务器提供的应用类别与应用特征数据库;移动终端分析应用附带的配置文件,获取配置文件包含的特征信息;将获取的特征信息和应用类别与应用特征数据库中存储的特征信息比对,根据比对结果将应用显示到所属应用类别文件夹中。
移动终端连接应用商店服务器,获取并存储应用商店服务器提供的应用类别与应用特征数据库;移动终端分析应用附带的配置文件,获取配置文件包含的特征信息;将获取的特征信息和应用类别与应用特征数据库中存储的特征信息比对,根据比对结果将应用显示到所属应用类别文件夹中。移动终端设置同步时间,自动连接应用商店服务器,更新分类列表。
利用配置文件分类结果存在很大的不可靠性。由于应用的分类完全由Manifest文件来控制,一旦Manifest文件是被更改过的,对应的应用分类也就随之改变,很容易造成分类错误。而且在第三方服务平台获取这些配置信息有难度,App也可能来自不同的应用商店,比如Apple store,google play,它们之间的分类标准也不一样。
另有一种基于功耗的应用分类方法,移动终端启动飞行模式,保持屏幕常亮,获取并记录电池的初始电压和初始时间,打开被测应用后每隔预设时间获取一次电池电压及时间,并判断当前的时间是否为被测应用的功耗稳定时间点;若是,则记录当前的电池电压和时间;根据当前的电池电 压和时间,初始电压和初始时间计算出被测应用的功耗值,根据该功耗值对被测应用进行功耗级别分类。这种分类方法存在一定的局限性,将应用的分类完全由功耗来决定,虽然易于操作,但分类效果不是非常好。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于WEB和日志信息的APP分类方法及其装置,基于WEB和日志信息对APP进行分类,可以提高分类的准确性和效率。
为了解决上述问题,本发明提出了一种基于WEB和日志信息的APP分类方法,所述方法包括:
将APP名字提交到搜索引擎,获得前M条搜索片段;
对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;
获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;
对所述文本向量和上下文向量进行训练,获得APP分类。
优选地,所述对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量的步骤,包括:
通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量。
优选地,所述通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量的步骤,包括:
根据APP分类目录建立类型配置文件;
为每一个APP类型构造规范化单词向量;
获取所述搜索片段中待分类APP的词向量;
将规范化单词向量和待分类APP的词向量进行相似匹配,获得每个搜索片段的相似值;
选取相似值最大的搜索片段的文本向量。
优选地,所述获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量的步骤,包括:
获取所有用户使用同一APP的使用日志信息;
为每个已经分类的APP建立环境配置文件;
为每个APP类型建立上下文配置文件;
为每个APP类型建立上下文向量;
将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配;
选取相似值最大的APP的上下文向量。
优选地,所述对所述文本向量和上下文向量进行训练,获得APP分类的步骤,包括:
使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练,获得APP分类。
相应地,本发明还提供一种基于WEB和日志信息的APP分类装置,所述装置包括:
搜索模块,用于将APP名字提交到搜索引擎,获得前M条搜索片段;
匹配模块,用于对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;
日志信息处理模块,用于获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;
训练模块,用于对所述文本向量和上下文向量进行训练,获得APP分类。
优选地,所述匹配模块还用于通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量。
优选地,所述匹配模块包括:
第一建立单元,用于根据APP分类目录建立类型配置文件;
构造单元,用于为每一个APP类型构造规范化单词向量;
第一获取单元,用于获取所述搜索片段中待分类APP的词向量;
第一匹配单元,用于将规范化单词向量和待分类APP的词向量进行相似匹配,获得每个搜索片段的相似值;
第一选取单元,用于选取相似值最大的搜索片段的文本向量。
优选地,所述日志信息处理模块包括:
第二建立单元,用于获取所有用户使用同一APP的使用日志信息,为每个APP类型建立上下文配置文件,为每个APP类型建立上下文向量;
第二建立单元,用于为每个已经分类的APP建立环境配置文件;
第二匹配单元,用于将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配;
第二选取单元,用于选取相似值最大的APP的上下文向量。
优选地,所述训练模块还用于使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练,获得APP分类。
在本发明实施例中,将APP的名字提交到WEB搜索引擎上,得到前几个搜索片段,通过VSM模型得到文本特征,同时利用日志信息得到现实特征向量,采用MaxEnt模型训练APP分类,可以提高分类的准确性和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例的基于WEB和日志信息的APP分类方法的流程示意图;
图2是本发明实施例的基于WEB和日志信息的APP分类装置的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没 有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的基于WEB和日志信息的APP分类方法的流程示意图,如图1所示,该方法包括:
S1,将APP名字提交到搜索引擎,获得前M条搜索片段;
S2,对搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;
S3,获取APP的使用日志信息,根据使用日志信息获得APP的上下文向量;
S4,对文本向量和上下文向量进行训练,获得APP分类。
在S2中,通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量。
进一步地,S2包括:
根据APP分类目录建立类型配置文件;
为每一个APP类型构造规范化单词向量;
获取所述搜索片段中待分类APP的词向量;
将规范化单词向量和待分类APP的词向量进行相似匹配,获得每个搜索片段的相似值;
选取相似值最大的搜索片段的文本向量。
具体地,通过余弦公式进行相似匹配。
S3进一步包括:
获取所有用户使用同一APP的使用日志信息;
为每个已经分类的APP建立环境配置文件;
为每个APP类型建立上下文配置文件;
为每个APP类型建立上下文向量;
将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配;
选取相似值最大的APP的上下文向量。
具体地,通过余弦公式进行相似匹配。
在S4中,使用Maximum Entropy分类模型对所述文本向量和上下文向 量进行训练,获得APP分类。根据条件概率公式,得到不同的概率值,选取最大的。采用L_BFGS来模型训练,得到参数之后,就可以推测出App的分类。
相应地,本发明实施例还提供一种基于WEB和日志信息的APP分类装置,如图2所示,该装置包括:
搜索模块1,用于将APP名字提交到搜索引擎,获得前M条搜索片段;
匹配模块2,用于对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;
日志信息处理模块3,用于获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;
训练模块4,用于对所述文本向量和上下文向量进行训练,获得APP分类。
其中,匹配模块2还用于通过VSM模型与APP分类树的分类标签对搜索片段进行匹配,获得相似值最大的搜索片段的文本向量。
匹配模块2进一步包括:
第一建立单元,用于根据APP分类目录建立类型配置文件;
构造单元,用于为每一个APP类型构造规范化单词向量;
第一获取单元,用于获取所述搜索片段中待分类APP的词向量;
第一匹配单元,用于将规范化单词向量和待分类APP的词向量进行相似匹配,获得每个搜索片段的相似值;
第一选取单元,用于选取相似值最大的搜索片段的文本向量。
日志信息处理模块3进一步包括:
第二建立单元,用于获取所有用户使用同一APP的使用日志信息,为每个APP类型建立上下文配置文件,为每个APP类型建立上下文向量;
第二建立单元,用于为每个已经分类的APP建立环境配置文件;
第二匹配单元,用于将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配;
第二选取单元,用于选取相似值最大的APP的上下文向量。
训练模块4还用于使用Maximum Entropy分类模型对所述文本向量和 上下文向量进行训练,获得APP分类。
本发明的装置实施例中各功能模块的功能可参见本发明方法实施例中的流程处理,这里不再赘述。
在本发明实施例中,将APP的名字提交到WEB搜索引擎上,得到前几个搜索片段,通过VSM模型得到文本特征,同时利用日志信息得到现实特征向量,采用MaxEnt模型训练APP分类,可以提高分类的准确性和效率。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的基于WEB和日志信息的APP分类方法及其装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于WEB和日志信息的APP分类方法,其特征在于,所述方法包括:
将APP名字提交到搜索引擎,获得前M条搜索片段;
对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;
获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;
对所述文本向量和上下文向量进行训练,获得APP分类。
2.如权利要求1所述的基于WEB和日志信息的APP分类方法,其特征在于,所述对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量的步骤,包括:
通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量。
3.如权利要求2所述的基于WEB和日志信息的APP分类方法,其特征在于,所述通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量的步骤,包括:
根据APP分类目录建立类型配置文件;
为每一个APP类型构造规范化单词向量;
获取所述搜索片段中待分类APP的词向量;
将规范化单词向量和待分类APP的词向量进行相似匹配,获得每个搜索片段的相似值;
选取相似值最大的搜索片段的文本向量。
4.如权利要求1所述的基于WEB和日志信息的APP分类方法,其特征在于,所述获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量的步骤,包括:
获取所有用户使用同一APP的使用日志信息;
为每个已经分类的APP建立环境配置文件;
为每个APP类型建立上下文配置文件;
为每个APP类型建立上下文向量;
将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配;
选取相似值最大的APP的上下文向量。
5.如权利要求1所述的基于WEB和日志信息的APP分类方法,其特征在于,所述对所述文本向量和上下文向量进行训练,获得APP分类的步骤,包括:
使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练,获得APP分类。
6.一种基于WEB和日志信息的APP分类装置,其特征在于,所述装置包括:
搜索模块,用于将APP名字提交到搜索引擎,获得前M条搜索片段;
匹配模块,用于对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;
日志信息处理模块,用于获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;
训练模块,用于对所述文本向量和上下文向量进行训练,获得APP分类。
7.如权利要求6所述的基于WEB和日志信息的APP分类装置,其特征在于,所述匹配模块还用于通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量。
8.如权利要求7所述的基于WEB和日志信息的APP分类装置,其特征在于,所述匹配模块包括:
第一建立单元,用于根据APP分类目录建立类型配置文件;
构造单元,用于为每一个APP类型构造规范化单词向量;
第一获取单元,用于获取所述搜索片段中待分类APP的词向量;
第一匹配单元,用于将规范化单词向量和待分类APP的词向量进行相似匹配,获得每个搜索片段的相似值;
第一选取单元,用于选取相似值最大的搜索片段的文本向量。
9.如权利要求6所述的基于WEB和日志信息的APP分类装置,其特征在于,所述日志信息处理模块包括:
第二建立单元,用于获取所有用户使用同一APP的使用日志信息,为每个APP类型建立上下文配置文件,为每个APP类型建立上下文向量;
第二建立单元,用于为每个已经分类的APP建立环境配置文件;
第二匹配单元,用于将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配;
第二选取单元,用于选取相似值最大的APP的上下文向量。
10.如权利要求6所述的基于WEB和日志信息的APP分类装置,其特征在于,所述训练模块还用于使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练,获得APP分类。
CN201610242410.6A 2016-04-19 2016-04-19 一种基于web和日志信息的app分类方法及其装置 Pending CN105868394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610242410.6A CN105868394A (zh) 2016-04-19 2016-04-19 一种基于web和日志信息的app分类方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610242410.6A CN105868394A (zh) 2016-04-19 2016-04-19 一种基于web和日志信息的app分类方法及其装置

Publications (1)

Publication Number Publication Date
CN105868394A true CN105868394A (zh) 2016-08-17

Family

ID=56633078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610242410.6A Pending CN105868394A (zh) 2016-04-19 2016-04-19 一种基于web和日志信息的app分类方法及其装置

Country Status (1)

Country Link
CN (1) CN105868394A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597947A (zh) * 2020-05-11 2020-08-28 浙江大学 一种基于电源功率因数矫正噪声的应用程序推断方法
CN112100386A (zh) * 2020-11-12 2020-12-18 北京云真信科技有限公司 目标类型app的确定方法、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523507A (zh) * 2011-12-29 2012-06-27 深圳市酷开网络科技有限公司 基于智能电视系统外接设备的应用方法及装置
CN104205111A (zh) * 2012-03-19 2014-12-10 高通股份有限公司 用以检测恶意软件的计算装置
US9152694B1 (en) * 2013-06-17 2015-10-06 Appthority, Inc. Automated classification of applications for mobile devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523507A (zh) * 2011-12-29 2012-06-27 深圳市酷开网络科技有限公司 基于智能电视系统外接设备的应用方法及装置
CN104205111A (zh) * 2012-03-19 2014-12-10 高通股份有限公司 用以检测恶意软件的计算装置
US9152694B1 (en) * 2013-06-17 2015-10-06 Appthority, Inc. Automated classification of applications for mobile devices

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HENGSHU ZHU 等: "Mobile App Classification with Enriched Contextual Information", 《IEEE TRANSACTIONS ON MOBILE COMPUTING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597947A (zh) * 2020-05-11 2020-08-28 浙江大学 一种基于电源功率因数矫正噪声的应用程序推断方法
CN112100386A (zh) * 2020-11-12 2020-12-18 北京云真信科技有限公司 目标类型app的确定方法、电子设备和介质

Similar Documents

Publication Publication Date Title
CN110019149A (zh) 一种客服知识库的建立方法、装置及设备
CN104123332B (zh) 搜索结果的显示方法及装置
CN103488766B (zh) 应用程序搜索方法和装置
WO2017219696A1 (zh) 文本信息处理方法、装置及终端
CN106547871A (zh) 基于神经网络的搜索结果的召回方法和装置
CN110162621A (zh) 分类模型训练方法、异常评论检测方法、装置及设备
CN109582969A (zh) 实体匹配方法、装置及电子设备
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN107609185A (zh) 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
CN108959531A (zh) 信息搜索方法、装置、设备及存储介质
CN110209810A (zh) 相似文本识别方法以及装置
CN103164424A (zh) 一种时效性词的获取方法和装置
CN104850241A (zh) 一种在移动终端中进行文字输入的方法及移动终端
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
CN104915399A (zh) 基于新闻标题的推荐数据处理方法及系统
CN104598632A (zh) 热点事件检测方法和装置
CN108932646A (zh) 基于运营商的用户标签验证方法、装置和电子设备
CN103902599A (zh) 模糊查找的方法和装置
US20130121598A1 (en) System and Method for Randomized Point Set Geometry Verification for Image Identification
CN104123321B (zh) 一种确定推荐图片的方法及装置
CN105868394A (zh) 一种基于web和日志信息的app分类方法及其装置
CN106997340B (zh) 词库的生成以及利用词库的文档分类方法及装置
CN111160699A (zh) 一种专家推荐方法及系统
CN105159898A (zh) 一种搜索的方法和装置
CN114328798A (zh) 搜索文本的处理方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160817