CN111797239A - 应用程序的分类方法、装置及终端设备 - Google Patents

应用程序的分类方法、装置及终端设备 Download PDF

Info

Publication number
CN111797239A
CN111797239A CN202010933302.XA CN202010933302A CN111797239A CN 111797239 A CN111797239 A CN 111797239A CN 202010933302 A CN202010933302 A CN 202010933302A CN 111797239 A CN111797239 A CN 111797239A
Authority
CN
China
Prior art keywords
application
information
program
sub
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010933302.XA
Other languages
English (en)
Other versions
CN111797239B (zh
Inventor
周凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute of Sun Yat Sen University
Original Assignee
Shenzhen Research Institute of Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute of Sun Yat Sen University filed Critical Shenzhen Research Institute of Sun Yat Sen University
Priority to CN202010933302.XA priority Critical patent/CN111797239B/zh
Publication of CN111797239A publication Critical patent/CN111797239A/zh
Application granted granted Critical
Publication of CN111797239B publication Critical patent/CN111797239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于智能终端的技术领域,提供了一种应用程序的分类方法、装置以及终端设备,该方法包括:获取若干预设目标类别对应的应用软件的应用信息;所述应用信息包括应用软件的名称和功能信息;对各个所述应用软件的应用信息进行上下文信息扩展,根据所有扩展后的应用信息生成训练数据;对所述训练数据进行特征提取并将提取到的特征项转换为向量,得到训练数据中各个所述应用软件的特征向量合集;将所述特征向量合集输入分类模型进行训练,完成所述分类模型的构建。本申请实施例解决应用程序分类准确度低的问题。

Description

应用程序的分类方法、装置及终端设备
技术领域
本发明涉及的智能终端技术领域,尤其涉及一种应用程序的分类方法、装置及终端设备。
背景技术
随着智能终端(例如手机、平板等设备)越来越普及和互联网发展越来越快,人们对应用程序的需求量越来越大,各种各样的移动应用不断地增加。对这些日增月累的应用程序进行分类整理,能够帮助用户快速找到要使用的程序。
对于已下载至智能终端的本地应用程序,由于现在的应用程序的界面和架构设计的都差不多(除了游戏软件),这样很难从应用程序的内部架构和源码中获取到有用信息。直接获取到的应用程序中的信息通常是短缺且模糊,例如,用户可能不完全理解的“用户通常玩愤怒的小鸟”信息,除非“愤怒的小鸟”被公认为是一个预定义“游戏/策略游戏”的应用程序类。并且在存在多个应用程序提供渠道的情况下,无法有效跟踪应用程序的来源,从而无法直接从提供应用程序的应用平台获取应用程序现有的预定义标签。此外,在应用平台中应用程序的大多数预定义标签并不准确,为了让检索的人能更大机会地点到这个应用程序,把应用程序不具有的功能也贴上标签。
因此,在现有技术中,通过直接获取应用程序的本地信息或获取应用程序在渠道平台中的标签对终端桌面中的应用程序进行分类时,分类结果准确度低。
发明内容
有鉴于此,本发明实施例提供了一种应用程序的分类方法、装置及终端设备,以解决应用程序分类准确度低的问题。
本发明实施例的第一方面提供了一种应用程序的分类方法,包括:
获取目标界面包含的各个应用程序的应用信息;
分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据;
提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量;
将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别;
基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组。
在一个实施示例中,所述分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据,包括:
从应用商店和/或网络网页中抓取各个所述应用程序的线上信息,根据线上信息得到应用信息关联的文本数据。
在一个实施示例中,所述提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量,包括:
对所述文本数据进行预处理,得到所述应用信息的词项合集;
根据卡方检验算法对所述词项合集进行特征提取,得到所述应用信息的特征合集;
将所述特征合集中的特征项转换为预设向量空间中的向量,生成所述应用信息的特征向量;所述预设向量空间由词频以及反文档频率构成。
在一个实施示例中,所述对所述文本数据进行预处理,得到所述应用信息的词项合集,包括:
对所述文本数据进行文本分词,得到各个所述应用信息的词组合集;
将预设停用词从各个所述词组合集中筛除,得到各个所述应用信息的词项合集。
在一个实施示例中,在将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别之前,还包括:
获取训练数据;所述训练数据包括若干预设目标类别对应的多个应用程序的程序信息;
分别对所述训练数据中各个所述程序信息进行上下文信息扩展,得到所述程序信息关联的文本训练数据;
提取所述文本训练数据在多个预设维度的特征参量,生成所述程序信息的特征向量;
将所述程序信息的特征向量输入若干分类器进行训练,得到应用分类模型;所述应用分类模型中的分类器数量等于所述预设目标类别的数量。
在一个实施示例中,所述基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组,包括:
根据所述应用类别,生成以各个所述应用类别命名的文件夹;
将所述目标界面内的所有应用程序的图标,分别放置于名称为各个所述应用程序所属的应用类别的文件夹中。
在一个实施示例中,所述基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组,还包括:
若任一所述应用组包含的应用程序的数量超出第一阈值,则将所述应用组中各个应用程序的特征向量输入所述应用组的子分类模型中,得到所述应用组中各个应用程序的子应用类别;
统计属于同一所述子应用类别的应用程序的数量;
若属于任一所述子应用类别的应用程序的数量超出第二阈值,则基于所述子应用类别,将所述应用组中属于所述子应用类别的应用程序分为子应用组。
在一个实施示例中,所述基于所述子应用类别,将所述应用组中属于所述子应用类别的应用程序分为子应用组,包括:
生成以所述子应用类别命名的文件夹;
在所述应用组中,将属于所述子应用类别的应用程序的图标移动至名称为所述子应用类别的文件夹中。
本发明实施例的第二方面提供了一种应用程序的分类装置,包括:
应用信息获取模块,用于获取目标界面包含的各个应用程序的应用信息;
信息扩展模块,用于分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据;
特征提取模块,用于提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量;
应用类别确定模块,用于将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别;
应用程序分类模块,用于基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组。
本发明实施例的第三方面提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面中应用程序的分类方法。
本发明实施例提供的一种应用程序的分类方法、装置及终端设备,获取目标界面包含的各个应用程序的应用信息;分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据;由于应用程序的本地应用信息内容有限,利用丰富的上下文信息来扩充每一应用程序的应用信息关联的文本数据,提高应用分类的准确率。提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量;通过提取所述文本数据在多个预设维度的特征参量降低文本数据的文本表达的空间向量的维数,减少计算量,提高应用分类模型的分类效率。将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别;基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组,从而实现对目标界面包含的各个应用程序进行准确分类。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的应用程序的分类方法的流程示意图;
图2是本发明实施例一提供的从应用商店和/或网络网页中抓取各个所述应用程序的线上信息的模块流程图;
图3是本发明实施例一提供的目标界面内的所有应用程序分为多个应用组的示意图;
图4是本发明实施例二提供的应用程序的分类装置的结构示意图;
图5是本发明实施例三提供的终端设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。
实施例一
如图1所示,是本发明实施例一提供的应用程序的分类方法的流程示意图。本实施例可适用于对智能终端的目标界面包含的应用程序进行分类的应用场景。该方法可以由应用程序的分类装置执行,该装置可为处理器、单片机、微型处理芯片(MCU)等;在本申请实施例中以应用程序的分类装置作为执行主体进行说明,该方法具体包括如下步骤:
由于现有技术中通过直接获取应用程序的本地信息或获取应用程序在渠道平台中的标签对终端桌面中的应用程序进行分类时,分类结果准确度低。为解决这一技术问题,本申请实施例通过对各个所述应用程序的应用信息进行上下文信息扩展,利用丰富的上下文信息来扩充每一应用程序的应用信息关联的文本数据,提高应用分类的准确率;提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量;将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别;基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组,从而实现对目标界面包含的各个应用程序进行准确分类。通过提取所述文本数据在多个预设维度的特征参量降低文本数据的文本表达的空间向量的维数,减少计算量,提高应用分类模型的分类效率。
S110、获取目标界面包含的各个应用程序的应用信息。
安装在智能终端(例如移动终端、平板、智能手表等设备)中的各种应用软件在显示界面中分布的位置杂乱无章,导致用户无法快速在显示界面中找到所需的应用软件,为解决这一问题需对智能终端中的应用软件进行分类整理。在进行应用程序分类时,需获取目标界面包含的各个应用程序的应用信息。具体的,该目标界面可为智能终端的显示界面中的任一区域,例如智能终端的整个桌面或显示界面中自定义的任一范围所在区域等。根据预设的应用程序分类区域或用户自定义选定的分类区域确定目标界面,获取目标界面中包含的应用图标对应的应用程序的应用信息。该应用信息从本地保存的应用程序的内部架构和源码中获取得到,可包括应用程序的名称和简单的应用介绍信息。
S120、分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据。
由于应用程序的本地应用信息内容有限,为提高应用程序的分类准确度,可以对目标界面包含的各个应用程序的应用信息进行上下文信息扩展,利用丰富的上下文信息来扩充每一应用程序的应用信息关联的文本数据。
在一个实施示例中,可通过从应用商店和/或网络网页中抓取各个所述应用程序的线上信息,实现对各个所述应用程序的应用信息进行上下文信息扩展。分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据的具体过程为:从应用商店和/或网络网页中抓取各个所述应用程序的线上信息,根据线上信息得到应用信息关联的文本数据。
具体的,可以通过网络爬虫技术从应用商店和/或网络网页中抓取各个所述应用程序的线上信息。应用商店作为应用程序的一个提供渠道,里面具有应用程序的详细描述以及编辑点评等信息。若应用程序比较冷门,在应用商店中对冷门的应用程序存在较少的文字描述,则可通过网络网页的搜索引擎对该应用程序进行信息搜寻,得到该应用程序的相关信息,起到信息扩充作用。从应用商店和/或网络网页中抓取到的各个所述应用程序的线上信息,是信息丰富的短文本信息,将抓取到的每一应用程序的线上信息与对应的应用信息进行组合,得到目标界面包含的各个应用程序的应用信息关联的文本信息,实现对目标界面中包含的各个应用程序的应用信息进行拓展和完善,提高应用分类的准确率。
详细举例说明,从应用商店中抓取目标界面中各个应用程序的线上信息的具体过程可为:使用广度优先策略的限定爬虫遍历应用商店网站(例如“豌豆荚”或“谷歌商店”等),访问网站中需抓取信息的应用程序的网页,从该网页中抓取目标应用程序的名字(name)、主题(title)、标签(tag)、类别(type)、描述(describe)和编辑点评(comment)等线上信息。采用WebClient等工具来实行网络网页的应用程序搜索访问和信息获取,在上述用广度优先算法爬虫完目标界面中所有的应用程序之后,用深层网页爬虫的方法将目标界面中各个应用程序的中文名字输入到搜索引擎的搜索栏中进行访问查询,最后对搜寻返回的结果进行爬取得到目标界面中各个应用程序的线上信息。
例如,如图2所示,以移动终端的目标界面内包含的应用程序(APK)的线上信息爬取为例,网络爬虫为收集线上信息,可以遍历应用商店网站(例如“豌豆荚”或“谷歌商店”等),访问网站中多个需抓取信息的应用程序的网页URL,从该网页中抓取目标应用程序的名字(name)、主题(title)、标签(tag)、类别(type)、描述(describe)和编辑点评(comment)等APK信息,并将抓取得到的APK信息存到MongoDB数据库中。并且网页爬虫将目标界面中各个应用程序的中文名字输入到搜索引擎的搜索栏中进行访问查询,最后对搜寻返回的结果进行爬取得到目标界面中各个应用程序的网页信息,并将抓取到的网页信息存到MongoDB数据库中。对各个应用程序的应用信息进行上下文信息扩展时,可从MongoDB数据库中得到各个应用程序的上下文信息。
S130、提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量。
在得到目标界面包含的各个应用程序的应用信息关联的文本数据后,由于文本数据内包含无用信息和非结构化的文本词句,无法直接根据文本数据对应用程序进行分类。需从各个应用程序对应的文本数据中提取在多个预设维度有代表性的特征参量,并将提取到的特征产量转换为向量的形式,得到各个应用程序的应用信息的特征向量。通过提取所述文本数据在多个预设维度的特征参量降低文本数据的文本表达的空间向量的维数,减少计算量,提高应用分类模型的分类效率。
在一个实施示例中,提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量的具体过程包括步骤11至步骤13:
步骤11、对所述文本数据进行预处理,得到所述应用信息的词项合集;
在对各个应用程序的文本数据进行特征产量提取之前,需对所述文本数据进行预处理,对每一应用信息关联的文本数据内的语句进行关键词提取,并将提取得到的关键词中干扰应用分类结果的噪声(即停用词)筛除,得到各个应用程序的应用信息的词项合集,从而压缩文本数据中需处理的数据量并去除干扰。
在一个实施示例中,对所述文本数据进行预处理,得到所述应用信息的词项合集的具体过程包括步骤21至步骤22:
步骤21、对所述文本数据进行文本分词,得到各个所述应用信息的词组合集;
具体的,可以通过分词算法对各个应用程序的应用信息关联的文本数据进行文本分词,得到每一文本数据中包含的若干词组。将每一文本数据中包含的若干词组组成词组合集,得到各个应用程序的应用信息的词组合集。可选的,分词算法可为基于词典对比的分词算法、基于统计的分词算法以及基于统计的分词算法中的任一种。
例如,目标界面内的一个A应用程序的文本数据包含的内容为:A应用,为一款付款应用,主要适用于快捷支付场景,打开应用的扫描功能对条形码、二维码进行扫描,就能对应开启支付功能。A应用是全国下载量最高的支付应用之一…等文字内容。通过分词算法对A应用程序的文本数据进行文本分词,得到A应用程序的词组合集包括:A应用;付款应用;适用;快捷;支付场景;打开;应用;扫描功能;条形码;二维码;扫描;对应;开启;支付功能;A应用;全国;下载量;最高;支付应用;…等词组。
步骤22、将预设停用词从各个所述词组合集中筛除,得到各个所述应用信息的词项合集。
得到各个所述应用信息的词组合集后,为实现将词组合集中干扰应用分类结果的噪声筛除,提高关键词在词组合集中的比重,可通过将预设停用词从各个所述词组合集中筛除,得到各个所述应用信息的词项合集。具体的,预设停用词包括需要被过滤掉的语气词、标点符号、介词以及本文中出现频率很高但不具有类别代表性、区别度不大的词组、甚至于与文本主题意思不相关的词语等。
步骤12、根据卡方检验算法对所述词项合集进行特征提取,得到所述应用信息的特征合集。
得到各个所述应用信息的词项合集后,降低文本数据的文本表达的空间向量的维数,减少计算量,提高应用分类模型的分类效率,需对各个所述应用信息的词项合集进行特征提取,得到各个应用信息对应的特征合集。对每一词项合集进行特征提取时,词项合集中每一词项就是一个特征值候选项,从词项合集中挑选区分度高的特征值候选项作为特征值,从而得到词项合集中的多个特征值,生成特征合集。同时,从词项合集中挑选区分度高的特征值候选项作为特征值,也能够将词项合集中区分度低的词项去除,达到去除噪声的效果,从而提高应用分类的精确度。
具体的,可以采用卡方检验算法对所述词项合集进行特征提取,得到所述应用信 息的特征合集。卡方检验算法也叫卡方统计量(CHI)。设A、B表示两个独立事件,则对于A和B 的概率有P(AB)=P(A)*P(B)或者满足P(A|B)=P(A)且P(B|A)=P(B)。此方法可以检测各个词 项合集中候选项与各个应用类别之间的关联程度。采用A表示含有特征值候选项t且属于应 用类别
Figure 468304DEST_PATH_IMAGE001
的词项合集个数,B表示含有特征值候选项t但不属于应用类别c的词项合集个数, C表示不含有特征值候选项t但属于应用类别
Figure 668341DEST_PATH_IMAGE001
的词项合集个数,D表示不含有特征值候选 项t且不属于应用类别
Figure 192864DEST_PATH_IMAGE001
的词项合集个数。若任一特征值候选项与一些应用类别的关联度 较大,卡方统计结果也就越大,则把该特征值候选项设为特征值。根据上述规律得到初始的 卡方检验公式为:
Figure 976887DEST_PATH_IMAGE002
;当特征值候选项t与 用类别
Figure 245057DEST_PATH_IMAGE001
互为独立事件时,AD-CB=0,此时卡方统计结果
Figure 299601DEST_PATH_IMAGE003
;N为词项合集的总个 数。
为提高分类准确度还需对初始的卡方检验公式进行改进,将导致应用程序分类效果不好的因素—特征值候选项与应用类别之间的负相关情况排除。特征值候选项与应用类别之间的负相关情况为AD-BC小于0的情况,即含有该特征候选项t的词项合集可能不属于此应用类别。详细的,排除负相关情况的卡方检验公式为:
Figure 526183DEST_PATH_IMAGE004
除了排除负相关情况以外,卡方检验公式还需增加“正集中度”以及“区分度”以及 “信息熵”这三个衡量度来对各个词项合集进行特征提取,提高对特殊低频的特征值候选项 的选取效果。其中,正集中度
Figure 298966DEST_PATH_IMAGE005
的计算公式为:
Figure 105248DEST_PATH_IMAGE006
;正集中度
Figure 279878DEST_PATH_IMAGE007
表示 含有特征候选项t的词项合集属于应用类别
Figure 146203DEST_PATH_IMAGE001
的概率,正集中度的值越大说明特征候选项t 与应用类别
Figure 609545DEST_PATH_IMAGE001
有关,需提取特征候选项t作为特征值。区分度
Figure 720983DEST_PATH_IMAGE008
的计算公式为:
Figure 750119DEST_PATH_IMAGE009
,通过区分度
Figure 318503DEST_PATH_IMAGE010
反映特征候选项t在应用类别
Figure 800300DEST_PATH_IMAGE001
中的区分度。信息熵 的计算公式为:
Figure 213964DEST_PATH_IMAGE011
其中,
Figure 300869DEST_PATH_IMAGE012
为属于应用类别
Figure 774575DEST_PATH_IMAGE013
的词项合集个数;
Figure 9248DEST_PATH_IMAGE014
为词项合集的总个数;通过信息熵就 能知道特征候选项t为应用类别
Figure 961023DEST_PATH_IMAGE001
带来多少信息,提高特征提取的有效性。
综上,排除负相关情况的卡方检验公式增加上述“正集中度”以及“区分度”以及“信息熵”这三个衡量度,得到用于提取各个词项合集的特征值的实际卡方检验算法公式:
Figure 168014DEST_PATH_IMAGE015
从而根据上述实际卡方检验算法公式对各个应用信息的词项合集进行特征提取,得到所述应用信息的特征合集。
例如,目标界面内的一个A应用程序的词项合集包含的内容为:付款应用;快捷;支付场景;扫描功能;条形码;二维码;支付功能;A应用;…等词项。根据上述实际卡方检验算法公式对各个应用信息的词项合集进行特征提取,得到所述应用信息的特征合集包括:A应用;付款应用;支付场景;支付功能;…等特征项。
步骤13、将所述特征合集中的特征项转换为预设向量空间中的向量,生成所述应用信息的特征向量;所述预设向量空间由词频以及反文档频率构成。
在得到目标界面包含的各个应用程序的应用信息的特征合集后,由于需将各个应 用程序的特征合集输入预先训练好的应用分类模型对目标界面包含的各个应用程序进行 分类,而应用分类模型无法对特征合集中的非结构化格式的文本进行计算。因此,需将特征 合集中的特征项转换为预设向量空间中的向量,生成所述应用信息的特征向量,以实现对 目标界面包含的各个应用程序进行应用类别分类。将所述特征合集中的特征项转换为预设 向量空间中的向量后,能够根据向量之间的相似性来判断特征值之间的相似性。具体的,由 于预设向量空间由词频以及反文档频率构成,可以根据词频-反文档频率(TF-IDF)算法将 各个特征合集中的特征项转换为预设向量空间中的向量。详细的,第j个特征项
Figure 328735DEST_PATH_IMAGE016
在第i个 特征合集
Figure 785124DEST_PATH_IMAGE017
中的词频为
Figure 806170DEST_PATH_IMAGE018
;衡量特定的特征项在所有特征合集中的 分布程度的反文档频率为
Figure 398825DEST_PATH_IMAGE019
;其中,N为特征合集的总个数,
Figure 417596DEST_PATH_IMAGE020
表示特征 合集中包含特征词
Figure 361282DEST_PATH_IMAGE021
的个数。结合词频与反文档频率的计算公式得到TF-IDF算法的计算公 式为:
Figure 186018DEST_PATH_IMAGE022
为防止上述TF-IDF算法的计算公式趋于长文本的现象发生,还需对上述计算公式 进行权重归一化处理,直接让TF-IDF算法除以特征合集
Figure 898759DEST_PATH_IMAGE023
的权重长度并乘以一个均值,克 服长文本问题。从而得到归一化的TF-IDF算法计算公式:
Figure 619591DEST_PATH_IMAGE024
其中,
Figure 253834DEST_PATH_IMAGE025
为目标界面包含的所有应用程序的特征合集的总个数。采用上述归一化的 TF-IDF算法计算公式计算各个特征合集中的特征项的向量值,生成目标界面包含的各个应 用程序的应用信息的特征向量。
S140、将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别。
得到目标界面包含的各个应用程序的应用信息的特征向量后,将各个应用程序的特征向量导入预设的应用分类模型对目标界面包含的各个应用程序进行分类,从而确定目标界面包含的各个应用程序的应用类别。
在一个实施示例中,在将所述特征向量导入预设的应用分类模型之前,还包括对预设的应用分类模型进行训练的过程。训练应用分类模型的具体过程包括步骤31至步骤34
步骤31、获取训练数据;所述训练数据包括若干预设目标类别对应的多个应用程序的程序信息;
具体的,确定预设分类框架中若干预设目标类别对应的多个应用程序,然后从数据库中获取各个预设目标类别对应的多个应用程序的程序信息,将获取到的若干程序信息组成训练数据。可选的,预设分类框架中若干预设目标类别可包括:“娱乐”、“生活”、“工具”、“日常”、“健康”、“财务”、“学习”以及“外出”等应用类别。
步骤32、分别对所述训练数据中各个所述程序信息进行上下文信息扩展,得到所述程序信息关联的文本训练数据;
由于数据库中的应用程序信息内容有限,为提高应用程序的分类准确度,可以对若干预设目标类别对应的多个应用程序的应用信息进行上下文信息扩展。利用丰富的上下文信息来扩充每一应用程序的应用信息关联的文本数据,得到所述程序信息关联的文本训练数据。
例如,如图2所示,以移动终端的目标界面内包含的应用程序(APK)的线上信息爬取为例,网络爬虫为收集文本训练数据,可以遍历应用商店网站(例如“豌豆荚”或“谷歌商店”等),访问网站中若干预设目标类别对应的多个应用程序的网页URL,从该网页中抓取目标应用程序的名字(name)、主题(title)、标签(tag)、类别(type)、描述(describe)和编辑点评(comment)等APK信息;并且网页爬虫将若干预设目标类别对应的多个应用程序的中文名字输入到搜索引擎的搜索栏中进行访问查询,最后对搜寻返回的结果进行爬取得到若干预设目标类别对应的多个应用程序的网页信息;并对抓取到的APK信息和网页信息进行信息整合,得到程序信息关联的文本训练数据。
步骤33、提取所述文本训练数据在多个预设维度的特征参量,生成所述程序信息的特征向量;
在得到若干预设目标类别对应的多个应用程序的文本训练数据后,由于文本训练数据内包含无用信息和非结构化的文本词句,无法直接根据文本训练数据对应用分类模型进行训练。需从各个应用程序对应的文本训练数据中提取在多个预设维度有代表性的特征参量,并将提取到的特征产量转换为向量的形式,得到各个应用程序的程序信息的特征向量。通过提取所述文本训练数据在多个预设维度的特征参量降低文本数据的文本表达的空间向量的维数,减少计算量,提高应用分类模型的训练效率。
步骤34、将所述程序信息的特征向量输入若干分类器进行训练,得到应用分类模型;所述应用分类模型中的分类器数量等于所述预设目标类别的数量。
根据预设分类框架中若干预设目标类别,对应在应用分类模型中给每一预设目标类别设置一个分类器。将各个程序信息的特征向量输入预设的若干分类器进行训练,得到应用分类模型。可选的,该分类器可为二分类器(SVM)。
S150、基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组。
在确定目标界面包含的各个应用程序的应用类别之后,可以将目标界面中的所有应用程序进行分组排布。具体的,以目标界面包含的各个应用程序的应用类别作为分组依据,将目标界面内的所有应用程序分为多个应用组,每一应用组内包含的应用程序的应用类别相同,从而实现对目标界面包含的各个应用程序进行准确分类。使得用户能够根据应用类别快速查找到所需的应用程序,提高用户体验感。
在一个实施示例中,将所述目标界面内的所有应用程序分为多个应用组时,目标界面包含的应用程序的分布位置的具体改变过程为:根据所述应用类别,生成以各个所述应用类别命名的文件夹;将所述目标界面内的所有应用程序的图标,分别放置于名称为各个所述应用程序所属的应用类别的文件夹中。
具体的,如图3所示,为目标界面内的所有应用程序分为多个应用组的示意图,图3(a)为未分类时目标界面内的所有应用程序的分布状态。在基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组的过程中,可以根据目标界面内的所有应用程序具有的应用类别,在目标界面中生成以各个应用类别命名的文件夹;每一文件夹代表一个应用组。将目标界面内的所有应用程序的图标分别放置于名称为各个应用程序所属的应用类别的文件夹中,完成对目标界面包含的各个应用程序的准确分类,如图3(b)所示。
在一个实施示例中,当任一应用组中包含的应用程序过多时,依旧需要耗费用户时间进行应用程序查找,降低用户的使用体验。可以通过对包含过多应用程序的应用组进行再次应用程序分类,将应用组中的各个应用程序分为子应用类别,提高用户的使用体验。具体的,若任一所述应用组包含的应用程序的数量超出第一阈值,则将所述应用组中各个应用程序的特征向量输入所述应用组的子分类模型中,得到所述应用组中各个应用程序的的子应用类别;统计属于同一所述子应用类别的应用程序的数量;若属于任一所述子应用类别的应用程序的数量超出第二阈值,则基于所述子应用类别,将所述应用组中属于所述子应用类别的应用程序分为子应用组。
在基于所述应用类别将所述目标界面内的所有应用程序分为多个应用组之后,若任一所述应用组包含的应用程序的数量超出第一阈值,则说明该应用组内包含的应用程序过多,需对该应用组内的应用程序进行再分类;此时,将该应用组中各个应用程序的特征向量输入该应用组对应的应用类别的子分类模型中,得到该应用组中各个应用程序的的子应用类别。然后统计属于同一子应用类别的应用程序的数量;若属于任一子应用类别的应用程序的数量超出第二阈值,则说明该子应用类别的应用程序的数量足够;此时,基于该子应用类别,将所述应用组中属于所述子应用类别的应用程序分为子应用组,以避免子应用组中只有单个应用程序存在,造成目标界面中应用分组过多的问题。可选的,该第一阈值可设为9;该第二阈值可设为3;各个子分类模型为预先根据应用类别关联的若干子应用类别的训练数据训练得到,每一子分类模型可为分类器。
在一个实施示例中,基于所述子应用类别,将所述应用组中属于所述子应用类别的应用程序分为子应用组,这一过程中应用组包含的应用程序的分布位置的具体改变为:生成以所述子应用类别命名的文件夹;在所述应用组中,将属于所述子应用类别的应用程序的图标移动至名称为所述子应用类别的文件夹中。
具体的,可以根据应用组内的所有应用程序具有的子应用类别,在目标界面中生成以各个子应用类别命名的文件夹;每一文件夹代表一个子应用组。在应用组中将属于每一子应用类别的应用程序的图标移动至名称为子应用类别的文件夹中,完成对应用组内包含的各个应用程序的再次分类,减少每个应用组内的应用程序数量,便于用户根据应用类别以及子应用类别快速查找到所需的应用程序,提高用户体验感。
本发明实施例提供的一种应用程序的分类方法,获取目标界面包含的各个应用程序的应用信息;分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据;由于应用程序的本地应用信息内容有限,利用丰富的上下文信息来扩充每一应用程序的应用信息关联的文本数据,提高应用分类的准确率。提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量;通过提取所述文本数据在多个预设维度的特征参量降低文本数据的文本表达的空间向量的维数,减少计算量,提高应用分类模型的分类效率。将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别;基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组,从而实现对目标界面包含的各个应用程序进行准确分类。
实施例二
如图4所示的是本发明实施例二提供的应用程序的分类装置。在实施例一的基础上,本发明实施例还提供了一种应用程序的分类装置4,该装置包括:
应用信息获取模块401,用于获取目标界面包含的各个应用程序的应用信息;
信息扩展模块402,用于分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据;
特征提取模块403,用于提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量;
应用类别确定模块404,用于将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别;
应用程序分类模块405,用于基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组。
应当理解的是,图4示出的应用程序的分类装置的结构框图中,各单元用于执行图1对应的实施例中的各步骤,而对于图1对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1以及图1所对应的实施例中的相关描述,此处不再赘述。
实施例三
图5是本发明实施例三提供的终端设备的结构示意图。该终端设备包括:处理器51、存储器52以及存储在所述存储器52中并可在所述处理器51上运行的计算机程序53,例如用于应用程序的分类方法的程序。所述处理器51执行所述计算机程序53时实现上述应用程序的分类方法实施例中的步骤,例如图1所示的步骤S110至S150。
示例性的,所述计算机程序53可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器52中,并由所述处理器51执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序53在终端设备中的执行过程。例如,所述计算机程序53可以被分割成应用信息获取模块、信息扩展模块、特征提取模块、应用类别确定模块和应用程序分类模块,各模块具体功能如下:
应用信息获取模块,用于获取目标界面包含的各个应用程序的应用信息;
信息扩展模块,用于分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据;
特征提取模块,用于提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量;
应用类别确定模块,用于将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别;
应用程序分类模块,用于基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组。
所述终端设备可包括,但不仅限于,处理器51、存储器52以及存储在所述存储器52中的计算机程序53。本领域技术人员可以理解,图5仅仅是终端设备的示例,并不构成对应用程序的分类装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述应用程序的分类装置还可以包括输入输出设备、网络接入设备、总线等。
所述处理器51可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器52可以是所述应用程序的分类装置的内部存储单元,例如应用程序的分类装置的硬盘或内存。所述存储器52也可以是外部存储设备,例如应用程序的分类装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器52还可以既包括应用程序的分类装置的内部存储单元也包括外部存储设备。所述存储器52用于存储所述计算机程序以及应用程序的分类方法所需的其他程序和数据。所述存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种应用程序的分类方法,其特征在于,包括:
获取目标界面包含的各个应用程序的应用信息;
分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据;
提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量;
将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别;
基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组。
2.如权利要求1所述的应用程序的分类方法,其特征在于,所述分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据,包括:
从应用商店和/或网络网页中抓取各个所述应用程序的线上信息,根据线上信息得到应用信息关联的文本数据。
3.如权利要求1所述的应用程序的分类方法,其特征在于,所述提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量,包括:
对所述文本数据进行预处理,得到所述应用信息的词项合集;
根据卡方检验算法对所述词项合集进行特征提取,得到所述应用信息的特征合集;
将所述特征合集中的特征项转换为预设向量空间中的向量,生成所述应用信息的特征向量;所述预设向量空间由词频以及反文档频率构成。
4.如权利要求3所述的应用程序的分类方法,其特征在于,所述对所述文本数据进行预处理,得到所述应用信息的词项合集,包括:
对所述文本数据进行文本分词,得到各个所述应用信息的词组合集;
将预设停用词从各个所述词组合集中筛除,得到各个所述应用信息的词项合集。
5.如权利要求1所述的应用程序的分类方法,其特征在于,在将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别之前,还包括:
获取训练数据;所述训练数据包括若干预设目标类别对应的多个应用程序的程序信息;
分别对所述训练数据中各个所述程序信息进行上下文信息扩展,得到所述程序信息关联的文本训练数据;
提取所述文本训练数据在多个预设维度的特征参量,生成所述程序信息的特征向量;
将所述程序信息的特征向量输入若干分类器进行训练,得到应用分类模型;所述应用分类模型中的分类器数量等于所述预设目标类别的数量。
6.如权利要求1-5任一项所述的应用程序的分类方法,其特征在于,所述基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组,包括:
根据所述应用类别,生成以各个所述应用类别命名的文件夹;
将所述目标界面内的所有应用程序的图标,分别放置于名称为各个所述应用程序所属的应用类别的文件夹中。
7.如权利要求1-5任一项所述的应用程序的分类方法,其特征在于,所述基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组,还包括:
若任一所述应用组包含的应用程序的数量超出第一阈值,则将所述应用组中各个应用程序的特征向量输入所述应用组的子分类模型中,得到所述应用组中各个应用程序的子应用类别;
统计属于同一所述子应用类别的应用程序的数量;
若属于任一所述子应用类别的应用程序的数量超出第二阈值,则基于所述子应用类别,将所述应用组中属于所述子应用类别的应用程序分为子应用组。
8.如权利要求7所述的应用程序的分类方法,其特征在于,所述基于所述子应用类别,将所述应用组中属于所述子应用类别的应用程序分为子应用组,包括:
生成以所述子应用类别命名的文件夹;
在所述应用组中,将属于所述子应用类别的应用程序的图标移动至名称为所述子应用类别的文件夹中。
9.一种应用程序的分类装置,其特征在于,包括:
应用信息获取模块,用于获取目标界面包含的各个应用程序的应用信息;
信息扩展模块,用于分别对各个所述应用程序的应用信息进行上下文信息扩展,得到所述应用信息关联的文本数据;
特征提取模块,用于提取所述文本数据在多个预设维度的特征参量,生成所述应用信息的特征向量;
应用类别确定模块,用于将所述特征向量导入预设的应用分类模型,确定所述应用程序的应用类别;
应用程序分类模块,用于基于所述应用类别,将所述目标界面内的所有应用程序分为多个应用组。
10.一种终端设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述应用程序的分类方法的步骤。
CN202010933302.XA 2020-09-08 2020-09-08 应用程序的分类方法、装置及终端设备 Active CN111797239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010933302.XA CN111797239B (zh) 2020-09-08 2020-09-08 应用程序的分类方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010933302.XA CN111797239B (zh) 2020-09-08 2020-09-08 应用程序的分类方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN111797239A true CN111797239A (zh) 2020-10-20
CN111797239B CN111797239B (zh) 2021-01-15

Family

ID=72834226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010933302.XA Active CN111797239B (zh) 2020-09-08 2020-09-08 应用程序的分类方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN111797239B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506556A (zh) * 2020-11-19 2021-03-16 杭州云深科技有限公司 应用程序分类方法、装置、计算机设备及存储介质
CN113010671A (zh) * 2021-02-22 2021-06-22 杭州西湖数据智能研究院 一种app分类系统
CN113111181A (zh) * 2021-04-07 2021-07-13 中信百信银行股份有限公司 文本数据处理方法、装置、电子设备及存储介质
CN113434186A (zh) * 2021-07-13 2021-09-24 支付宝(杭州)信息技术有限公司 用于推荐应用程序的方法和装置
CN113553434A (zh) * 2021-09-17 2021-10-26 支付宝(杭州)信息技术有限公司 一种应用的分类方法、装置及设备
CN113869408A (zh) * 2021-09-27 2021-12-31 北京迪力科技有限责任公司 一种分类方法及计算机设备
CN114416600A (zh) * 2022-03-29 2022-04-29 腾讯科技(深圳)有限公司 应用检测方法、装置、计算机设备及存储介质
CN114818987A (zh) * 2022-06-20 2022-07-29 中山大学深圳研究院 一种科技服务数据的处理方法、装置以及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779249A (zh) * 2012-06-28 2012-11-14 奇智软件(北京)有限公司 恶意程序检测方法及扫描引擎
US20130054619A1 (en) * 2010-05-19 2013-02-28 Alcatel Lucent Method and apparatus for identifying application protocol
CN104504140A (zh) * 2015-01-04 2015-04-08 中国联合网络通信集团有限公司 终端桌面图标的分类方法和装置
CN105955757A (zh) * 2016-05-20 2016-09-21 乐视控股(北京)有限公司 移动终端应用程序分类的方法和装置
CN107491309A (zh) * 2017-08-15 2017-12-19 北京奇虎科技有限公司 应用程序的管理方法及装置、终端设备和云端服务器
CN109376771A (zh) * 2018-09-27 2019-02-22 北京小米移动软件有限公司 应用程序分类方法及装置
CN109784368A (zh) * 2018-12-11 2019-05-21 同盾控股有限公司 一种应用程序分类的确定方法和装置
CN110377724A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种基于数据挖掘的语料库关键词自动抽取算法
CN111444502A (zh) * 2019-12-02 2020-07-24 武汉科技大学 面向种群的安卓恶意软件检测模型库方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130054619A1 (en) * 2010-05-19 2013-02-28 Alcatel Lucent Method and apparatus for identifying application protocol
CN102779249A (zh) * 2012-06-28 2012-11-14 奇智软件(北京)有限公司 恶意程序检测方法及扫描引擎
CN104504140A (zh) * 2015-01-04 2015-04-08 中国联合网络通信集团有限公司 终端桌面图标的分类方法和装置
CN105955757A (zh) * 2016-05-20 2016-09-21 乐视控股(北京)有限公司 移动终端应用程序分类的方法和装置
CN107491309A (zh) * 2017-08-15 2017-12-19 北京奇虎科技有限公司 应用程序的管理方法及装置、终端设备和云端服务器
CN109376771A (zh) * 2018-09-27 2019-02-22 北京小米移动软件有限公司 应用程序分类方法及装置
CN109784368A (zh) * 2018-12-11 2019-05-21 同盾控股有限公司 一种应用程序分类的确定方法和装置
CN110377724A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种基于数据挖掘的语料库关键词自动抽取算法
CN111444502A (zh) * 2019-12-02 2020-07-24 武汉科技大学 面向种群的安卓恶意软件检测模型库方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506556B (zh) * 2020-11-19 2023-08-25 杭州云深科技有限公司 应用程序分类方法、装置、计算机设备及存储介质
CN112506556A (zh) * 2020-11-19 2021-03-16 杭州云深科技有限公司 应用程序分类方法、装置、计算机设备及存储介质
CN113010671A (zh) * 2021-02-22 2021-06-22 杭州西湖数据智能研究院 一种app分类系统
CN113111181A (zh) * 2021-04-07 2021-07-13 中信百信银行股份有限公司 文本数据处理方法、装置、电子设备及存储介质
CN113111181B (zh) * 2021-04-07 2023-10-20 中信百信银行股份有限公司 文本数据处理方法、装置、电子设备及存储介质
CN113434186A (zh) * 2021-07-13 2021-09-24 支付宝(杭州)信息技术有限公司 用于推荐应用程序的方法和装置
CN113553434A (zh) * 2021-09-17 2021-10-26 支付宝(杭州)信息技术有限公司 一种应用的分类方法、装置及设备
CN113553434B (zh) * 2021-09-17 2021-11-30 支付宝(杭州)信息技术有限公司 一种应用的分类方法、装置及设备
CN113869408A (zh) * 2021-09-27 2021-12-31 北京迪力科技有限责任公司 一种分类方法及计算机设备
CN114416600B (zh) * 2022-03-29 2022-06-28 腾讯科技(深圳)有限公司 应用检测方法、装置、计算机设备及存储介质
CN114416600A (zh) * 2022-03-29 2022-04-29 腾讯科技(深圳)有限公司 应用检测方法、装置、计算机设备及存储介质
CN114818987A (zh) * 2022-06-20 2022-07-29 中山大学深圳研究院 一种科技服务数据的处理方法、装置以及系统
CN114818987B (zh) * 2022-06-20 2022-11-08 中山大学深圳研究院 一种科技服务数据的处理方法、装置以及系统

Also Published As

Publication number Publication date
CN111797239B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US20140214835A1 (en) System and method for automatically classifying documents
US20160188633A1 (en) A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image
CN111368038B (zh) 一种关键词的提取方法、装置、计算机设备和存储介质
CN101621391A (zh) 基于概率主题进行短文本分类的方法及系统
Yasmin et al. Content based image retrieval by shape, color and relevance feedback
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN105630975B (zh) 一种信息处理方法和电子设备
CN107506472B (zh) 一种学生浏览网页分类方法
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN113254655B (zh) 文本分类方法、电子设备及计算机存储介质
Rajalakshmi et al. Design of kids-specific URL classifier using Recurrent Convolutional Neural Network
Shawon et al. Website classification using word based multiple n-gram models and random search oriented feature parameters
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN114398473A (zh) 企业画像生成方法、装置、服务器及存储介质
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
Krishnan et al. Bringing semantics in word image retrieval
KR101920683B1 (ko) 단일 클래스 기반의 데이터 수집 장치 및 방법
Müller-Budack et al. Finding person relations in image data of news collections in the internet archive
Moumtzidou et al. Discovery of environmental nodes in the web
Kumar et al. Approaches towards Fake news detection using machine learning and deep learning
Joglekar et al. Search engine optimization using unsupervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Zhou Fan

Inventor after: Su Hang

Inventor after: Yang Ailin

Inventor after: Liu Hailiang

Inventor before: Zhou Fan

CB03 Change of inventor or designer information