CN108647201B - 一种基于移动应用的分类识别方法及系统 - Google Patents

一种基于移动应用的分类识别方法及系统 Download PDF

Info

Publication number
CN108647201B
CN108647201B CN201810300929.4A CN201810300929A CN108647201B CN 108647201 B CN108647201 B CN 108647201B CN 201810300929 A CN201810300929 A CN 201810300929A CN 108647201 B CN108647201 B CN 108647201B
Authority
CN
China
Prior art keywords
classification
application
basic
matching
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810300929.4A
Other languages
English (en)
Other versions
CN108647201A (zh
Inventor
吴岳辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aspire Technologies Shenzhen Ltd
Original Assignee
Aspire Technologies Shenzhen Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aspire Technologies Shenzhen Ltd filed Critical Aspire Technologies Shenzhen Ltd
Priority to CN201810300929.4A priority Critical patent/CN108647201B/zh
Publication of CN108647201A publication Critical patent/CN108647201A/zh
Application granted granted Critical
Publication of CN108647201B publication Critical patent/CN108647201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于移动应用的分类识别方法,其包括以下步骤:系统建立基础分类特征库;通过互联网爬取移动应用及应用页面中关键信息;系统识别所述关键信息中的分类信息及应用特征关键词;若识别到分类信息,则持续进行分类信息识别;若未识别到分类信息,则进入匹配基础特征库关键词识别;系统对采集到的应用特征关键词进行处理,获取到最优分类,并将新的分类结果补充至基础分类特征库。一种基于移动应用的分类识别系统,其包括:初始化控制模块、识别分类信息模块、匹配关键词模块。其提高了后续爬取到的移动应用分类识别效率和准确性,解决了现有应用分类的低效及无法识别的问题,可广泛应用于互联网应用领域。

Description

一种基于移动应用的分类识别方法及系统
技术领域
本发明涉及互联网应用领域,具体为基于移动应用的分类识别方法及系统。
背景技术
在现有移动终端项目中,通常需要对应用大致分类,以便后续进行统计及识别。
一般的分类方法是通过互联网爬取应用商城应用详情页面中的已知类别,该类别通常是对应于该商城本身需要所作的分类,分类标签也是各个商城不一致。对于分类有固定要求的系统,则会设置一些基础分类标签,如未识别,则会通过默认标签识别。
然而,使用一般的识别方法,不足之处非常明显,具体在于:
1、各应用商城分类不一致,导致后续类别标签高重复率;
2、部分应用商城分类不明确,导致无法识别应用分类;
3、对于赋予默认标签的应用,后续统计会出现分类偏差;
如通过对现有项目中应用分类结果分析得知,正常爬取应用后,普遍出现分类不准确,包括:
1、分类重复;
2、分类无法识别;
3、分类识别错误;
4、分类不完整,多类型分类统计不准确。
在传统的方法中,固定的认同各个应用商城中分类,导致很多分类不准确,例如百度应用商城中定义“社交通讯”,而在360应用商城中则叫“聊天工具”,且百度应用商城中对于“社交通讯”还有二级分类,即“聊天”、“社交”、“婚恋”、“通讯”,而360应用商城中对应二级分类则叫“社交聊天”、“网络电话”、“视频聊天”、“游戏语音”,因此对于如此多种且意义相近的分类进行只有系统分类处理,将需要一个持续的分析识别过程。为解决当前应用分类不够准确的问题,因此有必要提出一种新的移动应用持续标签识别方法。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于移动应用的分类识别方法及系统。
本发明所采用的技术方案是:
本发明提供一种基于移动应用的分类识别方法,其包括以下步骤:
系统建立基础分类特征库;
通过互联网爬取移动应用及应用页面中关键信息;
系统识别所述关键信息中的分类信息及应用特征关键词;
若识别到分类信息,则持续进行分类信息识别;
若未识别到分类信息,则进入匹配基础特征库关键词识别;
系统对采集到的应用特征关键词进行处理,获取到最优分类;
构建应用基础画像,并将新的分类结果补充至基础分类特征库。
作为该技术方案的改进,所述基础分类特征库的基础分类包括:社交类、影音类、游戏类。
作为该技术方案的改进,所述步骤系统对采集到的应用特征关键词进行处理,获取到最优分类,其中通过最大公约算法获取最优分类。
作为该技术方案的改进,所述方法还包括:
系统预先设定识别应用分类的默认映射关系;
获取所述爬取的应用描述信息;
通过分词组件获取描述信息中的分词结果,并剔除忽略词库中的内容;
采用最大匹配算法匹配基础分类特征词;
依据匹配阈值判断是否匹配成功,若匹配成功,则直接识别对应基础特征及分类;否则,系统进行映射策略选择。
作为该技术方案的改进,所述映射策略选择包括发送无法识别分类通知至系统以进行手动映射,或自动映射为未识别分类。
进一步地,所述匹配阈值包括设定命中词的个数。
进一步地,当命中情况为非唯一命中或全未命中,则进行手动映射。
进一步地,当自动映射为未识别分类,则系统持续进行分类识别,直至匹配完成。
另一方面,本发明还提供一种基于移动应用的分类识别系统,其包括:
初始化控制模块,用于执行步骤系统建立基础分类特征库;
通过互联网爬取移动应用及应用页面中关键信息;
识别分类信息模块,用于执行步骤系统识别所述关键信息中的分类信息及应用特征关键词;
若识别到分类信息,则持续进行分类信息识别;
匹配关键词模块,用于执行步骤若未识别到分类信息,则进入匹配基础特征库关键词识别;
系统对采集到的应用特征关键词进行处理,获取到最优分类;
构建应用基础画像,并将新的分类结果补充至基础分类特征库。
本发明的有益效果是:本发明提供的基于移动应用的分类识别方法及系统,通过改进原有互联网应用分类识别的映射模式,设计了一套依据连续在互联网爬取并积累应用类别分词语义库,后续通过语义匹配和人工映射两种途径来构建应用分类的基础特征映射库,在匹配过程中通过最大匹配分词过程和匹配度阈值等机制来获得精确匹配结果,由此提高后续爬取到的移动应用分类识别效率和准确性,解决了现有应用分类的低效及无法识别的问题;且对于新爬取到的应用,为后续应用统计和报表提供了准确分类内容。
附图说明
下面结合附图对本发明的具体实施方式作进一步说明:
图1是本发明第一实施例的移动应用持续分类识别方法控制流程示意图;
图2是本发明第二实施例的移动应用识别基础分类方法控制流程示意图;
图3是本发明第三实施例的模块连接图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参照图1,本发明提供一种基于移动应用的分类识别方法,其包括以下步骤:
系统建立基础分类特征库;
通过互联网爬取移动应用及应用页面中关键信息;
系统识别所述关键信息中的分类信息及应用特征关键词;
若识别到分类信息,则持续进行分类信息识别;
若未识别到分类信息,则进入匹配基础特征库关键词识别;
系统对采集到的应用特征关键词进行处理,获取到最优分类;
构建应用基础画像,并将新的分类结果补充至基础分类特征库。
作为该技术方案的改进,所述基础分类特征库的基础分类包括:社交类、影音类、游戏类。
作为该技术方案的改进,所述步骤系统对采集到的应用特征关键词进行处理,获取到最优分类,其中通过最大公约算法获取最优分类。
作为一具体实施例,其流程说明如下:
101)综合互联网商城分类标签,建立分类标签基础库;
102)通过后台爬虫服务持续爬取互联网移动应用,及应用详情页面中关键信息;
103)通过分类识别模块识别关键信息中的分类信息及描述中应用特征关键词,如果识别到分类信息,则继续后续分类信息识别,否则进入匹配特征库关键词识别;
104)采集到的特征关键词会通过最大公约算法获取到最优分类。其中,最大公约算法即最大字频优选法,其将采集的特征关键词拆分成单字,计算各字在基础特征库中的出现频率百分比值,略掉频率等于0的字,最终将结果值排序后取前100的字所对应的关键词作为最后的最优分类。对于匹配到多个分类结果的情况,将通过应用内部分析匹配已分类应用库,进一步筛选应用分类,例如通过应用包名等识别应用库,依据已匹配的历史来推断该应用分类;
105)通过以上各项分类识别,大体构建该应用的分类标签,允许适配多个分类,通过后续基础库的不断完善,将不断提高分类结果;
106)将新的分类结果补充至分类特征库。
实际项目中按照以上流程,首先建立标准分类,如下表1所示:
表1
标准分类 特征关键词
社交类 社交、聊天、通讯、电话、美容
影音类 视频、语音、电台、铃声、娱乐、特效
游戏类 休闲、益智、养成、射击、模拟、竞速、棋牌
后台爬虫服务通过互联网爬取到百度应用商城分类“社交通讯”;和360应用商城分类“社交网络”、“休闲娱乐”分类信息;
通过标准库中特征关键词直接匹配到“社交通讯”和“社交网络”,因此建立该匹配关系,百度应用商城分类中的“社交通讯”和360应用商城分类中的“社交网络”下的所有应用将在爬取后属于标准分类中的“社交类”。
系统在识别过程中,而未被直接识别出的“休闲娱乐”分类将通过策略配置是否采用人工映射,或者自动映射;如果采用人工映射,则表现在系统会发送提醒或通知管理员登录系统进行设定映射;而采用自动映射,则由系统暂时设定未知标签,等待系统基础特征库丰富后,定期再次进行识别。
作为该技术方案的改进,参照图2,所述方法还包括:
系统预先设定识别应用分类的默认映射关系;
获取所述爬取的应用描述信息;
通过分词组件获取描述信息中的分词结果,并剔除忽略词库中的内容;
采用最大匹配算法匹配基础分类特征词;
依据匹配阈值判断是否匹配成功,若匹配成功,则直接识别对应基础特征及分类;否则,系统进行映射策略选择。
作为该技术方案的改进,所述映射策略选择包括发送无法识别分类通知至系统以进行手动映射,或自动映射为未识别分类。
进一步地,所述匹配阈值包括设定命中词的个数。
进一步地,当命中情况为非唯一命中或全未命中,则进行手动映射。
进一步地,当自动映射为未识别分类,则系统持续进行分类识别,直至匹配完成。
作为另一具体实施例,107)预先设定好基础的分类特征库及默认映射关系;
108)获取由爬虫模块爬取的应用描述信息;
109)通过分词组件获取描述信息中文分词结果,并剔除/忽略词库中的内容,包括介词、语气词、连接词等无意义词语;
110)采用最大匹配算法匹配分词结果和基础分类特征词库,其中最大匹配算法,即将分词后的词组集合与分类特征词库中的词组集合一一匹配,获取匹配命中的词和命中次数,最后保留命中次数大于限定值的词组,初始设定限定值为1,后续不断积累,可逐步提高限定值,以便后续更精确匹配;
111)依据匹配阈值判断是否有匹配结果;如果匹配成功,则直接识别对应基础特征分类映射结果,否则,将无法识别分类通知给系统管理人员以进行手动映射;
112)直接通过基础分类特征库的映射结果识别为分类结果;
113)系统依据配置的策略选择未识别分类的后续流程;
114)人为设定分类结果,该流程由设定分类策略约束,默认为发送提醒和通知策略;
115)自动设定为未识别分类,在后续定时任务再次匹配109步骤。
以上流程中需要预先对爬取的大段文本分词,设定分词最大词长如设为4,这个长度主要考量了关键特征库中的定义词长,依次计算对应各标准分类特征库的逆向最大匹配算法将360应用商城中的“美图秀秀”中描述内容分词获得有效结果如下表2:
表2
标准分类 特征关键词 匹配命中词
社交类 社交、聊天、通讯、电话、美容、照片 美容、照片
影音类 视频、语音、电台、铃声、娱乐、特效 特效
游戏类 休闲、益智、养成、射击、模拟、竞速、棋牌 无命中词
提前设定的匹配阈值为2,则命中词超过两个,则视为有效命中,如将“美图秀秀”分类为“社交类”,后续设置的关键词越多,命中的结果会增加,则需要调节阈值到合适值,剔除掉命中低的无效分类匹配结果。
对于非唯一命中和全未命中的情况,均需要人工干预处理,但有不同的处理策略配置,可以发邮件通知,也可以设置默认分类等,或者设置默认分类后再通知人工干预。
参照图3,本发明还提供一种基于移动应用的分类识别系统,其包括:
初始化控制模块,用于执行步骤系统建立基础分类特征库;
通过互联网爬取移动应用及应用页面中关键信息;
识别分类信息模块,用于执行步骤系统识别所述关键信息中的分类信息及应用特征关键词;
若识别到分类信息,则持续进行分类信息识别;
匹配关键词模块,用于执行步骤若未识别到分类信息,则进入匹配基础特征库关键词识别;
系统对采集到的应用特征关键词进行处理,获取到最优分类;
构建应用基础画像,并将新的分类结果补充至基础分类特征库。
本发明提供的基于移动应用的分类识别方法及系统,通过改进原有互联网应用分类识别的映射模式,设计了一套依据连续在互联网爬取并积累应用类别分词语义库,后续通过语义匹配和人工映射两种途径来构建应用分类的基础特征映射库,在匹配过程中通过最大匹配分词过程和匹配度阈值等机制来获得精确匹配结果,由此提高后续爬取到的移动应用分类识别效率和准确性,解决了现有应用分类的低效及无法识别的问题;且对于新爬取到的应用,为后续应用统计和报表提供了准确分类内容。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (7)

1.一种基于移动应用的分类识别方法,其特征在于,其包括以下步骤:
系统建立基础分类特征库;
通过互联网爬取移动应用及应用页面中关键信息;
系统识别所述关键信息中的分类信息及应用特征关键词;
系统预先设定识别应用分类的默认映射关系;
获取所述移动应用及应用页面中关键信息;
通过分词组件获取所述移动应用及应用页面中关键信息中的分词结果,并剔除忽略词库中的内容;
采用最大匹配算法匹配基础分类特征词;
依据匹配阈值判断是否匹配成功,若匹配成功,则直接识别对应基础特征及分类,并持续进行分类信息识别;
否则,系统进行映射策略选择,并进入匹配基础特征库关键词识别;其中,所述映射策略选择包括发送无法识别分类通知至系统以进行手动映射,或自动映射为未识别分类;
系统对采集到的应用特征关键词进行处理,获取到最优分类;
构建应用基础画像,并将新的分类结果补充至基础分类特征库。
2.根据权利要求1所述的基于移动应用的分类识别方法,其特征在于,所述基础分类特征库的基础分类包括:社交类、影音类、游戏类。
3.根据权利要求1或2所述的基于移动应用的分类识别方法,其特征在于,所述系统对采集到的应用特征关键词进行处理,获取到最优分类,其中通过最大公约算法获取最优分类。
4.根据权利要求1所述的基于移动应用的分类识别方法,其特征在于,所述匹配阈值包括设定命中词的个数。
5.根据权利要求4所述的基于移动应用的分类识别方法,其特征在于,当命中情况为非唯一命中或全未命中,则进行手动映射。
6.根据权利要求1所述的基于移动应用的分类识别方法,其特征在于,当自动映射为未识别分类,则系统持续进行分类识别,直至匹配完成。
7.一种基于移动应用的分类识别系统,其特征在于,其包括:
初始化控制模块,用于执行步骤系统建立基础分类特征库;
通过互联网爬取移动应用及应用页面中关键信息;
识别分类信息模块,用于执行系统识别所述关键信息中的分类信息及应用特征关键词;
系统预先设定识别应用分类的默认映射关系;
获取所述移动应用及应用页面中关键信息;
通过分词组件获取所述移动应用及应用页面中关键信息中的分词结果,并剔除忽略词库中的内容;
采用最大匹配算法匹配基础分类特征词;
依据匹配阈值判断是否匹配成功,若匹配成功,则直接识别对应基础特征及分类,并持续进行分类信息识别;
否则,系统进行映射策略选择,并进入匹配基础特征库关键词识别;其中,所述映射策略选择包括发送无法识别分类通知至系统以进行手动映射,或自动映射为未识别分类;
系统对采集到的应用特征关键词进行处理,获取到最优分类;
构建应用基础画像,并将新的分类结果补充至基础分类特征库。
CN201810300929.4A 2018-04-04 2018-04-04 一种基于移动应用的分类识别方法及系统 Active CN108647201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810300929.4A CN108647201B (zh) 2018-04-04 2018-04-04 一种基于移动应用的分类识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810300929.4A CN108647201B (zh) 2018-04-04 2018-04-04 一种基于移动应用的分类识别方法及系统

Publications (2)

Publication Number Publication Date
CN108647201A CN108647201A (zh) 2018-10-12
CN108647201B true CN108647201B (zh) 2021-12-31

Family

ID=63745670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810300929.4A Active CN108647201B (zh) 2018-04-04 2018-04-04 一种基于移动应用的分类识别方法及系统

Country Status (1)

Country Link
CN (1) CN108647201B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434970A (zh) * 2020-12-12 2021-03-02 广东电力信息科技有限公司 一种基于智能数据采集的资质数据验证方法、装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361141A (zh) * 2014-12-11 2015-02-18 北京邮电大学 软件标识库的建立方法
CN107133248A (zh) * 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种应用程序的分类方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980210A (zh) * 2010-11-12 2011-02-23 百度在线网络技术(北京)有限公司 一种标的词分类分级方法及系统
CN103198067B (zh) * 2012-01-06 2016-08-10 卓望数码技术(深圳)有限公司 一种业务搜索方法及系统
CN103377216A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 产品信息库的构建方法及系统
KR20140080923A (ko) * 2012-12-21 2014-07-01 가온미디어 주식회사 개방형 앱스토어 기반의 통일화된 앱 정보 표시 방법 및 이를 위한 컴퓨터로 판독가능한 기록매체
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
US11144555B2 (en) * 2015-05-06 2021-10-12 App Annie Inc. Keyword reporting for mobile applications
CN106874279B (zh) * 2015-12-11 2021-01-15 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN107609063B (zh) * 2017-08-29 2020-03-17 重庆邮电大学 一种多标签分类的手机应用推荐系统及其方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361141A (zh) * 2014-12-11 2015-02-18 北京邮电大学 软件标识库的建立方法
CN107133248A (zh) * 2016-02-29 2017-09-05 阿里巴巴集团控股有限公司 一种应用程序的分类方法和装置

Also Published As

Publication number Publication date
CN108647201A (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
US10405052B2 (en) Method and apparatus for identifying television channel information
WO2021027332A1 (zh) 通信建立方法和系统
CN110147722A (zh) 一种视频处理方法、视频处理装置及终端设备
US10019492B2 (en) Stop word identification method and apparatus
WO2017186090A1 (zh) 通信号码处理方法及装置
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
CN107784051A (zh) 在线客服应答系统及方法
CN106649404B (zh) 一种会话场景数据库的创建方法及装置
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
WO2021036439A1 (zh) 一种信访问题答复方法及装置
CN113205129B (zh) 一种作弊团伙识别方法、装置、电子设备及存储介质
CN101339560B (zh) 一种搜索系列性数据的方法、装置及一种搜索引擎系统
CN107679227A (zh) 视频索引标签设置方法、装置及服务器
CN110765760A (zh) 一种法律案件分配方法、装置、存储介质和服务器
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN113726942A (zh) 一种智能电话接听方法、系统、介质及电子终端
CN108647201B (zh) 一种基于移动应用的分类识别方法及系统
CN114003803B (zh) 一种社交平台上特定地域的媒体账号发现方法及系统
CN107798004B (zh) 关键词查找方法、装置及终端
CN113743443B (zh) 一种图像证据分类和识别方法及装置
CN111444362A (zh) 恶意图片拦截方法、装置、设备和存储介质
CN113254624B (zh) 基于人工智能的智能问答处理方法、装置、设备及介质
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
CN107992501B (zh) 社交网络信息识别方法、处理方法及装置
CN114491010A (zh) 信息抽取模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 w601, Shenzhen Hong Kong industry university research base, 015 Gaoxin South 7th Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: ASPIRE TECHNOLOGIES (SHENZHEN) LTD.

Address before: 518000 south wing, 6th floor, west block, Shenzhen Hong Kong industry university research base building, South District, high tech Industrial Park, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: ASPIRE TECHNOLOGIES (SHENZHEN) LTD.

GR01 Patent grant
GR01 Patent grant