CN110737811B - 应用分类方法、装置以及相关设备 - Google Patents
应用分类方法、装置以及相关设备 Download PDFInfo
- Publication number
- CN110737811B CN110737811B CN201911024245.7A CN201911024245A CN110737811B CN 110737811 B CN110737811 B CN 110737811B CN 201911024245 A CN201911024245 A CN 201911024245A CN 110737811 B CN110737811 B CN 110737811B
- Authority
- CN
- China
- Prior art keywords
- application
- word
- preset
- determining
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 331
- 239000011159 matrix material Substances 0.000 claims description 94
- 230000009193 crawling Effects 0.000 claims description 35
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 15
- 238000009434 installation Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013519 translation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种应用分类方法、装置以及相关设备,该方法包括:获取待分类应用的名称和描述信息;基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,所述M为大于0的整数;基于所述M个词向量确定Q个第一卷积核;基于所述M个词向量和所述Q个第一卷积核确定Q个列向量,以及从所述Q个列向量中确定Q个第一数值,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q个第一数值与所述Q个列向量一一对应,所述Q为大于0的整数;基于所述Q个第一数值确定所述待分类应用的第一应用类别。采用本发明实施例可提高应用分类的客观性和准确性。
Description
技术领域
本发明涉及电子技术领域,尤其涉及一种应用分类方法、装置以及相关设备。
背景技术
随着智能手机、平板电脑等终端设备的迅速普及,基于IOS操作系统、Android操作系统和Windows操作系统的各种应用(Application,App)已从社交、购物、交通、服务、医疗、通讯等各个领域深入到我们的生活中,应用的总数量呈爆发式增长。我国市场上检测到的应用数量为414万款,我国本土第三方应用商店应用数量超过231万款,苹果商店(中国区)应用数量超过183万款。通过对如此庞大数量的应用进行分类,可以了解互联网的发展,无论是对个人还是企业都具有指导性的作用。
现有技术中,应用分类方法通常是,依据个人的主观意识去判断待分类应用的类别,然后对待分类应用进行归类,该做法主要依赖于人的主观意识,有可能造成不同时间或不同场景下对同一待分类应用的类别判断不同,从而影响应用分类的准确性。
发明内容
本发明实施例提供一种应用分类方法、装置以及相关设备,用于提高应用分类的客观性和准确性。
本发明实施例一方面提供了一种应用分类方法,包括:
获取待分类应用的名称和描述信息;
基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,所述M为大于0的整数;
基于所述M个词向量确定Q个第一卷积核;
基于所述M个词向量和所述Q个第一卷积核确定Q个列向量,以及从所述Q个列向量中确定Q个第一数值,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q个第一数值与所述Q个列向量一一对应,所述Q为大于0的整数;
基于所述Q个第一数值确定所述待分类应用的第一应用类别。
其中,所述基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,包括:
对所述名称和所述描述信息进行分词处理和过滤,得到M个关键词;
基于词向量库将所述M个关键词向量化,得到M个词向量,所述M个词向量与所述M个关键词一一对应,所述词向量库中包括关键词与词向量的对应关系。
其中,所述基于所述M个词向量确定Q个第一卷积核,包括:
基于所述M个词向量从R个预设卷积窗口中确定P个第一卷积窗口,所述P个第一卷积窗口包括S个预设卷积核,所述P为大于0的整数,所述R为大于或等于所述P的整数,所述S为大于或等于所述Q的整数;
从所述S个预设卷积核中确定Q第一卷积核。
其中,所述M个词向量的维度为N,所述N为大于0的整数;所述基于所述M个词向量和Q个第一卷积核确定所述Q个列向量,包括:
将所述M个词向量按照预设规则排列,得到输入矩阵,所述输入矩阵的行数为所述M,所述输入矩阵的列数为所述N;
确定所述输入矩阵与所述Q个第一卷积核的卷积,得到Q个列向量。
其中,所述确定所述输入矩阵与Q个第一卷积核的卷积,得到Q个列向量,包括:
在所述输入矩阵上按照预设移动方向和预设移动步长,移动所述P个第一卷积窗口,得到特征矩阵;
计算所述特征矩阵与所述Q个第一卷积核的内积,得到Q个列向量。
其中,所述基于所述Q个第一数值确定所述待分类应用的第一应用类别,包括:
确定所述Q个第一数值分别与W个预设特征信息的匹配度,所述W个预设特征信息为W个预设应用类别的特征信息,所述W个预设应用类别与所述W个预设特征信息一一对应,所述W为大于1的整数;
基于确定的W个匹配度确定所述待分类应用的第一应用类别。
其中,所述获取待分类应用的名称和描述信息,包括:
从应用市场爬取待分类应用的名称和描述信息;
和/或,从网站爬取待分类应用的名称和描述信息;
和/或,解析待分类应用的安装包,得到所述待分类应用的名称和描述信息。
其中,所述基于所述Q个第一数值确定所述待分类应用的第一应用类别之后,所述方法还包括:
基于所述第一应用类别绘制用户画像;
和/或,基于所述第一应用类别设置用户兴趣标签;
和/或,基于所述第一应用类别判断用户金融逾期概率。
本发明实施例另一方面提供了一种应用分类装置,包括:
信息获取模块,用于获取待分类应用的名称和描述信息;
词向量化模块,用于基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,所述M为大于0的整数;
卷积核确定模块,用于基于所述M个词向量确定Q个第一卷积核;
特征提取模块,用于基于所述M个词向量和所述Q个第一卷积核确定Q个列向量,以及从所述Q个列向量中确定Q个第一数值,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q个第一数值与所述Q个列向量一一对应,所述Q为大于0的整数;
类别确定模块,用于基于所述Q个第一数值确定所述待分类应用的第一应用类别。
其中,所述基于腾讯AI Lab中文词向量库将所述名称和所述描述信息向量化,得到M个词向量,所述词向量化模块,包括:
关键词提取单元,用于对所述名称和所述描述信息进行分词处理和过滤,得到M个关键词;
词向量化单元,用于基于词向量库将所述M个关键词向量化,得到M个词向量,所述M个词向量与所述M个关键词一一对应,所述词向量库中包括关键词与词向量的对应关系。
其中,,所述基于所述M个词向量确定Q个第一卷积核,所述卷积核确定模块包括:
卷积窗口确定单元,用于基于所述M个词向量从R个预设卷积窗口中确定P个第一卷积窗口,所述P个第一卷积窗口包括S个预设卷积核,所述P为大于0的整数,所述R为大于或等于所述P的整数,所述S为大于或等于所述Q的整数;
卷积核确定单元,用于从所述S个预设卷积核中确定Q第一卷积核。
其中,所述M个词向量的维度为N,所述N为大于0的整数;所述基于所述M个词向量和所述Q个第一卷积核确定Q个列向量,所述特征提取模块,包括:
词向量排列单元,用于将所述M个词向量按照预设规则排列,得到输入矩阵,所述输入矩阵的行数为所述M,所述输入矩阵的列数为所述N;
列向量确定单元,用于确定所述输入矩阵与所述Q个第一卷积核的卷积,得到Q个列向量。
其中,所述确定所述输入矩阵与Q个第一卷积核的卷积,得到Q个列向量,所述列向量确定单元,包括:
特征矩阵确定子单元,用于在所述输入矩阵上按照预设移动方向和预设移动步长,移动所述P个第一卷积窗口,得到特征矩阵;
列向量确定子单元,用于计算所述特征矩阵与所述Q个第一卷积核的内积,得到Q个列向量。
其中,所述基于所述Q个第一数值确定所述待分类应用的第一应用类别,所述类别确定模块,包括:
匹配度确定单元,用于确定所述Q个第一数值分别与W个预设特征信息的匹配度,所述W个预设特征信息为W个预设应用类别的特征信息,所述W个预设应用类别与所述W个预设特征信息一一对应,所述W为大于1的整数;
类别确定单元,用于基于确定的W个匹配度确定所述待分类应用的第一应用类别。
其中,所述获取待分类应用的名称和描述信息,所述信息获取模块,包括:
第一信息爬取单元,用于从应用市场爬取待分类应用的名称和描述信息;
和/或,第二信息爬取单元,用于从网站爬取待分类应用的名称和描述信息;
和/或,第三信息爬取单元,用于解析待分类应用的安装包,得到所述待分类应用的名称和描述信息。
其中,所述基于所述Q个第一数值确定所述待分类应用的第一应用类别之后,所述装置还包括:
用户画像绘制模块,用于基于所述第一应用类别绘制用户画像;
和/或,兴趣标签设置模块,用于基于所述第一应用类别设置用户兴趣标签;
和/或,逾期概率判断模块,用于基于所述第一应用类别判断用户金融逾期概率。
本发明实施例另一方面提供了一种终端设备,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如本发明实施例中一方面中的方法。
本发明实施例另一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。
本发明实施例可以通过获取待分类应用的名称和描述信息,然后基于词向量库将名称和描述信息向量化,得到M个词向量,接着基于M个词向量确定Q个第一卷积核,基于M个词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,最后基于Q个第一数值确定待分类应用的第一应用类别。首先,由于M个关键词是基于同一个词向量库得到,因此词向量的表述更加客观和准确;其次,基于更加客观和准确的词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,Q个第一数值基于严谨和统一的计算标准得到,因此也具有客观性和准确性,进而可以提高应用分类的客观性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a-图1b是本发明实施例提供的一种应用分类方法的场景示意图;
图2是本发明实施例提供的一种应用分类方法的流程示意图;
图3a是本发明实施例提供的另一种应用分类方法的流程示意图;
图3b是本发明实施例提供的一种名称和描述信息的显示示意图;
图3c是本发明实施例提供的一种神经网络模型的组织架构图;
图4a是本发明实施例提供的另一种应用分类方法的流程示意图;
图4b是本发明实施例提供的另一种名称和描述信息的显示示意图;
图5a是本发明实施例提供的另一种应用分类方法的流程示意图;
图5b是本发明实施例提供的另一种名称和描述信息的显示示意图;
图6是本发明实施例提供的一种应用分类装置的结构示意图;
图7是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1a-图1b,是本发明实施例提供的一种应用分类方法的场景示意图。如图1a所示,待分类应用为微信,从豌豆荚中爬取到的待分类应用的名称10a为“微信”,描述信息10b为“应用描述:1.可以发语音、文字消息、表情、图片、视频30M流量,可以收发上欠条语音,省电省流量;2.朋友圈,跟朋友们分享生活点滴;3.摇一摇、查看附近的人,世界不再有陌生人;4.扫一扫,可以扫商品条码、图书封面、CD封面,甚至扫描英文单词来翻译成中文;5.公众账号,用微信关注明星、看新闻、设提醒;6.游戏中心,和朋友们一起玩游戏;7.表情商店,有趣好玩的表情在这里特别说明:微信只消耗网络流量,不产生短信电话费用”。从上述名称10a和描述信息10b进行分词处理和过滤,得到24个关键词10c“微信、语音、文字、消息、表情、图片、视频、流量、朋友圈、生活、摇一摇、扫一扫、商品、条码、图书、封面、CD、英文、单词、公众账号、明星、新闻、游戏、表情”。查找腾讯AI Lab中文词向量库中,得到这24个关键词10c的词向量,从而可以将这24个关键词10c向量化表示,每个词向量的维度为200维。
如图1b所示,将上述24个关键词10c按照分词的顺序从上至下排列,得到输入矩阵10d,输入矩阵10d的行数为词向量的维度200,输入矩阵10d的列数为词向量的个数24。内置的预设卷积窗口有1×200、2×200、3×200、4×200、5×200,从中选取预设卷积窗口3×200作为第一卷积窗口10e,第一卷积窗口10e覆盖的地方则成为特征矩阵。假定,第一卷积窗口10e包括5个第一卷积核,第一卷积窗口10e的移动方向为向下,移动步长为1个矩阵元。每计算完一个特征矩阵与第一卷积核的内积,第一卷积窗口10e在输入矩阵10d上向下滑动一个矩阵元的位置,然后计算下一个特征矩阵与该第一卷积核的内积,直至计算完所有的特征矩阵与该第一卷积核的内积,这些内积组成一个列向量。在这里,第一卷积窗口10e的尺寸为3×200,因此一共包含22个内积,列向量的维度为22;第一卷积窗口10e包括5个第一卷积核,因此计算得到5个列向量10f[(K1,1,K1,2···K1,21,K1,22)、(K2,1,K2,2···K2,21,K2,22)、(K3,1,K3,2···K3,21,K3,22)、(K4,1,K4,2···K4,21,K4,22)、(K5,1,K5,2···K5,21,K5,22)]。每个列向量中选取一个最大的内积作为第一数值,可以得到5个第一数值(K1,1、K2,12、K3,2、K4,21、K5,22)。这5个第一数值合并得到的向量用于表示待分类应用的特征信息10g[(K1,1,K2,12,K3,2,K4,21,K5,22)]。将该特征信息10g与预设应用类别10h(视频类应用、音频类应用、游戏类应用、社交类应用、工具类应用)的预设特征信息分别进行匹配,得到视频类应用的匹配度为3%、音频类应用的匹配度为3%、游戏类应用的匹配度为3%、社交类应用的匹配度为90%、工具类应用的匹配度为1%,从而确定待分类应用——微信的应用类别为社交类应用。
请参见图2,是本发明实施例提供的一种应用分类方法的流程示意图。如图2所示,所述应用分类方法可以包括:
步骤S201,获取待分类应用的名称和描述信息。
其中,待分类应用的名称例如为微信、QQ、支付宝、腾讯视频、QQ音乐等;描述信息用于描述待分类应用的功能,例如微信的描述信息有:“1.可以发语音、文字消息、表情、图片、视频30M流量,可以收发上欠条语音,省电省流量;2.朋友圈,跟朋友们分享生活点滴;3.摇一摇、查看附近的人,世界不再有陌生人;4.扫一扫,可以扫商品条码、图书封面、CD封面,甚至扫描英文单词来翻译成中文;5.公众账号,用微信关注明星、看新闻、设提醒;6.游戏中心,和朋友们一起玩游戏;7.表情商店,有趣好玩的表情在这里特别说明:微信只消耗网络流量,不产生短信电话费用”。
步骤S202,基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,所述M为大于0的整数。
其中,词向量库例如可以为腾讯AI Lab中文词向量库,腾讯AI Lab中文词向量库包括关键词与词向量的对应关系,所述腾讯AI Lab中文词向量库包括的词是基于语义拓展算法自动更新的,所述腾讯AI Lab中文词向量库中包括的词向量是基于DSG算法训练得到的,
其中,腾讯AI Lab中文词向量库主要从以下3个方面对词向量的构建过程进行了优化:1.语料采集:训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。大规模多来源语料的组合,使得所生成的词向量数据能够涵盖多种类型的词汇。而采用新闻数据和最新网页数据对新词建模,也使得词向量数据的新鲜度大为提升。2.词库构建:除了引入维基百科和百度百科的部分词条之外,还实现了Shi等人于2010年提出的语义扩展算法,可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。3.训练算法:采用自研的Directional Skip-Gram(DSG)算法作为词向量的训练算法。DSG算法基于广泛采用的词向量训练算法Skip-Gram(SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。
步骤S203,基于所述M个词向量确定Q个第一卷积核。
其中,可以是基于词向量的数量M确定第一卷积核的数量Q,词向量的数量M与第一卷积核的数量Q存在对应关系,例如M为小于10时,Q为1;M大于或等于10小于100时,Q为2;M大于100时,Q为3,也可以有其他对应关系,在此不作限定。
步骤S204,基于所述M个词向量和所述Q个第一卷积核确定Q个列向量,以及从所述Q个列向量中确定Q个第一数值,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q个第一数值与所述Q个列向量一一对应,所述Q为大于0的整数。
其中,可以是通过计算每个词向量分别与Q个第一卷积核的卷积,得到M·Q个列向量,然后从M·Q个列向量中选择出Q个列向量;也可以是将M个词向量组合成一个矩阵,计算该矩阵分别与Q个第一卷积核的卷积,直接得到Q个列向量,在这里不做限定。
步骤S205,基于所述Q个第一数值确定所述待分类应用的第一应用类别。
具体地,基于所述Q个第一数值确定所述待分类应用的第一应用类别可以是基于Q个第一数值确定待分类应用的特征信息,然后基于该特征信息去确定第一应用类别,例如将待分类应用的特征信息和多个预设特征信息进行匹配,然后根据匹配结果去确定第一应用类别;第一应用类别为预设应用类别中的一种,预设应用类别例如可以包括:视频类应用、音频类应用、游戏类应用、社交类应用、工具类应用。
本发明实施例可以通过获取待分类应用的名称和描述信息,然后基于词向量库将名称和描述信息向量化,得到M个词向量,接着基于M个词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,最后基于Q个第一数值确定待分类应用的第一应用类别。首先,由于M个关键词是基于同一个词向量库得到,因此词向量的表述更加客观和准确;其次,基于更加客观和准确的词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,Q个第一数值基于严谨和统一的计算标准得到,因此也具有客观性和准确性,进而可以提高应用分类的客观性和准确性。
请参见图3a,是本发明实施例提供的另一种应用分类方法的流程示意图。如图3a所示,上述应用分类方法可以包括:
步骤S301,从应用市场爬取待分类应用的名称和描述信息。
其中,应用市场可以包括苹果手机的App Store、谷歌的Google Play、三星手机的三星应用商店这种终端设备自带的应用市场,也可以包括豌豆荚、应用宝、爱思助手、360手机助手、百度手机助手、91手机助手这种第三方应用市场。
具体地,所述从应用市场爬取待分类应用的名称和描述信息,包括:创建第一应用信息爬取脚本,所述第一应用信息爬取脚本包括待爬取应用市场、待爬取的对象、爬取周期等信息;运行所述第一应用信息爬取脚本爬取第一应用信息;对所述第一应用信息进行过滤,得到待分类应用的名称和描述信息。
请参见图3b,是本发明实施例提供的一种名称和描述信息的显示示意图。如图3b所示,终端设备运行第一应用信息爬取脚本,进入应用商店,爬取待分类应用——微信的第一应用信息,第一应用信息包括待分类应用的名称、开发商、系统权限、历史版本、软件大小、应用描述和评价等,对该第一应用信息进行过滤,终端设备在显示屏上显示待分类应用的名称30a和描述信息30b。
步骤S302,对所述名称和所述描述信息进行分词处理和过滤,得到M个关键词,所述M为大于0的整数。
其中,分词就是将连续的字序列按照一定的规范重新组合成次序列的过程,此步骤可以利用现有的分词工具执行,例如Perminusminus、Stanford汉语分词工具、哈工大语言云、ICTCLA、Ansj、庖丁解牛分词、盘古分词、IKAnalyzer、FudanNLP等分词工具中的任意一种或几种。
具体地,所述对所述名称和所述描述信息进行分词处理和过滤,包括:对所述名称和所述描述信息进行分词处理,得到多个第一词组;基于预设停用词表删除所述多个第一词组中的停用词,得到多个第二词组;确定所述名称和所述描述信息中的语句构成成分;基于所述语句构成成分对所述多个第二词组进行过滤,得到M个关键词。
其中,停用词是对语句无意义的词,比如“啊”、“哦”、“嗯”、“了”、“么”、“的”、“可以”等词。举例说明,描述信息为“它可以用来可以发语音、文字消息、表情、图片、视频30M流量”,则可以删去停用词“可以”。
其中,语句构成成分包括以下至少一种:主语、谓语、宾语、定语、状语、补足语、中心语、动语。举例说明,名称和描述信息中的主语和/或宾语有些对应用分类并无实际性作用,可以删去,例如“他”、“她”、“它”、“他们”、“我”、“你”等词。举例说明,描述信息为“它可以用来可以发语音、文字消息、表情、图片、视频30M流量”,则可以删去“它”。
步骤S303,基于词向量库将所述M个关键词向量化,得到M个词向量,所述M个词向量与所述M个关键词一一对应,所述词向量库中包括关键词与词向量的对应关系。
其中,步骤S303的具体实现过程可以参见上述图2所对应实施例中对步骤S202的描述,这里不再进行赘述。
步骤S304,基于所述M个词向量从R个预设卷积窗口中确定P个第一卷积窗口,所述P个第一卷积窗口包括S个预设卷积核,所述P为大于0的整数,所述R为大于或等于所述P的整数,所述S为大于或等于所述Q的整数。
具体地,所述基于所述M个关键词从R个预设卷积窗口中确定P个第一卷积窗口,包括:基于第一公式确定P个第一卷积窗口,所述第一公式为P=a·R/M,所述a为大于0且小于1的整数,所述M为关键词的个数,所述R为预设卷积窗口的个数。基于第一公式可以看出,第一卷积窗口的数量与关键词的数量成反比,在关键词的数量较少时,选取较多的卷积窗口去确定待分类应用的第一应用类别,从而使应用分类更加准确;在关键词的数量较多时,这多个关键词包含的信息更多,故可以选取较少的卷积窗口去确定待分类应用的第一应用类别,从而使应用分类的速度更快。
其中,a例如可以为0.1、0.3、0.5、0.7或是其他值;每个预设卷积窗口包括的预设卷积核的数量可以相同,也可以不同;卷积窗口的尺寸可以为3×200、4×200、5×200或是其他值,在此不做限定。
步骤S305,从所述S个预设卷积核中确定所述Q第一卷积核。
具体地,所述从所述S个预设卷积核中确定所述Q第一卷积核,包括:基于第二公式确定所述Q第一卷积核,所述第二公式为Q=c·S,所述c为大于0且小于1的整数,所述S为预设卷积核的个数。
其中,c例如可以为0.1、0.3、0.5、0.7或是其他值;每个第一卷积窗口可以包括的第一卷积核的数量可以相同,也可以不同,在此不做限定。
步骤S306,将所述M个词向量按照预设规则排列,得到输入矩阵,所述输入矩阵的行数为所述M,所述输入矩阵的列数为所述N,所述M个词向量的维度为N,所述N为大于0的整数。
其中,例如词向量为腾讯AI Lab中文词向量库,腾讯AI Lab中文词向量库中词向量的维度为200;预设规则可以是按照分词的先后顺序进行排列,也可以是按照关键词包含的字的个数多少进行排列,在此不做限定。举例说明,假定得到24个关键词,则输入矩阵为24×200。
步骤S307,在所述输入矩阵上按照预设移动方向和预设移动步长,移动所述P个第一卷积窗口,得到特征矩阵,所述P为大于0的整数。
其中,预设移动方向例如可以为向左移动、向右移动、向上移动、向下移动;预设移动步长例如可以为1个矩阵元、2个矩阵元、3个矩阵元或是其他值,在此不做限定;特征矩阵为第一卷积窗口覆盖的矩阵元组成的矩阵,例如第一卷积窗口的尺寸为3×200,则该第一卷积窗口在输入矩阵上滑动每次可覆盖3行200列个矩阵元,这输入矩阵的3行200列个矩阵元组成的矩阵则为特征矩阵。
步骤S308,计算所述特征矩阵与所述Q个第一卷积核的内积,得到Q个列向量,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q为大于0的整数。
其中,列向量的维度是基于第一卷积窗口的尺寸、预设移动方向和预设移动步长确定的。假定输入矩阵的尺寸为5×200,第一卷积窗口的尺寸为3×200,若第一卷积窗口每次向下移动1个矩阵元,则列向量的维度为A=5-3+1=3;若第一卷积窗口每次向下移动2个矩阵元,则列向量的维度为A=(5-3)/2+1=2。
步骤S309,从所述Q个列向量中确定Q个第一数值,所述Q个第一数值与所述Q个列向量一一对应。
其中,第一数值可以是列向量中最大的矩阵元的数值,也可以是列向量中最小的矩阵元的数值,还可以是列向量中矩阵元的数值的中位数,在此均不做限定。
步骤S310,将所述Q个第一数值合并,得到第一特征信息。
具体地,上述Q个第一数值可以按照第一卷积核与特征矩阵的点积确定顺序合并,得到第一特征向量,将第一特征向量作为第一特征信息;也可以按照其他顺序合并,得到第一特征向量,将第一特征向量作为第一特征信息,在此不做限定。
步骤S311,确定所述第一特征信息分别与W个预设特征信息的匹配度,所述W个预设特征信息为W个预设应用类别的特征信息,所述W个预设应用类别与所述W个预设特征信息一一对应,所述W为大于1的整数。
具体地,在本发明实施例的一实现方式中,可以将所述第一特征信息赋予神经网络的分类器,基于分类器去确定所述第一特征信息分别与W个预设特征信息的匹配度。分类器例如可以包括k近邻分类器、朴素贝叶斯分类器、决策树分类器,支持向量机(SupportVector Machine,SVM)分类器、逻辑斯蒂回归分类器中的一种。上述分类器是提前训练完成的,该分类器的输入是第一特征信息,分类器的输出是第一特征信息分别与W个预设特征信息的匹配度,匹配度越高说明待分类应用与该预设特征信息对应的预设应用类型的匹配概率越大;神经网络模型中包含的预设特征信息的数量和种类是训练神经网络模型时由训练数据集中包含的的待分类应用数量和种类决定的。
步骤S312,基于确定的W个匹配度确定所述待分类应用的第一应用类别。
具体地,将上述得到的与W个预设特征信息的匹配度和W个预设特征信息对应的标签信息进行关联,确定所述待分类应用的第一应用类别。例如,假定欲识别待分类应用——微信的第一应用类别,神经网络模型中存在“视频类应用”的预设特征信息、“音频类应用”的预设特征信息、“游戏类应用”的预设特征信息、“社交类应用”的预设特征信息和“工具类应用”的预设特征信息,根据分类器确定待分类应用的第一特征信息与“视频类应用”的预设特征信息的匹配度为3%;确定待分类应用的第一特征信息与“音频类应用”的预设特征信息的匹配度为3%;确定待分类应用的第一特征信息与“游戏类应用”的预设特征信息的匹配度为3%;确定待分类应用的第一特征信息与“社交类应用”的预设特征信息的匹配度为90%;确定待分类应用的第一特征信息与“工具类应用”的预设特征信息的匹配度为1%;则可确定第一应用类别为社交类应用。
步骤S313,基于所述第一应用类别绘制用户画像。
其中,用户画像,是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,可以看作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。
具体地,假定待分类应用为终端设备上安装的应用,若待分类应用的第一应用类别为汽车类应用,例如汽车之家、机动车违章查询、懂车帝等应用,则确定上述终端设备关联的用户为有车一族;若待分类应用的第一应用类别为房产类应用,例如房贷计算器等应用,则确定上述终端设备关联的用户为有房一族;若待分类应用的第一应用类别为贷款类应用,例如人人贷、悟空理财、腾讯理财通等应用,则确定上述终端设备关联的用户为贷款一族等。
需要说明的是,上述步骤可以在神经网络模型中执行,请参见图3c,是本发明实施例提供的一种神经网络模型的组织架构图。如图3c所示,输入层30c用于执行步骤S302-步骤S304,卷积层30d用于执行步骤S305-步骤S308,池化层30e用于执行步骤S309,全连接层30f用于执行步骤S310,输出层30g用于执行步骤S311。
其中,在训练上述神经网络模型时,池化层采用了Max-Pooling-Over-Time策略,即每个第一数值为其对应的列向量中最大的矩阵元的数值;全连接层还采用了Dropout的方法,Dropout是一种防止过拟合的方法,工作原理是随机失活网络中的部分的隐藏神经元,输出神经元不变,然后把输入通过修改后的网络前向传播,然后把得到的损失结果通过修改的网络反向传播。一小批训练样本执行完这个过程后,在没有被删除的神经元上按照随机梯度下降法更新对应的参数。然后不断重复这以过程,以达到正则化的效果,使得模型泛化能力更强。
本发明实施例可以通过获取待分类应用的名称和描述信息,然后基于词向量库将名称和描述信息向量化,得到M个词向量,接着基于M个词向量确定Q个第一卷积核,基于M个词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,最后基于Q个第一数值确定待分类应用的第一应用类别。首先,由于M个关键词是基于同一个词向量库得到,因此词向量的表述更加客观和准确;其次,基于更加客观和准确的词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,Q个第一数值基于严谨和统一的计算标准得到,因此也具有客观性和准确性,进而可以提高应用分类的客观性和准确性。
请参见图4a,是本发明实施例提供的另一种应用分类方法的流程示意图。如图4a所示,上述应用分类方法可以包括:
步骤S401,从网站爬取待分类应用的名称和描述信息。
具体地,所述从应用市场爬取待分类应用的名称和描述信息,包括:创建第二应用信息爬取脚本,所述第二应用信息爬取脚本包括待爬取网址、待爬取的对象、爬取周期等信息;运行所述第二应用信息爬取脚本爬取第二应用信息;对所述第二应用信息进行过滤,得到待分类应用的名称和描述信息。
请参见图4b,是本发明实施例提供的另一种名称和描述信息的显示示意图。如图4b所示,终端设备运行第二应用信息爬取脚本,进入百度百科,爬取待分类应用——微信的第二应用信息,第二应用信息包括待分类应用的名称、开发商、软件运行平台、软件版本、软件大小、软件语言、应用描述等,对该第二应用信息进行过滤,终端设备在显示屏上显示待分类应用的名称40a和描述信息40b。
步骤S402,对所述名称和所述描述信息进行分词处理和过滤,得到M个关键词。
步骤S403,基于词向量库将所述M个关键词向量化,得到M个词向量,所述M个词向量与所述M个关键词一一对应,所述词向量库中包括关键词与词向量的对应关系。
步骤S404,基于所述M个词向量从R个预设卷积窗口中确定P个第一卷积窗口,所述P个第一卷积窗口包括S个预设卷积核,所述P为大于0的整数,所述R为大于或等于所述P的整数,所述S为大于或等于所述Q的整数。
步骤S405,从所述S个预设卷积核中确定所述Q第一卷积核。
步骤S406,将所述M个词向量按照预设规则排列,得到输入矩阵,所述输入矩阵的行数为所述M,所述输入矩阵的列数为所述N,所述M个词向量的维度为N,所述N为大于0的整数。
步骤S407,在所述输入矩阵上按照预设移动方向和预设移动步长,移动所述P个第一卷积窗口,得到特征矩阵。
步骤S408,计算所述特征矩阵与所述Q个第一卷积核的内积,得到Q个列向量,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q为大于0的整数。
步骤S409,从所述Q个列向量中确定Q个第一数值,所述Q个第一数值与所述Q个列向量一一对应。
步骤S410,将所述Q个第一数值合并,得到第一特征信息。
步骤S411,确定所述第一特征信息分别与W个预设特征信息的匹配度,所述W个预设特征信息为W个预设应用类别的特征信息,所述W个预设应用类别与所述W个预设特征信息一一对应,所述W为大于1的整数。
步骤S412,基于确定的W个匹配度确定所述待分类应用的第一应用类别。
步骤S413,基于所述第一应用类别设置用户兴趣标签。
具体地,假定待分类应用为终端设备上安装的应用,待分类待分类应用的第一应用类别为视频类应用的数量超过第一预设阈值,则确定该终端设备关联的用户为喜爱视频类的用户;假定待分类应用的第一应用类别为音频类应用的数量超过第一预设阈值,则确定该终端设备关联的用户为热爱音乐类的用户;假定待分类应用的第一应用类别为游戏类应用的数量超过第一预设阈值,则确定该终端设备关联的用户为热衷游戏类的用户;假定待分类应用的第一应用类别为社交类应用的数量超过第一预设阈值,则确定该终端设备关联的用户为热爱社交类的用户;假定待分类应用的第一应用类别为工具类应用的数量超过第一预设阈值,则确定该终端设备关联的用户为偏爱技术类的用户。第一预设阈值,例如可以为3、5、7或是其他值。进一步地,还可以基于第一应用类别确定用户的购物偏好和阅读偏好等,购物偏好例如为海淘、团购、美妆等,阅读偏好例如为小说、金融理财、养生、运动等。
其中,步骤S402-S412的具体实现过程可以参见上述图3a所对应实施例中对步骤S302-S312的描述,这里不再进行赘述。
本发明实施例可以通过获取待分类应用的名称和描述信息,然后基于词向量库将名称和描述信息向量化,得到M个词向量,接着基于M个词向量确定Q个第一卷积核,基于M个词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,最后基于Q个第一数值确定待分类应用的第一应用类别。首先,由于M个关键词是基于同一个词向量库得到,因此词向量的表述更加客观和准确;其次,基于更加客观和准确的词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,Q个第一数值基于严谨和统一的计算标准得到,因此也具有客观性和准确性,进而可以提高应用分类的客观性和准确性。
请参见图5a,是本发明实施例提供的另一种应用分类方法的流程示意图。如图5a所示,上述应用分类方法可以包括:
步骤S501,解析待分类应用的安装包,得到所述待分类应用的名称和描述信息。
具体地,所述解析待分类应用的安装包,得到所述待分类应用的名称和描述信息,包括:在所述终端设备中查找所述待分类应用的安装包,解析所述安装包得到安装包信息;从所述安装包信息中筛选出待分类应用的名称和描述信息。其中,安装包信息包括待分类应用的名称、待分类应用的版本号、待分类应用的描述信息、待分类应用的授权商等。
请参见图5b,是本发明实施例提供的另一种名称和描述信息的显示示意图。如图5b所示,终端设备在数据库或存储空间内查找所述待分类应用的安装包,解析所述安装包得到英文安装包信息,其中包括待分类应用的英文名称50a和英文描述信息50b,后续在进行分词处理和过滤之前,如果待分类应用的名称和描述信息为非中文时,需要先对非中文的名称和描述信息进行翻译,其中,翻译工具例如可以为谷歌翻译、百度翻译、有道翻译等。
步骤S502,对所述名称和所述描述信息进行分词处理和过滤,得到M个关键词,所述M为大于0的整数。
步骤S503,基于词向量库将所述M个关键词向量化,得到M个词向量,所述M个词向量与所述M个关键词一一对应,所述词向量库中包括关键词与词向量的对应关系。
步骤S504,基于所述M个词向量从R个预设卷积窗口中确定P个第一卷积窗口,所述P个第一卷积窗口包括S个预设卷积核,所述P为大于0的整数,所述R为大于或等于所述P的整数,所述S为大于或等于所述Q的整数。
步骤S505,从所述S个预设卷积核中确定所述Q第一卷积核。
步骤S506,将所述M个词向量按照预设规则排列,得到输入矩阵,所述输入矩阵的行数为所述M,所述输入矩阵的列数为所述N,所述M个词向量的维度为N,所述N为大于0的整数。
步骤S507,在所述输入矩阵上按照预设移动方向和预设移动步长,移动P个第一卷积窗口,得到特征矩阵。
步骤S508,计算所述特征矩阵与所述Q个第一卷积核的内积,得到Q个列向量,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q为大于0的整数。
步骤S509,从所述Q个列向量中确定Q个第一数值,所述Q个第一数值与所述Q个列向量一一对应。
步骤S510,将所述Q个第一数值合并,得到第一特征信息。
步骤S511,确定所述第一特征信息分别与W个预设特征信息的匹配度,所述W个预设特征信息为W个预设应用类别的特征信息,所述W个预设应用类别与所述W个预设特征信息一一对应,所述W为大于1的整数。
步骤S512,基于确定的W个匹配度确定所述待分类应用的第一应用类别。
步骤S513,基于所述第一应用类别判断用户金融逾期概率。
具体地,基于所述第一应用类别判断用户金融逾期概率,例如可以基于第一应用类别为借贷类应用的数量,和/或该借贷类应用的数量与所述终端设备中安装的应用数量的比值,确定用户金融逾期率,用户金融逾期率与该借贷类应用的数量具有一一对应的关系,或者金融逾期率基于第三公式确定,第三公式为C=d·e,其中,d为大于0的实数,e为该借贷类应用的数量与所述终端设备中安装的应用数量的比值。
其中,步骤S502-S512的具体实现过程可以参见上述图3a所对应实施例中对步骤S302-S312的描述,这里不再进行赘述。
本发明实施例可以通过获取待分类应用的名称和描述信息,然后基于词向量库将名称和描述信息向量化,得到M个词向量,接着基于M个词向量确定Q个第一卷积核,基于M个词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,最后基于Q个第一数值确定待分类应用的第一应用类别。首先,由于M个关键词是基于同一个词向量库得到,因此词向量的表述更加客观和准确;其次,基于更加客观和准确的词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,Q个第一数值基于严谨和统一的计算标准得到,因此也具有客观性和准确性,进而可以提高应用分类的客观性和准确性。
请参见图6,是本发明实施例提供的一种应用分类装置的结构示意图。如图6所示,该应用分类装置1可以包括信息获取模块11、词向量化模块12、卷积核确定模块13、特征提取模块14和类别确定模块15,其中:
信息获取模块11,用于获取待分类应用的名称和描述信息;
词向量化模块12,用于基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,所述M为大于0的整数;
卷积核确定模块13,用于基于所述M个词向量确定Q个第一卷积核;
特征提取模块14,用于基于所述M个词向量和所述Q个第一卷积核确定Q个列向量,以及从所述Q个列向量中确定Q个第一数值,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q个第一数值与所述Q个列向量一一对应,所述Q为大于0的整数;
类别确定模块15,用于基于所述Q个第一数值确定所述待分类应用的第一应用类别。
其中,信息获取模块11、词向量化模块12、卷积核确定模块13、特征提取模块14和类别确定模块15的具体功能实现方式可以参见上述图2对应实施例中的步骤S201-步骤S205,这里不再进行赘述。
请一并参见图6,在基于词向量库将所述名称和所述描述信息向量化,得到M个词向量方面,词向量化模块12,可以包括关键词提取单元121和词向量化单元122,其中:
关键词提取单元121,用于对所述名称和所述描述信息进行分词处理和过滤,得到M个关键词;
词向量化单元122,用于基于词向量库将所述M个关键词向量化,得到M个词向量,所述M个词向量与所述M个关键词一一对应,所述词向量库中包括关键词与词向量的对应关系。
关键词提取单元121和词向量化单元122的具体功能实现方式可以参见上述图3a对应实施例中的步骤S302和步骤S303这里不再进行赘述。
请一并参见图6,在基于所述M个词向量确定Q个第一卷积核方面,所述卷积核确定模块13,可以包括卷积窗口确定单元131和卷积核确定单元132,其中:
卷积窗口确定单元131,用于基于所述M个词向量从R个预设卷积窗口中确定P个第一卷积窗口,所述P个第一卷积窗口包括S个预设卷积核,所述P为大于0的整数,所述R为大于或等于所述P的整数,所述S为大于或等于所述Q的整数;
卷积核确定单元132,用于从所述S个预设卷积核中确定Q第一卷积核。
其中,卷积窗口确定单元131和卷积核确定单元132的具体功能实现方式可以参见上述图3a对应实施例中的步骤S304和步骤S305这里不再进行赘述。
请一并参见图6,所述M个词向量的维度为N,所述N为大于0的整数;在基于所述M个词向量和Q个第一卷积核确定所述Q个列向量方面,特征提取模块14,可以包括词向量排列单元141和列向量确定单元142,其中:
词向量排列单元141,用于将所述M个词向量按照预设规则排列,得到输入矩阵,所述输入矩阵的行数为所述M,所述输入矩阵的列数为所述N;
列向量确定单元142,用于确定所述输入矩阵与所述Q个第一卷积核的卷积,得到Q个列向量。
其中,词向量排列单元141和列向量确定单元142的具体功能实现方式可以参见上述图3a对应实施例中的步骤S306-步骤S308这里不再进行赘述。
请一并参见图6,在确定所述输入矩阵与Q个第一卷积核的卷积,得到Q个列向量方面,列向量确定单元142,可以包括特征矩阵确定子单元1421和列向量确定子单元1422,其中:
特征矩阵确定子单元1421,用于在所述输入矩阵上按照预设移动方向和预设移动步长,移动所述P个第一卷积窗口,得到特征矩阵;
列向量确定子单元1422,用于计算所述特征矩阵与所述Q个第一卷积核的内积,得到Q个列向量。
其中,特征矩阵确定子单元1421和列向量确定子单元1422的具体功能实现方式可以参见上述图3a对应实施例中的步骤S307和步骤S308这里不再进行赘述。
请一并参见图6,在基于所述Q个第一数值确定所述待分类应用的第一应用类别,类别确定模块15,可以包括匹配度确定单元151和类别确定单元152,其中:
匹配度确定单元151,用于确定所述Q个第一数值分别与W个预设特征信息的匹配度,所述W个预设特征信息为W个预设应用类别的特征信息,所述W个预设应用类别与所述W个预设特征信息一一对应,所述W为大于1的整数;
类别确定单元152,用于基于确定的W个匹配度确定所述待分类应用的第一应用类别。
其中,匹配度确定单元151和类别确定单元152的具体功能实现方式可以参见上述图3a对应实施例中的步骤S310、步骤S311和步骤S312这里不再进行赘述。
请一并参见图6,在获取待分类应用的名称和描述信息方面,信息获取模块11,可以包括:第一信息爬取单元111、第二信息爬取单元112和第三信息爬取单元113,其中:
第一信息爬取单元111,用于从应用市场爬取待分类应用的名称和描述信息;
和/或,第二信息爬取单元112,用于从网站爬取待分类应用的名称和描述信息;
和/或,第三信息爬取单元113,用于解析待分类应用的安装包,得到所述待分类应用的名称和描述信息。
其中,第一信息爬取单元111、第二信息爬取单元112和第三信息爬取单元113的具体功能实现方式可以分别参见上述图3a对应实施例中的步骤S301、上述图4a对应实施例中的步骤S401和上述图5a对应实施例中的步骤S501这里不再进行赘述。
请一并参见图6,在基于所述Q个第一数值确定所述待分类应用的第一应用类别之后,所述装置还可以包括:用户画像绘制模块16、兴趣标签设置模块17和逾期概率判断模块18,其中:
用户画像绘制模块16,用于基于所述第一应用类别绘制用户画像;
和/或,兴趣标签设置模块17,用于基于所述第一应用类别设置用户兴趣标签;
和/或,逾期概率判断模块18,用于基于所述第一应用类别判断用户金融逾期概率。
其中,用户画像绘制模块16、兴趣标签设置模块17和逾期概率判断模块18的具体功能实现方式可以分别参见上述图3a对应实施例中的步骤S313、上述图4a对应实施例中的步骤S413和上述图5a对应实施例中的步骤S513这里不再进行赘述。
本发明实施例可以通过获取待分类应用的名称和描述信息,然后基于词向量库将名称和描述信息向量化,得到M个词向量,接着基于M个词向量确定Q个第一卷积核,基于M个词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,最后基于Q个第一数值确定待分类应用的第一应用类别。首先,由于M个关键词是基于同一个词向量库得到,因此词向量的表述更加客观和准确;其次,基于更加客观和准确的词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,Q个第一数值基于严谨和统一的计算标准得到,因此也具有客观性和准确性,进而可以提高应用分类的客观性和准确性。
进一步地,请参见图7,是本发明实施例提供的一种终端设备的结构示意图。如图7所示,上述图6中的图像识别装置1可以应用于所述终端设备1000,所述终端设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,所述终端设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图7所示的终端设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1004中存储的设备控制应用程序,以实现:
获取待分类应用的名称和描述信息;
基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,所述M为大于0的整数;
基于所述M个词向量确定Q个第一卷积核;
基于所述M个词向量和所述Q个第一卷积核确定Q个列向量,以及从所述Q个列向量中确定Q个第一数值,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q个第一数值与所述Q个列向量一一对应,所述Q为大于0的整数;
基于所述Q个第一数值确定所述待分类应用的第一应用类别。
在一个实施例中,所述处理器1001在基于词向量库将所述名称和所述描述信息向量化,得到M个词向量时,具体执行以下步骤:
对所述名称和所述描述信息进行分词处理和过滤,得到M个关键词;
基于词向量库将所述M个关键词向量化,得到M个词向量,所述M个词向量与所述M个关键词一一对应,所述词向量库中包括关键词与词向量的对应关系。
在一个实施例中,所述处理器1001在执行所述基于所述M个词向量确定Q个第一卷积核方面,具体执行以下步骤:
基于所述M个词向量从R个预设卷积窗口中确定P个第一卷积窗口,所述P个第一卷积窗口包括S个预设卷积核,所述P为大于0的整数,所述R为大于或等于所述P的整数,所述S为大于或等于所述Q的整数;
从所述S个预设卷积核中确定Q第一卷积核。
在一个实施例中,所述M个词向量的维度为N,所述N为大于0的整数;所述处理器1001在执行所述基于所述M个词向量和所述Q个第一卷积核确定Q个列向量时,具体执行以下步骤:
将所述M个词向量按照预设规则排列,得到输入矩阵,所述输入矩阵的行数为所述M,所述输入矩阵的列数为所述N;
确定所述输入矩阵与所述Q个第一卷积核的卷积,得到Q个列向量。
在一个实施例中,所述处理器1001在执行所述确定所述输入矩阵与Q个第一卷积核的卷积,得到Q个列向量时,具体执行以下步骤:
在所述输入矩阵上按照预设移动方向和预设移动步长,移动所述P个第一卷积窗口,得到特征矩阵;
计算所述特征矩阵与所述Q个第一卷积核的内积,得到Q个列向量。
在一个实施例中,所述处理器1001在执行所述基于所述Q个第一数值确定所述待分类应用的第一应用类别时,具体执行以下步骤:
确定所述Q个第一数值分别与W个预设特征信息的匹配度,所述W个预设特征信息为W个预设应用类别的特征信息,所述W个预设应用类别与所述W个预设特征信息一一对应,所述W为大于1的整数;
基于确定的W个匹配度确定所述待分类应用的第一应用类别。
在一个实施例中,所述处理器1001在执行所述获取待分类应用的名称和描述信息时,具体执行以下步骤:
从应用市场爬取待分类应用的名称和描述信息;
和/或,从网站爬取待分类应用的名称和描述信息;
和/或,解析待分类应用的安装包,得到所述待分类应用的名称和描述信息。
所述处理器1001在执行所述基于所述Q个第一数值确定所述待分类应用的第一应用类别之后,还执行以下步骤:
基于所述第一应用类别绘制用户画像;
和/或,基于所述第一应用类别设置用户兴趣标签;
和/或,基于所述第一应用类别判断用户金融逾期概率。
本发明实施例可以通过获取待分类应用的名称和描述信息,然后基于词向量库将名称和描述信息向量化,得到M个词向量,接着基于M个词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,最后基于Q个第一数值确定待分类应用的第一应用类别。首先,由于M个关键词是基于同一个词向量库得到,因此词向量的表述更加客观和准确;其次,基于更加客观和准确的词向量和Q个第一卷积核确定Q个列向量,以及从Q个列向量中确定Q个第一数值,Q个第一数值基于严谨和统一的计算标准得到,因此也具有客观性和准确性,进而可以提高应用分类的客观性和准确性。
应当理解,本发明实施例中所描述的终端设备1000可执行前文图2到图5b所对应实施例中对所述应用分类方法的描述,也可执行前文图6所对应实施例中对所述应用分类装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的图像识别装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2到图5b所对应实施例中对所述应用分类方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种应用分类方法,其特征在于,包括:
获取待分类应用的名称和描述信息;
基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,所述M为大于0的整数,所述M个词向量的维度为N,所述N为大于0的整数;
基于所述M个词向量确定Q个第一卷积核;
将所述M个词向量按照预设规则排列,得到输入矩阵,所述输入矩阵的行数为所述M,所述输入矩阵的列数为所述N;
在所述输入矩阵上按照预设移动方向和预设移动步长,移动P个第一卷积窗口,得到特征矩阵;
计算所述特征矩阵与所述Q个第一卷积核的内积,得到Q个列向量;
根据所述Q个列向量中每个列向量的矩阵元的数值确定Q个第一数值,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q个第一数值与所述Q个列向量一一对应,所述Q为大于0的整数;
确定所述Q个第一数值分别与W个预设特征信息的匹配度,所述W个预设特征信息为W个预设应用类别的特征信息,所述W个预设应用类别与所述W个预设特征信息一一对应,所述W为大于1的整数;
基于确定的W个匹配度确定所述待分类应用的第一应用类别。
2.根据权利要求1所述的方法,其特征在于,所述基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,包括:
对所述名称和所述描述信息进行分词处理和过滤,得到M个关键词;
基于词向量库将所述M个关键词向量化,得到M个词向量,所述M个词向量与所述M个关键词一一对应,所述词向量库中包括关键词与词向量的对应关系。
3.根据权利要求2所述的方法,其特征在于,所述基于所述M个词向量确定Q个第一卷积核,包括:
基于所述M个词向量从R个预设卷积窗口中确定P个第一卷积窗口,所述P个第一卷积窗口包括S个预设卷积核,所述P为大于0的整数,所述R为大于或等于所述P的整数,所述S为大于或等于所述Q的整数;
从所述S个预设卷积核中确定Q个第一卷积核。
4.根据权利要求1所述的方法,其特征在于,所述获取待分类应用的名称和描述信息,包括:
从应用市场爬取待分类应用的名称和描述信息;
和/或,从网站爬取待分类应用的名称和描述信息;
和/或,解析待分类应用的安装包,得到所述待分类应用的名称和描述信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述Q个第一数值确定所述待分类应用的第一应用类别之后,所述方法还包括:
基于所述第一应用类别绘制用户画像;
和/或,基于所述第一应用类别设置用户兴趣标签;
和/或,基于所述第一应用类别判断用户金融逾期概率。
6.一种应用分类装置,其特征在于,包括:
信息获取模块,用于获取待分类应用的名称和描述信息;
词向量化模块,用于基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,所述M为大于0的整数,所述M个词向量的维度为N,所述N为大于0的整数;
卷积核确定模块,用于基于所述M个词向量确定Q个第一卷积核;
特征提取模块,用于将所述M个词向量按照预设规则排列,得到输入矩阵,所述输入矩阵的行数为所述M,所述输入矩阵的列数为所述N;在所述输入矩阵上按照预设移动方向和预设移动步长,移动P个第一卷积窗口,得到特征矩阵;计算所述特征矩阵与所述Q个第一卷积核的内积,得到Q个列向量;根据所述Q个列向量中每个列向量的矩阵元的数值确定Q个第一数值,所述Q个列向量与所述Q个第一卷积核一一对应,所述Q个第一数值与所述Q个列向量一一对应,所述Q为大于0的整数;
类别确定模块,用于确定所述Q个第一数值分别与W个预设特征信息的匹配度,所述W个预设特征信息为W个预设应用类别的特征信息,所述W个预设应用类别与所述W个预设特征信息一一对应,所述W为大于1的整数;基于确定的W个匹配度确定所述待分类应用的第一应用类别。
7.根据权利要求6所述的装置,其特征在于,所述基于词向量库将所述名称和所述描述信息向量化,得到M个词向量,所述词向量化模块,包括:
关键词提取单元,用于对所述名称和所述描述信息进行分词处理和过滤,得到M个关键词;
词向量化单元,用于基于词向量库将所述M个关键词向量化,得到M个词向量,所述M个词向量与所述M个关键词一一对应,所述词向量库中包括关键词与词向量的对应关系。
8.根据权利要求7所述的装置,其特征在于,所述基于所述M个词向量确定Q个第一卷积核,所述卷积核确定模块,包括:
卷积窗口确定单元,用于基于所述M个词向量从R个预设卷积窗口中确定P个第一卷积窗口,所述P个第一卷积窗口包括S个预设卷积核,所述P为大于0的整数,所述R为大于或等于所述P的整数,所述S为大于或等于所述Q的整数;
卷积核确定单元,用于从所述S个预设卷积核中确定Q个第一卷积核。
9.一种终端设备,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911024245.7A CN110737811B (zh) | 2019-10-25 | 2019-10-25 | 应用分类方法、装置以及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911024245.7A CN110737811B (zh) | 2019-10-25 | 2019-10-25 | 应用分类方法、装置以及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110737811A CN110737811A (zh) | 2020-01-31 |
CN110737811B true CN110737811B (zh) | 2024-01-16 |
Family
ID=69271497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911024245.7A Active CN110737811B (zh) | 2019-10-25 | 2019-10-25 | 应用分类方法、装置以及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110737811B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100386B (zh) * | 2020-11-12 | 2021-02-05 | 北京云真信科技有限公司 | 目标类型app的确定方法、电子设备和介质 |
CN112506556B (zh) * | 2020-11-19 | 2023-08-25 | 杭州云深科技有限公司 | 应用程序分类方法、装置、计算机设备及存储介质 |
CN113010671B (zh) * | 2021-02-22 | 2022-04-29 | 杭州西湖数据智能研究院 | 一种app分类系统 |
CN116186628B (zh) * | 2023-04-23 | 2023-07-07 | 广州钛动科技股份有限公司 | App应用自动打标方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105611114A (zh) * | 2015-11-02 | 2016-05-25 | 天津大学 | 用于aer图像传感器的全数字多卷积核卷积处理芯片 |
CN105843931A (zh) * | 2016-03-30 | 2016-08-10 | 广州酷狗计算机科技有限公司 | 一种进行分类的方法和装置 |
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN109977327A (zh) * | 2019-03-20 | 2019-07-05 | 新华三信息安全技术有限公司 | 一种网页分类方法及装置 |
CN110263162A (zh) * | 2019-06-05 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 卷积神经网络及其进行文本分类的方法、文本分类装置 |
WO2019197022A1 (en) * | 2018-04-10 | 2019-10-17 | Huawei Technologies Co., Ltd. | Device and method for classifying program behaviour |
-
2019
- 2019-10-25 CN CN201911024245.7A patent/CN110737811B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105611114A (zh) * | 2015-11-02 | 2016-05-25 | 天津大学 | 用于aer图像传感器的全数字多卷积核卷积处理芯片 |
CN105843931A (zh) * | 2016-03-30 | 2016-08-10 | 广州酷狗计算机科技有限公司 | 一种进行分类的方法和装置 |
WO2019197022A1 (en) * | 2018-04-10 | 2019-10-17 | Huawei Technologies Co., Ltd. | Device and method for classifying program behaviour |
CN109857860A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN109977327A (zh) * | 2019-03-20 | 2019-07-05 | 新华三信息安全技术有限公司 | 一种网页分类方法及装置 |
CN110263162A (zh) * | 2019-06-05 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 卷积神经网络及其进行文本分类的方法、文本分类装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110737811A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737811B (zh) | 应用分类方法、装置以及相关设备 | |
CN109271493B (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN108134784B (zh) | 网页分类方法及装置、存储介质及电子设备 | |
US9436768B2 (en) | System and method for pushing and distributing promotion content | |
US20160170982A1 (en) | Method and System for Joint Representations of Related Concepts | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
JP6719399B2 (ja) | 解析装置、解析方法、およびプログラム | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN110175297A (zh) | 馈送中的个性化的每成员模型 | |
Alves et al. | Brazilian presidential elections in the era of misinformation: A machine learning approach to analyse fake news | |
CN115659008A (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN110674300B (zh) | 用于生成信息的方法和装置 | |
CN117235359A (zh) | 搜索推荐方法、设备及存储介质 | |
US11106878B2 (en) | Generating hypotheses in data sets | |
CN113641916A (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
CN111553487B (zh) | 一种业务对象识别方法及装置 | |
KR102602936B1 (ko) | 인공 지능을 통해 수집한 데이터를 기반으로 숏폼을 자동으로 생성하는 전자 장치 및 이를 이용한 방법 | |
CN112084406A (zh) | 短信处理方法、装置、电子设备和存储介质 | |
Arbaatun et al. | Hate speech detection on Twitter through Natural Language Processing using LSTM model | |
CN115618950A (zh) | 一种数据处理方法及相关装置 | |
CN116484085A (zh) | 一种信息投放方法、装置、设备及存储介质、程序产品 | |
Tang | Author identification of literary works based on text analysis and deep learning | |
RU2647661C1 (ru) | Способ определения профиля пользователя мобильного устройства на самом мобильном устройстве и система демографического профилирования | |
Patra et al. | Fake news identification through natural language processing and machine learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40020138 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |