CN115982634A

CN115982634A - 应用程序分类方法、装置、电子设备及计算机程序产品

Info

Publication number: CN115982634A
Application number: CN202111192802.3A
Authority: CN
Inventors: 樊巧云; 赵雨; 陆天珺; 方海贝; 谷建泽; 孙苑苑; 李树春
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2021-10-13
Filing date: 2021-10-13
Publication date: 2023-04-18

Abstract

本申请涉及应用程序处理技术领域，提供一种应用程序分类方法、装置、电子设备及计算机程序产品，该方法包括：通过预设使用统计指标对各个目标应用程序进行排序，创建各个目标应用程序之间的上下文关系；基于预设编码方式对各个目标应用程序进行编码，并根据上下文关系将各个编码后的目标应用程序进行训练，得到各个目标应用程序对应的词向量；根据各个词向量对各个目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个应用程序类进行聚合，得到各个最终应用程序类。本申请实施例提供的应用程序分类方法实现了应用程序分类的全自动化，有效降低了人工参与引入的客观误差，提高了应用程序分类准确性。

Description

应用程序分类方法、装置、电子设备及计算机程序产品

技术领域

本申请涉及应用程序处理技术领域，尤其涉及一种应用程序分类方法、装置、电子设备及计算机程序产品。

背景技术

现阶段应用程序分类主要依赖于应用程序的产品定位和相关外部数据，根据产品定位和相关外部数据将各个应用程序归属为某一大类中，建立大类应用程序名称的字典映射表。在大类应用程序名称的映射中，大类应用程序的个数、实际种类名称以及包含哪些应用程序等都需要人工方式进行确定。在实际应用场景中，某个应用程序可能属于多个大类，并且其在各个大类中的比重各不相同。对于各个应用程序的分类详细归属和权重值分配，往往需要巨大的人工分析，并且过程中会引入巨大的客观误差。除此之外，随着应用程序的新增、功能变化等，应用程序分类随着时间推移往往不够准确。

发明内容

本申请提供一种应用程序分类方法、装置、电子设备及计算机程序产品，旨在提高应用程序分类准确性。

第一方面，本申请提供一种应用程序分类方法，包括：

通过预设使用统计指标对各个目标应用程序进行排序，创建各个所述目标应用程序之间的上下文关系；

基于预设编码方式对各个所述目标应用程序进行编码，并根据所述上下文关系将各个编码后的目标应用程序进行训练，得到各个所述目标应用程序对应的词向量；

根据各个所述词向量对各个所述目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个所述应用程序类进行聚合，得到各个最终应用程序类。

在一实施例中，所述根据各个所述词向量对各个所述目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个所述应用程序类进行聚合，得到各个最终应用程序类的步骤之后，还包括：

根据各个所述最终应用程序类的第一中心编码向量，及其对应的各个目标应用程序的编码向量，确定各个所述最终应用程序类中各个目标应用程序的权重值；

将各个所述最终应用程序类中，各个目标应用程序的权重值及其对应的使用数据进行加权求和，得到各个所述最终应用程序类的汇总数据；

根据各个所述最终应用程序类的汇总数据，分析各个所述最终应用程序类的使用数据。

所述根据各个所述词向量对各个所述目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个所述应用程序类进行聚合，得到各个最终应用程序类的步骤之后，还包括：

根据各个所述最终应用程序类的第一中心编码向量和空应用程序类的第二中心编码向量，确定各个余弦相似度值；

根据各个所述余弦相似度值和预设相似度值，确定目标应用程序类；

将所述目标应用程序类中各个目标应用程序的使用数据，及其对应的目标余弦相似度值进行加权求和，得到所述空应用程序类的使用数据；

根据所述目标应用程序类的实际使用数据和所述空应用程序类的使用数据，确定用户画像数据。

所述根据所述目标应用程序类的实际使用数据和所述空应用程序类的使用数据，确定用户画像数据的步骤包括：

以所述目标应用程序类的实际使用数据作为第一离散指标，以所述空应用程序类的使用数据作为第二离散指标，并以用户名称作为关键字进行汇总，得到用户行为数据表；

根据所述用户行为数据表和各个最终应用程序类的使用数据，确定所述用户画像数据。

所述根据各个所述词向量对各个所述目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个所述应用程序类进行聚合，得到各个最终应用程序类的步骤包括：

计算任意两个目标应用程序的词向量对应的余弦值，并确定在各个所述余弦值中是否存在大于预设阈值的目标余弦值；

若存在所述目标余弦值，则将所述目标余弦值对应的两个目标应用程序进行归类，得到各个所述应用程序类；

确定任意两个应用程序类中相同应用程序的个数占比，并确定在各个所述个数占比中是否存在大于预设占比的目标个数占比；

若存在所述目标个数占比，则将所述目标个数占比对应的两个应用程序类进行聚合，得到各个所述最终应用程序类。

所述通过预设使用统计指标对各个目标应用程序进行排序，创建各个所述目标应用程序之间的上下文关系的步骤包括：

按照流量使用数据从高到低的顺序对各个目标应用程序进行排序，得到排序后的目标应用程序；

根据所述排序后的目标应用程序之间的输入数据和输出数据，创建所述上下文关系。

所述通过预设使用统计指标对各个目标应用程序进行排序，创建各个所述目标应用程序之间的上下文关系的步骤之前，还包括：

根据使用次数对各个预设待处理应用程序进行第一次过滤，得到各个有效应用程序；

根据安装普及程度对各个所述有效应用程序进行第二次过滤，得到各个目标应用程序。

第二方面，本申请还提供一种应用程序分类装置，包括：

创建模块，用于通过预设使用统计指标对各个目标应用程序进行排序，创建各个所述目标应用程序之间的上下文关系；

确定模块，用于基于预设编码方式对各个所述目标应用程序进行编码，并根据所述上下文关系将各个编码后的目标应用程序进行训练，得到各个所述目标应用程序对应的词向量；

分类模块，用于根据各个所述词向量对各个所述目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个所述应用程序类进行聚合，得到各个最终应用程序类。

第三方面，本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述应用程序分类方法的步骤。

第四方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被所述处理器执行时实现第一方面所述应用程序分类方法的步骤。

本申请提供的应用程序分类方法、装置、电子设备及计算机程序产品，在应用程序分类的过程中，自动创建目标应用程序的上下文关系，自动对目标应用程序进行编码和确定词向量，自动根据词向量对目标应用程序进行分类，实现了应用程序分类的全自动化，有效降低了人工参与引入的客观误差，提高了应用程序分类准确性。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的应用程序分类方法的流程示意图之一；

图2是本申请提供的应用程序分类方法的流程示意图之二；

图3是本申请提供的应用程序分类方法的流程示意图之三；

图4是本申请提供的应用程序分类装置的结构示意图；

图5是本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合图1至图5描述本申请提供的应用程序分类方法、装置、电子设备及计算机程序产品。

具体地，本申请提供一种应用程序分类方法，参照图1，图1是本申请提供的应用程序分类方法的流程示意图之一。

本申请实施例提供了应用程序分类方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些数据下，可以以不同于此处的顺序完成所示出或描述的步骤。

本申请实施例以电子设备作为执行主体进行举例，本申请实施例以管理系统作为电子设备的表现形式之一，并不对电子设备限制。

本申请实施例提供的应用程序分类方法包括：

步骤S10，通过预设使用统计指标对各个目标应用程序进行排序，创建各个所述目标应用程序之间的上下文关系。

需要说明的是，本实施例在创建上下文关系之前，需要获取预设待处理应用程序进行筛选过滤，得到所需要的目标应用程序。本实施例获取预设待处理应用程序可以是预先给定的一堆随机的应用程序，也可以是根据通过预设采集方法进行采集。本实施例为了进一步降低系统计算量，本实施例的预设采集方法为：以手机号码形式的MD5(Message-Digest Algorithm，信息摘要算法)编码的采集方法进行随机采样。即管理系统通过以手机号码形式的MD5采集用户预设时长内使用过的应用程序(Application)，得到预设时长内使用过的各个预设待处理应用程序，其中，预设时长根据实际情况设定，包括但不限制于1个月、3个月和6个月，本实施例为了清晰阐述，以预设时长为1个月进行举例。具体地，管理系统对全量用户手机号码进行MD5编码，采集1个月内手机号码以0开头的用户使用过的应用程序，得到1个月内使用过的各个预设待处理应用程序。接着，管理系统通过预设过滤方法包括但不限制于使用次数过滤方法和安装普及程度过滤方法对1个月内使用过的各个预设待处理应用程序进行过滤，得到1个月内使用过的各个目标应用程序，具体如步骤a至步骤b所述。

进一步地，步骤a至步骤b的具体描述如下：

步骤a，根据使用次数对各个预设待处理应用程序进行第一次过滤，得到各个有效应用程序；

步骤b，根据安装普及程度对各个所述有效应用程序进行第二次过滤，得到各个目标应用程序。

具体地，管理系统确定各个预设待处理应用程序的使用次数，通过预设使用次数百分比对各个预设待处理应用程序的使用次数进行第一次过滤，得到各个有效应用程序，其中，预设使用次数百分比根据实际情况设定的，本实施例为了清晰阐述，将预设使用次数百分比设定为20％至100％，进一步可以了解为，管理系统将使用次数低于20％的待处理应用程序进行剔除，并将位于20％至100％百分位范围内的待处理应用程序确定为有效应用程序。接着，管理系统确定各个有效应用程序的安装普及程度，通过预设安装普及程度对各个有效应用程序的安装普及程度进行第二次过滤，得到各个目标应用程序，其中，预设安装普及程度根据实际情况设定的，本实施例为了清晰阐述，将预设安装普及程度设定为95％，进一步可以理解为，管理系统将95％用户都安装的有效应用程序进行剔除，并将低于95％用户都安装的有效应用程序确定为目标应用程序。

本申请实施例通过第一次过滤将用户无意中安装并且历史删除，或者使用后兴趣不足的应用程序进行剔除，保留了用户感兴趣的应用程序，再通过第二次过滤去除具有广泛喜好的应用程序，得到广泛场景的目标应用程序，从而使得目标应用程序具有代表性。

进一步需要说明的是，构建应用程序词向量的算法主要以时间序列为主，包括但不限制于用户使用应用程序的顺序和用户安装应用程序的顺序，其目的是为根据用户使用偏好或者安装偏好的时移变化推测用户下一个行为偏好。在实际应用场景中，以时间序列为上下文的应用程序向量构建，由于排列顺序的多样性，存在训练数据集极大的问题。再者，本申请的目的在于计算应用程序相似度，优化应用程序分组分类以及对用户无行为特征的应用程序大类数据的填充，而不是进行应用程序推荐，因此更加注重用户的当前总体使用偏好特征，而不是用户行为的历史行为变化。

管理系统通过预设使用统计指标对应用程序进行排序，建立上下文关系，其中，预设使用统计指标包括但不限制于应用程序的流量使用数据、应用程序的使用次数和应用程序的使用天数。需要说明的是，应用程序的使用次数可能存在多次后台发包情况，可能远远大于用户实际使用次数，应用程序的使用天数只有0至31个离散值，不利于排序，因此，本实施例为了上下文关系的准确性，以应用程序的流量使用数据作为排序依据，具体如步骤S101至步骤S102所述。

进一步地，步骤S101至步骤S102的具体描述如下：

步骤S101，按照流量使用数据从高到低的顺序对各个目标应用程序进行排序，得到排序后的目标应用程序；

步骤S102，根据所述排序后的目标应用程序之间的输入数据和输出数据，创建所述上下文关系。

具体地，管理系统确定各个目标应用程序对应的流量使用数据，按照流量使用数据从高到低的顺序对各个目标应用程序进行依次排序，得到排序后的目标应用程序，进一步地，本实施例还可以按照流量使用数据从低到高的顺序对各个目标应用程序进行依次排序，得到排序后的目标应用程序。接着，管理系统以排序后的目标应用程序中的各个目标应用程序作为输入数据，以其对应的相邻的两个目标应用程序作为输出数据，创建排序后的目标应用程序之间的上下文关系。

在本实施例中，目标应用程序分别为目标应用程序1、目标应用程序2、目标应用程序3、目标应用程序4和目标应用程序5，其分别对应的流量使用数据为目标应用程序1：900MB(MByte，兆)、目标应用程序2：800MB、目标应用程序3：700MB、目标应用程序4：600MB和目标应用程序5：500MB，按照流量使用数据从高到低的顺序对目标应用程序1、目标应用程序2、目标应用程序3、目标应用程序4和目标应用程序5进行依次排序。本实施例为了方便说明，只以目标应用程序3作为输入数据进行举例，其他目标应用程序同理。具体地，以目标应用程序3为输入数据，并以目标应用程序2和目标应用程序4为输出数据，创建目标应用程序的上下文关系，如表1所示，表1为目标应用程序的上下文关系。

表1目标应用程序的上下文关系

本申请实施例根据流量使用数据对各个目标应用程序进行排序，从而使得排序后的目标应用程序能够代表用户的偏好特征，同时根据排序后的目标应用程序之间的输入数据和输出数据，创建唯一性的上下文关系，保证了上下文关系的准确性。

步骤S20，基于预设编码方式对各个所述目标应用程序进行编码，并根据所述上下文关系将各个编码后的目标应用程序进行训练，得到各个所述目标应用程序对应的词向量。

管理系统通过预设编码方式对各个目标应用程序进行编码，其中，预设编码方式包括但不限制于顺序编码方式和one-hot(独热)编码方式，为了清晰说明，本实施例以one-hot编码方式进行举例说明。进一步可以理解为，管理系统通过one-hot编码方式对所有目标应用程序进行one-hot编码，得到各个目标应用程序对应的编码向量，其中，编码向量的长度由目标应用程序的个数决定的。在本实施例中，如目标应用程序的个数为n，前四个目标应用程序为目标应用程序1、目标应用程序2、目标应用程序3和目标应用程序4，其分别对应的编码向量为目标应用程序1[1,0,0,0,...]_n、目标应用程序2[0,1,0,0,...]_n、目标应用程序3[0,0,1,0,...]_n和目标应用程序4[0,0,0,1,...]_n。

接着，管理系统构建具有单个隐藏层的神经网络，其中，神经网络包括输入层、隐藏层和输出层，输入层的输入节点数量和输出层的输出节点数量都是由目标应用程序的个数决定的，隐藏层的节点数量根据one-hot编码方式的复杂度进行确定，隐藏层的节点数量为10至20个。最后，管理系统根据上下文关系将各个one-hot编码后的目标应用程序作为输入数据和输出数据对神经网络进行训练，得到对应的隐藏层矩阵，并将隐藏层矩阵确定为对各个目标应用程序的编码结果，即各个目标应用程序的词向量。

步骤S30，根据各个所述词向量对各个所述目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个所述应用程序类进行聚合，得到各个最终应用程序类。

管理系统根据各个目标应用程序的词向量计算任意两个目标应用程序之间的余弦值，将预设阈值和余弦值进行数值大小比较，根据比较结果对各个目标应用程序进行分类，得到各个应用程序类，其中，预设阈值是根据实际情况设定的，比较结果为余弦值大于预设阈值，比较结果也可以为余弦值小于或者等于预设阈值，具体如步骤S301至步骤S302所述。接着，管理系统确定任意两个应用程序类中相同应用程序的个数占比，将个数占比和预设占比进行数值大小比较，根据比较结果对各个应用程序类进行聚合，得到各个最终应用程序类，其中，预设占比是根据实际情况设定的，比较结果为个数占比大于预设占比，比较结果也可以为个数占比小于或者等于预设占比，具体如步骤S303至步骤S304所述。

进一步地，步骤S301至步骤S304的具体描述如下：

步骤S301，计算任意两个目标应用程序的词向量对应的余弦值，并确定在各个所述余弦值中是否存在大于预设阈值的目标余弦值；

步骤S302，若存在所述目标余弦值，则将所述目标余弦值对应的两个目标应用程序进行归类，得到各个所述应用程序类；

步骤S303，确定任意两个应用程序类中相同应用程序的个数占比，并确定在各个所述个数占比中是否存在大于预设占比的目标个数占比；

步骤S304，若存在所述目标个数占比，则将所述目标个数占比对应的两个应用程序类进行聚合，得到各个所述最终应用程序类。

具体地，管理系统计算任意两个目标应用程序的词向量对应的余弦值，并确定在各个余弦值中是否存在大于预设阈值的目标余弦值。若确定存在目标余弦值，管理系统则将目标余弦值对应的两个目标应用程序归为同一类，得到各个应用程序类。在本实施例中，如将预设阈值设置为a，目标应用程序A，词向量为x1；目标应用程序B，词向量为x2；目标应用程序C，词向量为x3；目标应用程序D，词向量为x4。x1与x2的余弦值大于a，x3与x4的余弦值大于a，则将目标应用程序A和目标应用程序B归为同一应用程序类，将目标应用程序C和目标应用程序D归为同一应用程序类，依次循环可以得到各个应用程序类。

需要说明的是，在得到的各个应用程序类中存在大量的重复分组或相似分组，在实际应用中，分组数量是远小于应用程序数量。因此，管理系统确定任意两个应用程序类中相同应用程序的个数占比，并确定在各个个数占比中是否存在大于预设占比的目标个数占比。若确定存在目标个数占比，管理系统则将目标个数占比对应的两个应用程序类进行聚合，得到各个最终应用程序类。在本实施例中，如将预设占比设定为50％，应用程序类A与应用程序类B中相同的应用程序的个数占比为60％大于50％，则将应用程序类A与应用程序类B进行聚类，应用程序类C与应用程序类D中相同的应用程序的个数占比为70％大于50％，则将应用程序类C与应用程序类D进行聚类，依次循环可以得到各个最终应用程序类。

本申请实施例自动根据词向量的相似度对目标应用程序进行分类，自动根据相同应用程序的个数占比对应用程序类进行分类聚合，实现了应用程序分类和应用程序类分类的全自动化，提高了应用程序分类准确性。

本实施例提供了应用程序分类方法，在应用程序分类的过程中，自动对待处理应用程序进行二次过滤，自动创建目标应用程序的上下文关系，自动对目标应用程序进行编码和根据神经网络确定词向量，自动根据词向量的相似度对目标应用程序进行分类，自动根据相同应用程序的个数占比对应用程序类进行分类聚合，实现了应用程序分类和应用程序类分类的全自动化，有效降低了人工参与引入的客观误差，提高了应用程序分类准确性。

进一步地，参照图2，图2是本申请提供的应用程序分类方法的流程示意图之二，所述步骤S30之后，还包括：

步骤S40，根据各个所述最终应用程序类的第一中心编码向量，及其对应的各个目标应用程序的编码向量，确定各个所述最终应用程序类中各个目标应用程序的权重值；

步骤S50，将各个所述最终应用程序类中，各个目标应用程序的权重值及其对应的使用数据进行加权求和，得到各个所述最终应用程序类的汇总数据；

步骤S60，根据各个所述最终应用程序类的汇总数据，分析各个所述最终应用程序类的使用数据。

需要说明的是，各个目标应用程序在其对应的最终应用程序类中的贡献度是不同的，例如，在支付类最终应用程序类中包括目标应用程序1(如支付宝)和目标应用程序2(如微信)，目标应用程序1对支付类最终应用程序类的贡献度较高，目标应用程序2贡献度较低，因为目标应用程序2主要功能在于通信，附加功能是支付。因此需要计算不同目标应用程序对其对应的最终应用程序类的贡献度。

管理系统确定各个最终应用程序类中各个目标应用程序的编码向量，将各个最终应用程序类中的各个目标应用程序的编码向量进行求和并取均值，得到各个最终应用程序类的中心编码向量。接着，管理系统确定各个目标应用程序的编码向量与其对应的最终应用程序类的中心编码向量的向量距离d，同时将数值最大的向量距离确定为最大向量距离d_n，根据各个目标应用程序在其对应的最终应用程序类中的向量距离d，与其对应的最终应用程序类中的最大向量距离d_n，计算各个目标应用程序在其对应的最终应用程序类中的权重值w＝(dn*1.1-d)/(dn*1.1)。需要说明的是，权重值越大，说明向量距离越接小，贡献度越高，否则贡献度越低。进一步地，管理系统将各个最终应用程序类中，各个目标应用程序的权重值及其对应的使用数据进行加权求和，得到各个最终应用程序类的汇总数据，并根据各个最终应用程序类的汇总数据分析各个最终应用程序类的使用数据。

在本实施例中，比如，在支付理财类最终应用程序类中包括“招商银行、工商银行、农业银行、支付宝和淘宝”，对于与“招商银行”相关的目标应用程序及其权重值关系如表2所示，表2为支付理财类应用程序的权重值表。可见，“招商银行”的权重值为0.98，对于同属于银行相关的“工商银行和农业银行”，一方面能够自动分组，另一方面该类应用程序具有较大权重值，根据上述计算可得“工商银行”的和“农业银行”的权重值为0.79。而对于“支付宝”具有部分支付或理财功能的应用程序，其权重值相对较小，“支付宝”的权重值为0.56，而对于“淘宝”，其与银行类应用程序和支付功能相关性较低，但是也出现在该大类应用程序中，可能是由于使用银行应用程序的用户多数具有网购行为。由于淘宝类应用程序在该大类中的权重值较低，因此在后续数据汇总中其统计指标加权作用较低，仅能起到“补充”作用，不会主导该大类的统计指标，“淘宝”的权重值为0.33。

表2支付理财类应用程序的权重值表

应用程序名称	招商银行	工商银行	农业银行	支付宝	淘宝
						权重值	0.98	0.95	0.79	0.56	0.33

在本实施例中，比如，在淘宝类最终应用程序类中包括“淘宝、苏宁易购、京东、闲鱼”，对于与“淘宝”相关的目标应用程序及其权重值关系如表3所示，表3为淘宝类应用程序的权重值表。可见，“淘宝”的权重值为0.99，对于同属于淘宝类的“苏宁易购、京东、闲鱼”具有较大权重值，根据上述计算可得“苏宁易购”的权重值为0.87和“京东”的权重值为0.95。而对于“闲鱼”具有部分淘宝功能的应用程序，其权重值相对较小，“闲鱼”的权重值为0.65。

表3淘宝类应用程序的权重值表

应用程序名称	淘宝	苏宁易购	京东	闲鱼
					权重值	0.99	0.87	0.95	0.65

进一步，根据各个最终应用程序类的汇总数据分析各个最终应用程序类的使用数据具体如下，例如汇总分析某最终应用程序类(如银行类最终应用程序类、理财类最终应用程序类)的使用频次、总流量和使用天数等，本实施例以汇总某最终应用程序类的使用频次为例，如表4所示，表4为某最终应用程序类的使用频次的汇总流程。

表4某最终应用程序类的使用频次的汇总流程

进一步需要说明的是，本实施例将各个最终应用程序类的使用数据应用到金融风控场景中，用于风险控制。不同于传统基于人为规则的应用程序分组方案，本申请实施例基于Word2Vec自动对应用程序分组，再根据最终应用程序类内各个目标应用程序权重值进行加权整合，使得用户相关画像更加准确。与用户基础数据、消费数据等进行整合，输入到LightGBM(Light Gradient Boosting Machine，GBDT算法的框架)机器学习算法中，对优化的用户应用程序使用信息进行挖掘，以部分用户的实际风控表现为样本，能够获得相对较优的模型表现。将相关模型应用到全量用户数据中，对用户的风险等级以评分形式输出，实现辅助行业用户风控。

本实施例提供了应用程序分类方法，通过中心编码向量和各个目标应用程序的编码向量，计算各个目标应用程序的权重值，使得计算出的各个权重值具有高准确。将各个目标应用程序的权重值结合其对应的使用数据进行加权求和，得到各个最终应用程序类具有代表性的汇总数据。再根据汇总数据分析各个最终应用程序类的使用数据，使得更加精准地描绘各个最终应用程序类的使用数据，准确地描绘出用户相关画像。同时，将各个最终应用程序类的使用数据应用到金融风控场景中，结合用户基础数据和消费数据进行机器学习和模型优化，实现了对用户的风险制控。

进一步需要说明的是，在新增应用程序的情况下，重复步骤S10至步骤S60，将新增的应用程序进行分类，以及计算该新增的应用程序的权重值，随着应用程序功能的迭代、上下线等，可以按照固定周期进行更新，从而实现自动迭代，保证各个新增的应用程序分类准确性，以及保证各个新增的应用程序在其对应的最终应用程序类中权重值的准确性，从而保证了各个最终应用程序类的汇总数据的准确性。

进一步地，参照图3，图3是本申请提供的应用程序分类方法的流程示意图之三，所述步骤S30之后，还包括：

步骤S70，根据各个所述最终应用程序类的第一中心编码向量和空应用程序类的第二中心编码向量，确定各个余弦相似度值；

步骤S80，根据各个所述余弦相似度值和预设相似度值，确定目标应用程序类；

步骤S90，将所述目标应用程序类中各个目标应用程序的使用数据，及其对应的目标余弦相似度值进行加权求和，得到所述空应用程序类的使用数据；

步骤S100，根据所述目标应用程序类的实际使用数据和所述空应用程序类的使用数据，确定用户画像数据。

本实施例采用了使用意图的空值填充策略进行数据挖掘，具体地，管理系统检测到某一条使用记录且该使用记录为空应用程序类，将该空应用程序类的中心编码向量记为第二中心编码向量。接着，管理系统根据各个最终应用程序类第一中心编码向量，计算对应的各个余弦相似度值，并确定在各个余弦相似度值中是否存在大于预设相似度值的目标余弦相似度值，其中，预设相似度值是根据实际情况设定的。若确定存在目标余弦相似度值，管理系统则将目标余弦相似度值对应的最终应用程序类确定为目标应用程序类，再将目标应用程序类中各个目标应用程序的使用数据，及其对应的目标余弦相似度值进行加权求和，得到对应的汇总数据，并将该汇总数据填充至空应用程序类，得到空应用程序类的使用数据。需要说明的是，空应用程序类的使用数据也即用户使用意图的挖掘数据。最后，管理系统根据目标应用程序类的实际使用数据和空应用程序类的使用数据创建对应的用户行为数据表，再根据用户行为数据表确定用户画像数据，其中，用户画像数据即用户应用程序的使用行为数据，具体如步骤S1001至步骤S1002所述。

在本实施例中，比如，预设相似度值为0.5，第一中心编码向量为X＝{x₁,x₂,...,x_m}，第二中心编码向量为x_n，以填充使用频次为例，具体如表5所示，表5为空应用程序类的使用频次的填充过程。

表5空应用程序类的使用频次的填充过程

进一步地，步骤S1001至步骤S1002的具体描述如下：

步骤S1001，以所述目标应用程序类的实际使用数据作为第一离散指标，以所述空应用程序类的使用数据作为第二离散指标，并以用户名称作为关键字进行汇总，得到用户行为数据表；

步骤S1002，根据所述用户行为数据表和各个最终应用程序类的使用数据，确定所述用户画像数据。

由于用户使用意图的挖掘数据与目标应用程序类的实际使用数据有所区别，因此需要新增0和1类的离散指标。

具体地，管理系统将以目标应用程序类的实际使用数据作为第一离散指标0，为了方面阐述，本实施例目标应用程序类的实际使用数据以目标应用程序类的实际使用次数举例说明，以空应用程序类的使用数据(用户使用意图的挖掘数据)作为第二离散指标1。进一步可以理解为，管理系统确定目标应用程序类的实际使用数据是否为用户使用意图的挖掘数据，若确定目标应用程序类的实际使用数据不是用户使用意图的挖掘数据，则为第一离散指标0。，若确定目标应用程序类的实际使用数据是用户使用意图的挖掘数据，则为第二离散指标1，并以用户名称作为关键字进行汇总，得到用户行为数据表。接着，管理系统根据用户行为数据表和各个最终应用程序类的使用数据，确定用户画像数据，即得到即用户应用程序的使用行为数据。

在本实施例中，目标应用程序类的实际使用次数有目标应用程序类1的实际使用次数、目标应用程序类2的实际使用次数和目标应用程序类3的实际使用次数。用户1的目标应用程序类1的实际使用次数为101、目标应用程序类2的实际使用次数200和目标应用程序类3的实际使用次数231；用户2的目标应用程序类1的实际使用次数为0、目标应用程序类2的实际使用次数167和目标应用程序类3的实际使用次数345；用户3的目标应用程序类1的实际使用次数为132、目标应用程序类2的实际使用次数324和目标应用程序类3的实际使用次数0；用户4的目标应用程序类1的实际使用次数为232、目标应用程序类2的实际使用次数256和目标应用程序类3的实际使用次数124。用户1的目标应用程序类1的实际使用次数和目标应用程序类3的实际使用次数不是用户使用意图的挖掘数据，目标应用程序类2的实际使用次数是用户使用意图的挖掘数据；用户2的目标应用程序类1的实际使用次数和目标应用程序类3的实际使用次数是用户使用意图的挖掘数据，目标应用程序类2的实际使用次数不是用户使用意图的挖掘数据；用户3的目标应用程序类1的实际使用次数和目标应用程序类2的实际使用次数不是用户使用意图的挖掘数据，目标应用程序类3的实际使用次数是用户使用意图的挖掘数据；用户4的目标应用程序类1的实际使用次数是用户使用意图的挖掘数据，目标应用程序类2的实际使用次数和目标应用程序类3的实际使用次数不是用户使用意图的挖掘数据，建立用户行为数据表如表6所示，表6为用户行为数据表。

表6用户行为数据表

需要说明的是，本实施例中若采用了使用意图的空值填充策略，用户在各个最终应用程序类中的目标有应用程序的使用数据仍有可能为空，是由于最终应用程序类没有满足条件的类别或者用户相应类别下也没有使用行为，对于该种情况，可以认为用户在最终应用程序类下没有使用行为。

本申请实施例通过第一离散指标0和第二离散指标1建立对应的用户行为数据表，一方面优化了分组依据，另一方面对空应用程序类进行填充，大大降低了空值率。

用户行为数据表可以作为基础数据，进一步输入到相关数据统计分析或机器学习建模中。以风控场景为例，结合用户在各个最终应用程序类的实际使用数据，以用户使用意图的挖掘数据(空应用程序类的使用数据)作为补充，并增加是否为用户使用意图的挖掘数据的标志位，结合用户基础数据等其他维度信息，作为机器学习模型入参。由于新增用户意图信息，模型挖掘信息空间增大，相比于单纯基于行为信息具有更好的表现，将相关模型应用到全量用户数据中，对用户的风险等级以评分形式输出，实现辅助行业用户风控。

本实施例提供了应用程序分类方法，通过空值填充策略进行用户使用意图的挖掘，能够有效降低空值率。相比于传统的填充方法，本实施例结合用户在各个最终应用程序类的实际使用数据、用户使用意图的挖掘数据、是否为用户使用意图的挖掘数据的标志位和用户基础数据等其他维度信息建立用户行为数据表，有效提高了数据的维度。同时，将用户行为数据表应用到机器学习和模型优化地金融风控场景中，实现了对用户的风险制控。

进一步地，按照步骤S10至步骤S30的应用程序分类方法，步骤S40至步骤S70的数据汇总方法，以及步骤S80至步骤S100空值填充策略进行建模测试，模型算法采用LightGBM，算法调优使用相同的网格调优策略。结果表明，采用本实施例中的优化策略，模型AUC数值从0.66提升到0.682，KS值从0.237提升到0.263。由此可知，通过本申请实施例大大降低了空值率。

进一步地，下面对本申请提供的应用程序分类装置进行描述，下文描述的应用程序分类装置与上文描述的应用程序分类方法可相互对应参照。

如图4所示，图4是本申请提供的应用程序分类装置的结构示意图，应用程序分类装置包括：

创建模块401，用于通过预设使用统计指标对各个目标应用程序进行排序，创建各个所述目标应用程序之间的上下文关系；

确定模块402，用于基于预设编码方式对各个所述目标应用程序进行编码，并根据所述上下文关系将各个编码后的目标应用程序进行训练，得到各个所述目标应用程序对应的词向量；

分类模块403，用于根据各个所述词向量对各个所述目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个所述应用程序类进行聚合，得到各个最终应用程序类。

进一步地，所应用程序分类装置还包括：分析模块；

所述分析模块用于：

进一步地，所述确定模块402还用于：

进一步地，所述分类模块403还用于：

进一步地，所述创建模块401还用于：

进一步地，所述所应用程序分类装置还包括：筛选模块；

所述筛选模块用于：

本申请提供的应用程序分类装置的具体实施例与上述应用程序分类方法各实施例基本相同，在此不作赘述。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行应用程序分类方法，该方法包括：

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的应用程序分类方法，该方法包括：

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的应用程序分类方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种应用程序分类方法，其特征在于，包括：

2.根据权利要求1所述的应用程序分类方法，其特征在于，所述根据各个所述词向量对各个所述目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个所述应用程序类进行聚合，得到各个最终应用程序类的步骤之后，还包括：

3.根据权利要求1所述的应用程序分类方法，其特征在于，所述根据各个所述词向量对各个所述目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个所述应用程序类进行聚合，得到各个最终应用程序类的步骤之后，还包括：

4.根据权利要求3所述的应用程序分类方法，其特征在于，所述根据所述目标应用程序类的实际使用数据和所述空应用程序类的使用数据，确定用户画像数据的步骤包括：

5.根据权利要求1所述的应用程序分类方法，其特征在于，所述根据各个所述词向量对各个所述目标应用程序进行分类，得到各个应用程序类，并根据预设去重方法对各个所述应用程序类进行聚合，得到各个最终应用程序类的步骤包括：

6.根据权利要求1所述的应用程序分类方法，其特征在于，所述通过预设使用统计指标对各个目标应用程序进行排序，创建各个所述目标应用程序之间的上下文关系的步骤包括：

7.根据权利要求1至6任一项所述的应用程序分类方法，其特征在于，所述通过预设使用统计指标对各个目标应用程序进行排序，创建各个所述目标应用程序之间的上下文关系的步骤之前，还包括：

8.一种应用程序分类装置，其特征在于，包括：

9.一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的应用程序分类方法的步骤。

10.一种计算机程序产品，所述计算机程序产品包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的应用程序分类方法的步骤。