CN115618279A

CN115618279A - 小众app分类系统

Info

Publication number: CN115618279A
Application number: CN202110734914.0A
Authority: CN
Inventors: 俞锋锋; 吕繁荣; 尹祖勇; 李正; 曾昱深
Original assignee: Hangzhou Yunshen Technology Co ltd
Current assignee: Hangzhou Yunshen Technology Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-01-17

Abstract

本发明涉及一种小众app分类系统，实现步骤S1、基于app分类模型中，生成M类小众app；步骤S2、基于目标向量生成模型，生成每一小众app的目标向量；步骤S3、将类内距离和类间距离小于预设预设比值的小众app类别中的所有小众app的类别标签变更为第(M+1)类别；步骤S4、将类内距离和类间距离大于等于预设预设比值的小众app类别确定为待处理类别，设定初始半径，对于每一所述待处理类别，以预设的半径递增步长调整半径，在每一半径下的小众app密度和小众app召回率，基于所述待处理类别在不同半径下的app密度分布和app召回率分布从所述待处理类别确定实际属于该类别的小众app,将未被确定的小众app的标签变更为第(M+1)类别。本发明提高了小众app的分类准确性。

Description

小众app分类系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种小众app分类系统。

背景技术

随着科技的迅速发展，app的数量也迅猛增长，很多应用场景下需要基于一个或多个类别的app进行分析，这便需要对海量app进行准确的分类。现有的app分类多是直接基于app的名称、包名等app特征信息训练得到分类模型进行app分类，app根据安装量的量级可以划分为小众app和大众app，小众app在全部app中占据很大，种类较多，小众app总数据量非常大，而每一小众app的样本数量又较少，因此采用现有的app分类方法对海量的小众app进行分类，分类准确性低。由此可知，如何提高小众app的分类准确性成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种小众app分类系统，提高了小众app的分类准确性。

根据本发明第一方面，提供了一种小众app分类系统，包括预先构建的第一数据库和第二数据库，预先训练的app分类模型和app目标向量生成模型存储有计算机程序的存储器和处理器，所述第一数据库存储有小众app特征信息记录，所述小众app特征信息记录包括小众app id和对应的多个app特征信息；所述第二数据库存储有小众app序列表和小众app初始向量映射表，所述小众app序列表包括小众app安装序列表、小众app卸载序列表以及小众app活跃序列表中的一种或多种；所述app分类模型基于第一样本小众app在所述第一数据库对应的特征信息训练得到；所述app目标向量生成模型基于所述第二数据库中的样本用户id对应的小众app序列记录和小众app初始向量映射表训练得到，所述小众app为安装量小于预设安装量的app；

当所述处理器在执行所述计算机程序时，实现以下步骤：

步骤S1、基于所述第一数据库中的每一小众app特征信息记录生成输入特征向量，并输入到所述app分类模型中，得到每一小众app的类别标签，从而生成M类小众app；

步骤S2、将每一所述小众app初始向量输入所述app目标向量生成模型，生成每一小众app对应的目标向量；

步骤S3、获取每一类小众app对应的中心向量，基于每一类小众app对应的中心向量和每一类小众app中所有小众app的目标向量得到每一类小众app对应的类内距离和类间距离，将类内距离和类间距离小于预设预设比值的小众app类别中的所有小众app的类别标签变更为第(M+1)类别；

步骤S4、将类内距离和类间距离大于等于预设预设比值的小众app类别确定为待处理类别，设定初始半径，对于每一所述待处理类别，以预设的半径递增步长调整半径，获取所述待处理类别在每一半径下的小众app密度和小众app召回率，基于所述待处理类别在不同半径下的app密度分布和app召回率分布从所述待处理类别确定实际属于该类别的小众app,将未被确定的小众app的标签变更为第(M+1)类别。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种小众app分类系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明先通过app分类模型对小众app进行粗分类，再基于app目标向量生成模型所生成的小众app对应的目标向量对粗分类结果进行校准，提高了小众app分类的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的小众app分类系统示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种小众app分类系统的具体实施方式及其功效，详细说明如后。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一、

实施例一提供了一种小众app分类系统，如图1所示，包括预先构建的第一数据库和第二数据库，预先训练的app分类模型和app目标向量生成模型存储有计算机程序的存储器和处理器，所述第一数据库存储有小众app特征信息记录，所述小众app特征信息记录包括小众app id和对应的多个app特征信息，作为一种示例app特征信息包括app包名信息。所述第二数据库存储有小众app序列表和小众app初始向量映射表，所述小众app序列表包括小众app安装序列表、小众app卸载序列表以及小众app活跃序列表中的一种或多种，所述小众app初始向量映射表存储了每一小众app对应的初始向量，所述初始向量可通过随机初始化得到。所述app分类模型基于第一样本小众app在所述第一数据库对应的特征信息训练得到，可以理解的是，第一样本小众app为已知类别的小众app。所述app目标向量生成模型基于所述第二数据库中的样本用户id对应的小众app序列记录和小众app初始向量映射表训练得到，所述小众app为安装量小于预设安装量的app；当所述处理器在执行所述计算机程序时，实现以下步骤：

步骤S1、基于所述第一数据库中的每一小众app特征信息记录生成输入特征向量，并输入到所述app分类模型中，得到每一小众app的类别标签，从而生成M类小众app，M为正整数；

其中，基于第一样本小众app在所述第一数据库构建对应的第一样本小众app特征信息，第一样本小众app已知类别信息，基于基于第一样本小众app和对应的类别信息训练得到所述app分类模型，所述app分类模型的具体训练过程直接采用现有技术中的app分类模型训练方法即可，在此不再展开描述。由于仅采用app分类模型得到的小众app分类结果的准确度不高，因此，本申请引入小众app对应的目标向量，基于app对应的目标向量对app分类模型得到的小众app分类结果进行进一步判断和校正，提高小众app分类的准确性。

需要说明的是，app目标向量生成模型通过学习小众app的序列中小众app的序列关系，通过小众app的序列构建样本，能够大大增加可靠样本数量，提高目标向量生成模型训练准确度，从而提高得到准确的小众app对应的目标向量的准确度，进而提高基于目标向量校准得到的小众app分类的准确性。

作为一种实施例，具体可以将每一类小众app中所有小众app的目标向量每一特征求均值，类内距离具体算法为：获取一类小众app中所有小众app的目标向量与该类别中心向量的第二距离，并取第二距离最大值作为该类别对应类内距离。类间距离算法为，获取一类小众app对应的中心向量与其他类小众app对应的中心向量的第三距离，并取第三距离的最小值作为该类别对应的类间距离。类内距离和类间距离小于预设预设比值的小众app类别为分类准确性可靠性低的类别，因此将这些类别的小众app全部划分到除上述M类别之外的其他类别中，作为第(M+1)类别，类内距离和类间距离大于等于预设预设比值的小众app列表标签保持不动，这样便将分类准确可靠的类别筛选了出来，提高了小众app分类结果的准确性。得到该类别对应的中心向量。需要说明的是，预设比值具体根据具体分类精确度需求来设定。

所述步骤S3将app分类模型所划分出的准确率低可靠性低的类别进行了过滤，并将过滤掉的类别中的小众app类别变更为第(M+1)类别。步骤S4再基于每一类别中每一小众app的目标向量进行进一步分析，将每一类别中分类错误的小众app也过滤出来并划分至第(M+1)类别，提高每一类别划分结果的准确性，从而进一步提高小众app分类结果的准确性。

作为一种实施例，所述步骤S4还可包括：

步骤S41、基于以下公式获取每一待处理类别在不同半径下对应的小众app召回率和小众app密度：

R＝xδ

其中，rec表示当前半径下的小众app召回率，density表示当前半径下的小众app密度，N表示待处理类别中小众app的数量，R表示当前半径值，n从1开始取值，n＝1,2,3…,dist_i表示示性值，x_i表示待处理类别中第i个小众app的目标向量，

表示待处理类别的中心向量；

步骤S42、以待处理类别对应的半径为横坐标，以小众app召回率为纵坐标获取第一曲线，以小众app密度为纵坐标获取第二曲线；

步骤S43、基于所述第一曲线和第二曲线获取目标半径，将位于该处理类别半径范围内的小众app确定为实际属于该类别的小众app。

进一步的，所述步骤S43还可包括：

步骤S431、获取预设的召回率阈值，在第一曲线符合大于等于所述召回率阈值的横坐标对应的第二曲线的线段中是否存在手肘点，若存在，则将该手肘点对应的半径值作为所述目标半径，否则，执行步骤S432；

需要说明的是，直接采用现有手肘点确认方法确定第二曲线的线段的手肘点即可，在此不再展开描述。

步骤S432、基于所述召回率阈值对所述第一曲线和第二曲线做阶段操作，确定所述目标半径。

实施例二、

为了进一步提高小众app分类结果的准确性，在实施例一的基础上可以进一步确定第(M+1)类别中的小众app的类别，当所述处理器在执行所述计算机程序时，还实现以下步骤：

步骤S01、获取所述第(M+1)类别中每一小众app的目标向量与每一待处理类别对应的中心向量的第一距离，获取所述第一距离最小值，并与预设的第一距离阈值进行对比，若所述第一距离最小值小于所述第一距离阈值，则将该小众app的类别标签变更为所述第一距离最小值对应的待处理类别的标签。

可以理解的是，步骤S3中已将过滤掉的小众app类别为划分结果不准确、不可靠的类别，因此，再进一步确定第(M+1)类别中的小众app的类别时，仅以类内距离和类间距离大于等于预设预设比值的小众app类别来做为待处理类别，以提高第(M+1)类别中的小众app的类别确定的准确性。

可以理解的是，实施例二通过步骤S01，可以将第(M+1)类别原本划分错误的类别进一步纠正，从而进一步提高小众app分类结果的准确性。

实施例一和实施例二所涉及的技术细节均可采用下述实施例的方式来实现。

小众app和大众app的安装量级相差较大，因此可以根据app的安装量，来确定预设安装量，从而基于预设安装量来划分大众app和小众app。作为一种实施例，所述处理器在执行所述计算机程序时，还实现以下步骤：

步骤S100、基于全量app的安装量获取app安装量分布图，所述全量app包括大众app和小众app,将app安装量分布图骤降的拐点对应的安装量确定为所述预设安装量。

作为一种实施例，所述处理器在执行所述计算机程序时，还实现以下步骤，构建所述目标向量生成模型，具体包括：

步骤S10、从所述样本用户对应的小众app序列表选择一个第二样本小众app；

步骤S20、基于预设的时间窗口从所述小众app序列表中选取包含所述第二样本小众app的窗口序列，作为正样本序列；

步骤S30、从所述第一数据库中随机抽取小众app与所述第二样本小众app构建负样本序列，所述正样本序列的小众app数量和所述负样本序列的小众app数量相等；

需要说明的是，由于小众app数量巨大，抽中其他小众app使得组合与正样本序列的概率很小，因此随机抽取小众app即可满足构建负样本序列的构建要求，且构建效率很高。为了进一步提高负样本序列构建的准确度，作为另一种实施例，步骤S30中还可基于样本用户对应序列生成的正样本序列中确定与该第二样本小众app相邻的小众app，再从第一数据库中随机抽取除与该第二样本小众app相邻的小众app之外的其他小众app，与第二样本小众app构建对应的负样本序列。

步骤S40、基于所述小众app初始向量映射表，构建每一所述正样本序列和负样本序列对应的样本输入向量；

作为一种实施例，所述小众app初始向量为1*m维向量，所述预设的时间窗口正样本序列的小众app数量为n,所述步骤S40还包括：

步骤S401、按照每一样本序列中小众app的排序，将每一app id转换为对应的初始向量，每一app id对应的初始向量对应一行输入特征向量的一行，最终得到n*m维向量。

步骤S50、基于正样本、负样本对应的样本标签、所述正样本序列和负样本序列对应的正样本输入向量训练预设的目标向量生成模型框架，生成所述目标向量生成模型。

作为一种实施例，所述目标向量生成模型框架为多层神经网络模型，正负样本序列中，每一app对应一个独立的输入通道，所述输入通道数等于所述预设窗口大小，即如果所述预设的时间窗口正样本序列的小众app数量为n，则所述多层神经网络模型对应n个独立的输入通道，输入通道的顺序与样本序列的小众app顺序一致。每一层神经网络配置有对应的第一权重值，所述第一权重值为目标向量生成模型需要更新的模型参数。最后一层神经网络包括两个神经元，对应的，正样本标签为10，负样本标签为01，所述步骤S50包括：

步骤S501、将当前批次的正负样本数据输入所述目标向量生成模型框架中，每一样本得到一对概率预测值；

步骤S502、基于当前批次所有样本的概率预测值、样本标签获取当前损失函数值，并判断所述当前损失函数值是否符合预设的模型训练结束条件，若符合，则执行步骤S504，否则，执行步骤S503；

作为一种实施例，所述模型训练结束条件包括损失函数小于预设的第一损失阈值或者所述损失函数小于预设的第二损失阈值，且保持不变，所述第一损失阈值小于所述第二损失阈值。

步骤S503、基于所述当前损失函数求偏导，得到当前调参值，基于所述当前调参值更新每一神经网络对应的第一权重值，并将下一批次的正负样本数据作为所述当前批次的正负样本数据，返回执行步骤S501；

步骤S504、将当前目标向量生成模型框架的输入通道作为输入，将所述最后一层神经网络的前一层网络生成的向量作为输出，生成所述目标向量生成模型。

作为一种实施例，所述步骤S2包括：

步骤S21、将n个小众app初始向量按照预设的排序，输入所述app目标向量生成模型，生成n*m维向量中，生成n*m维向量输出向量；

步骤S22、将n*m维输出向量中，第j行输出向量确定为在预设排序中处于第j位的小众app对应的目标向量，j的取值为1到n。

可以理解的是，通过目标向量生成模型可以同时获取n个小众app对应的目标向量。但可以理解的是，如果进去获取一个预设目标小众app对应的目标向量，那么可以将目标小众app和随机抽取的(n-1)小众app，输入所述app目标向量生成模型，将输出向量中与目标小众app位置对应的向量确定为标小众app对应的目标向量。

需要说明的是，本发明实施例中的app目标向量生成模型和app分类模型都是基于样本小众app对应的数据来训练得到的，小众app的数据基本处于同等量级，数量相差不大，因此，训练得到的app目标向量生成模型和app分类模型的准确度和可靠性很高，进而提升了小众app分类的准确性。

所述小众app序列表包括小众app安装序列表、小众app卸载序列表和小众app活跃序列表其中的任意一种或多个的组合，可以理解的是，所包括种类越多，准确性越高，但相应计算量越大，种类越少，计算量越小，但准确度相对于种类多的低一些，因此可以根据具体的应用需求设置小众app序列表。但需要说明的是，当选择不同序列组合时，不同序列生成的样本数据对应不同的损失权重，但均需满足安装序列对应的损失权重大于卸载序序列对应的损失权重，卸载序序列对应的损失权重大于活跃列表对应的损失权重。作为一种实施例，所述小众app序列表包括小众app安装序列表、小众app卸载序列表和小众app活跃序列表，所述小众app安装序列用于存储小众app安装序列记录，包括用户id、根据安装时间先后顺序排列的小众app id、小众app id对应的安装时间；所述小众app卸载序列表用于存储小众app卸载序列记录，包括用户id、根据卸载时间先后顺序排列的小众app id、小众appid对应的卸载时间；所述小众app活跃序列表用于存储小众app活跃序列记录，包括用户id、根据活跃时间先后顺序排列的小众app id、小众app id对应的活跃时间；

所述步骤S20中，基于所述小众app安装序列表得到正样本序列为第一正样本序列，基于所述小众app卸载序列表得到的正样本序列为第二正样本序列，基于所述小众app活跃序列表得到正样本序列为第三正样本序列，为分别为所述第一正样本序列、第二正样本序列和第三正样本序列设置对应的第一损失权重、第二损失权重和第三损失权重，其中，第一损失权重>第二损失权重>第三损失权重；

所述步骤S502中，基于当前批次所有样本的概率预测值、样本标签、以及第一损失权重、第二损失权重和第三损失权重获取当前损失函数值。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种小众app分类系统，其特征在于，

包括预先构建的第一数据库和第二数据库，预先训练的app分类模型和app目标向量生成模型存储有计算机程序的存储器和处理器，所述第一数据库存储有小众app特征信息记录，所述小众app特征信息记录包括小众app id和对应的多个app特征信息；所述第二数据库存储有小众app序列表和小众app初始向量映射表，所述小众app序列表包括小众app安装序列表、小众app卸载序列表以及小众app活跃序列表中的一种或多种；所述app分类模型基于第一样本小众app在所述第一数据库对应的特征信息训练得到；所述app目标向量生成模型基于所述第二数据库中的样本用户id对应的小众app序列记录和小众app初始向量映射表训练得到，所述小众app为安装量小于预设安装量的app；

当所述处理器在执行所述计算机程序时，实现以下步骤：

2.根据权利要求1中所述的系统，其特征在于，

还实现以下步骤：

3.根据权利要求1中所述的系统，其特征在于，

所述处理器在执行所述计算机程序时，还实现以下步骤：

4.根据权利要求3中所述的系统，其特征在于，

所述目标向量生成模型框架为多层神经网络模型，正负样本序列中，每一app对应一个独立的输入通道，所述输入通道数等于所述预设窗口大小，每一层神经网络配置有对应的第一权重值，最后一层神经网络包括两个神经元，正样本标签为10，负样本标签为01，所述步骤S50包括：

5.根据权利要求4中所述的系统，其特征在于，

所述步骤S2包括：

步骤S22、将n*m维输出向量中，第j行输出向量确定为在预设排序中处于第j位的小众app对应的目标向量。

6.根据权利要求4中所述的系统，其特征在于，

所述小众app序列表包括小众app安装序列表、小众app卸载序列表和小众app活跃序列表，所述小众app安装序列用于存储小众app安装序列记录，包括用户id、根据安装时间先后顺序排列的小众app id、小众app id对应的安装时间；所述小众app卸载序列表用于存储小众app卸载序列记录，包括用户id、根据卸载时间先后顺序排列的小众appid、小众app id对应的卸载时间；所述小众app活跃序列表用于存储小众app活跃序列记录，包括用户id、根据活跃时间先后顺序排列的小众appid、小众app id对应的活跃时间；

7.根据权利要求1中所述的系统，其特征在于，

所述步骤S4包括：

R＝xδ

表示待处理类别的中心向量；

8.根据权利要求7中所述的系统，其特征在于，

所述步骤S43包括：