CN105956083A

CN105956083A - 应用软件分类系统、应用软件分类方法及服务器

Info

Publication number: CN105956083A
Application number: CN201610282049.XA
Authority: CN
Inventors: 黄振
Original assignee: Guangzhou Youshi Network Technology Co Ltd
Current assignee: Guangzhou Youshi Network Technology Co Ltd
Priority date: 2016-04-29
Filing date: 2016-04-29
Publication date: 2016-09-21

Abstract

本发明实施例提供了一种应用软件分类系统、应用软件分类方法及服务器。首先，通过对描述应用软件的文本信息进行分词处理得到分词结果，然后，对分词结果处理后得到每一应用软件的特征向量，最后，通过特征向量对应用软件进行聚类。通过上述方法对应用软件进行预分类可以减少软件应用商店的运营人员的工作量，提高对应用软件分类的效率，采用上述方法还可以提高应用软件分类的准确率，提高用户体验。

Description

应用软件分类系统、应用软件分类方法及服务器

技术领域

本发明涉及软件分类领域，具体而言，涉及一种应用软件分类系统、应用软件分类方法及服务器。

背景技术

现有技术中，应用软件商店(如：App Store或Google Play)需要将每个应用软件打上标签并分好类，以便于对应用软件进行分类展示。通常，上述对应用软件打上标签并进行分类的维护工作部分或者全部由应用软件商店的运营人员完成。随着移动互联网的发展，应用软件的数量不断增多，给运营人员的工作带来的极大的挑战，运营人员在有限的时间内对数量如此多的应用软件进行分类势必会影响到分类的准确性，从而影响用户体验。

发明内容

有鉴于此，本发明实施例的目的在于提供一种应用软件分类系统，应用于服务器。其中，所述应用软件分类系统包括：

获取模块，用于获取分别描述多个应用软件的文本信息；

分词模块，用于将每一所述文本信息进行分词处理得到分词结果，并对所述分词结果进行过滤；

处理模块，用于将过滤后的分词结果进行处理得到每一应用软件的特征向量；及

聚类模块，用于根据所述特征向量对所述多个应用软件进行聚类。

本发明另一较佳实施例还提供一种应用软件分类方法，应用于服务器。其中，所述应用软件分类方法包括：

获取分别描述多个应用软件的文本信息；

将每一所述文本信息进行分词处理得到分词结果，并对分词结果进行过滤；

将过滤后的分词结果进行处理得到每一应用软件的特征向量；及

根据所述特征向量对所述多个应用软件进行聚类。

本发明另一较佳实施例还提供一种服务器，包括存储器、处理器以及所述应用软件分类系统。所述应用软件分类系统安装或存储于所述存储器由所述处理器控制所述应用软件分类系统各功能模块的执行。

与现有技术相比，本发明较佳实施例提供的应用软件分类系统及应用软件分类方法，先通过对描述应用软件的文本信息进行分词处理得到分词结果，再对分词结果进行处理得到每一应用软件的特征向量，最后通过特征向量对应用软件进行聚类。通过上述对应用软件的预分类可以减小运营人员的工作量，从而保证运营人员有足够时间用在对预分类的调整工作上，以保证应用软件分类的准确率，提高用户体验。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明较佳实施例提供的服务器与至少一用户终端进行通信的交互示意图。

图2是图1所示的服务器的方框示意图。

图3是本发明较佳实施例提供的图2中所示的应用软件分类系统的功能模块框图。

图4是本发明较佳实施例提供的应用软件进行聚类的示意图。

图5是本发明较佳实施例提供的应用软件分类方法的流程图。

图6是图5的步骤S113包括的子步骤的示意图。

图7是图5的步骤S114包括的子步骤的示意图。

主要元件符号说明

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，是本发明较佳实施例提供的服务器100与至少一用户终端200进行通信的交互示意图。所述用户终端200可通过网络300访问服务器100，以使用服务器100提供的应用软件的下载服务或者应用软件的上传服务。本实施例中，所述服务器100可以是，但不限于，web(网站)服务器。所述用户终端200可以是，但不限于，智能手机、个人电脑(personal computer，PC)、平板电脑、个人数字助理(personal digital assistant，PDA)、移动上网设备(mobile Internet device，MID)等。所述网络300可以是，但不限于，有线网络或无线网络。

请参照图2，是图1所示的服务器100的方框示意图。所述服务器100包括应用软件分类系统110、存储器111、处理器112及通信单元113。

所述存储器111、处理器112及通信单元113的各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，所述存储器111可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。其中，存储器111用于存储程序，所述处理器112在接收到执行指令后，执行所述程序。所述通信单元113用于通过所述网络300建立所述服务器100与所述用户终端200之间的通信连接，并用于通过所述网络300接收和发送数据。

所述应用软件分类系统110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器111中或固化在所述服务器100的操作系统(operating system，OS)中的软件功能模块。所述处理器112用于执行所述存储器111中存储的可执行模块，例如应用软件分类系统110所包括的软件功能模块及计算机程序等。本实施例中，所述应用软件分类系统110，为服务器100提供应用软件预分类服务，具体的方法在后续进行详细说明。

请参照图3，是本发明较佳实施例提供的图2所示应用软件分类系统110的功能模块框图。所述应用软件分类系统110可以包括获取模块1101、分词模块1102、处理模块1103及聚类模块1104。

所述获取模块1101，用于获取分别描述多个应用软件的文本信息。

具体地，所述文本信息可以包括应用软件的名称或者该应用软件的介绍文字。所述文本信息还可以是该应用软件的名称和该介绍文字的组合，两者之间可用停顿符号(如逗号、冒号或顿号等)隔开，进而形成用于描述每个应用软件的文本信息。

在本实施例中，应用软件的名称或者该应用软件的介绍文字可以是应用软件上传者或管理者手动设置并在上传服务器100时一并发送到服务器100，也可以通过网络从特定网页中去抓取。若上述名称或文字来源于网页，所述获取模块1101将抓取内容中附带的网页信息(比如：html元素)剔除后得到相应应用软件的文本信息。

分词模块1102，用于将每一所述文本信息进行分词处理得到分词结果，并对所述分词结果进行过滤。

在本实施例中，分词模块1102采用分词算法对所述获取模块1101获取的文本信息进行处理得到分词结果。具体地，针对文本信息的语言种类的不同可以对应采用不同的分词算法。例如，所述文本信息为中文时，所述分词算化包括但不限于，最大匹配法、最优匹配法、机械匹配法、逆向匹配法及双向匹配法等。通过上述分词算法将所述文本信息处理成一个个独立的分词。

在本实施例中，所述分词模块1102还对分词结果进行过滤以保留能反映文本内容的分词。具体地，将分词结果中的标点符号(如：句号、顿号及逗号等)和不表达实质内容的分词(如：“无需”、“没有”、“的”及“又”等连接词)过滤掉。

处理模块1103，用于将过滤后的分词结果进行处理得到每一应用软件的特征向量。

在本实施例中，处理模块1103采用经过过滤后的每一分词的tf-idf(termfrequency–inverse document frequency)值来组成每一应用软件的特征向量。

请参照图3，在本实施例中，所述处理模块1103还可以包括：词频计算子模块11031、频率计算子模块11032、乘积计算子模块11033及创建子模块11034。

所述词频计算子模块11031，用于计算每一分词在其对应文本信息中出现的词频。

所述词频(term frequency)用于表示分词在其对应文本信息中出现的频率，可以采用以下数学公式表示：

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

其中，n_i,j表示某个分词t_i在文本信息f_j中出现的次数；Σ_kn_k,j表示在文本f_j中所有分词出现的次数之和，tf_i,j表示某个分词t_i在文本信息f_j中出现的频率。

所述频率计算子模块11032，用于计算每一分词的逆向文件频率。

所述逆向文件频率(inverse document frequency)用于表征一个分词的重要程度。其基本思想是：如果某一分词在所有的文本信息中都存在，那么这个分词的重要程度就低。计算某个分词的逆向文件频率的方法是，由总文本信息数量除以包含该分词的文本信息数量，再将得到的比值取对数，用数学公式表达如下：

{idf}_{i} = l o g \frac{| D |}{| {d : t_{i} &Element; d} |}

其中，|D|表示文本信息的总数量，|{d:t_i∈d}|表示包含某个分词t_i的文本信息数量。

所述乘积计算子模块11033，用于计算每一分词的词频与逆向文件频率之积。

具体地，计算每一分词的词频与逆向文件频率之积的公式如下：

tf-idf_i,j＝tf_i,j×idf_i

其中，tf-idf_i,j表示某个分词t_i在文本f_j中的tf-idf值，该tf-idf值即为所述词频与逆向文件频率之积。

所述创建子模块11034，用于根据每一分词的词频与逆向文件频率之积创建每一应用软件的特征向量。

在本实施例中，采用每一分词的tf-idf值组成所述应用软件的特征向量，具体地，所述特征向量可以表示为：

V_j＝[v_1,j,v_2,j,...,v_N,j]

其中，N表示所有文本信息中出现不同分词的数量。

所述聚类模块1104，用于根据所述特征向量对所述多个应用软件进行聚类。

请参照图3，在本实施例中，所述聚类模块1104还可以包括：归类子模块11041、计算子模块11042及类合并子模块11043。

所述归类子模块11041，用于将所述多个应用软件中的每一应用软件归为一类。

所述计算子模块11042，用于计算任意两个类之间的最小距离，得到类之间距离最小的两个类。

具体地，两个类c_i和c_j之间的最小距离为其中一个类c_i中任意一个应用软件与另外一个类c_j中任意一个应用软件之间的所有距离中的最小值。采用如下数学公式表示：

d_{\min} (c_{i}, c_{j}) = \min_{V_{k} &Element; c_{r}, V_{t} &Element; c_{j}} {dist}_{k, t}

其中，两个应用软件app_i和app_j之间的距离可以由分别表征该两个应用软件的特征向量Vi与Vj间的欧式距离表示：

dist_i,j＝|V_i-V_j|

所述类合并子模块11043，用于将所述类之间距离最小的两个类合并成一个新类。

在本具体实施例中，所述计算子模块11042和类合并子模块11043交替执行，直到剩余的所有类的数量为预设的数量。

以下通过举例来说明本发明实现对应用软件分类的具体过程，应当理解的是，下面所描述的内容仅仅是为了便于对本申请的内容进行说明以使本领域技术人员能够理解，并不构成对本申请权利要求范围的限定。

假设有三款应用软件A、B及C。所述获取模块1101获取的文本信息分别是：所述应用软件A的文本信息为“一款针对儿童与家长设计的产品。”；应用软件B的文本信息为“p2p互联网金融理财平台。”；应用软件C的文本信息为“一款专为儿童设计的认知日常用品应用。”。

所述分词模块1102进行分词处理后的分词结果为：

应用软件A：一款/针对/儿童/与/家长/设计/的/产品/。

应用软件B：p2p/互联网/金融/理财/平台/。

应用软件C：一款/专/为/儿童/设计/的/认知/日常用品/应用/。

所述分词模块1102对分词结果过滤后的结果为：

应用软件A：儿童/家长/设计/产品

应用软件B：p2p/互联网/金融/理财/平台

应用软件C：儿童/设计/认知/日常用品/应用

所述处理模块1103计算得到的各应用软件中每个分词的tf-idf值如下表1-A，表1-B及表1-C。

表1-A

表1-B

表1-C

所述处理模块1103经过处理后得到每一应用软件的特征向量。

对于应用软件A:

儿童	家长	设计	产品
				0.43	0.56	0.43	0.56

根据应用软件A中分词的tf-idf值可以得到应用软件A的特征向量，具体如下。

VA＝[0 0 0.56 0.43 0.56 0 0 0 0 0 0.43 0]

其中，所述V_A即为应用软件A的特征向量。

对于应用软件B：

p2p	互联网	金融	理财	平台
					0.45	0.45	0.45	0.45	0.45

根据应用软件B中分词的tf-idf值可以得到应用软件B的特征向量，具体如下。

VB＝[0.45 0.45 0 0 0 0.45 0 0 0.45 0 0 0.45]

其中，所述V_B即为应用软件B的特征向量。

对于应用软件C：

根据应用软件C中分词的tf-idf值可以得到应用软件C的特征向量，具体如下。

VC＝[0 0 0 0.37 0 0 0.49 0.49 0 0.49 0.37 0]

其中，所述V_c即为应用软件C的特征向量。

所述聚类模块1104根据特征向量V_A、V_B及V_C对应用软件A、B及C进行聚类，请参照图4，其中应用软件A与C的距离最小，所述应用软件A与C形成新类。

请参照图5，是本发明较佳实施例提供的应用于图2所示服务器100的应用软件分类方法的流程图。所述方法相关的流程定义的方法步骤可以由所述处理器112实现。下面对图3所示的具体流程进行详细阐述。

步骤S111，获取分别描述多个应用软件的文本信息。

步骤S112，将每一所述文本信息进行分词处理得到分词结果，并对所述分词结果进行过滤。。

在本实施例中，服务器100采用分词算法对获取的文本信息进行处理得到分词结果。具体地，针对文本信息的语言种类的不同可以对应采用不同的分词算法。例如，所述文本信息为中文时，所述分词算化包括但不限于，最大匹配法、最优匹配法、机械匹配法、逆向匹配法及双向匹配法等。通过上述分词算法将所述文本信息处理成含有一个个独立的分词。

在本实施例中，所述服务器100还对分词结果进行过滤以保留能反映文本内容的分词。具体地，将分词结果中的标点符号(如：句号、顿号及逗号等)和不表达实质内容的分词(如：“无需”、“没有”、“的”及“又”等连接词)过滤掉。

步骤S113，将过滤后的分词结果进行处理得到每一应用软件的特征向量。

在本实施例中，服务器100采用经过过滤后的每一分词的tf-idf(termfrequency–inverse document frequency)值来组成每一应用软件的特征向量。

请参照图6，在本实施例中，步骤S113还可以包括子步骤S1131、子步骤S1132、子步骤S1133及子步骤S1134。

子步骤S1131，计算每一分词在其对应文本信息中出现的词频。

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

子步骤S1132，计算每一分词的逆向文件频率。

{idf}_{i} = l o g \frac{| D |}{| {d : t_{i} &Element; d} |}

子步骤S1133，计算每一分词的词频与逆向文件频率之积。

tf-idf_i,j＝tf_i,j×idf_i

子步骤S1134，根据每一分词的词频与逆向文件频率之积创建每一应用软件的特征向量。

本实施例中，采用每一分词的tf-idf值组成所述应用软件的特征向量，具体地，所述特征向量可以表示为：

V_j＝[v_1,j,v_2,j,...,v_N,j]

其中，N表示所有文本信息中出现不同分词的数量。

步骤S114，根据所述特征向量对所述多个应用软件进行聚类。

请参照图7，在本实施例中，所述步骤S114可以包括：归类子模块S1141、计算子步骤S1142、类合并子步骤S1143及子步骤S1144。

归类子步骤S1141，将所述多个应用软件中的每一应用软件归为一类。

计算子步骤S1142，计算任意两个类之间的最小距离，得到类之间距离最小的两个类。

d_{\min} (c_{i}, c_{j}) = \min_{V_{k} &Element; c_{r}, V_{t} &Element; c_{j}} {dist}_{k, t}

dist_i,j＝|V_i-V_j|

类合并子步骤S1143，将所述类之间距离最小的两个类合并成一个新类。

子步骤S1144，重复所述计算子步骤S1142和类合并子步骤S1143，直到剩余的所有类的数量小于预设的数量。

具体地，所述服务器100判断当前剩余的所有类的数量是否大于所述预设的数量，当大于时，所述服务器100重复执行所述计算子步骤S1142和类合并子步骤S1143，直到剩余的所有类的数量为预设的数量。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，也可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种应用软件分类系统，其特征在于，所述系统包括：

获取模块，用于获取分别描述多个应用软件的文本信息；

2.如权利要求1所述的应用软件分类系统，其特征在于：

所述应用软件的特征向量由所述多个应用软件的分词的词频与分词的逆向文件频率之积组成。

3.如权利要求2所述的应用软件分类系统，其特征在于，所述处理模块包括：

词频计算子模块，用于计算每一分词在所处文本信息中出现的词频；

频率计算子模块，用于计算每一分词的逆向文件频率；

乘积计算子模块，用于计算每一分词的词频与逆向文件频率之积；及

创建子模块，用于根据每一分词的词频与逆向文件频率之积创建每一应用软件的特征向量。

4.如权利要求3所述的应用软件分类系统，其特征在于：所述词频表示分词在对应的文本信息中出现的频率；所述逆向文件频率表征分词的重要程度。

5.如权利要求1所述的应用软件分类系统，其特征在于，所述聚类模块包括：

归类子模块，用于将所述多个应用软件中的每一应用软件归为一类；

计算子模块，用于计算任意两个类之间的最小距离，得到类之间距离最小的两个类；

类合并子模块，用于将所述类之间距离最小的两个类合并成一个新类；

其中，所述计算子模块和类合并子模块交替执行，直到剩余的所有类的数量为预设的数量。

6.如权利要求5所述的应用软件分类系统，其特征在于：

所述两个类之间的最小距离为其中一个类中任意一个应用软件与另外一个类中任意一个应用软件之间的所有距离中的最小值。

7.如权利要求1所述的应用软件分类系统，其特征在于：

所述获取模块还用于将每个应用软件的名称和文字介绍信息组合，形成用于描述每个应用软件的文本信息。

8.一种应用软件分类方法，其特征在于，包括：

获取分别描述多个应用软件的文本信息；

根据所述特征向量对所述多个应用软件进行聚类。

9.如权利要求8所述的应用软件分类方法，其特征在于：

10.如权利要求9所述的应用软件分类方法，其特征在于，所述将过滤后的分词结果进行处理得到每一应用软件的特征向量的步骤包括：

计算每一分词在所处文本信息中出现的词频；

计算每一分词的逆向文件频率；

计算每一分词的词频与逆向文件频率之积；及

根据每一分词的词频与逆向文件频率之积创建每一应用软件的特征向量。

11.如权利要求10所述的应用软件分类方法，其特征在于：

所述词频表示分词在对应的文本信息中出现的频率；

所述逆向文件频率表征分词的重要程度。

12.如权利要求8所述的应用软件分类方法，其特征在于，所述根据所述特征向量对所述多个应用软件进行聚类的步骤包括：

归类子步骤，将所述多个应用软件中的每一应用软件归为一类；

计算子步骤，计算任意两个类之间的最小距离，得到类之间距离最小的两个类；

类合并子步骤，将所述类之间距离最小的两个类合并成一个新类；

重复所述计算子步骤和类合并子步骤，直到剩余的所有类的数量为预设的数量。

13.如权利要求12所述的应用软件分类方法，其特征在于：在所述计算子步骤中，

14.如权利要求8所述的应用软件分类方法，其特征在于，所述获取分别描述多个应用软件对应的文本信息的步骤包括：

将每个应用软件的名称和文字介绍信息组合，形成用于描述每个应用软件的文本信息。

15.一种服务器，其特征在于，包括：

存储器；

处理器；及

应用软件分类系统，所述系统安装于所述存储器中并包括一个或多个由所述处理器执行的软件功能模块，所述系统包括：

获取模块，用于获取分别描述多个应用软件的文本信息；