CN111476270B

CN111476270B - 基于K-means算法的课程信息确定方法、装置、设备及存储介质

Info

Publication number: CN111476270B
Application number: CN202010143221.XA
Authority: CN
Inventors: 黄跃鹏
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2024-04-30
Anticipated expiration: 2040-03-04
Also published as: CN111476270A

Abstract

本发明公开了基于K‑means算法的课程信息确定方法、装置、设备及存储介质，所述方法部分包括：获取所有用户的应用工具的使用习惯数据，并将所述应用工具的使用习惯数据作为样本数据；采用基于密度的聚类算法DBSCAN对样本数据进行聚类，得到样本数据的聚类数据簇，并剔除所述聚类数据簇的离散样本数据，得到第一数据簇；将第一数据簇作为K‑means算法的输入数据，将预设K值作为K‑means算法的K值，根据K‑means算对第一数据簇进行聚类，得到目标聚类结果。该基于K‑means算法的课程信息确定方法结合了基于密度的聚类算法DBSCAN，并剔除了部分离群点，可使K‑means在选取初始聚类中心点以及初期迭代中心点时减少了离群点的影响，可有效提升聚类效果。

Description

基于K-means算法的课程信息确定方法、装置、设备及存储介质

技术领域

本发明涉及聚类技术领域，尤其涉及一种基于K-means算法的课程信息确定方法、装置、设备及存储介质。

背景技术

现如今，随着各种各样的应用工具的出现，尤其是科技类公司对于科技应用工具的使用越来越频繁且类型众多，如不同的画图工具、不同的版本的画图工具，每个人对应用工具的适应能力不同。传统的处理方案，为了提升企业或公司内的用户的工具应用能力，根据用户的使用习惯数据，常使用K-means聚类方式进行聚类分析以根据用户的工具应用能力进行用户分群。聚类的目标是使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。目前聚类的方法很多，根据基本思想的不同，大致可以将聚类算法分为五大类：层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。

K-means聚类算法(k-means clustering algorithm)是一种典型的划分聚类算法，它用一个聚类的中心来代表一个簇，即在迭代过程中选择的聚点不一定是聚类中的一个点。其目的是使在各K个数据簇中的数据点与所在数据簇质心的误差平方和SSE(Sum ofSquared Error)达到最小，然而，采用K-means聚类算法进行聚类，初始聚类中心对聚类结果影响很大，把任何点都归到了某一个类，对异常点比较敏感，会影响后续的聚类效果，使得针对特定场景下对待培训用户的应用工具培训课程信息的分类结果不准确。

发明内容

本发明实施例提供一种基于K-means算法的课程信息确定方法、装置、设备及存储介质K-means，以解决现有技术针对特定场景下对待培训用户的应用工具培训课程信息的分类结果不准确的问题。

第一方面，本发明实施例提供一种基于K-means算法的课程信息确定方法，包括：

获取所有用户的应用工具的使用习惯数据，并将所述应用工具的使用习惯数据作为样本数据；

采用基于密度的聚类算法DBSCAN对所述样本数据进行聚类，得到所述样本数据的聚类数据簇，并剔除所述聚类数据簇的离散样本数据，得到第一数据簇；

确定所述样本数据的所述第一数据簇的簇数量；

将所述样本数据作为降维算法的输入数据，将所述第一数据簇的簇数量作为降维算法的输出维度数，并根据降维算法对所述样本数据进行降维处理，得到第二数据簇；

确定所述第二数据簇中各个数据簇之间的簇类别距离；

根据所述第二数据簇中各个数据簇之间的簇类别距离对所述第二数据簇进行归纳处理，并确定归纳后的所述第二数据簇的归纳类别簇数量作为预设K值；

将所述第一数据簇作为K-means算法的输入数据，并将所述预设K值作为所述K-means算法的K值对所述第一数据簇进行聚类，得到目标聚类结果；

将所述目标聚类结果进行分群，根据分群的结果确定待培训用户的应用工具培训课程信息。

第二方面，本发明实施例提供一种基于K-means算法的课程信息确定装置，包括：

获取模块，用于获取所有用户的应用工具的使用习惯数据，并将所述应用工具的使用习惯数据作为样本数据；

第一聚类模块，用于采用基于密度的聚类算法DBSCAN对样本数据进行聚类，得到所述样本数据的聚类数据簇，并剔除所述聚类数据簇的离散样本数据，得到第一数据簇；

K值获取模块，用于确定所述样本数据的所述第一数据簇的簇数量；

确定所述第二数据簇中各个数据簇之间的簇类别距离；

第二聚类模块，用于将第一数据簇作为K-means算法的输入数据，将所述预设K值作为K-means算法的K值，根据K-means算对第一数据簇进行聚类，得到目标聚类结果；

课程信息确定模块，用于将所述目标聚类结果进行分群，根据分群的结果确定待培训用户的应用工具培训课程信息。

本发明第三方面提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面所述基于K-means算法的课程信息确定方法的步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述基于K-means算法的课程信息确定方法的步骤。

本发明实施例提供的一种基于K-means算法的课程信息确定方法、装置、计算机设备及存储介质中，通过获取所有用户的应用工具的使用习惯数据，并将所述应用工具的使用习惯数据作为样本数据；采用基于密度的聚类算法DBSCAN对所述样本数据进行聚类，得到所述样本数据的第一数据簇，其中，所述第一数据簇未包含经过聚类后确定出的离散样本数据；将第一数据簇作为K-means算法的输入数据，并将预设K值作为所述K-means算法的K值对第一数据簇进行聚类，得到目标聚类结果；根据所述目标聚类结果确定待培训用户的应用工具培训课程信息。其中，本发明实施例结合了基于密度的聚类算法DBSCAN，并剔除了部分离群点，可使K-means在选取初始聚类中心点以及初期迭代中心点时减少了离群点的影响，可有效提升聚类效果，进而提升针对特定场景下对待培训用户的应用工具培训课程信息的分类结果的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1中的基于K-means算法的课程信息确定方法的一流程示意图；

图2是本发明实施例1中图1步骤S30的一具体实施方式的一流程示意图；

图3是本发明实施例1中图2步骤S304的一具体实施方式的一流程示意图；

图4是本发明实施例1中的基于K-means算法的课程信息确定方法的一聚类效果示意图；

图5是本发明实施例1中图1步骤S30的一具体实施方式的另一流程示意图

图6是本发明实施例1中图5步骤S311的一具体实施方式的一流程示意图；

图7是本发明实施例2中基于K-means算法的课程信息确定装置的一示意图；

图8是本发明实施例3中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1示出本实施例中基于K-means算法的课程信息确定方法的流程图。该基于K-means算法的课程信息确定方法可以应用在各种终端中，其中，所述终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备，此处并不限定。

基于图1示出的一实施例中，通过将获取所有用户的应用工具的使用习惯数据作为样本数据，并采用基于密度的聚类算法DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)对样本数据进行分类，得到样本数据的聚类数据簇，并剔除所述聚类数据簇的离散样本数据，得到第一数据簇，即该第一数据簇未包含经过聚类后确定出的离散样本数据，将第一数据簇作为K-means算法的输入数据，并将预设K值作为所述K-means算法的K值对第一数据簇进行聚类，得到目标聚类结果。本实施例通过利用基于密度的聚类算法DBSCAN剔除了经过聚类后确定出的离散样本数据，可使得K-means算法在选取初始聚类中心点以及初期迭代中心点时减少离群点的影响，可有效地提升聚类效果。具体地，如图1所示，该基于K-means算法的课程信息确定方法包括如下步骤：

S10：获取所有用户的应用工具的使用习惯数据，并将所述应用工具的使用习惯数据作为样本数据；

本发明实施例通过获取所有用户的应用工具的使用习惯数据，即所有用户使用的应用工具的习惯数据，以得到用于该聚类算法的样本数据。所述所有用户的应用工具的使用习惯数据，在其中的一实施例中，可理解为针对特定场景下需要对保险代理人或相关业务员的能力进行分群，以针对性地进行分群推课或安排相应的培训等。具体地，通过对保险代理人或其他相关业务员日常使用工具的习惯数据进行分群，所述日常使用工具可以为相关企业开发的业务应用程序等，所述应用工具的使用习惯数据可以为：如保险代理人为开展工作而日常使用相关的应用程序的历史数据。针对能力表现不同的保险代理人群体，通过获取所述保险代理人日常使用的应用程序的历史数据作为样本数据，所述样本数据如获取当前保险代理人群体中应用程序中使用具体业务的历史数据，示例性地，如获取应用程序中某一类业务的使用频率、使用时间或针对不同业务的使用习惯等，并对所述样本数据进行聚类，从而针对聚类的结果而采取差异化的推课、培训等措施，去提升相关保险代理人对应用程序使用的应用能力。相应地，通过获取所有用户的应用工具的使用习惯数据，并将所述应用工具的历史使用习惯数据作为样本数据。

S20：采用基于密度的聚类算法DBSCAN对所述样本数据进行聚类，得到所述样本数据的聚类数据簇，并剔除所述聚类数据簇的离散样本数据，得到第一数据簇。

本实施例中，基于密度的聚类算法，也即聚类算法DBSCAN，是其中一种聚类算法。在该步骤中，先是利用聚类算法DBSCAN对样本数据进行聚类，聚类后可得到输出的数据簇，同时，利用聚类算法DBSCAN输出数据簇的各个离散点，也即离散样本数据，在该步骤中，通过将聚类数据簇剔除聚类数据簇的离散样本数据，以使得到的第一数据簇未包含经过聚类后确定出的离散样本数据。本实施例通过先剔除经聚类算法DBSCAN聚类后确定出的离散样本数据，可以减少经过聚类后确定出的离散样本数据对K-means算法的质心选取和迭代效果的影响，以提高聚类效果的性能。

S30：将所述第一数据簇作为K-means算法的输入数据，并将预设K值作为所述K-means算法的K值对第一数据簇进行聚类，得到目标聚类结果；

S40：将所述目标聚类结果进行分群，根据分群的结果确定待培训用户的应用工具培训课程信息。

在经过步骤S20得到聚类算法DBSCAN输出的第一数据簇之后，将该第一数据簇作为K-means算法的输入簇，可以理解，在利用K-means算法进行聚类时，还需要确定K-means算法的K值，通过该步骤S30先确定K-means的预设K值，相应地，在K-means算法中将预设K值作为K-means算法的K值，并将预设K值作为所述K-means算法的K值对第一数据簇进行聚类，从而得到目标聚类结果，并将得到的目标聚类结果进行分群，则可以根据分群的结果确定待培训用户的应用工具培训课程信息。该实施例中得到了目标聚类结果，可将目标聚类结果对待培训用户的应用工具培训课程进行针对性地分类，从而对不同能力水平的待培训用户进行目的性的分类培训，以提升所述应用工具培训课程的培训效率。

基于图1所示的实施例的聚类算法中，先利用聚类算法DBSCAN对样本数据，即利用聚类算法DBSCAN对应用工具历史的使用数据进行聚类，从而可以得到聚类结果，并从聚类结果中剔除离群样本数据，剔除离群样本数据得到上述第一数据簇。由于在采用K-means聚类算法聚类时，会迭代求出质心，因此通过聚类算法DBSCAN，可减少离散数据点的影响，也即可以优化质心的求取，再利用剔除离散样本数据的第一数据簇进行K-means算法聚类，可提升最终得到的聚类效果。特别地，本实施例采用了聚类算法DBSCAN，该聚类算法DBSCAN是一种基于密度的聚类算法，聚类的时候不需要预先指定簇的个数，最终的簇的个数也不确定，将每一簇的数据集作为新的输入，并应用了K-means聚类算法进行聚类，由于K-means算法本身很难处理非球形的簇和不同大小的簇，利用聚类算法DBSCAN输出的簇数据作为K-means算法的输入，可以提升K-means算法在处理非球形的簇和不同大小的簇时的聚类效果，使得最后的聚类结果更为精确，因此根据目标聚类结果精确的确定了对工具使用能力的不同群体划分更为精确，在一应用场景中，有利于对待培训用户的应用工具培训课程信息进行分类，以便于针对后续队待培训用户采取差异性的推课、培训等措施，从而针对性的提升用户对使用工具的应用能力。

在一个具体实施方式中，如图2所示，所述预设K值通过如下步骤获取：

S301：确定所述样本数据的第一数据簇的簇数量；

S302：将所述样本数据作为降维算法的输入数据，将所述第一数据簇的簇数量作为降维算法的输出维度数，并根据降维算法对所述样本数据进行降维处理，得到第二数据簇；

上述步骤S301和S302，通过先确定所述样本数据的第一数据簇的簇数量，所述第一数据簇的簇数量可以为一个或者多个，此处并不限定。将所述样本数据作为降维算法的输入数据，将所述第一数据簇的簇数量作为降维算法的输出维度数。示例性地，如当前确认的样本数据为如业务A对应使用频率数据a、业务B对应使用频率数据b以及业务C对应使用频率数据c，当前确定的第一数据簇的簇数量为3，则可根据所述的“业务A对应使用频率数据a、业务B对应使用频率数据b以及业务C对应使用频率数据c”和“确定的第一数据簇的簇数量为3”分别作为所述降维算法的输入数据和所述降维算法的输出维度数，此处仅做举例，并不限定。

所述的降维算法，具体地，所述降维算法可采用统一流形近似和投影UMAP(Uniform Manifold Approximation and Projection)降维算法，当然还可以采用其他的如主成分分析PCA(Principal Components Analysis)或独立分量分析ICA(IndependentComponent Analysis)等方式的降维算法，此处并不限定。所述的流形近似和投影UMAP降维算法使用K-近邻的概念，并使用随机梯度下降来优化结果，可实现可视化的降维效果，从而得出最佳的K选值。所述的流形近似和投影UMAP降维算法首先计算高维空间中各个的点之间的距离，并将计算高维空间中各个的点之间的距离投影到低维空间和计算该低维空间中的各个点之间的距离。然后，再通过使用随机梯度下降来最小化这些距离之间的差异。具体地，通过将样本数据作为降维算法的输入数据，将步骤S301所确定的第一数据簇的簇数量作为降维算法的输出维度，利用统一流形近似和投影UMAP降维对所述样本数据计算所述样本数据中各点之间的距离，并将所述样本数据点之间的距离投影到低维空间和计算该样本数据低维空间中的点之间的距离，通过使用随机梯度下降，最小化所述样本数据低维空间中的点之间距离之间的差异，进而可求得所述第二数据簇。

S303：确定所述第二数据簇中各个数据簇之间的簇类别距离；

所述确定第二数据簇中各个数据簇之间的簇类别距离，即确定第二数据簇中不同类别数据簇之间的距离。示例性地，设所述第二数据簇其中的一类簇为A、所述第二数据簇其中的另一类簇为B，总共则需要计算A和B的簇类别距离。对于数据簇A和数据簇B之间的距离，可以通过先确定数据簇A和数据簇B的中心点，进而计算两个中心点的距离，其中，所述距离可以是欧氏距离测量方法，除此之外，还可以选择曼哈顿距离、切比雪夫距离、马氏距离、夹角余弦距离、相关系数距离等距离测量方法，此处并不限定。

S304：根据所述第二数据簇中各个数据簇之间的簇类别距离对第二数据簇进行归纳处理，并确定归纳后的第二数据簇的归纳类别簇数量。

S305：将所述归纳类别簇数量作为预设K值。

根据步骤S304中第二数据簇中各个数据簇之间的簇类别距离对第二数据簇进行归纳处理，从而得到具体的归纳类别数据，以得到所述的预设K值。

本实施例中，通过先确定样本数据的第一数据簇的簇数量，根据所述第一数据簇的簇数量作为降维维度，并利用统一流形近似和投影UMAP降维算法的方式确定第二数据簇中各个数据簇之间的簇类别距离，从而得到第二数据簇的归纳类别簇数量，即根据归纳类别簇数量可得到预设的K值，将预设K值作为K-means算法的K值，根据K-means算对第一数据簇进行聚类，从而可得到目标聚类结果。本实施例中利用了统一流形近似和投影UMAP方式，结合了可视化的强大功能和减少数据维度的能力，除了保留本地结构外，它还保留了数据的全局结构。统一流形近似和投影UMAP算法将流形上的附近点映射到低维表示中的附近点，适用于大型的数据集和高维数据。

在一个具体的实施例中，如图3所示，步骤S304中，也即所述根据第二数据簇中各个数据簇之间的簇类别距离对第二数据簇进行归纳处理，并确定归纳后的第二数据簇的归纳类别簇数量，具体包括如下步骤：

S3041：将所述第二数据簇中各个数据簇之间的簇类别距离小于或等于第一预设距离的所有数据簇归为一簇类别；

S3042：将所述第二数据簇中各个数据簇之间的簇类别距离大于第一预设距离的其他数据簇各自归为一簇类别；

上述步骤S3041和步骤S3042中，所述第二数据簇中各个数据簇的个数可以是一个或者多个，当所述第二数据簇中各个数据簇的个数为多个时，可根据实际预设距离条件的不同，所述预设距离可以包括不同聚类簇之间的距离阈值，或者是距离按照大小排序后指定序位的距离所对应不同聚类簇之间的距离，此处并不限定。具体地，通过上述步骤S303列举的算法，如欧氏距离、曼哈顿距离、切比雪夫距离、马氏距离、夹角余弦距离、相关系数距离等距离测量方法，此处并不限定，可计算出所述第二数据簇中各个数据簇之前的簇类别距离。在得到所述的第二数据簇中各个数据簇之前的簇类别距离后，将第二数据簇中各个数据簇之间的簇类别距离小于或等于第一预设距离时，即将该簇类别中小于或等于所述第一预设距离的所有数据簇归为一簇类别；当将第二数据簇中各个数据簇之间的簇类别距离大于第一预设距离时，即将该簇类别中所有大于所述第一预设距离的其他所有数据簇各自归为一簇类别。

S3043：将归纳后的第二数据簇的簇类别的总数量作为所述归纳类别簇数量。

即根据步骤SS3041和步骤S3042中确定的所述第二数据簇的簇类别的总数量，可得到所述的归纳类别簇数量。

本实施例提出了一种具体利用DBSCAN算法优化K-means算法中K值的选取的方式，由于利用DBSCAN算法已经优化了K-means算法中的输入数据和输出的簇数量，本方案可以利用DBSCAN算法输出的簇数量优化K-means算法的输出簇数量。具体地，通过利用降维算法确定如聚类算法DBSCAN算法输出的各个簇的簇距离，将簇距离近的归为一类，具体可通过采用如UMAP统一流形近似和投影的降维算法输出可视化效果的聚类效果图，通过采用聚类算法DBSCAN对样本数据进行聚类之后，得到了20个簇，此时，利用降维算法进一步优化簇数据，并确定各个簇距离，最后根据事先设定的第一预设距离将簇距离近的归为一类。如图4中标号区域A1，所述区域A1中部分的各个数据簇通过计算满足各个数据簇之间的簇类别距离小于或等于第一预设距离，则将区域A1中所有的簇归为一类，即区域A1中的13簇归为一类；区域A1外的A2、A3...A8的其他7簇各自归为一个类，即区域A2-A8中的7簇为各归为7类，则可得知图4中共有8类簇，从而将8类簇作为所述的预设K值，以得到后续K-means算法的K值，本实施例可减少由于传统上随机选取K值所带来的聚类效果不佳的情况，从而减少了对K值选取的随机性，可提高聚类效果。

在一个具体的实施例中，如图5所示，所述将所述第一数据簇作为K-means算法的输入数据，并将预设K值作为所述K-means算法的K值对第一数据簇进行聚类，得到目标聚类结果，具体包括如下步骤：

S311：根据所述预设K值和第一数据簇确定初始的K个簇的质心；

步骤S311中，所述根据所述预设K值和第一数据簇确定初始的K个簇的质心，在一个具体的实施例中，如图6所示，步骤S311中，所述根据所述预设K值和第一数据簇确定初始的K个簇的质心，具体包括如下步骤：

S3111：从所述第一数据簇中的样本数据中随机选取一个样本数据点作为第一个聚类中心；

步骤S3111中，所述从所述第一数据簇中的样本数据中随机选取一个样本数据点作为第一个聚类中心，通过随机选取第一数据簇中的样本数据中的一个样本数据点作为第一个聚类中心。当前对于第一数据簇而言，所述第一数据簇的聚类中心还没确定，则需通过随机选取第一数据簇中的样本数据中的一个样本数据点作为第一个聚类中心，示例性地，设所述第一数据簇有多个样本数据如样本数据1、样本数据2...样本数据N，对应地从所述第一数据簇随机选取的样本数据作为聚类中心则为：如样本数据1作为第一个聚类中心，样本数据2作为第一个聚类中心、样本数据3作为第一个聚类中心、样本数据3作为第一个聚类中心...样本数据N作为第一个聚类中心，此处并不限定。

S3112：计算所述第一数据簇中的每个样本数据与已选取的聚类中心的距离D；

S3113：选取新的样本数据点作为新的聚类中心，其中，所述选取原则为：D最大的样本数据点被选中；

上述步骤S3112和步骤S3113中，在步骤S3111基础上，所述的第一数据簇涉及N个样本数据，所述的N个样本数据可对应地随机选取了N个聚类中心，此时即可开始计算和比较第一数据簇中各N点和对应的第一个聚类中心之间的距离，所述的计算和比较第一数据簇中各N点和第一个聚类中心之间的距离，可以采用欧式距离、余弦相似度、曼哈顿距离、切比雪夫距离等算法求得，此处并不限定。

具体地，所述步骤S3113中，所述选取新的样本数据点作为新的聚类中心，所述新的聚类中心区别于步骤S3111的第一个聚类中心，此处并不限定。所述选择的原则是：D最大的样本数据点被选中，所述被选中的样本数据点为聚类中心的概率较大。

S3114：重复所述计算第一数据簇中的每个样本数据与已选取的聚类中心的距离D和选取新的样本数据点作为新的聚类中心的过程，直至K个聚类中心被选出；

上述步骤S3112-S3114中，通过计算先随机选取确定第一数据簇中的样本数据中一个样本数据点作为第一个聚类中心，并计算第一数据簇中的每个样本数据与已选取的聚类中心的距离D，通过步骤S3114：重复步骤S3112和步骤S3113的过程，即重复所述计算第一数据簇中的每个样本数据与已选取的聚类中心的距离D和选取新的样本数据点作为新的聚类中心的过程，直至K个聚类中心被选出，即通过不断循环步骤S3112和步骤S3113，直至得到K个聚类中心，K个聚类中心被选出。

S3115：将选取的所述K个聚类中心作为初始的K个簇的质心。

本实施例通过步骤S3111-S3115，根据预设K值，按照初始的聚类中心之间的相互距离要尽可能的远的思想，将第一数据簇的各个簇中心中选取K个中心作为初始的K个簇的质心，可进一步优化对质心的选取。在另一些实施方案中，除了上述方式外，还可以有简单的处理方式，例如，直接从第一数据簇中样本数据中随机选取K样本数据点作为初始的K个簇的质心，本发明实施例不做限定。

在另一个实施方式中，确定所述K个聚类中心，从而得到所述初始的K个簇的质心，还可以通过选择批次距离尽可能远的K个点，即随机选择一个点作为第一个聚类中心，然后选择距离该点最远的那个点作为第二个聚类中心点然后再选择距离前两个点的最近距离最大的点作为第三个聚类中心点以此类推，直至选出K个聚类中心点

在另一个实施例中，确定所述K个聚类中心，从而得到所述初始的K个簇的质心，还可以通过层次聚类算法或者Canopy聚类算法进行聚类，在得到K个簇之后，从每个类簇中选择一个点，该点可以是该类簇的中心点，或者是距离类簇中心点最近的一个点。具体地，通过选用层次聚类算法或者Canopy聚类算法进行初始聚类，然后利用这些类簇的中心点作为K-means算法初始类簇中心点。常用的层次聚类算法有BIRCH(Balanced IterativeReducing and Clustering Using Hierarchies)聚类算法和ROCK(Robust ClusteringUsing links)聚类算法，在此不作详细介绍。

S312：计算其他每个样本数据与所述K个簇中各个簇的质心之间的距离，所述其他每个样本数据为所述第一数据簇中除K个样本数据外的每个样本数据；

S313：确定所述其他每个样本数据与所述K个簇中各个簇的质心之间的距离中距离最小的簇；

上述步骤S311中，通过步骤S3111-S3115可得到初始的K个簇的质心。步骤S312中，所述计算其他每个样本数据与所述K个簇中各个簇的质心之间的距离，所述其他每个样本数据为所述第一数据簇中除K个样本数据外的每个样本数据，示例性地，设所述其他每个样本数据的数量为i，所述其他每个样本数据已经剔除所述的K个样本数据，通过计算数量为i的其他样本数据与所述K个簇中各个簇的质心之间的距离，具体地亦可通过欧式距离、余弦相似度、曼哈顿距离、切比雪夫距离等算法求得，此处并不限定。

所述确定所述其他每个样本数据与所述K个簇中各个簇的质心之间的距离中距离最小的簇，根据步骤S312可得到所述其他每个样本数据与所述K个簇中各个簇的质心之间的距离中距离，从所述计算的距离挑选最小的簇。

S314：将所述其他每个样本数据对应聚类至K个簇中距离最小的簇中得到目标聚类结果。

通过步骤S311-步骤S314，通过计算其他每个样本数据与所述K个簇中各个簇的质心之间的距离，所述其他每个样本数据为所述第一数据簇中除K个样本数据外的每个样本数据，确定所述其他每个样本数据与所述K个簇中各个簇的质心之间的距离中距离最小的簇，即可得到所述的目标聚类结果。

本实施例中，通过先确定初始K个簇的质心，从而计算其他每个样本数据与K个簇中各个簇的质心之间的距离并确定最小的簇，以使在K个簇中的其他样本数据点与所在簇质心的误差平方和达到最小，即SSE(Sum of Squared Error)达到最小；另外，本实施例中的其他样本数据并未包括K个样本数据外的每个样本数据，可有效地减少K-means算法对质心选取和迭代效果的影响，从而提高聚类的效果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2

图7示出与实施例1中基于K-means算法的课程信息确定方法一一对应的基于K-means算法的课程信息确定装置的原理框图。具体地，如图7所示，该基于K-means算法的课程信息确定装置包括获取模块10、第一聚类模块20、K值获取模块30、第二聚类模块40和课程信息确定模块50。其中，获取模块10、第一聚类模块20、K值获取模块30、第二聚类模块40和课程信息确定模块50的实现功能与实施例1中基于K-means算法的课程信息确定方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

获取模块10，用于获取所有用户的应用工具的使用习惯数据，并将应用工具的使用习惯数据作为样本数据；

第一聚类模块20，用于聚类采用基于密度的聚类算法DBSCAN对样本数据进行聚类，得到样本数据的聚类数据簇，并剔除所述聚类数据簇的离散样本数据，得到第一数据簇；

K值获取模块30，用于确定样本数据的第一数据簇的簇数量；

将样本数据作为降维算法的输入数据，将第一数据簇的簇数量作为降维算法的输出维度数，并根据降维算法对样本数据进行降维处理，得到第二数据簇；

确定第二数据簇中各个数据簇之间的簇类别距离；

根据第二数据簇中各个数据簇之间的簇类别距离对第二数据簇进行归纳处理，并确定归纳后的第二数据簇的归纳类别簇数量作为预设K值。

第二聚类模块40，用于输出将第一数据簇作为K-means算法的输入数据，将预设K值作为K-means算法的K值，根据K-means算对第一数据簇进行聚类，得到目标聚类结果；

课程信息确定模块50，用于根据目标聚类结果确定待培训用户的应用工具培训课程信息。

优选地，K值获取模块30还用于：

将所述第二数据簇中各个数据簇之间的簇类别距离小于或等于第一预设距离的所有数据簇归为一簇类别；

将所述第二数据簇中各个数据簇之间的簇类别距离大于第一预设距离的其他数据簇各自归为一簇类别；

将归纳后的第二数据簇的簇类别的总数量作为所述归纳类别簇数量。

优选地，第二聚类模块40还用于：

根据所述预设K值和所述第一数据簇确定初始的K个簇的质心；

计算其他每个样本数据与所述K个簇中各个簇的质心之间的距离，所述其他每个样本数据为所述第一数据簇中除K个样本数据外的每个样本数据；

确定所述其他每个样本数据与所述K个簇中各个簇的质心之间的距离中距离最小的簇；

将所述其他每个样本数据对应聚类至所述K个簇中距离最小的簇中得到目标聚类结果。

优选地，第二聚类模块40还用于：

从所述第一数据簇中的样本数据中随机选取一个样本数据点作为第一个聚类中心；

计算所述第一数据簇中的每个样本数据与已选取的聚类中心的距离D；

选取新的样本数据点作为新的聚类中心，其中，所述选取原则为：D最大的样本数据点被选中；

重复所述计算所述第一数据簇中的每个样本数据与已选取的聚类中心的距离D和选取新的样本数据点作为新的聚类中心的过程，直至K个聚类中心被选出；

将选出的所述K个聚类中心作为所述初始的K个簇的质心。

关于基于K-means算法的课程信息确定装置的具体限定可以参见上文中对于基于K-means算法的课程信息确定方法的限定，在此不再赘述。上述基于K-means算法的课程信息确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

实施例3

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1中基于K-means算法的课程信息确定方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例2中基于K-means算法的课程信息确定装置中各模块、子模块、单元的功能，为避免重复，这里不再赘述。可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号和电信信号等。

图8是本发明一实施例提供的计算机设备的示意图。如图8所示，该实施例的计算机设备60包括：处理器61、存储器62以及存储在存储器62中并可在处理器61上运行的计算机程序63。处理器61执行计算机程序63时实现上述实施例1中基于K-means算法的课程信息确定方法的步骤，例如图1所示的步骤S10至S40。或者，处理器61执行计算机程序63时实现上述实施例2的基于K-means算法的课程信息确定装置中各模块、子模块、单元的功能，例如图7所示获取模块10、第一聚类模块20、K值获取模块30、第二聚类模块40和课程信息确定模块50等模块的功能。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SynchlinK)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块、子模块和单元完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于K-means算法的课程信息确定方法，其特征在于，包括：

获取所有用户的应用工具的使用习惯数据，并将所述应用工具的使用习惯数据作为样本数据，所述使用习惯数据包括应用程序中某一类业务的使用频率；

确定所述样本数据的所述第一数据簇的簇数量，所述簇数量表征了所述某一类业务的数量；

将所述某一类业务中各业务的使用频率数据作为输入数据，将所述某一类业务的数量作为降维算法的输出维度数，根据降维算法对所述样本数据进行降维处理，得到第二数据簇；

确定所述第二数据簇中各个数据簇之间的簇类别距离；

2.如权利要求1所述的基于K-means算法的课程信息确定方法，其特征在于，所述的降维算法为统一流形近似和投影UMAP降维算法。

3.如权利要求1所述的基于K-means算法的课程信息确定方法，其特征在于，所述根据第二数据簇中各个数据簇之间的簇类别距离对第二数据簇进行归纳处理，并确定所述归纳后的第二数据簇的归纳类别簇数量，包括：

4.如权利要求1所述的基于K-means算法的课程信息确定方法，其特征在于，所述将所述第一数据簇作为K-means算法的输入数据，并将预设K值作为所述K-means算法的K值对第一数据簇进行聚类，得到目标聚类结果，包括：

5.如权利要求4所述的基于K-means算法的课程信息确定方法，其特征在于，所述根据所述预设K值和第一数据簇确定初始的K个簇的质心，包括：

将选出的所述K个聚类中心作为所述初始的K个簇的质心。

6.一种基于K-means算法的课程信息确定装置，其特征在于，包括：

获取模块，用于获取所有用户的应用工具的使用习惯数据，并将所述应用工具的使用习惯数据作为样本数据，所述使用习惯数据包括应用程序中某一类业务的使用频率；

K值获取模块，用于确定所述样本数据的所述第一数据簇的簇数量，所述簇数量表征了所述某一类业务的数量；

将所述某一类业务中各业务的使用频率数据作为输入数据，将所述某一类业务的数量作为降维算法的输出维度数，并根据降维算法对所述样本数据进行降维处理，得到第二数据簇；

确定所述第二数据簇中各个数据簇之间的簇类别距离；

7.如权利要求6所述的基于K-means算法的课程信息确定装置，其特征在于，所述K值获取模块还用于：

8.如权利要求6所述的基于K-means算法的课程信息确定装置，其特征在于，所述第二聚类模块还用于：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于K-means算法的课程信息确定方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于K-means算法的课程信息确定方法的步骤。