CN111027585A

CN111027585A - 一种基于k-means++质心初始化的k-means算法硬件实现方法及系统

Info

Publication number: CN111027585A
Application number: CN201911026337.9A
Authority: CN
Inventors: 李丽; 周禹辰; 傅玉祥; 何国强; 何书专; 李伟
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-04-17
Anticipated expiration: 2039-10-25
Also published as: CN111027585B

Abstract

本发明涉及一种基于k‑means++质心初始化的k‑means算法硬件实现方法及系统，包括主控制模块，为算法实现提供控制和重构信息；存储控制模块，控制数据传输和存储；质心初始化模块，基于k‑means++算法初始化质心；聚类运算模块，基于距离比较获得聚类结果；质心更新模块，通过各类别平均值计算更新质心；阈值比较模块，用于判断质心是否收敛。该硬件实现方法充分利用硬件的并行性，用k‑means++质心初始化方案替代随机质心初始化方案，提高算法收敛速度；采用硬件友好的距离计算方案；支持可重构，通过配置可重构计算阵列构建各模块运算单元；支持不同特征数的样本进行多类别聚类计算。

Description

一种基于k-means++质心初始化的k-means算法硬件实现方法及系统

技术领域

本发明属于机器学习算法的硬件实现领域，尤其是一种基于k-means++质心初始化的k-means算法硬件实现方法。

背景技术

在实际应用中，因为缺乏先验条件，有些数据的人工标签标注困难且成本较高。此时，无标签的非监督学习（unsupervised learning）能够提供更好应用效果。聚类（clustering）是无监督学习中的经典问题，通过计算数据的相似度，将相似的数据归类，形成各个类别。

k-means算法是非监督学习（unsupervised learning）中一种应用广泛的聚类算法。这是一种基于距离的聚类算法，算法的核心思想是：在一个数目为N，维度为D的数据集中，初始化K个数据点作为初始聚类中心，计算每个数据点与质心的距离，按照就近原则，将数据点和距离它最近的质心分为一类，形成K个类别；然后计算出每个类别数据点的平均值作为新的聚类中心，循环迭代，直到各质心的值收敛，各数据点到其质心距离之和达到最小。

在传统的k-means算法实现中，往往采取随机生成初始化质心的方式。但k-means算法对质心初始化的依赖性较高，这种初始化方式原理上虽然十分简单，却在算法后续的迭代中，容易出现迭代次数过多，迭代结果聚类效果差的问题，为此，采用k-means初始化代替随机初始化的传统方案，k-means++质心初始化方案只随机选取第一个质心，此后依次选取与当前各质心最小距离最远的数据点作为下一质心。

发明内容

发明目的：一个目的是提供一种基于k-means++质心初始化的k-means算法硬件实现方法，以解决现有技术存在的上述问题。进一步目的是提供一种实现上述方法的系统。

技术方案：一种基于k-means++质心初始化的k-means算法硬件实现方法，包括以下步骤：

步骤1、主控制模块控制算法实现整体流程，提供配置信息，并对运算资源重构；

步骤2、存储控制模块控制数据的传输和存储；

步骤3、质心初始化模块通过k-means++算法计算初始化质心，使质心相互间距离最远，从而提高后续迭代收敛速度；

步骤4、聚类运算模块计算数据点到各质心的距离，按就近原则进行聚类；

步骤5、质心更新模块通过对各类求平均，更新质心坐标；

步骤6、阈值比较模块计算更新前后质心间距离，比较该距离与阈值间的大小，判断质心是否收敛。

在进一步的实施例中，主控制模块接收系统启动信号，启动质心初始化模块，初始化运算完成后得到质心，随后启动聚类运算模块，获得相应的类别标签并存储，继而启动质心更新模块。依据类别标签，对各类数据点求平均，更新质心，最后进入阈值比较模块，计算更新前后质心的距离，与阈值作比较。判断运算是否收敛，若收敛，结束运算，获得聚类结果，反之，则返回聚类运算模块，重复上述后续流程，直至质心收敛。

在进一步的实施例中，质心初始化模块、聚类运算模块、质心更新模块、以及阈值比较模块共享同一组计算资源，通过改变计算阵列间基本运算单元的拓扑结构和互连关系，动态重构成所需的计算结构。

在进一步的实施例中，质心初始化模块采用k-means++算法进行质心初始化，此时计算阵列重构为初始化运算单元，包括8个并行的距离计算单元和8端口输入的比较树；首先通过距离计算单元计算各数据点到现有质心的距离，再将该距离输入比较树，选出到现有质心最近距离最大的数据点作为下一质心。

在进一步的实施例中，距离计算的硬件实现采用硬件友好的欧式距离方案，基于算法仅需要距离间大小关系的特征，实现时保留原欧式距离的乘加运算，舍去最后硬件实现复杂度高的开方运算，该距离运算单元采用全流水设计。

在进一步的实施例中，质心更新模块中，计算阵列重构成质心更新计算单元，包括16端口的加法树、累加器、定浮转换和除法器，对质心更新进行并行加速；各类别数据点通过加法树和累加器求和，同时，计数器将收集的各类别的数据点个数，经FIFO缓存后，再进入定浮转换变为浮点型，最后将求和结果和浮点数格式的数据点个数输入除法器，计算出新的质心；该模块通过分时复用运算资源，使得计数和求和运算并行开展，多次求和运算向量间也设计为并行计算模式，从而提高硬件实现效率。

在进一步的实施例中，聚类运算模块中，计算阵列重构为聚类计算单元，包括累加器，比较器，复数加法器和复数乘法器；各数据点和质心依次通过复数加法器，复数乘法器和累加器获得两者间距离，再通过比较器选出到该数据点距离最近的质心，从而对数据点聚类；该运算单元支持8路并行，支持向量间流水运算。

一种基于k-means++质心初始化的k-means算法硬件实现方法，主要包括以下模块：

控制算法实现整体流程、提供配置信息的主控制模块；

控制数据的传输和存储的存储控制模块；

通过k-means++算法计算初始化质心、使质心相互间距离最远、从而提高后续迭代收敛速度的质心初始化模块；

计算数据点到各质心的距离、按就近原则进行聚类的聚类运算模块；

通过对各类求平均、更新质心坐标的质心更新模块；

计算更新前后质心间距离、比较该距离与阈值间的大小、判断质心是否收敛的阈值比较模块。

在进一步的实施例中，所述主控制模块进一步用于接收系统启动信号，启动质心初始化模块，初始化运算完成后得到质心，启动聚类运算模块，获得相应的类别标签并存储，然后启动质心更新模块，依据类别标签，对各类求平均，更新质心，最后进入阈值比较模块，计算更新前后质心距离，判断运算是否收敛，若收敛，结束运算，获得聚类结果，反之，则返回聚类运算模块，重复上述后续流程，直至运算收敛；

所述质心初始化模块、聚类运算模块、质心更新模块、以及阈值比较模块共享同一组计算资源，通过改变计算阵列间基本运算单元的拓扑结构和互连关系，动态重构成所需的计算结构；

所述质心初始化模块进一步采用k-means++算法进行质心初始化，此时计算阵列重构为初始化运算单元，包括8个并行的距离计算单元和8端口输入的比较树；首先通过距离计算单元计算各数据点到现有质心的距离，再将该距离输入比较树，选出到现有质心最近距离最大的数据点作为下一质心；

所述质心更新模块中进一步用于计算阵列重构成质心更新计算单元，包括16端口的加法树、累加器、定浮转换和除法器，对质心更新进行并行加速；各类别数据点通过加法树和累加器求和，同时，计数器将收集的各类别的数据点个数，经FIFO缓存后，再进入定浮转换变为浮点型，最后将求和结果和浮点数格式的数据点个数输入除法器，计算出新的质心；

所述聚类运算模块中进一步用于计算阵列重构为聚类计算单元，包括累加器、比较器、复数加法器和复数乘法器；各数据点和质心依次通过复数加法器，复数乘法器和累加器获得两者间距离，再通过比较器选出到该数据点距离最近的质心，从而对数据点聚类。

有益效果：本发明涉及一种基于k-means++质心初始化的k-means算法硬件实现方法，通过k-means++进行质心初始化，采用硬件友好的距离计算方案，充分利用硬件的并行性，支持计算资源可重构，支持流水操作，提高k-means的运算速度，支持不同特征维度的数据多类别的聚类需求。

附图说明

图1为本发明中k-means硬件实现流程图。

图2为本发明中k-means硬件实现架构图。

图3为本发明中距离计算单元示意图。

图4为本发明中质心初始化模块运算单元示意图。

图5为本发明中聚类运算模块运算单元示意图。

图6为本发明中质心更新模块运算单元示意图。

图7为本发明中阈值比较模块运算单元示意图。

具体实施方式

申请人认为，传统的k-means算法往往采取随机生成初始化质心的方式，该算法对质心初始化的依赖性较高，这种初始化方式原理上虽然十分简单，却在算法后续的迭代中，容易出现迭代次数过多，迭代结果聚类效果差的问题。而申请人认为，在k-means算法实现中，支持计算资源重构、支持并行和流水操作、采用硬件友好的距离计算方案是至关重要的。

为解决现有技术存在的问题，本发明提出了一种基于k-means++质心初始化的k-means算法硬件实现方法，通过k-means++进行质心初始化，采用硬件友好的距离计算方案，支持计算资源可重构，支持并行和流水操作，从而提高计算速度，支持不同特征维度的数据多类别的聚类需求。

下面通过实施例，并结合附图，对本发明的技术方案做进一步具体说明。

k-means是一种常用的无监督聚类算法,适用于数据分析、图像压缩、图像识别等诸多领域。k-means算法的硬件实现流程可分为如下步骤，如图1所示：

step1：初始化质心，采用k-means++质心初始化方案，随机初始化第一个质心，然后依次选择与所有现有质心的最小距离最远的数据点作为质心。主控制模块接收系统启动信号，启动质心初始化模块，初始化运算完成后得到质心，随后启动聚类运算模块，获得相应的类别标签并存储，继而启动质心更新模块。依据类别标签，对各类数据点求平均，更新质心，最后进入阈值比较模块，计算更新前后质心的距离，与阈值作比较。判断运算是否收敛，若收敛，结束运算，获得聚类结果，反之，则返回聚类运算模块，重复上述后续流程，直至质心收敛。

step2：聚类，计算数据点到各质心的距离，比较到各质心的距离，将数据点与离自身距离最近的质心分为一类。距离计算的硬件实现采用硬件友好的欧式距离方案，基于算法仅需要距离间大小关系的特征，实现时保留原欧式距离的乘加运算，舍去最后硬件实现复杂度高的开方运算，该距离运算单元全流水。

step3：更新质心，将各类的数据点求平均，平均后的结果为新的质心。计算阵列重构成质心更新计算单元，包括加法树，累加器，定浮转换和除法器，对质心更新进行并行加速；各类别中的数据点通过加法和累加器求和，同时，计数器将收集的各类别的数据点个数，经定浮转换变为浮点型，最后将求和结果和浮点数格式的数据点个数输入除法器，计算出新的质心。

step4: 计算新旧质心的距离，判断其是否小于阈值，如果小于阈值，计算结束，反之，则回到step2，重复上述步骤，直至该距离小于阈值。

针对以上所述流程，本实施例提供的基于k-means++质心初始化的k-means算法硬件实现方法，其架构如图2所示：包括质心初始化模块，用于实现前文step1中k-means++质心初始化；聚类运算模块，用于实现前文step2中数据点聚类；质心更新模块，用于实现前文step3中聚类中心更新；阈值比较模块，用于实现前文step4中阈值比较；主控制器，用于控制算法实现的整体流程和状态跳转，并将可重构计算阵列重构为上述模块所需运算单元；存数控制器，控制数据存储和传输，根据主控制器的状态信号，通过MUX选通不同状态下bank对应的读写信号、地址信号和片选信号。

质心初始化模块，聚类运算模块，质心更新模块和阈值比较模块共享计算资源，通过改变基本运算单元的拓扑结构和互连关系，动态重构成所需的计算结构。质心初始化模块采用k-means++算法进行质心初始化，在该模块中，计算阵列重构为初始化运算单元，包括8个并行的距离计算单元和一个8端口输入的比较树；距离计算单元计算各数据点到现有质心的距离，随后将该距离输入比较树选出到现有质心最近距离最大的数据点作为下一质心。聚类运算模块中，计算阵列重构为聚类计算单元，包括累加器，比较器，复数加法器和复数乘法器；各数据点和质心依次通过复数加法器，复数乘法器和累加器获得两者间距离，再通过比较器选出到该数据点距离最近的质心，从而对数据点聚类；该运算单元支持8路并行，支持向量间流水运算。

k-means是基于距离的聚类算法，比较常用的距离方案包括曼哈顿距离，欧式距离等。本实施例采用欧式距离作为判断依据，针对数据点

和数据点

，两点之间的欧式距离计算如下：

在k-均值算法的实现过程，不同距离间只有比较运算，而同时对距离做平方运算并不影响距离间的大小关系。为此，本实施例针对此算法特性，提出硬件友好的欧式距离实现方案，取消开方运算，只保留乘加运算，如下：

距离运算单元的硬件实现如图3，包括一个复数乘法器，一个复数加法器和三个实数加法器。该距离运算单元采用全流水的设计。

下面介绍不同模块运算单元：

本实施例质心初始化模块运算单元如图4，基于上文所述距离运算单元实现，通过距离计算单元计算数据点到各质心的距离，距离计算8路并行，通过第一级比较器获得单一数据点到各质心的最近距离，并将不同数据点到各质心的最近距离送入比较树，选出到各质心最近距离最大的数据点，作为下一质心。该运算单元支持流水运算。

本实施例聚类运算模块运算单元如图5，基于上文所述距离运算单元实现，通过距离计算单元计算数据点到各质心的距离，经比较器获得距离大小关系，计数器记录当前质心类别，通过距离大小关系，将数据点和与其距离最近的质心归为一类，完成聚类运算。以上运算单元支持流水运算，在聚类运算模块采用了多路（8路）并行设计。

本实施例质心更新模块运算单元实现如图6，通过8端口加法树和累加器完成同一类别内不同数据点的求和，计数器记录不同类别数据点的个数，并经FIFO缓存，从而实现不同求和计数运算时域上的并行。

本实施例的阈值比较模块运算单元实现如图7，通过计算新老质心间距离，与阈值相比较，如果小于阈值，运算结束，给出finish信号，反之给出restart信号，重新进行聚类运算。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种基于k-means++质心初始化的k-means算法硬件实现方法，其特征是包括以下步骤：

步骤1、主控制模块控制算法实现整体流程，提供配置信息；

步骤2、存储控制模块控制数据的传输和存储；

步骤5、质心更新模块通过对各类求平均，更新质心坐标；

2.根据权利要求1所述的基于k-means++质心初始化的k-means算法硬件实现方法，其特征在于，所述步骤1进一步为：

主控制模块接收系统启动信号，启动质心初始化模块，初始化运算完成后得到质心，启动聚类运算模块，获得相应的类别标签并存储，然后启动质心更新模块，依据类别标签，对各类求平均，更新质心，最后进入阈值比较模块，计算更新前后质心距离，判断运算是否收敛，若收敛，结束运算，获得聚类结果，反之，则返回聚类运算模块，重复上述后续流程，直至运算收敛。

3.根据权利要求1所述的基于k-means++质心初始化的k-means算法硬件实现方法，其特征在于：质心初始化模块、聚类运算模块、质心更新模块、以及阈值比较模块共享同一组计算资源，通过改变计算阵列间基本运算单元的拓扑结构和互连关系，动态重构成所需的计算结构。

4.根据权利要求1所述的基于k-means++质心初始化的k-means算法硬件实现方法，其特征在于，所述步骤3进一步为：

质心初始化模块采用k-means++算法进行质心初始化，此时计算阵列重构为初始化运算单元，包括8个并行的距离计算单元和8端口输入的比较树；首先通过距离计算单元计算各数据点到现有质心的距离，再将该距离输入比较树，选出到现有质心最近距离最大的数据点作为下一质心。

5.根据权利要求4所述的基于k-means++质心初始化的k-means算法硬件实现方法，其特征在于：距离计算的硬件实现采用硬件友好的欧式距离方案，基于算法仅需要距离间大小关系的特征，实现时保留原欧式距离的乘加运算，舍去最后硬件实现复杂度高的开方运算，该距离运算单元采用全流水设计。

6.根据权利要求3所述的基于k-means++质心初始化的k-means算法硬件实现方法，其特征在于，所述步骤5进一步为：

质心更新模块中，计算阵列重构成质心更新计算单元，包括16端口的加法树、累加器、定浮转换和除法器，对质心更新进行并行加速；各类别数据点通过加法树和累加器求和，同时，计数器将收集的各类别的数据点个数，经FIFO缓存后，再进入定浮转换变为浮点型，最后将求和结果和浮点数格式的数据点个数输入除法器，计算出新的质心。

7.根据权利要求1所述的基于k-means++质心初始化的k-means算法硬件实现方法，其特征在于，所述步骤4进一步为：

聚类运算模块中，计算阵列重构为聚类计算单元，包括累加器、比较器、复数加法器和复数乘法器；各数据点和质心依次通过复数加法器，复数乘法器和累加器获得两者间距离，再通过比较器选出到该数据点距离最近的质心，从而对数据点聚类。

8.一种基于k-means++质心初始化的k-means算法硬件实现方法，其特征在于包括以下模块：

控制算法实现整体流程、提供配置信息的主控制模块；

控制数据的传输和存储的存储控制模块；

通过对各类求平均、更新质心坐标的质心更新模块；

9.如权利要求8所述的基于k-means++质心初始化的k-means算法硬件实现方法，其特征在于：

所述主控制模块进一步用于接收系统启动信号，启动质心初始化模块，初始化运算完成后得到质心，启动聚类运算模块，获得相应的类别标签并存储，然后启动质心更新模块，依据类别标签，对各类求平均，更新质心，最后进入阈值比较模块，计算更新前后质心距离，判断运算是否收敛，若收敛，结束运算，获得聚类结果，反之，则返回聚类运算模块，重复上述后续流程，直至运算收敛；