CN116662834B

CN116662834B - 基于样本风格特征的模糊超平面聚类方法及装置

Info

Publication number: CN116662834B
Application number: CN202310658659.5A
Authority: CN
Inventors: 顾苏杭; 朱培逸; 鲁明丽; 从金亮; 丁卫
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2024-01-12
Anticipated expiration: 2043-06-05
Also published as: CN116662834A

Abstract

本公开实施例涉及机器学习领域，提供一种基于样本风格特征的模糊超平面聚类方法及装置，方法包括：建立保留样本的物理特征同时挖掘样本的风格特征的表征形式；基于表征形式和给定的数据集，建立基于物理特征和风格特征的模糊超平面聚类模型的初始目标函数；利用表征形式对应的正则化项和关于不同聚类中心的软间隔，对初始目标函数进行优化，得到更新后的目标函数；将更新后的目标函数的优化问题分解为基于表征形式的一系列子问题；基于一系列子问题确定更新后的目标函数的参数，求解出表征形式；基于求解出的表征形式对数据集中的样本进行聚类分析，得到数据集对应的预测类别标签集。本公开可有效识别聚类流形结构交叉情况下的不同聚类样本。

Description

基于样本风格特征的模糊超平面聚类方法及装置

技术领域

本公开涉及机器学习技术领域，特别涉及一种基于样本风格特征的模糊超平面聚类方法及装置。

背景技术

随着人工智能技术的不断发展，聚类技术已广泛应用于数据挖掘、图像分析、人脸识别、市场行情分析、自然语言处理及语音识别等诸多领域。然而，由于样本的同源性，数据集中来自不同聚类的样本呈现各自不同的风格特征，例如，不同个体的书法呈现不同的手写体风格，正常人群呈现的脑电信号波形显著不同于癫痫患者的脑电信号波形，英文中的元音呈现各自独特的发音风格，等等。

样本的风格特征与样本的物理特征(如距离、颜色及纹理等)不同，能够提供更多的样本特征描述信息，十分有助于提升机器学习模型的识别性能。针对基于样本风格特征的机器学习算法，现有技术中已有相关研究成果，然而，现有的研究成果绝大多数集中于分类技术，仅有一者(文献Gu S.et al.,Fuzzy style k-plane clustering,IEEETransactions on Fuzzy Systems,2021,29(6):1518-1532)将聚类技术与样本风格特征相结合，提出一种模糊风格K平面聚类算法，以解决风格数据的聚类问题。然而，当不同聚类的样本呈现相近或相似的风格时，聚类流形结构会出现交叉情况，上述研究成果不能很好地识别交叉部分的不同聚类样本，导致有限的识别性能。另一方面，上述研究成果侧重于利用方阵作为风格矩阵以表征不同聚类样本的风格特征，不利于聚类分析过程中同时考虑样本的风格特征和物理特征。

发明内容

本公开旨在至少解决现有技术中存在的问题之一，提供一种基于样本风格特征的模糊超平面聚类方法及装置。

本公开的一个方面，提供了一种基于样本风格特征的模糊超平面聚类方法，所述聚类方法包括：

建立能够保留样本的物理特征并同时挖掘所述样本的风格特征的表征形式；

基于所述表征形式和给定的数据集，建立基于所述物理特征和所述风格特征的模糊超平面聚类模型的初始目标函数；其中，所述数据集的类型包括图像、文本、语音中的任意一者；

利用所述表征形式对应的正则化项和关于不同聚类中心的软间隔，对所述初始目标函数进行优化，得到更新后的目标函数；

将所述更新后的目标函数的优化问题分解为基于所述表征形式的一系列子问题；

基于所述一系列子问题，确定所述更新后的目标函数的参数，求解出所述表征形式；

基于求解出的所述表征形式，对所述数据集中的样本进行聚类分析，得到所述数据集对应的预测类别标签集。

可选地，所述表征形式采用风格超平面矩阵A，其中，A∈R^d×q，R^d×q表示取值为实数的d行q列的矩阵，d为A的纵轴方向维度，q为A的横轴方向维度，且q>d；A的前d×d个元素组成单位矩阵，用于表征样本的所述物理特征；A的前d×d个元素之外的其他元素组成d×(q-d)维的矩阵，用于表征样本的所述风格特征。

可选地，所述初始目标函数表示为下式(1)，所述初始目标函数的约束条件表示为下式(2)：

其中，μ_ij表示样本x_i属于第j个聚类的模糊隶属度，m表示模糊指数，A_j表示第j个聚类对应的风格超平面矩阵，表示A_j的转置矩阵，b_j表示第j个聚类在超平面空间中的超平面参数，i表示所述数据集中的样本编号且1≤i≤N，N为所述数据集中的样本总数，j表示聚类的编号且1≤j≤k，k为聚类个数，c_j表示第j个聚类的中心，λ表示正则化系数，Λ_j表示对角矩阵，E∈R^d×q表示前d×d个元素组成单位矩阵以保留样本的物理特征、剩余元素表征样本的风格特征的矩阵，‖·‖₂表示二范数，‖·‖_F表示F范数。

可选地，所述更新后的目标函数表示为下式(3)，所述更新后的目标函数的约束条件表示为下式(4)：

其中，C＝{C₁,C₂,…,C_k}表示所述模糊超平面聚类模型生成的聚类C₁,C₂,…,C_k组成的集合，C_j表示第j个聚类，C\C_j表示C中除第j个聚类C_j外的其他所有聚类，ε_ij与ξ_ij均为与第j个聚类C_j中第i个样本相对应的松弛变量，b₁和b₂均为正则化系数。

可选地，所述将所述更新后的目标函数的优化问题分解为基于所述表征形式的一系列子问题，包括：

将所述优化问题分解为求解A_j中每一列向量的q个子问题，其中，第p个子问题的表达式为下式(5)，为a_jp的凸函数且表示为下式(6)，为a_jp的凹函数且表示为下式(7)：

其中，a_jp表示A_j中的第p列向量且1≤p≤q；上标T表示转置；g₁和g₂均为正则化参数；表示类内散布矩阵；x_ip表示与a_jp相对应的第j个聚类C_j中的第i个样本；c_jp表示与a_jp相对应的第j个聚类C_j的中心；θ表示惩罚系数；代表如果·的值为非负，则的值为·的值，否则的值为0；表示所述数据集的数据量；表示第j个聚类对应的数据量；表示所述数据集中除第j个聚类对应的数据量之外的数据量。

可选地，所述基于所述一系列子问题，确定所述更新后的目标函数的参数，求解出所述表征形式，包括：

计算类内散布矩阵D_jp；

将初始化为类内散布矩阵D_jp最小特征值对应的特征向量，其中，表示a_jp在第h次迭代过程中的计算结果；

计算梯度步骤：针对第h次迭代，根据下式(8)计算的凹函数的梯度

针对第h次迭代，将所述第p个子问题的表达式转换为下式(9)，并计算a_jp在第h+1次迭代过程中的计算结果

若满足则令若不满足则返回所述计算梯度步骤；其中，φ表示迭代阈值。

可选地，所述基于求解出的所述表征形式，对所述数据集中的样本进行聚类分析，得到所述数据集对应的预测类别标签集，包括：

根据下式(10)计算第i个样本归属于第j个聚类的模糊隶属度μ_ij，其中，表示第j′个聚类对应的风格超平面矩阵A_j′的转置矩阵且1≤j＇≤k：

根据下式(11)更新每个所述样本对应的预测类别标签，其中，y_i表示第i个样本的预测类别标签：

将所述数据集中的所有样本对应的预测类别标签组成类别标签集，判断所述类别标签集与所述数据集对应的初始标签集是否相同，若是，则将所述类别标签集作为所述预测类别标签集。

本公开的另一个方面，提供了一种基于样本风格特征的模糊超平面聚类装置，所述聚类装置包括：

第一建立模块，用于建立能够保留样本的物理特征并同时挖掘所述样本的风格特征的表征形式；

第二建立模块，用于基于所述表征形式和给定的数据集，建立基于所述物理特征和所述风格特征的模糊超平面聚类模型的初始目标函数；其中，所述数据集的类型包括图像、文本、语音中的任意一者；

优化模块，用于利用所述表征形式对应的正则化项和关于不同聚类中心的软间隔，对所述初始目标函数进行优化，得到更新后的目标函数；

分解模块，用于将所述更新后的目标函数的优化问题分解为基于所述表征形式的一系列子问题；

求解模块，用于基于所述一系列子问题，确定所述更新后的目标函数的参数，求解出所述表征形式；

聚类模块，用于基于求解出的所述表征形式，对所述数据集中的样本进行聚类分析，得到所述数据集对应的预测类别标签集。

本公开的另一个方面，提供了一种电子设备，包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前文记载的基于样本风格特征的模糊超平面聚类方法。

本公开的另一个方面，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现前文记载的基于样本风格特征的模糊超平面聚类方法。

本公开实施例相对于现有技术而言，通过建立能够保留样本的物理特征并同时挖掘风格特征的表征形式，可将来自不同聚类的样本映射至合适的超平面空间，在所构造超平面空间中很好地挖掘不同聚类样本的风格信息及捕捉不同风格间的微妙差别，将具有相同风格的样本形成聚类且不同聚类间保持一定距离，从而能够有效识别聚类流形结构交叉情况下的不同聚类样本。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本公开一实施方式提供的一种基于样本风格特征的模糊超平面聚类方法的流程图；

图2为本公开另一实施方式提供的风格超平面矩阵的结构示意图；

图3为本公开另一实施方式提供的不同流行风格的服装数据集示意图；

图4为本公开另一实施方式提供的不同建筑风格的建筑物数据集示意图；

图5为本公开另一实施方式提供的不同手写体风格的文本数据集示意图；

图6为本公开另一实施方式提供的不同发音风格的语音数据集示意图；

图7为本公开另一实施方式提供的一种基于样本风格特征的模糊超平面聚类方法的流程图；

图8为本公开另一实施方式提供的不同聚类算法的精确度对比示意图；

图9为本公开另一实施方式提供的一种基于样本风格特征的模糊超平面聚类装置的结构示意图；

图10为本公开另一实施方式提供的电子设备的结构示意图。

具体实施方式

为使本公开实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本公开的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本公开各实施方式中，为了使读者更好地理解本公开而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本公开所要求保护的技术方案。以下各个实施方式的划分是为了描述方便，不应对本公开的具体实现方式构成任何限定，各个实施方式在不矛盾的前提下可以相互结合相互引用。

本公开的一个实施方式涉及一种基于样本风格特征的模糊超平面聚类方法，其流程如图1所示，包括：

步骤S110，建立能够保留样本的物理特征并同时挖掘样本的风格特征的表征形式。

具体的，样本的物理特征用于反映样本的内容，如距离、颜色、纹理、形状等。样本的风格特征用于反映样本的风格类型。例如，当样本是服装时，样本的风格类型可以是海报风格(Pinup Style)、哥特风格(Goth Style)、时髦风格(Hipster Style)、波西米亚风格(Bohemian Style)、学院风格(Preppy Style)等。或者，当样本是建筑物时，样本的风格类型可以是美国工匠建筑(American craftsman architecture)、美国工匠建筑(Baroquearchitecture)、格鲁吉亚建筑(Georgian architecture)、俄罗斯复兴式建筑(Russianrevival architecture)等。再或者，当样本是音乐时，样本的风格类型可以是古典音乐、流行音乐、乡村音乐、电子音乐等。

示例性的，步骤S110建立的表征形式可以是风格超平面矩阵A，即，表征形式采用风格超平面矩阵A。其中，A∈R^d×q，R^d×q表示取值为实数的d行q列的矩阵，d为A的纵轴方向维度，q为A的横轴方向维度，且q>d；A的前d×d个元素组成单位矩阵，用于表征样本的物理特征；A的前d×d个元素之外的其他元素组成d×(q-d)维的矩阵，用于表征样本的风格特征。

具体的，图2示出了风格超平面矩阵A的具体形式。如图2所示，风格超平面矩阵A的前d×d个元素组成单位矩阵，对应于样本的物理特征，用于在后续对包含风格超平面矩阵A的目标函数进行优化的过程中保留样本的物理特征。如图2所示，风格超平面矩阵A的剩余d×(q-d)个元素即前d×d个元素之外的其他元素组成了一个d×(q-d)维的矩阵，该矩阵可称之为风格矩阵，其元素对应于样本的风格特征，元素的值即为对应的风格特征值，用于在后续对包含风格超平面矩阵A的目标函数进行优化的过程中表征样本的风格特征。

需要说明的是，当给定的数据集包括k个聚类时，需要分别为每个聚类建立一个风格超平面矩阵。举例而言，对于数据集中的第j(1≤j≤k)个聚类，为其建立的风格超平面矩阵可表示为A_j。A_j的结构与风格超平面矩阵A的结构相同，均可表示为图2的形式。对于A_j的风格矩阵(即A_j的前d×d个元素之外的其他元素组成的矩阵)来说，其元素的值越大，表明该元素对应的第j个聚类中的样本的风格特征越明显，反之，其元素的值越小，表明该元素对应的第j个聚类中的样本的风格特征越不明显。其中，A_j的风格矩阵中，各元素的初始值可以根据实际需要设定，各元素的最终取值可以通过后续对包含风格超平面矩阵A_j的目标函数进行优化的过程确定。

步骤S120，基于表征形式和给定的数据集，建立基于物理特征和风格特征的模糊超平面聚类模型的初始目标函数；其中，数据集的类型包括图像、文本、语音中的任意一者。

具体的，当数据集的类型为图像时，数据集可以是服装数据集、建筑物数据集等。其中，服装数据集中的样本可以是不同流行风格的服装图像，如图3所示，服装数据集中可以包括风格类型为Pinup、Goth、Hipster、Bohemian、Preppy的样本。建筑物数据集中的样本可以是不同建筑风格的建筑物图像，如图4所示，建筑物数据集中可以包括风格类型为American craftsman architecture、Baroque architecture、Georgian architecture、Russian revival architecture的样本。当数据集的类型为文本时，数据集中的样本可以是不同风格类型的手写体文本，如图5所示。当数据集的类型为语音时，数据集中的样本可以是不同发音风格的语音，如图6所示，对于不同的英文单词(word)来说，其发音所涉及的元音(vowel)是不同的，这就使得不同的英文单词对应不同的发音风格。

给定的数据集可以表示为X＝[x₁,x₂,…,x_N]^T，其中，x₁,x₂,…,x_N均为数据集X中的样本，可表示为样本x_i(1≤i≤N)，N为样本总数。初始目标函数可以是包含数据集中第j个聚类对应的风格超平面矩阵A_j的目标函数。

示例性的，初始目标函数表示为下式(1)，初始目标函数的约束条件表示为下式(2)：

其中，μ_ij表示样本x_i属于第j个聚类的模糊隶属度，m表示模糊指数，A_j表示第j个聚类对应的风格超平面矩阵，表示A_j的转置矩阵，b_j表示第j个聚类在超平面空间中的超平面参数，i表示数据集中的样本编号且1≤i≤N，N为数据集中的样本总数，j表示聚类的编号且1≤j≤k，k为聚类个数，c_j表示第j个聚类的中心，λ表示正则化系数，Λ_j表示对角矩阵，E∈R^d×q表示前d×d个元素组成单位矩阵以保留样本的物理特征、剩余元素表征样本的风格特征的矩阵，‖·‖₂表示二范数，‖·‖_F表示F范数。

上式(1)中，为正则化项，能够防止不同聚类样本风格特征过于松弛，当λ的取值较小时，不同聚类样本对应的风格特征值将增大，而当λ的取值较大时，不同聚类样本对应的风格特征值将趋向于1。

第j个聚类的中心c_j可通过计算得到，其中，C_j表示第j个聚类，N_j表示第j个聚类C_j包含的样本的数量。

步骤S130，利用表征形式对应的正则化项和关于不同聚类中心的软间隔，对初始目标函数进行优化，得到更新后的目标函数。

具体的，在对初始目标函数进行优化前，需要对数据集中的每个样本属于每个聚类的模糊隶属度进行初始化赋值，即对μ_ij(1≤i≤N，1≤j≤k)进行初始化赋值。其中，初始化赋值可以采用随机的方式，如从[0,1]范围内通过随机选值的方式为μ_ij进行赋值。同时，在对初始目标函数进行优化前，还需要将聚类个数k的取值初始化为数据集X包含的实际聚类个数，每个样本的标签可利用k-means聚类算法进行初始化，得到数据集X中各样本的标签组成的初始标签集Y⁰，即得到与数据集X对应的初始标签集Y⁰。

示例性的，更新后的目标函数表示为下式(3)，更新后的目标函数的约束条件表示为下式(4)：

其中，C＝{C₁,C₂,…,C_k}表示模糊超平面聚类模型生成的聚类C₁,C₂,…,C_k组成的集合，C_j表示第j个聚类，C\C_j表示C中除第j个聚类C_j外的其他所有聚类，ε_ij与ξ_ij均为与第j个聚类C_j中第i个样本相对应的松弛变量，b₁和b₂均为正则化系数。

具体的，上式(4)所示的约束条件中，第二个约束条件可以使得聚类中的样本变得更加紧凑，第三个约束条件可以使得不同聚类的样本间保持较宽松的距离，第五个约束条件可以使得不同聚类的样本在超平面空间中进一步统一为单位球形状，第二、三、五个约束条件可以使得上式(3)对应的模糊超平面聚类模型能够识别聚类流形结构交叉情况下的不同聚类样本。

步骤S140，将更新后的目标函数的优化问题分解为基于表征形式的一系列子问题。

具体的，更新后的目标函数的优化对象主要是与数据集中的每个聚类对应的风格超平面矩阵，即优化对象主要是A_j(A_j∈R^d×q，1≤j≤k)。由于A_j由q个列向量组成，因此，可以将优化对象A_j＝[a_j1,a_j2,…,a_jq]分解为q个子向量即a_j1,a_j2,…,a_jq，从而将更新后的目标函数的优化问题分解为求解A_j＝[a_j1,a_j2,…,a_jq]中每个子向量a_jp(1≤p≤q)的q个子问题，通过解决q个子问题实现上式(3)对应的模糊超平面聚类模型的参数的确定。

示例性的，将优化问题分解为求解A_j中每一列向量的q个子问题，可以包括以下步骤：

针对a_jp(1≤p≤q)，引入类内散布矩阵其中，x_ip表示与a_jp相对应的第j个聚类C_j中的第i个样本；c_jp表示与a_jp相对应的第j个聚类C_j的中心。

在初始化样本x_i属于第j个聚类的模糊隶属度μ_ij后，将优化问题分解得到的第q个子问题可表达为

其中，

e_p表示E中第p列元素组成的向量，g₁和g₂均为正则化参数。

针对第q个子问题的表达式，引入惩罚项后，该第q个子问题可进一步表达为其中，为惩罚项，θ表示惩罚系数；代表如果·的值为非负，则的值为·的值，否则的值为0。

针对第q个子问题的表达式，第三项和第四项可分别表示为和由此，第q个子问题可进一步表达为下式(5)。因此，步骤S140可以包括：将优化问题分解为求解A_j中每一列向量的q个子问题，其中，第p个子问题的表达式为下式(5)，为a_jp的凸函数且表示为下式(6)，为a_jp的凹函数且表示为下式(7)：

其中，a_jp表示A_j中的第p列向量且1≤p≤q；上标T表示转置；g₁和g₂均为正则化参数；表示类内散布矩阵；x_ip表示与a_jp相对应的第j个聚类C_j中的第i个样本；c_jp表示与a_jp相对应的第j个聚类C_j的中心；θ表示惩罚系数；代表如果·的值为非负，则的值为·的值，否则的值为0；表示数据集的数据量；表示第j个聚类对应的数据量；表示数据集中除第j个聚类对应的数据量之外的数据量。

步骤S150，基于一系列子问题，确定更新后的目标函数的参数，求解出表征形式。

具体的，上式(5)可通过迭代加求解梯度的方式予以解决。

示例性的，步骤S150包括：

设置迭代阈值φ、最大迭代次数H，并将迭代次序h设置为h＝0；

计算类内散布矩阵D_jp；

针对第h次迭代，将第p个子问题的表达式转换为下式(9)，并计算a_jp在第h+1次迭代过程中的计算结果

针对及若满足则令若不满足则返回计算梯度步骤。

步骤S160，基于求解出的表征形式，对数据集中的样本进行聚类分析，得到数据集对应的预测类别标签集。

示例性的，步骤S160包括：根据下式(10)计算第i个样本归属于第j个聚类的模糊隶属度μ_ij，其中，表示第j′个聚类对应的风格超平面矩阵A_j′的转置矩阵且1≤j＇≤k：

根据下式(11)更新每个样本对应的预测类别标签，其中，y_i表示第i个样本的预测类别标签：

将数据集中的所有样本对应的预测类别标签组成类别标签集，判断类别标签集与数据集对应的初始标签集是否相同，若是，则将类别标签集作为预测类别标签集。也就是说，将根据上式(11)得到的数据集X中样本x_i(1≤i≤N)的预测类别标签y_i(1≤i≤N)组成类别标签集Y，若类别标签集Y与初始标签集Y⁰相同即Y＝Y⁰，则将类别标签集Y作为数据集X最终对应的预测类别标签集，若类别标签集Y与初始标签集Y⁰不相同即Y≠Y⁰，则将初始标签集Y⁰设置为Y⁰＝Y，并重新利用图1所示的基于样本风格特征的模糊超平面聚类方法进行聚类。

具体的，在求解出每个聚类对应的风格超平面矩阵A_j(A_j∈R^d×q，1≤j≤k)后，可以利用上式(10)更新数据集X中的第i(1≤i≤N)个样本x_i属于第j个聚类的模糊隶属度μ_ij，从而得到模糊隶属度矩阵U，μ_ij即为模糊隶属度矩阵U中的第i行第j列元素。

由上式(11)可知，第i个样本x_i的预测类别标签y_i由其所属的聚类对应的风格超平面矩阵A_j决定，即，第i个样本x_i的预测类别标签y_i由样本的物理特征和风格特征共同决定。

本公开实施方式相对于现有技术而言，通过建立能够保留样本的物理特征并同时挖掘风格特征的表征形式，可将来自不同聚类的样本映射至合适的超平面空间，在所构造超平面空间中很好地挖掘不同聚类样本的风格信息及捕捉不同风格间的微妙差别，将具有相同风格的样本形成聚类且不同聚类间保持一定距离，从而能够有效识别聚类流形结构交叉情况下的不同聚类样本。

为使本领域技术人员能够更好地理解上述实施方式，下面以一具体示例进行说明。

如图8所示，一种基于样本风格特征的模糊超平面聚类方法包括以下步骤：

输入数据集X、聚类个数k、风格超平面矩阵横轴方向维度q、正则化系数b₁、b₂、λ、迭代阈值φ、最大迭代次数H；初始化模糊隶属度矩阵U(第i行第j列元素为模糊隶属度μ_ij)和样本标签集Y；置迭代次序h＝h+1；置j＝1；计算风格超平面矩阵A_j的第一列；递归计算风格超平面矩阵A_j的剩余列；判断是否满足j＞k，若否，则令j＝j+1，回到计算风格超平面矩阵A_j的第一列的步骤，若是，则更新所有样本的模糊隶属度矩阵U，且更新所有样本的标签集Y；判断当前标签集与未更新前的标签集是否相同，若否，则回到置j＝1的步骤，若是，则输出所有样本预测标签集Y。

如图8所示，当数据集分别为Flare、Iris、Led7digit、Seeds、Wine时，本公开实施例提供的基于样本风格特征的模糊超平面聚类算法的精确度(Precision)均高于Fuzzy c-means算法的精确度。

本公开的另一个实施方式涉及一种基于样本风格特征的模糊超平面聚类装置，如图9所示，包括：

第一建立模块901，用于建立能够保留样本的物理特征并同时挖掘样本的风格特征的表征形式；

第二建立模块902，用于基于表征形式和给定的数据集，建立基于物理特征和风格特征的模糊超平面聚类模型的初始目标函数；其中，数据集的类型包括图像、文本、语音中的任意一者；

优化模块903，用于利用表征形式对应的正则化项和关于不同聚类中心的软间隔，对初始目标函数进行优化，得到更新后的目标函数；

分解模块904，用于将更新后的目标函数的优化问题分解为基于表征形式的一系列子问题；

求解模块905，用于基于一系列子问题，确定更新后的目标函数的参数，求解出表征形式；

聚类模块906，用于基于求解出的表征形式，对数据集中的样本进行聚类分析，得到数据集对应的预测类别标签集。

本公开实施方式提供的基于样本风格特征的模糊超平面聚类装置的具体实现方法，可以参见本公开实施方式提供的基于样本风格特征的模糊超平面聚类方法所述，此处不再赘述。

本公开的另一个实施方式涉及一种电子设备，如图10所示，包括：

至少一个处理器1001；以及，

与至少一个处理器1001通信连接的存储器1002；其中，

存储器1002存储有可被至少一个处理器1001执行的指令，指令被至少一个处理器1001执行，以使至少一个处理器1001能够执行上述实施方式所述的基于样本风格特征的模糊超平面聚类方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本公开的另一个实施方式涉及一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式所述的基于样本风格特征的模糊超平面聚类方法。

即，本领域技术人员可以理解，实现上述实施方式所述方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本公开的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本公开的精神和范围。

Claims

1.一种基于样本风格特征的模糊超平面聚类方法，其特征在于，所述聚类方法包括：

基于求解出的所述表征形式，对所述数据集中的样本进行聚类分析，得到所述数据集对应的预测类别标签集；

所述表征形式采用风格超平面矩阵A，其中，A∈R^d×q，R^d×q表示取值为实数的d行q列的矩阵，d为A的纵轴方向维度，q为A的横轴方向维度，且q>d；A的前d×d个元素组成单位矩阵，用于表征样本的所述物理特征；A的前d×d个元素之外的其他元素组成d×(q-d)维的矩阵，用于表征样本的所述风格特征；

所述初始目标函数表示为下式(1)，所述初始目标函数的约束条件表示为下式(2)：

2.根据权利要求1所述的聚类方法，其特征在于，所述更新后的目标函数表示为下式(3)，所述更新后的目标函数的约束条件表示为下式(4)：

3.根据权利要求2所述的聚类方法，其特征在于，所述将所述更新后的目标函数的优化问题分解为基于所述表征形式的一系列子问题，包括：

其中，a_jp表示A_j中的第p列向量且1≤p≤q；上标T表示转置；e_p表示E中第p列元素组成的向量，g₁和g₂均为正则化参数；表示类内散布矩阵；x_ip表示与a_jp相对应的第j个聚类C_j中的第i个样本；c_jp表示与a_jp相对应的第j个聚类C_j的中心；θ表示惩罚系数；代表如果·的值为非负，则的值为·的值，否则的值为0；表示所述数据集的数据量；表示第j个聚类对应的数据量；表示所述数据集中除第j个聚类对应的数据量之外的数据量。

4.根据权利要求3所述的聚类方法，其特征在于，所述基于所述一系列子问题，确定所述更新后的目标函数的参数，求解出所述表征形式，包括：

计算类内散布矩阵D_jp；

5.根据权利要求4所述的聚类方法，其特征在于，所述基于求解出的所述表征形式，对所述数据集中的样本进行聚类分析，得到所述数据集对应的预测类别标签集，包括：

6.一种基于样本风格特征的模糊超平面聚类装置，其特征在于，所述聚类装置包括：

聚类模块，用于基于求解出的所述表征形式，对所述数据集中的样本进行聚类分析，得到所述数据集对应的预测类别标签集；

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一项所述的基于样本风格特征的模糊超平面聚类方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的基于样本风格特征的模糊超平面聚类方法。