CN112270374B

CN112270374B - 基于som聚类模型的数学表达式的聚类方法

Info

Publication number: CN112270374B
Application number: CN202011244154.7A
Authority: CN
Inventors: 杨芳; 尹曦; 张充
Original assignee: Hebei University
Current assignee: Hebei University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2022-04-12
Anticipated expiration: 2040-11-10
Also published as: CN112270374A

Abstract

本发明提供了一种基于SOM聚类模型的数学表达式的聚类方法。该方法通过对MathML格式的数学表达式进行解析，将数学表达式处理为表达式树形式，得到表达式各元素层次位置和子节点信息；再从表达式自身的结构特征出发，为表达式中各元素分配权重；接着使用SOM神经网络对数学表达式样本集进行训练，得到相应的SOM聚类模型；最后采用SOM聚类模型实现对数学表达式的聚类。本发明使用基于模型的方法中的SOM神经网络对数学表达式进行聚类，该网络模拟人类大脑的自组织特征映射功能，网络结构简单，表达式的特征可以使用权重表示，能够很好地与神经网络输入神经元契合，将其作为输入数据可以得到很好的聚类效果。

Description

基于SOM聚类模型的数学表达式的聚类方法

技术领域

本发明涉及信息检索领域，具体地说是一种基于SOM聚类模型的数学表达式的聚类方法。

背景技术

随着大数据时代的到来，科技文档信息大量涌现，聚类作为从大量的文档中快速获取有用信息的有效途径，使得其在文档信息处理中被广泛使用。Laith MohammadAbualigah等从文本的特征入手，使用粒子群优化算法的特征选择方法，对文本文档进行聚类，提高了聚类的性能。Jiaming Xu等将自学习卷积神经网络应用于文本聚类中，灵活的合并更多的有用语义特征，结合K均值聚类来获得最佳聚类结果。同样适用K均值聚类，潘成胜等通过增加灰狼种群的多样性，将粒子群位置更新思想与灰狼位置更新结合，避免算法陷入局部极值的风险，使聚类结果更可靠。

常见的聚类方法有：以K-Means算法为代表的划分法(Partitioning Methods)，该类方法需要在聚类前确定所聚簇数和初始聚类中心；层次法(Hierarchical Methods)则需要不断计算样本间距离再将其进行合并，虽不需要预设聚类簇数，但计算复杂度高且可能会将样本聚类为链状；基于密度的方法(Density-based methods)以DBSCAN为例，可以在聚类中发现异常点，但是密度不均匀的样本对聚类结果影响很大，且大量的样本会使得聚类收敛时间较长；基于网格的方法(Grid-based Method)不受数据对象个数的影响，但其对参数较为敏感，容易产生维数灾难；基于SOM(Self-Organizing Feature Maps)算法的神经网络，是一种竞争学习型的无监督神经网络，其将相邻关系强加在簇质心上，互为邻居的簇之间比非邻居的簇之间更相关，这种联系有利于聚类结果的解释和可视化。

数学表达式是科技文档的重要组成部分，具有异于文本特征的二维结构特征，故文本聚类方法不能直接用于数学表达式的聚类，从而导致数学表达式在文档聚类中一直被忽略。

发明内容

本发明的目的就是提供一种基于SOM聚类模型的数学表达式的聚类方法，该方法根据数学表达式的二维特征对数学表达式进行权重分配，并结合SOM神经网络实现对数学表达式的聚类。

本发明是这样实现的：一种基于SOM聚类模型的数学表达式的聚类方法，包括如下步骤：

S1、对数学表达式进行预处理，得到不含运算数的表达式树；此步骤中通过对MathML格式的数学表达式进行解析，将数学表达式处理为表达式树形式，并把表达式树中运算数所在的叶子节点进行剪切；

S2、对预处理后的数学表达式进行权重分配，进行权重分配时从数学表达式中元素的层次位置、子节点个数、子节点顺序是否可调换三个影响因素入手，数学表达式中元素对应各运算符；将这三个影响因素写作集合X＝{x₁,x₂,x₃}，其中，x₁表示权重分配时层次位置的影响因素，x₂表示权重分配时子节点个数的影响因素，x₃表示权重分配时子节点顺序是否可调换的影响因素；

在这三个影响因素之间建立模糊关系R(x_i,x_j)，模糊关系R(x_i,x_j)定义为公式(1)：

式(1)中，i＝1,2,3，j＝1,2,3，f_xj(x_i)表示影响因素x_i与x_j比较时x_i的二元比较级，f_xi(x_j)表示影响因素x_i与x_j比较时x_j的二元比较级，f_xj(x_i)和f_xi(x_j)满足如下公式：

并且，影响因素x₁比x₂的影响大，影响因素x₂比x₃的影响大；

对于某一影响因素x_i，使用下面公式(3)中的平均法，可求出该影响因素x_i总的隶属度：

最后，对结果进行归一化处理，可得到各影响因素所占权重，归一化处理公式如下：

对三个影响因素所占权重求平均，可得数学表达式中元素的权重；

S3、采用SOM聚类模型对数学表达式进行聚类；

对数学表达式进行聚类前首先从数学表达式数据集中选取部分数学表达式作为训练样本集，训练样本集中每一样本都具有归一化的权重，样本中的每一个元素对应一个维度，整个训练样本集形成了多维向量；将该多维向量输入到SOM神经网络中，训练过程通过计算神经元间的点积得到获胜神经元，然后输出训练结果，得到SOM聚类模型；

采用所得到的SOM聚类模型对数学表达式数据集进行聚类，可得到最终的聚类结果。

影响因素x₁与其他两个影响因素x₂、x₃相比的二元比较级

两者的计算公式分别如下：

式(14)和(15)中，A和B为系数，L为表达式树的总层数，l为数学表达式中元素所在表达式树中的层数。优选的，A为0.4，B为0.5。

步骤S3具体如下：

S31、从数学表达式数据集中选取N个数学表达式作为训练样本集；设训练样本Y＝[y₁，y₂，…，y_D]，其中y_D为训练样本中的元素，D为训练样本中最大元素的个数，对于训练样本中元素个数不足D的情况，通过补零的方式补齐，因此输入为N*D维向量；m为输出神经网络维数，输入与输出之间的连接权值为w_ij，其中i∈(1,2,...,n)，j∈(1,2,...,m)，n＝N*D；

S32、训练SOM神经网络，具体过程如下：

S321、初始化；对输入与输出之间的连接权值w_ij赋予不同的随机数，并将其归一化处理为

建立初始优胜邻域

和学习率η(0)(0≤η≤1)初值，初始优胜邻域为

初始学习率为η(0)＝0.8；

S322、样本输入；从训练样本集中随机选取一个数学表达式作为输入，将数学表达式Y中的每一个元素所对应的权重分别进行归一化处理，得到

S323、获取获胜神经元；计算

中每一元素与其对应的连接权值

的点积，得到点积最大的值所对应的

所连接的输出神经元则为获胜神经元c；

S324、权值调整；按公式(22)-(25)更新优胜邻域内神经元的权值，同时优胜邻域

和学习率η(t)都会随着学习迭代次数的增加而不断减小收缩：

式(22)-(25)中，t表示迭代次数；w_ij(t)表示迭代t次的连接权值向量，w_ij(t+1)表示迭代t+1次的连接权值向量；G_ij(t)表示迭代t次的邻域函数，y_i(t)表示迭代t次的输入节点，

表示迭代t次的优胜邻域，

表示初始邻域；c为获胜神经元；η(t)表示迭代t次的学习率，η(0)表示初始学习率，本实施例中η(0)＝0.8；T表示总的迭代次数，一般选取500-1000次，本实施例中选取总迭代次数T为500次；h为正实数，本实施例中取h＝50；rⁱ表示优胜领域内神经元i的位置，r^c表示获胜神经元c的位置；

S325、选取训练样本集中其他数学表达式作为输入，重复S322-S324步骤，直至网络中学习率趋近于0为止，得到SOM聚类模型；

S33、根据步骤S32中得到的SOM聚类模型对数学表达式数据集进行聚类。

数学表达式结构复杂形式多样，对数学表达式进行有效的归纳可以提高信息检索的效率。基于此本发明提供了一种基于SOM聚类的数学表达式的聚类方法，通过对MathML格式的数学表达式进行解析，将数学表达式处理为表达式树形式，得到表达式各个元素层次位置和子节点信息；再从表达式自身的结构特征出发为表达式中各元素分配权重，以体现不同元素在表达式中的不同地位；接着使用SOM神经网络对数学表达式样本集进行训练，得到相应的SOM聚类模型；最后采用SOM聚类模型实现对数学表达式的聚类。

本发明使用基于模型的方法(Model-Based Methods)中的SOM神经网络对数学表达式进行聚类，该网络模拟人类大脑的自组织特征映射功能，网络结构简单，表达式的特征可以使用权重表示，能够很好地与神经网络输入神经元契合，将其作为输入数据可以得到很好的聚类效果。

附图说明

图1是本发明方法的流程图。

图2是本发明实施例中数学表达式

的完整的表达式树结构图。

图3是对图2中表达式树去除叶子节点后的表达式树结构图。

图4是SOM聚类模型的输入层与输出层的结构示意图。

图5是本发明实施例中对样本集训练后所得聚类结果示意图。

具体实施方式

本发明由河北省教育厅重点项目(项目批准号：2019131)研究完成。以下结合附图对本发明的优选实施例进行说明，应当理解为，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

结合图1所示方法流程图，对本发明所提供的基于SOM聚类模型的数学表达式的聚类方法的各具体步骤进行详细描述。

S1、对数学表达式进行预处理。

S2、对预处理后的数学表达式进行权重分配。

S3、采用SOM聚类模型对数学表达式进行聚类。

步骤S1具体如下：

S11、将数学表达式处理为表达式树，表达式树的节点中存储了表达式元素信息和树节点的位置层次信息。

本发明选择对MathML格式数学表达式的MathML-Content部分进行解析处理，构造表达式树，以数学表达式

为例，数学表达式

处理后所形成的表达式树结构如图2所示。表达式树中的每一个节点都存储了数学表达式的一个运算符或一个运算数(可称为表达式元素)，同时也存储了节点中元素的类别、层次位置等信息。

S12、将表达式树中存储表达式运算数的节点进行剪切，只保留影响表达式基本结构的运算符。

数学表达式结构复杂，其包含的运算符和运算数数量多且种类繁琐，给聚类增加了困难和工作量，为此，本步骤对表达式树中存储表达式运算数的节点(该节点也被称为叶子节点)进行剪切，使得处理后的表达式树中只保留影响表达式基本结构的运算符。对图2中表达式树结构中的叶子节点进行剪切，得到不含叶子节点的表达式树结构如图3所示。

步骤S2具体如下：

S21、对步骤S12中得到的表达式树进行遍历，得到表达式元素的层次位置信息、子节点信息(包括子节点个数、子节点顺序是否可调换)等。

S22、对表达式中各元素分配权重。

不同运算符在表达式中的作用和地位不同，通过为表达式中各个运算符分配权重来体现各个元素的地位。

本发明分配权重时从如下三个因素着手分析：①层次位置：数学表达式元素在表达式树中的层次位置越高，即层次数越小，所占权重越高；位于同一层次的元素所占权重相同；②子节点个数：数学表达式元素所在节点的子节点个数越多，所占权重越高；③子节点顺序是否可调换：若数学表达式元素所在节点的子节点顺序不可调换，则意味着该运算符对表达式的结构影响限制较大，因此子节点顺序不可调换时，元素所占权重较高。在这三个影响因素中，因素①层次位置相比因素②子节点个数的影响大，而因素②子节点个数又比因素③子节点顺序是否可调换的影响大，因此在分配权重时应充分考虑这三个影响因素之间的影响程度大小关系，必要时可通过赋值方式来实现权重分配。

将上述三个影响因素写作集合X＝{x₁,x₂,x₃}，其中，x₁表示权重分配时层次位置的影响因素，x₂表示权重分配时子节点个数的影响因素，x₃表示权重分配时子节点顺序是否可调换的影响因素。在这三个影响因素之间建立模糊关系R(x_i,x_j)，模糊关系R(x_i,x_j)定义为公式(1)：

式(1)中，

表示影响因素x_i与x_j比较时x_i的二元比较级，

表示影响因素x_i与x_j比较时x_j的二元比较级，

和

满足如下公式：

对各影响因素所占权重取平均，即可求得对应运算符的权重。

下面以数学表达式

中的除号“/”为例介绍其具体的权重分配方法。

由于影响因素集为X＝{x₁,x₂,x₃}，其中，x₁、x₂和x₃分别对应层次位置、子节点个数和子节点顺序是否可调换这三个影响因素，因此，模糊关系为R(x₁,x₂)、R(x₁,x₃)和R(x₂,x₃)，根据模糊关系定义可得到如下公式(5)-(7)：

式(5)-(7)中的

满足公式(8)-(10)：

又由于x₁比x₂的影响大，x₂比x₃的影响大，因此有如下公式(11)-(13)：

本发明中，影响因素x₁与其他两个影响因素x₂、x₃相比的二元比较级

两者的计算公式分别如下：

式(14)和(15)中，A和B为系数，L为表达式树的总层数，结合图3可知，总层数L为2，l为除号“/”所在表达式树中的层数，因此l为1。

对于系数A和B的设定而言，鉴于x₁、x₂和x₃三者对权重的影响不同，只要使二元比较级

满足相应的关系即可。

由于x₁比x₂的影响大，x₂比x₃的影响大，因此，

与

相比较来说，两者满足如下公式：

式(16)所表达的意思即是：影响因素x₁比x₂大的程度不及x₁比x₃大的程度。

再结合公式(8)-(10)，因此本实施例中给公式(14)中的A赋值0.4，给公式(15)中的B赋值0.5。

将A＝0.4，B＝0.5，L＝2，l＝1代入公式(14)和(15)中，得到：

结合公式(8)-(9)，可得出：

由于x₁比x₂影响大，x₂比x₃影响大，因此，

与

相比较来说，两者满足如下公式：

式(17)所表达的意思即是：影响因素x₂比x₃大的程度不及x₁比x₃大的程度。

结合公式(10)、(13)和(17)，可知

在(0.5，0.83)区间内。

结合公式(9)、(10)和(17)，可知：

结合公式(10)、(13)和(18)，可知

在(0.17，0.5)区间内。

本实施例中选取

为0.75，则得到

为0.25。

在求得

后，根据公式(3)求出各影响因素的总隶属度，如下：

再利用公式(4)对上述三个结果进行归一化处理，得到对于数学表达式

中除号“/”的三个影响因素x₁、x₂和x₃对应的权重分别为0.42、0.35和0.24，最后再求平均，得到除号“/”的最终权重为0.34。

依据上述对除号“/”求权重的方法，可分别求出数学表达式

中减号“－”和加号“+”的权重。

在对数学表达式中各元素的权重分配完成后，执行步骤S3，采用SOM聚类模型对数学表达式进行聚类。SOM聚类模型是一种自组织映射神经网络聚类模型，结合图4，其包括输入层和输出层上下两层。输入层各神经元通过权向量将外界信息汇集到输出层各神经元，节点数与样本维数相等；输出层也为该神经网络的竞争层，呈二维矩阵状排列。输入层和输出层二者的神经元通过权值相互连接。

采用SOM聚类模型对数学表达式进行聚类，首先需要训练SOM神经网络。步骤S2中所得到的具有归一化权重的数学表达式，表达式中的每一个元素对应一个维度，因此每一个表达式转化为了一个多维(D维，不足的补零)的向量，从数据集中选取N个表达式就构成了一个N*D维向量。该向量作为训练数据集输入到SOM神经网络中，训练过程通过计算神经元间的点积得到获胜神经元，然后输出训练结果，输出神经元的个数取输入神经元个数的20％。经过训练得到SOM聚类模型，采用所得到的SOM聚类模型对整个数学表达式数据集进行聚类，可得到最终的聚类结果。

步骤S3具体如下：

S31、从数据集中选取N个数学表达式作为训练样本。设训练样本Y＝[y₁，y₂，…，y_D]，其中y_D为每个表达式中的元素，D为训练样本表达式中最大元素的个数，对于训练样本中元素个数不足D的情况，可通过补零的方式使其元素个数为D，因此输入为N*D维向量。m为输出神经网络维数，输入与输出之间的连接权值为w_ij，其中i∈(1,2,...,n)，j∈(1,2,...,m)，n＝N*D。

S32、训练SOM神经网络，具体过程如下：

S321、初始化。如图4所示，对输入层与输出层之间的连接权值w_ij赋予不同的随机数，并将其归一化处理为

w_ij为连接权值向量，向量除以它的范数，表示向量单位化；其中i∈(1,2,...,n)，j∈(1,2,...,m)，n、m分别为SOM神经网络输入层神经元数目和输出层神经元数目。建立初始优胜邻域

和学习率η(0)(0≤η≤1)初值。优胜邻域

为以获胜神经元为中心半径范围内的区域，本发明预设初始优胜邻域为

初始学习率为η(0)＝0.8。

S322、样本输入。从训练样本集中随机选取一个表达式作为输入，同样将其归一化处理为

这里的Y归一化处理，指的是将表达式Y中的每一个元素所对应的权重(在步骤S22中已求出)分别进行归一化处理。

S323、获取获胜神经元。计算

中每一元素与其对应的连接权值

的点积，得到点积最大的值所对应的

所连接的输出神经元则为获胜神经元c。

S324、权值调整。按公式(22)-(25)更新优胜邻域内神经元的权值，同时优胜邻域

表示迭代t次的优胜邻域，

表示初始邻域；c为获胜神经元；η(t)表示迭代t次的学习率，η(0)表示初始学习率，本实施例中η(0)＝0.8；T表示总的迭代次数，一般选取500-1000次，本实施例中选取总迭代次数T为500次；h为正实数，本实施例中取h＝50；rⁱ表示优胜领域内神经元i的位置，r^c表示获胜神经元c的位置。

S325、选取训练样本集中其他表达式作为输入，重复S322-S324步骤，直至网络中学习率趋近于0为止(例如可以预设一个趋近于0的数值，使学习率小于该预设值时停止，预设值例如为0.001等)，得到SOM聚类模型。

S33、根据步骤S32中得到的SOM聚类模型对数学表达式进行聚类。

下面以一个具体例子详细介绍本发明。

本发明实施例中对数学表达式进行聚类，运行环境为：操作系统为MicrosoftWindows 10，编程语言为Python，数据库系统为Microsoft SQL Server 2012。

整个数学表达式数据集是选自NTCIR-12-MathIR-Wikipedia-Corpus数据集中的373615个数学表达式，从数学表达式数据集中选取200000个数学表达式作为训练样本集。采用SOM神经网络对样本集聚类训练后所得训练结果如图5所示，共得到7个表达式簇，聚类数据如表1所示：

表1

聚类簇数	簇内表达式个数	簇内平方和	簇内最大距离	簇间平均距离
					聚类1	30667	6.35	0.86	3.54
聚类2	24015	6.88	0.97	2.09
					聚类3	15984	9.31	0.87	3.55
聚类4	14666	5.11	0.64	2.29
					聚类5	35985	8.92	0.86	3.40
聚类6	46667	12.28	0.88	2.20
					聚类7	32016	10.93	0.91	2.69

由表1可以看到，各个簇内的表达式个数分布较为均匀，且簇内的距离较小，簇间距离较大，聚类效果较为明显。

Claims

1.一种基于SOM聚类模型的数学表达式的聚类方法，其特征是，包括如下步骤：

S1、对数学表达式进行预处理，得到不含运算数的表达式树；

式(1)中，i＝1,2,3，j＝1,2,3，

表示影响因素x_i与x_j比较时x_i的二元比较级，

表示影响因素x_i与x_j比较时x_j的二元比较级，

和

满足如下公式：

S3、采用SOM聚类模型对数学表达式进行聚类；

对数学表达式进行聚类前首先从数学表达式数据集中选取部分数学表达式作为训练样本集，训练样本集中每一样本都具有归一化的权重，样本中的每一个元素对应一个维度，整个训练样本集形成了多维向量；将该多维向量输入到SOM神经网络中，训练过程通过计算神经元间的点积得到获胜神经元，然后输出训练结果，得到SOM聚类模型；采用所得到的SOM聚类模型对数学表达式数据集进行聚类，可得到最终的聚类结果。

2.根据权利要求1所述的基于SOM聚类模型的数学表达式的聚类方法，其特征是，步骤S1中通过对MathML格式的数学表达式进行解析，将数学表达式处理为表达式树形式，并把表达式树中运算数所在的叶子节点进行剪切。

3.根据权利要求1所述的基于SOM聚类模型的数学表达式的聚类方法，其特征是，影响因素x₁与其他两个影响因素x₂、x₃相比的二元比较级