CN112270374B - 基于som聚类模型的数学表达式的聚类方法 - Google Patents

基于som聚类模型的数学表达式的聚类方法 Download PDF

Info

Publication number
CN112270374B
CN112270374B CN202011244154.7A CN202011244154A CN112270374B CN 112270374 B CN112270374 B CN 112270374B CN 202011244154 A CN202011244154 A CN 202011244154A CN 112270374 B CN112270374 B CN 112270374B
Authority
CN
China
Prior art keywords
clustering
expression
som
mathematical expression
mathematical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011244154.7A
Other languages
English (en)
Other versions
CN112270374A (zh
Inventor
杨芳
尹曦
张充
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University
Original Assignee
Hebei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University filed Critical Hebei University
Priority to CN202011244154.7A priority Critical patent/CN112270374B/zh
Publication of CN112270374A publication Critical patent/CN112270374A/zh
Application granted granted Critical
Publication of CN112270374B publication Critical patent/CN112270374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于SOM聚类模型的数学表达式的聚类方法。该方法通过对MathML格式的数学表达式进行解析,将数学表达式处理为表达式树形式,得到表达式各元素层次位置和子节点信息;再从表达式自身的结构特征出发,为表达式中各元素分配权重;接着使用SOM神经网络对数学表达式样本集进行训练,得到相应的SOM聚类模型;最后采用SOM聚类模型实现对数学表达式的聚类。本发明使用基于模型的方法中的SOM神经网络对数学表达式进行聚类,该网络模拟人类大脑的自组织特征映射功能,网络结构简单,表达式的特征可以使用权重表示,能够很好地与神经网络输入神经元契合,将其作为输入数据可以得到很好的聚类效果。

Description

基于SOM聚类模型的数学表达式的聚类方法
技术领域
本发明涉及信息检索领域,具体地说是一种基于SOM聚类模型的数学表达式的聚类方法。
背景技术
随着大数据时代的到来,科技文档信息大量涌现,聚类作为从大量的文档中快速获取有用信息的有效途径,使得其在文档信息处理中被广泛使用。Laith MohammadAbualigah等从文本的特征入手,使用粒子群优化算法的特征选择方法,对文本文档进行聚类,提高了聚类的性能。Jiaming Xu等将自学习卷积神经网络应用于文本聚类中,灵活的合并更多的有用语义特征,结合K均值聚类来获得最佳聚类结果。同样适用K均值聚类,潘成胜等通过增加灰狼种群的多样性,将粒子群位置更新思想与灰狼位置更新结合,避免算法陷入局部极值的风险,使聚类结果更可靠。
常见的聚类方法有:以K-Means算法为代表的划分法(Partitioning Methods),该类方法需要在聚类前确定所聚簇数和初始聚类中心;层次法(Hierarchical Methods)则需要不断计算样本间距离再将其进行合并,虽不需要预设聚类簇数,但计算复杂度高且可能会将样本聚类为链状;基于密度的方法(Density-based methods)以DBSCAN为例,可以在聚类中发现异常点,但是密度不均匀的样本对聚类结果影响很大,且大量的样本会使得聚类收敛时间较长;基于网格的方法(Grid-based Method)不受数据对象个数的影响,但其对参数较为敏感,容易产生维数灾难;基于SOM(Self-Organizing Feature Maps)算法的神经网络,是一种竞争学习型的无监督神经网络,其将相邻关系强加在簇质心上,互为邻居的簇之间比非邻居的簇之间更相关,这种联系有利于聚类结果的解释和可视化。
数学表达式是科技文档的重要组成部分,具有异于文本特征的二维结构特征,故文本聚类方法不能直接用于数学表达式的聚类,从而导致数学表达式在文档聚类中一直被忽略。
发明内容
本发明的目的就是提供一种基于SOM聚类模型的数学表达式的聚类方法,该方法根据数学表达式的二维特征对数学表达式进行权重分配,并结合SOM神经网络实现对数学表达式的聚类。
本发明是这样实现的:一种基于SOM聚类模型的数学表达式的聚类方法,包括如下步骤:
S1、对数学表达式进行预处理,得到不含运算数的表达式树;此步骤中通过对MathML格式的数学表达式进行解析,将数学表达式处理为表达式树形式,并把表达式树中运算数所在的叶子节点进行剪切;
S2、对预处理后的数学表达式进行权重分配,进行权重分配时从数学表达式中元素的层次位置、子节点个数、子节点顺序是否可调换三个影响因素入手,数学表达式中元素对应各运算符;将这三个影响因素写作集合X={x1,x2,x3},其中,x1表示权重分配时层次位置的影响因素,x2表示权重分配时子节点个数的影响因素,x3表示权重分配时子节点顺序是否可调换的影响因素;
在这三个影响因素之间建立模糊关系R(xi,xj),模糊关系R(xi,xj)定义为公式(1):
Figure BDA0002769410620000021
式(1)中,i=1,2,3,j=1,2,3,fxj(xi)表示影响因素xi与xj比较时xi的二元比较级,fxi(xj)表示影响因素xi与xj比较时xj的二元比较级,fxj(xi)和fxi(xj)满足如下公式:
Figure BDA0002769410620000022
并且,影响因素x1比x2的影响大,影响因素x2比x3的影响大;
对于某一影响因素xi,使用下面公式(3)中的平均法,可求出该影响因素xi总的隶属度:
Figure BDA0002769410620000023
最后,对结果进行归一化处理,可得到各影响因素所占权重,归一化处理公式如下:
Figure BDA0002769410620000024
对三个影响因素所占权重求平均,可得数学表达式中元素的权重;
S3、采用SOM聚类模型对数学表达式进行聚类;
对数学表达式进行聚类前首先从数学表达式数据集中选取部分数学表达式作为训练样本集,训练样本集中每一样本都具有归一化的权重,样本中的每一个元素对应一个维度,整个训练样本集形成了多维向量;将该多维向量输入到SOM神经网络中,训练过程通过计算神经元间的点积得到获胜神经元,然后输出训练结果,得到SOM聚类模型;
采用所得到的SOM聚类模型对数学表达式数据集进行聚类,可得到最终的聚类结果。
影响因素x1与其他两个影响因素x2、x3相比的二元比较级
Figure BDA00027694106200000312
两者的计算公式分别如下:
Figure BDA0002769410620000031
Figure BDA00027694106200000311
式(14)和(15)中,A和B为系数,L为表达式树的总层数,l为数学表达式中元素所在表达式树中的层数。优选的,A为0.4,B为0.5。
步骤S3具体如下:
S31、从数学表达式数据集中选取N个数学表达式作为训练样本集;设训练样本Y=[y1,y2,…,yD],其中yD为训练样本中的元素,D为训练样本中最大元素的个数,对于训练样本中元素个数不足D的情况,通过补零的方式补齐,因此输入为N*D维向量;m为输出神经网络维数,输入与输出之间的连接权值为wij,其中i∈(1,2,...,n),j∈(1,2,...,m),n=N*D;
S32、训练SOM神经网络,具体过程如下:
S321、初始化;对输入与输出之间的连接权值wij赋予不同的随机数,并将其归一化处理为
Figure BDA0002769410620000032
建立初始优胜邻域
Figure BDA0002769410620000033
和学习率η(0)(0≤η≤1)初值,初始优胜邻域为
Figure BDA0002769410620000034
初始学习率为η(0)=0.8;
S322、样本输入;从训练样本集中随机选取一个数学表达式作为输入,将数学表达式Y中的每一个元素所对应的权重分别进行归一化处理,得到
Figure BDA0002769410620000035
Figure BDA0002769410620000036
S323、获取获胜神经元;计算
Figure BDA0002769410620000037
中每一元素与其对应的连接权值
Figure BDA0002769410620000038
的点积,得到点积最大的值所对应的
Figure BDA0002769410620000039
所连接的输出神经元则为获胜神经元c;
S324、权值调整;按公式(22)-(25)更新优胜邻域内神经元的权值,同时优胜邻域
Figure BDA00027694106200000310
和学习率η(t)都会随着学习迭代次数的增加而不断减小收缩:
Figure BDA0002769410620000041
Figure BDA0002769410620000042
Figure BDA0002769410620000043
Figure BDA0002769410620000044
式(22)-(25)中,t表示迭代次数;wij(t)表示迭代t次的连接权值向量,wij(t+1)表示迭代t+1次的连接权值向量;Gij(t)表示迭代t次的邻域函数,yi(t)表示迭代t次的输入节点,
Figure BDA0002769410620000045
表示迭代t次的优胜邻域,
Figure BDA0002769410620000046
表示初始邻域;c为获胜神经元;η(t)表示迭代t次的学习率,η(0)表示初始学习率,本实施例中η(0)=0.8;T表示总的迭代次数,一般选取500-1000次,本实施例中选取总迭代次数T为500次;h为正实数,本实施例中取h=50;ri表示优胜领域内神经元i的位置,rc表示获胜神经元c的位置;
S325、选取训练样本集中其他数学表达式作为输入,重复S322-S324步骤,直至网络中学习率趋近于0为止,得到SOM聚类模型;
S33、根据步骤S32中得到的SOM聚类模型对数学表达式数据集进行聚类。
数学表达式结构复杂形式多样,对数学表达式进行有效的归纳可以提高信息检索的效率。基于此本发明提供了一种基于SOM聚类的数学表达式的聚类方法,通过对MathML格式的数学表达式进行解析,将数学表达式处理为表达式树形式,得到表达式各个元素层次位置和子节点信息;再从表达式自身的结构特征出发为表达式中各元素分配权重,以体现不同元素在表达式中的不同地位;接着使用SOM神经网络对数学表达式样本集进行训练,得到相应的SOM聚类模型;最后采用SOM聚类模型实现对数学表达式的聚类。
本发明使用基于模型的方法(Model-Based Methods)中的SOM神经网络对数学表达式进行聚类,该网络模拟人类大脑的自组织特征映射功能,网络结构简单,表达式的特征可以使用权重表示,能够很好地与神经网络输入神经元契合,将其作为输入数据可以得到很好的聚类效果。
附图说明
图1是本发明方法的流程图。
图2是本发明实施例中数学表达式
Figure BDA0002769410620000051
的完整的表达式树结构图。
图3是对图2中表达式树去除叶子节点后的表达式树结构图。
图4是SOM聚类模型的输入层与输出层的结构示意图。
图5是本发明实施例中对样本集训练后所得聚类结果示意图。
具体实施方式
本发明由河北省教育厅重点项目(项目批准号:2019131)研究完成。以下结合附图对本发明的优选实施例进行说明,应当理解为,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
结合图1所示方法流程图,对本发明所提供的基于SOM聚类模型的数学表达式的聚类方法的各具体步骤进行详细描述。
S1、对数学表达式进行预处理。
S2、对预处理后的数学表达式进行权重分配。
S3、采用SOM聚类模型对数学表达式进行聚类。
步骤S1具体如下:
S11、将数学表达式处理为表达式树,表达式树的节点中存储了表达式元素信息和树节点的位置层次信息。
本发明选择对MathML格式数学表达式的MathML-Content部分进行解析处理,构造表达式树,以数学表达式
Figure BDA0002769410620000052
为例,数学表达式
Figure BDA0002769410620000053
处理后所形成的表达式树结构如图2所示。表达式树中的每一个节点都存储了数学表达式的一个运算符或一个运算数(可称为表达式元素),同时也存储了节点中元素的类别、层次位置等信息。
S12、将表达式树中存储表达式运算数的节点进行剪切,只保留影响表达式基本结构的运算符。
数学表达式结构复杂,其包含的运算符和运算数数量多且种类繁琐,给聚类增加了困难和工作量,为此,本步骤对表达式树中存储表达式运算数的节点(该节点也被称为叶子节点)进行剪切,使得处理后的表达式树中只保留影响表达式基本结构的运算符。对图2中表达式树结构中的叶子节点进行剪切,得到不含叶子节点的表达式树结构如图3所示。
步骤S2具体如下:
S21、对步骤S12中得到的表达式树进行遍历,得到表达式元素的层次位置信息、子节点信息(包括子节点个数、子节点顺序是否可调换)等。
S22、对表达式中各元素分配权重。
不同运算符在表达式中的作用和地位不同,通过为表达式中各个运算符分配权重来体现各个元素的地位。
本发明分配权重时从如下三个因素着手分析:①层次位置:数学表达式元素在表达式树中的层次位置越高,即层次数越小,所占权重越高;位于同一层次的元素所占权重相同;②子节点个数:数学表达式元素所在节点的子节点个数越多,所占权重越高;③子节点顺序是否可调换:若数学表达式元素所在节点的子节点顺序不可调换,则意味着该运算符对表达式的结构影响限制较大,因此子节点顺序不可调换时,元素所占权重较高。在这三个影响因素中,因素①层次位置相比因素②子节点个数的影响大,而因素②子节点个数又比因素③子节点顺序是否可调换的影响大,因此在分配权重时应充分考虑这三个影响因素之间的影响程度大小关系,必要时可通过赋值方式来实现权重分配。
将上述三个影响因素写作集合X={x1,x2,x3},其中,x1表示权重分配时层次位置的影响因素,x2表示权重分配时子节点个数的影响因素,x3表示权重分配时子节点顺序是否可调换的影响因素。在这三个影响因素之间建立模糊关系R(xi,xj),模糊关系R(xi,xj)定义为公式(1):
Figure BDA0002769410620000061
式(1)中,
Figure BDA0002769410620000062
表示影响因素xi与xj比较时xi的二元比较级,
Figure BDA0002769410620000063
表示影响因素xi与xj比较时xj的二元比较级,
Figure BDA0002769410620000064
Figure BDA0002769410620000065
满足如下公式:
Figure BDA0002769410620000066
对于某一影响因素xi,使用下面公式(3)中的平均法,可求出该影响因素xi总的隶属度:
Figure BDA0002769410620000067
最后,对结果进行归一化处理,可得到各影响因素所占权重,归一化处理公式如下:
Figure BDA0002769410620000068
对各影响因素所占权重取平均,即可求得对应运算符的权重。
下面以数学表达式
Figure BDA0002769410620000071
中的除号“/”为例介绍其具体的权重分配方法。
由于影响因素集为X={x1,x2,x3},其中,x1、x2和x3分别对应层次位置、子节点个数和子节点顺序是否可调换这三个影响因素,因此,模糊关系为R(x1,x2)、R(x1,x3)和R(x2,x3),根据模糊关系定义可得到如下公式(5)-(7):
Figure BDA0002769410620000072
Figure BDA0002769410620000073
Figure BDA0002769410620000074
式(5)-(7)中的
Figure BDA0002769410620000075
满足公式(8)-(10):
Figure BDA0002769410620000076
Figure BDA0002769410620000077
Figure BDA0002769410620000078
又由于x1比x2的影响大,x2比x3的影响大,因此有如下公式(11)-(13):
Figure BDA0002769410620000079
Figure BDA00027694106200000710
Figure BDA00027694106200000711
本发明中,影响因素x1与其他两个影响因素x2、x3相比的二元比较级
Figure BDA00027694106200000712
两者的计算公式分别如下:
Figure BDA00027694106200000713
Figure BDA00027694106200000714
式(14)和(15)中,A和B为系数,L为表达式树的总层数,结合图3可知,总层数L为2,l为除号“/”所在表达式树中的层数,因此l为1。
对于系数A和B的设定而言,鉴于x1、x2和x3三者对权重的影响不同,只要使二元比较级
Figure BDA0002769410620000081
满足相应的关系即可。
由于x1比x2的影响大,x2比x3的影响大,因此,
Figure BDA0002769410620000082
Figure BDA0002769410620000083
相比较来说,两者满足如下公式:
Figure BDA0002769410620000084
式(16)所表达的意思即是:影响因素x1比x2大的程度不及x1比x3大的程度。
再结合公式(8)-(10),因此本实施例中给公式(14)中的A赋值0.4,给公式(15)中的B赋值0.5。
将A=0.4,B=0.5,L=2,l=1代入公式(14)和(15)中,得到:
Figure BDA0002769410620000085
结合公式(8)-(9),可得出:
Figure BDA0002769410620000086
由于x1比x2影响大,x2比x3影响大,因此,
Figure BDA0002769410620000087
Figure BDA0002769410620000088
相比较来说,两者满足如下公式:
Figure BDA0002769410620000089
式(17)所表达的意思即是:影响因素x2比x3大的程度不及x1比x3大的程度。
结合公式(10)、(13)和(17),可知
Figure BDA00027694106200000810
在(0.5,0.83)区间内。
结合公式(9)、(10)和(17),可知:
Figure BDA00027694106200000811
结合公式(10)、(13)和(18),可知
Figure BDA00027694106200000812
在(0.17,0.5)区间内。
本实施例中选取
Figure BDA00027694106200000815
为0.75,则得到
Figure BDA00027694106200000813
为0.25。
在求得
Figure BDA00027694106200000814
后,根据公式(3)求出各影响因素的总隶属度,如下:
Figure BDA0002769410620000091
Figure BDA0002769410620000092
Figure BDA0002769410620000093
再利用公式(4)对上述三个结果进行归一化处理,得到对于数学表达式
Figure BDA0002769410620000094
中除号“/”的三个影响因素x1、x2和x3对应的权重分别为0.42、0.35和0.24,最后再求平均,得到除号“/”的最终权重为0.34。
依据上述对除号“/”求权重的方法,可分别求出数学表达式
Figure BDA0002769410620000095
中减号“-”和加号“+”的权重。
在对数学表达式中各元素的权重分配完成后,执行步骤S3,采用SOM聚类模型对数学表达式进行聚类。SOM聚类模型是一种自组织映射神经网络聚类模型,结合图4,其包括输入层和输出层上下两层。输入层各神经元通过权向量将外界信息汇集到输出层各神经元,节点数与样本维数相等;输出层也为该神经网络的竞争层,呈二维矩阵状排列。输入层和输出层二者的神经元通过权值相互连接。
采用SOM聚类模型对数学表达式进行聚类,首先需要训练SOM神经网络。步骤S2中所得到的具有归一化权重的数学表达式,表达式中的每一个元素对应一个维度,因此每一个表达式转化为了一个多维(D维,不足的补零)的向量,从数据集中选取N个表达式就构成了一个N*D维向量。该向量作为训练数据集输入到SOM神经网络中,训练过程通过计算神经元间的点积得到获胜神经元,然后输出训练结果,输出神经元的个数取输入神经元个数的20%。经过训练得到SOM聚类模型,采用所得到的SOM聚类模型对整个数学表达式数据集进行聚类,可得到最终的聚类结果。
步骤S3具体如下:
S31、从数据集中选取N个数学表达式作为训练样本。设训练样本Y=[y1,y2,…,yD],其中yD为每个表达式中的元素,D为训练样本表达式中最大元素的个数,对于训练样本中元素个数不足D的情况,可通过补零的方式使其元素个数为D,因此输入为N*D维向量。m为输出神经网络维数,输入与输出之间的连接权值为wij,其中i∈(1,2,...,n),j∈(1,2,...,m),n=N*D。
S32、训练SOM神经网络,具体过程如下:
S321、初始化。如图4所示,对输入层与输出层之间的连接权值wij赋予不同的随机数,并将其归一化处理为
Figure BDA0002769410620000101
wij为连接权值向量,向量除以它的范数,表示向量单位化;其中i∈(1,2,...,n),j∈(1,2,...,m),n、m分别为SOM神经网络输入层神经元数目和输出层神经元数目。建立初始优胜邻域
Figure BDA0002769410620000102
和学习率η(0)(0≤η≤1)初值。优胜邻域
Figure BDA0002769410620000103
为以获胜神经元为中心半径范围内的区域,本发明预设初始优胜邻域为
Figure BDA0002769410620000104
初始学习率为η(0)=0.8。
S322、样本输入。从训练样本集中随机选取一个表达式作为输入,同样将其归一化处理为
Figure BDA0002769410620000105
这里的Y归一化处理,指的是将表达式Y中的每一个元素所对应的权重(在步骤S22中已求出)分别进行归一化处理。
S323、获取获胜神经元。计算
Figure BDA0002769410620000106
中每一元素与其对应的连接权值
Figure BDA0002769410620000107
的点积,得到点积最大的值所对应的
Figure BDA0002769410620000108
所连接的输出神经元则为获胜神经元c。
S324、权值调整。按公式(22)-(25)更新优胜邻域内神经元的权值,同时优胜邻域
Figure BDA0002769410620000109
和学习率η(t)都会随着学习迭代次数的增加而不断减小收缩:
Figure BDA00027694106200001010
Figure BDA00027694106200001011
Figure BDA00027694106200001012
Figure BDA00027694106200001013
式(22)-(25)中,t表示迭代次数;wij(t)表示迭代t次的连接权值向量,wij(t+1)表示迭代t+1次的连接权值向量;Gij(t)表示迭代t次的邻域函数,yi(t)表示迭代t次的输入节点,
Figure BDA00027694106200001014
表示迭代t次的优胜邻域,
Figure BDA00027694106200001015
表示初始邻域;c为获胜神经元;η(t)表示迭代t次的学习率,η(0)表示初始学习率,本实施例中η(0)=0.8;T表示总的迭代次数,一般选取500-1000次,本实施例中选取总迭代次数T为500次;h为正实数,本实施例中取h=50;ri表示优胜领域内神经元i的位置,rc表示获胜神经元c的位置。
S325、选取训练样本集中其他表达式作为输入,重复S322-S324步骤,直至网络中学习率趋近于0为止(例如可以预设一个趋近于0的数值,使学习率小于该预设值时停止,预设值例如为0.001等),得到SOM聚类模型。
S33、根据步骤S32中得到的SOM聚类模型对数学表达式进行聚类。
下面以一个具体例子详细介绍本发明。
本发明实施例中对数学表达式进行聚类,运行环境为:操作系统为MicrosoftWindows 10,编程语言为Python,数据库系统为Microsoft SQL Server 2012。
整个数学表达式数据集是选自NTCIR-12-MathIR-Wikipedia-Corpus数据集中的373615个数学表达式,从数学表达式数据集中选取200000个数学表达式作为训练样本集。采用SOM神经网络对样本集聚类训练后所得训练结果如图5所示,共得到7个表达式簇,聚类数据如表1所示:
表1
聚类簇数 簇内表达式个数 簇内平方和 簇内最大距离 簇间平均距离
聚类1 30667 6.35 0.86 3.54
聚类2 24015 6.88 0.97 2.09
聚类3 15984 9.31 0.87 3.55
聚类4 14666 5.11 0.64 2.29
聚类5 35985 8.92 0.86 3.40
聚类6 46667 12.28 0.88 2.20
聚类7 32016 10.93 0.91 2.69
由表1可以看到,各个簇内的表达式个数分布较为均匀,且簇内的距离较小,簇间距离较大,聚类效果较为明显。

Claims (5)

1.一种基于SOM聚类模型的数学表达式的聚类方法,其特征是,包括如下步骤:
S1、对数学表达式进行预处理,得到不含运算数的表达式树;
S2、对预处理后的数学表达式进行权重分配,进行权重分配时从数学表达式中元素的层次位置、子节点个数、子节点顺序是否可调换三个影响因素入手,数学表达式中元素对应各运算符;将这三个影响因素写作集合X={x1,x2,x3},其中,x1表示权重分配时层次位置的影响因素,x2表示权重分配时子节点个数的影响因素,x3表示权重分配时子节点顺序是否可调换的影响因素;
在这三个影响因素之间建立模糊关系R(xi,xj),模糊关系R(xi,xj)定义为公式(1):
Figure FDA0002769410610000011
式(1)中,i=1,2,3,j=1,2,3,
Figure FDA0002769410610000015
表示影响因素xi与xj比较时xi的二元比较级,
Figure FDA0002769410610000016
表示影响因素xi与xj比较时xj的二元比较级,
Figure FDA0002769410610000017
Figure FDA0002769410610000018
满足如下公式:
Figure FDA0002769410610000012
并且,影响因素x1比x2的影响大,影响因素x2比x3的影响大;
对于某一影响因素xi,使用下面公式(3)中的平均法,可求出该影响因素xi总的隶属度:
Figure FDA0002769410610000013
最后,对结果进行归一化处理,可得到各影响因素所占权重,归一化处理公式如下:
Figure FDA0002769410610000014
对三个影响因素所占权重求平均,可得数学表达式中元素的权重;
S3、采用SOM聚类模型对数学表达式进行聚类;
对数学表达式进行聚类前首先从数学表达式数据集中选取部分数学表达式作为训练样本集,训练样本集中每一样本都具有归一化的权重,样本中的每一个元素对应一个维度,整个训练样本集形成了多维向量;将该多维向量输入到SOM神经网络中,训练过程通过计算神经元间的点积得到获胜神经元,然后输出训练结果,得到SOM聚类模型;采用所得到的SOM聚类模型对数学表达式数据集进行聚类,可得到最终的聚类结果。
2.根据权利要求1所述的基于SOM聚类模型的数学表达式的聚类方法,其特征是,步骤S1中通过对MathML格式的数学表达式进行解析,将数学表达式处理为表达式树形式,并把表达式树中运算数所在的叶子节点进行剪切。
3.根据权利要求1所述的基于SOM聚类模型的数学表达式的聚类方法,其特征是,影响因素x1与其他两个影响因素x2、x3相比的二元比较级
Figure FDA0002769410610000026
两者的计算公式分别如下:
Figure FDA0002769410610000021
Figure FDA0002769410610000022
式(14)和(15)中,A和B为系数,L为表达式树的总层数,l为数学表达式中元素所在表达式树中的层数。
4.根据权利要求3所述的基于SOM聚类模型的数学表达式的聚类方法,其特征是,A为0.4,B为0.5。
5.根据权利要求1所述的基于SOM聚类模型的数学表达式的聚类方法,其特征是,步骤S3具体如下:
S31、从数学表达式数据集中选取N个数学表达式作为训练样本集;设训练样本Y=[y1,y2,…,yD],其中yD为训练样本中的元素,D为训练样本中最大元素的个数,对于训练样本中元素个数不足D的情况,通过补零的方式补齐,因此输入为N*D维向量;m为输出神经网络维数,输入与输出之间的连接权值为wij,其中i∈(1,2,...,n),j∈(1,2,...,m),n=N*D;
S32、训练SOM神经网络,具体过程如下:
S321、初始化;对输入与输出之间的连接权值wij赋予不同的随机数,并将其归一化处理为
Figure FDA0002769410610000023
建立初始优胜邻域
Figure FDA0002769410610000024
和初始学习率η(0),初始优胜邻域为
Figure FDA0002769410610000025
初始学习率为η(0)=0.8;
S322、样本输入;从训练样本集中随机选取一个数学表达式作为输入,将数学表达式Y中的每一个元素所对应的权重分别进行归一化处理,得到
Figure FDA0002769410610000031
S323、获取获胜神经元;计算
Figure FDA0002769410610000032
中每一元素与其对应的连接权值
Figure FDA0002769410610000033
的点积,得到点积最大的值所对应的
Figure FDA0002769410610000034
所连接的输出神经元则为获胜神经元c;
S324、权值调整;按公式(22)-(25)更新优胜邻域内神经元的权值,同时优胜邻域
Figure FDA0002769410610000035
和学习率η(t)都会随着学习迭代次数的增加而不断减小收缩:
Figure FDA0002769410610000036
Figure FDA0002769410610000037
Figure FDA0002769410610000038
Figure FDA0002769410610000039
式(22)-(25)中,t表示迭代次数;wij(t)表示迭代t次的连接权值向量,wij(t+1)表示迭代t+1次的连接权值向量;Gij(t)表示迭代t次的邻域函数,yi(t)表示迭代t次的输入节点,
Figure FDA00027694106100000310
表示迭代t次的优胜邻域,
Figure FDA00027694106100000311
表示初始邻域;c为获胜神经元;η(t)表示迭代t次的学习率,η(0)表示初始学习率,本实施例中η(0)=0.8;T表示总的迭代次数,一般选取500-1000次,本实施例中选取总迭代次数T为500次;h为正实数,本实施例中取h=50;ri表示优胜邻域内神经元的位置,rc表示获胜神经元c的位置;
S325、选取训练样本集中其他数学表达式作为输入,重复S322-S324步骤,直至网络中学习率趋近于0为止,得到SOM聚类模型;
S33、根据步骤S32中得到的SOM聚类模型对数学表达式数据集进行聚类。
CN202011244154.7A 2020-11-10 2020-11-10 基于som聚类模型的数学表达式的聚类方法 Active CN112270374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011244154.7A CN112270374B (zh) 2020-11-10 2020-11-10 基于som聚类模型的数学表达式的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011244154.7A CN112270374B (zh) 2020-11-10 2020-11-10 基于som聚类模型的数学表达式的聚类方法

Publications (2)

Publication Number Publication Date
CN112270374A CN112270374A (zh) 2021-01-26
CN112270374B true CN112270374B (zh) 2022-04-12

Family

ID=74340802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011244154.7A Active CN112270374B (zh) 2020-11-10 2020-11-10 基于som聚类模型的数学表达式的聚类方法

Country Status (1)

Country Link
CN (1) CN112270374B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469566B (zh) * 2021-07-21 2022-11-11 燕山大学 一种发电机起始分配方案的确定方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024179A (zh) * 2010-12-07 2011-04-20 南京邮电大学 一种基于半监督学习的ga-som聚类方法
CN108154190A (zh) * 2018-01-12 2018-06-12 上海海事大学 一种基于som神经网络的岸桥电机状态聚类分析方法
CN110147871A (zh) * 2019-04-17 2019-08-20 中国电力科学研究院有限公司 一种基于som神经网络与k-均值聚类的窃电检测方法及系统
CN111211994B (zh) * 2019-11-28 2022-08-19 南京邮电大学 一种基于SOM与K-means融合算法的网络流量分类方法

Also Published As

Publication number Publication date
CN112270374A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
CN106779087B (zh) 一种通用机器学习数据分析平台
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
Yin Learning nonlinear principal manifolds by self-organising maps
CN112101574B (zh) 一种机器学习有监督模型解释方法、系统及设备
CN112270374B (zh) 基于som聚类模型的数学表达式的聚类方法
Yang et al. Hybrid genetic model for clustering ensemble
CN108764362A (zh) 基于神经网络的k-means聚类方法
Benítez et al. Consistent clustering of entries in large pairwise comparison matrices
CN114969078A (zh) 一种联邦学习的专家研究兴趣实时在线预测更新方法
CN115221387A (zh) 一种基于深度神经网络的企业信息整合方法
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质
CN112286996A (zh) 一种基于网络链接和节点属性信息的节点嵌入方法
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
CN115273645B (zh) 一种室内面要素自动聚类的地图制图方法
CN116415177A (zh) 一种基于极限学习机的分类器参数辨识方法
Fatahi et al. An FPA and GA-based hybrid evolutionary algorithm for analyzing clusters
CN116050119A (zh) 一种基于二元表示的正负图分割多视图聚类方法
CN114386494A (zh) 基于可扩展本体的产品全生命周期质量追溯方法和装置
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
CN113723537A (zh) 一种基于鲁棒的对称非负矩阵分解的微生物数据聚类方法
CN111882441A (zh) 一种基于理财产品推荐场景的用户预测解释Treeshap方法
Ma et al. Image segmentation based on differential immune clone clustering algorithm
Chi et al. A Two-stage Clustering Method Combining Ant Colony SOM and K-means.
Xu et al. A graph layout framework combining t-distributed neighbor retrieval visualizer and energy models
Shen Encoder Embedding for General Graph and Node Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant