CN117093849A - 一种基于自动生成模型的数字矩阵特征分析方法 - Google Patents
一种基于自动生成模型的数字矩阵特征分析方法 Download PDFInfo
- Publication number
- CN117093849A CN117093849A CN202310958497.7A CN202310958497A CN117093849A CN 117093849 A CN117093849 A CN 117093849A CN 202310958497 A CN202310958497 A CN 202310958497A CN 117093849 A CN117093849 A CN 117093849A
- Authority
- CN
- China
- Prior art keywords
- digital matrix
- matrix
- encoder
- data
- clustering algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 121
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 80
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000003062 neural network model Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000007405 data analysis Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 22
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据分析处理技术领域,具体公开了一种基于自动生成模型的数字矩阵特征分析方法,包括如下步骤:获取数据集;数据集的数据为数字矩阵,基于数字矩阵的特征选择对应的自编码器;通过自编码器获取数字矩阵的隐藏特征,基于自编码器构建神经网络模型;采用隐藏特征对聚类算法集合进行选择,获得最优聚类算法;训练神经网络模型和最优聚类算法,获得自动生成模型;将待测数据集输入自动生成模型,以获得识别结果,通过识别结果得到数字矩阵对应的标签数据;具有如下优点:通过自动选择最优的神经网络模型和聚类算法,并以无监督训练方法,避免了传统方法中需要手动标注数据和调整参数的问题,从而提高了数字矩阵处理的效率。
Description
技术领域
本发明涉及数据分析处理技术领域,具体而言,涉及一种基于自动生成模型的数字矩阵特征分析方法。
背景技术
数字知识表示方法在促进科技创新方面发挥着重要的作用,有助于学者发掘更深层次的数据关系。例如截至2023年1月,仅生物医学文献数据库PubMed中就包含有2900万篇文章。更有每天超3000篇新文章在不断的被加入到其中。因此越来越需要精准可靠的方法对海量文章和文章中的数据进行分析。但面对未知数量和内容的众多科学出版物,一种基于自动生成模型的数字矩阵特征分析方法就显得十分重要。
在现有的数字知识表示方法中,聚类是最基础的课题之一,在众多应用中发挥着重要作用。该任务的具体表现形式为给定一个或多个数字矩阵,生成与矩阵相关的不同类型的知识内容。这在引文网络、社交网络、推荐系统等中很常见。其中数字矩阵以图的数据为主。一些传统的方法如k-means、DBSCAN和AP,只利用节点的特征,而忽略了图的结构。一种适用的聚类模型是基于图的模型,如光谱聚类。这些方法只利用图形,而忽略了节点的特征。虽然一些模型同时使用了特征和图结构,但模型的容量限制了性能。
随着深度学习的兴起,人们通过神经网络尝试提升聚类质量从而提升数字知识表示方法的能力。自动编码器(AE)是神经网络在无监督学习中的经典变体,经常被用来进行聚类。采用了一种多层神经网络,即编码器,来学习非线性特征,然后通过解码器将学习到的特征重构为原始特征。然而,基于通用自编码器模型的基础上存在很多变体,如变分自编码器、去噪自编码器和图自编码器等。因此目前在数字知识表示领域的大多数算法都不能够很好的选择出适用于数据的自编码器模型,并且由于缺乏目标导向和自动生成的便捷性,导致数字矩阵中的信息缺失,使结果不尽人意。
为此提出一种基于自动生成模型的数字矩阵特征分析方法,以解决上述提出的问题。
发明内容
本发明旨在提供一种基于自动生成模型的数字矩阵特征分析方法,以解决或改善上述技术问题中的在海量数字矩阵下如何进行自动生成的数据知识表示的问题。
有鉴于此,本发明的第一方面在于提供一种基于自动生成模型的数字矩阵特征分析方法。
本发明的第一方面提供了一种基于自动生成模型的数字矩阵特征分析方法,包括如下步骤:获取数据集;所述数据集的数据为数字矩阵,基于所述数字矩阵的特征选择对应的自编码器;通过所述自编码器获取数字矩阵的隐藏特征,基于自编码器构建神经网络模型;采用所述隐藏特征对聚类算法集合进行选择,获得最优聚类算法;训练所述神经网络模型和最优聚类算法,获得自动生成模型;将待测数据集输入所述自动生成模型,以获得识别结果,通过所述识别结果得到所述数字矩阵对应的标签数据。
另外,根据本发明的实施例提供的技术方案还可以具有如下附加技术特征:
上述任一技术方案中,所述编码器在预设范围内选择,所述预设范围包括:变分自编码器、去噪自编码器和图自编码器;所述聚类算法集合包括:k-means算法、高斯混合聚类算法,谱聚类算法和DBSCAN算法。
上述任一技术方案中,所述的基于所述数字矩阵的特征选择对应的自编码器的步骤,包括:将所述数字矩阵输入预设范围内的自编码器,以获得所述数字矩阵的特征;根据所述数字矩阵的特征的分布形状,在所述预设范围匹配出计算所述数字矩阵的自编码器。
上述任一技术方案中,所述的通过所述自编码器获取数字矩阵的隐藏特征的步骤,包括:将所述数字矩阵输入自编码器,得到所述数字矩阵对应图的节点的隐藏特征。
上述任一技术方案中,所述神经网络模型的处理步骤包括:对自解码器输入数据集,得到隐藏特征;获取所述隐藏特征的转置矩阵;采用sigmoid函数将所述隐藏特征从(-∞,+∞)映射到(0,1)概率空间;将所述隐藏特征的转置矩阵和映射后的隐藏特征作为原数据输入所述神经网络模型的重构组件,以获得重构数据。
上述任一技术方案中,所述重构组件的误差采用下述公式计算:式中,Lr为重构误差、n为节点个数、loss(*)为损失函数、Ai为原数据、A‘i为重构数据、i为当前节点,即为数字矩阵所对应的图上的节点。
上述任一技术方案中,所述隐藏特征采用下述步骤计算:获取当前节点i所有的邻居节点,对当前节点i的重要性注意系数,具体为下述公式:
式中,aij为邻居节点j对当前节点i的重要性注意系数、softmaxj(*)为计算函数、dij为邻居节点j对当前节点i的权值向量、exp(*)为指数运算、Ni为邻居节点集合、k为当前邻居节点;dik为当前邻居节点k对当前节点i的权值向量;根据所有的重要性注意系数,计算当前节点的隐藏特征,具体为下述公式:式中,/>为隐藏特征、w(1)为网络系数、σ为非线性函数、/>为隐藏表示。
上述任一技术方案中,所述的采用所述隐藏特征对聚类算法集合进行选择的步骤,具体包括:通过所述聚类算法集合中的每种聚类算法分别对所述数字矩阵的特征进行聚类处理;根据聚类处理的结果,获取准确率ACC和标准互信息素NMI指标,且由高到低进行排序;将排序最高的指标所对应的聚类算法,作为最优聚类算法。
上述任一技术方案中,所述聚类算法的聚类损失为下述公式:式中,Lc为聚类损失、/>为指标计算矩阵、/>为指标计算矩阵的转置、XT为拉普拉斯矩阵的转置、tr为矩阵的迹、X为拉普拉斯矩阵。
上述任一技术方案中,所述的将所述神经网络模型和聚类算法进行训练的步骤,具体包括:设置用于所述神经网络模型和聚类算法的共同训练的总目标函数,具体为下述公式:L=Lr+αLc;式中,α为控制重构误差和聚类损失的平衡的系数、L为总损失、Lc为聚类损失;Lr为重构误差;设置共同训练的迭代次数与最大轮数;基于所述总目标函数对神经网络模型和聚类算法进行共同训练。
本发明与现有技术相比所具有的有益效果:
通过自动选择最适配神经网络模型和聚类算法,并以无监督训练方法,避免了传统方法中需要手动标注数据和调整参数的问题,从而提高了数字矩阵处理的效率。
采用提取数字矩阵特征后接聚类算法的方法,能够更准确地处理数字矩阵,从而提高了数字矩阵处理的精度。
能够根据数字矩阵自动生成不同类型的相关数字知识,模型学习后的嵌入具有较好的解释性,能够为数据分析、分类、预测等领域提供有益的信息。
根据本发明的实施例的附加方面和优点将在下面的描述部分中变得明显,或通过根据本发明的实施例的实践了解到。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制。
图1为本发明的步骤流程图。
具体实施方式
为了可以更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
请参阅图1,下面描述本发明一些实施例的一种基于自动生成模型的数字矩阵特征分析方法。
本发明第一方面的实施例提出了一种基于自动生成模型的数字矩阵特征分析方法。在本发明的一些实施例中,如图1所示,提供了一种基于自动生成模型的数字矩阵特征分析方法,该方法包括:
获取数据集,基于数据集的数字矩阵的特征选择对应的自编码器;通过自编码器获取数据集的隐藏特征,并对自编码器加入重构组件以构建神经网络模型;采用隐藏特征对聚类算法集合进行筛选,以获得对数据集计算最优的聚类算法;将神经网络模型和聚类算法进行训练,并共同构成自动生成模型,将待测数据集输入自动生成模型数据集以获得标签数据和隐藏特征,以实现数据集的数字矩阵特征分析。
本发明提供的一种基于自动生成模型的数字矩阵特征分析方法,利用了神经网络自编码器和聚类算法的优势,能够自动识别并选择最优的模型和算法,从而生成不同类型的相关数字知识;与传统方法相比,本发明的方法能够更准确地处理数字矩阵,并提高数据处理效率;同时,本发明的方法能够自动识别并选择最优的模型和算法,并使用无监督的方式进行模型训练,避免了传统方法中需要手动标注数据和调整参数的问题。这一技术优势使得本发明的方法在处理大规模数字矩阵时更为优越。
具体地,隐藏特征由高维数据集经过神经网络训练后得到的低维特征数据,本发明聚类中用的隐藏特征是降维到2维的空间坐标点。
具体地,数字矩阵可以为控制系统设计领域的数据,标签数据为如下任意一种:飞行器参数、偏差项关系、知识服务领域中的偏差项影响、以及偏差项特征;数据标签为在数据处理过程中为数据添加的一种附加信息,它能够帮助人们更好地了解和分析数据。
进一步地,通过对数字矩阵打上标签,能够获得以下好处:
提升数据准确度:数据标签可以帮助企业更准确地理解和描述数据,从而提高数据准确度;
提高数据可用性:数据标签可以帮助企业更好地管理和检索数据,从而提高数据可用性;
加强数据安全:数据标签可以帮助企业确定数据安全策略,从而加强数据安全;
提高企业数据分析能力:数据标签可以帮助企业更好地认识和理解数据,从而提高企业数据分析能力;
改善数据质量:数据标签可以帮助企业更好地管理和控制数据质量,从而改善数据质量;
降低数据存储成本:数据标签可以帮助企业更有效地管理和利用数据,从而降低数据存储成本;
提升企业决策能力:数据标签可以帮助企业更好地分析和理解数据,从而提升企业决策能力;
加快数据处理速度:数据标签可以帮助企业更快地识别和检索数据,从而加速数据处理速度。
上述任一实施例中,编码器在预设范围内选择,且预设范围包括:变分自编码器、去噪自编码器和图自编码器;聚类算法集合包括:k-means算法、高斯混合聚类算法,谱聚类算法和DBSCAN算法。
在该实施例中,对编码器和聚类算法分别设置多个可选的种类,以使得能够最大程度的对不同种类的数据集进行适配,并提高适配的程度,以在选择最优的算法和编码器时,能够得到可选的最优的一种。
上述任一实施例中,基于数据集的数字矩阵的特征选择对应的自编码器的步骤,具体包括:将数据集的数字矩阵输入预设范围内的自编码器,以获得该数据集的数字矩阵的特征;根据特征的分布形状,在预设范围筛选出计算该数据集最准确的自编码器。
上述任一实施例中,通过自编码器获取数据集的隐藏特征的步骤,具体包括:将数据集的邻接矩阵、节点特征和数字矩阵输入自编码器,计算获得当前节点的隐藏特征。
上述任一实施例中,神经网络模型的处理步骤包括:对自解码器输入数据集,进行计算获得隐藏特征;计算获取隐藏特征的转置;采用sigmoid函数将隐藏特征从(-∞,+∞)映射到(0,1)概率空间;将隐藏特征的转置和映射后的隐藏特征作为原数据输入重构组件,以获得重构数据。
在该实施例中,在重构图结构编入解码器中会产生误差,因此对差值进行计算,以逐步优化缩小该差值,能够使得编入中产生的误差最小化,以降低模型的处理误差。
上述任一实施例中,所述重构组件的误差采用下述公式计算:
式中,Lr为重构误差、n为节点个数、loss(*)为损失函数、Ai为原数据、A‘i为重构数据、i为当前节点,即为数字矩阵所对应的图上的节点。
上述任一实施例中,所述隐藏特征采用下述步骤计算:获取当前节点i所有的邻居节点,对当前节点i的重要性注意系数,具体为下述公式:式中,aij为邻居节点j对当前节点i的重要性注意系数、softmaxj(*)为计算函数、dij为邻居节点j对当前节点i的权值向量、exp(*)为指数运算、Ni为邻居节点集合、k为当前邻居节点;dik为当前邻居节点k对当前节点i的权值向量;根据所有的重要性注意系数,计算当前节点的隐藏特征,具体为下述公式:/>式中,/>为隐藏特征、w(1)为网络系数、σ为非线性函数、/>为隐藏表示。
上述任一实施例中,采用隐藏特征对聚类算法集合进行筛选的步骤,具体包括:通过聚类算法集合中的每个聚类算法分别对特征进行聚类处理;获取聚类处理的结果中的准确率ACC和标准互信息素NMI指标,并由高到低进行排序;将排序最高的指标所对应的聚类算法作为计算最优的聚类算法。
在该实施例中,通过由当前的数据集计算而来的特征,对聚类算法进行逐一筛选,以便在现有的可选聚类算法中获得针对该数据集的最佳的一种,能够对每种不同的数据集进行针对性的选择,保证对不同特征的数据集进行最佳的解算。
上述任一实施例中,所述聚类算法的聚类损失为下述公式:式中,Lc为聚类损失、/>为指标计算矩阵、/>为指标计算矩阵的转置、XT为拉普拉斯矩阵的转置、tr为矩阵的迹、X为拉普拉斯矩阵。
上述任一实施例中,所述的将所述神经网络模型和聚类算法进行训练的步骤,具体包括:设置用于所述神经网络模型和聚类算法的共同训练的总目标函数,具体为下述公式:L=Lr+αLc;式中,α为控制重构误差和聚类损失的平衡的系数、L为总损失、Lc为聚类损失;Lr为重构误差;设置共同训练的迭代次数与最大轮数;基于所述总目标函数对神经网络模型和聚类算法进行共同训练。
本发明第一方面的另一个实施例提出了一种基于自动生成模型的数字矩阵特征分析方法。在本发明的一些实施例中,提供了一种基于自动生成模型的数字矩阵特征分析方法,该方法包括:
步骤1:利用通用自编码器的编码器提取数字矩阵的特征。
步骤2:根据数字矩阵的特征,选择最优的神经网络模型和聚类算法以生成相关的数字知识。
步骤3:根据所选的最优神经网络模型和聚类算法,进行联合学习以优化自编码器的表示,得出最终的数字知识表示。
具体地,包括以下步骤:
步骤1:通过自编码器的编码器提取数字矩阵特征。
步骤1.1:以图数据为例,将图数据的数字矩阵输入到通用自编码器中得到数字特征,发现该特征适合使用图自编码器提取,以便获得更好的特征结果。因此将通用自编码器替换为图自编码器。
步骤2:根据特征选择合适神经网络模型并选择适合的聚类算法生成相关数字知识。
步骤2.1:给上一步骤中选出的图自编码器导入图数据的邻接矩阵和节点特征,及数字矩阵,并通过图自编码器中的GAT层,获得当前节点vi隐藏表示(特征),它的计算方式如下:
式中,zi l+1为节点i的输出表示、Ni为节点i的邻居集合、aij为邻居节点j对节点i的重要性的注意系数、σ为非线性函数、为特征向量、w为网络系数;
为了计算注意系数aij,从属性值和拓扑距离两个方面衡量邻居节点的重要性;注意系数通常在所有邻域j∈Ni之间用softmax函数进行归一化,使其易于在节点之间进行比较:
式中,aij为邻居节点j对节点i的重要性的注意系数、softmaxj(*)为计算函数、dij为权值向量、exp(*)为指数运算、Ni为邻居节点集合、k为当前邻居节点。
步骤2.2:经过大量的实验表明,堆叠两层GAT的编码器效果最好,因此在图编码器输入数字矩阵x可以得到隐藏特征
式中,为当且节点表示、w(1)为网络系数、σ为非线性函数;
选取重构图结构作为解码器中的一部分,这利用sigmoid函数将(-∞,+∞)映射到概率空间:
A′i=sigmoid(ztz)
式中,A‘i为重构数据、sigmoid(*)为计算函数、zt为特征向量转置、z为特征向量;
通过测量A和A‘i的差来最小化重构误差:
式中,Lr为重建损失、n为节点个数、loss(*)为损失函数、Ai为重建图。
步骤2.3:接下来需要选取合适的后续聚类算法用以表示数字知识。后续聚类算法集合包含现有的大多数聚类算法。如k-means算法及其变体,GMM聚类算法,SP聚类算法和DBSCAN算法等。选择方式是将上一步骤中得到的数字特征使用聚类算法集合中的元素均进行一次聚类,根据得到结果的ACC和NMI指标评判聚类结果的好坏。在本例的图数据基础上,基于k-means算法变体的relax k-means算法效果最佳,因此接下来描述relax k-means算法部分。
首先定义relax k-means的解码器部分。具体来说,如果将第v个点分配给第b个集群,则gvb=1;否则,gvb=0。显然,k-means利用了一个隐含的假设,即欧几里德距离能够描述数据点的散度。
式中,c当前计算项;
设gvb是矩阵G的第(v,b)个项,F=[f1,f2,......,fc]。那么可以得到下面的问题:
式中,minF,G为最小化F,G、XT为中间计算项、GT为代替之前的指标计算矩阵转置;
注意G^满足G^TG=i,将代入G,可以得到k-means的目标为:
式中,式中,Lc为聚类损失、为指标计算矩阵、/>为指标计算矩阵的转置、XT为拉普拉斯矩阵的转置、tr为矩阵的迹、X为拉普拉斯矩阵;
经过推导,Lc可以写成:
步骤3:根据所选的适合的神经网络模型完善自编码器整体,得出结果。
步骤3.1:共同优化图嵌入和聚类学习,将这两个部分结合起来共同学习,这样可以得到整体的适合当前数据的自动生成模型、即自编码器模型与更好的数字知识表示。因此总目标函数定义为:
L=Lr+αLc
式中,α为控制两个损失项平衡的系数、L为总损失。
步骤3.2:通过设置迭代次数与最大轮数,可以得到训练好的模型;将基于图数据的初始数字矩阵输入模型,可以得到不同的数字知识聚类表示结果,如得到聚类类别及其数字表示,从而达到自动生成数字知识表示的效果。
本发明第一方面的另一个实施例提出了一种基于自动生成模型的数字矩阵特征分析方法。在本发明的一些实施例中,提供了一种基于自动生成模型的数字矩阵特征分析方法,该一种基于自动生成模型的数字矩阵特征分析方法包括:
以公开图数据集cora为例,它包含2708篇科学出版物,5429条边,总共7种类别。数据集中的每个出版物都由一个0/1值的词向量描述,表示字典中相应词的缺失/存在。该词典由1433个独特的词组成。其描述了这些科学出版物的内容、特征与彼此之间的关系。在实际生活中具有非常重要的实用意义。全程使用python实验。整体实验过程包括如下步骤:
步骤1:通过通用自编码器的编码器提取数字矩阵特征。
步骤1.1:从相关资源网站下载cora数据集,其中包括图数据的邻近矩阵与节点特征矩阵。
步骤1.2:了解并读取数据。它的邻接矩阵和节点特征矩阵维度分别为1433和2708。
步骤1.3:通用自编码器筛选后选择图自编码器。设置基于GAT的编码器,并将其堆叠两层,可以得出输入数字矩阵的特征嵌入。如某节点的输入维度为1433的向量,经过编码器后得到的特征向量为16维,如下:
[0.87058824,0.99607843,0.99607843,0.99607843,0.99607843,0.94509804,0.7764706,0.7764706,0.7764706,0.44705883,0.6392157,0.8901961,0.99607843,0.88235295,0.99607843,0.99607843];
步骤2:根据特征选择合适神经网络模型并选择适合的聚类算法生成相关数字知识。
步骤2.1:通过聚类集合筛选,使用relaxedk-means方法。定义重建图方法,通过编码器得到的图嵌入与它的转置可以重构图结构,其激活函数为sigmoid。
步骤2.2:调用sklearn包中的k-means方法,根据relaxedk-means所提出的计算损失函数的方法。
步骤3:根据所选的适合的神经网络模型完善自编码器整体,得出结果。
步骤3.1:综合图自编码器,得出整个模型的损失函数。
步骤3.2:首先进行预训练,即对只设置步骤2.1中的解码器,对模型进行10轮预训练。
步骤3.3:在预训练模型的基础上加入步骤2.2中的解码器部分,构成完整的模型后带入全部cora数据集中数据,进行训练。其中epoch=30,iteration=4。至此得到最终的自动生成模型。
步骤3.4:通过该自动生成模型,带入数据集,以cora的数字矩阵为例。输入2708*1433的节点特征矩阵和2708*2708的邻接矩阵,并输入聚类个数7。
步骤3.5:得到7个类别结果,即2708个节点被分为7个类别,并显示出这7个类别的主题。例如以下是10个科学出版物(节点)的主题(类别):
[1,0,5,0,6,0,3,2,6,4]
其中每个数字代表一种类别,他们分别为:
[0:人工智能,1:机器学习,2:深度学习,3:计算机理论,4:软件工程,5:网络安全,6:计算机系统]
至此,通过图聚类的自动生成模型,得到了潜藏在大型数据集中的数字知识表示,为下游任务提供了良好的先验条件。
进一步地,为说明本发明的数字知识表达效果,本实验是在同等条件下,以相同的数据集,分别采用两种类别的方法进行比较。第一种类别的方法是基于普通GAE的方法,第二种方法是本发明的数字知识表达方法。
对于cora数据集,采用聚类精度(ACC)、归一化互信息(NMI)和调整rand指数(ARI)3个指标来验证各种模型的性能。现有模型的最好性能分别为71.53%,48.47%,50.26%。而我们的模型性能为73.23%,53.99%,51.24%.达到了目前最好的结果。
通过实验表明了本发明提出的基于自动生成模型的数字知识表达的有效性。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
以上的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (10)
1.一种基于自动生成模型的数字矩阵特征分析方法,其特征在于,包括如下步骤:
获取数据集;所述数据集的数据为数字矩阵,基于所述数字矩阵的特征选择对应的自编码器;
通过所述自编码器获取数字矩阵的隐藏特征,基于自编码器构建神经网络模型;
采用所述隐藏特征对聚类算法集合进行选择,获得最优聚类算法;
训练所述神经网络模型和最优聚类算法,获得自动生成模型;
将待测数据集输入所述自动生成模型,以获得识别结果,通过所述识别结果得到所述数字矩阵对应的标签数据;
其中,所述数字矩阵为控制系统设计领域的数据,所述标签数据为飞行器参数。
2.根据权利要求1所述的一种基于自动生成模型的数字矩阵特征分析方法,其特征在于,所述编码器在预设范围内选择,所述预设范围包括:变分自编码器、去噪自编码器和图自编码器;
所述聚类算法集合包括:k-means算法、高斯混合聚类算法,谱聚类算法和DBSCAN算法。
3.根据权利要求2所述的一种基于自动生成模型的数字矩阵特征分析方法,其特征在于,所述的基于所述数字矩阵的特征选择对应的自编码器的步骤,包括:
将所述数字矩阵输入预设范围内的自编码器,以获得所述数字矩阵的特征;
根据所述数字矩阵的特征的分布形状,在所述预设范围匹配出计算所述数字矩阵的自编码器。
4.根据权利要求1所述的一种基于自动生成模型的数字矩阵特征分析方法,其特征在于,所述的通过所述自编码器获取数字矩阵的隐藏特征的步骤,包括:
将所述数字矩阵输入自编码器,得到所述数字矩阵对应图的节点的隐藏特征。
5.根据权利要求1所述的一种基于自动生成模型的数字矩阵特征分析方法,其特征在于,所述神经网络模型的处理步骤包括:
对自解码器输入数据集,得到隐藏特征;
获取所述隐藏特征的转置矩阵;
采用sigmoid函数将所述隐藏特征从(-∞,+∞)映射到(0,1)概率空间;
将所述隐藏特征的转置矩阵和映射后的隐藏特征作为原数据输入所述神经网络模型的重构组件,以获得重构数据。
6.根据权利要求5所述的一种基于自动生成模型的数字矩阵特征分析方法,其特征在于,所述重构组件的误差采用下述公式计算:
式中,Lr为重构误差、n为节点个数、loss(*)为损失函数、Ai为原数据、A‘i为重构数据、i为当前节点,即为数字矩阵所对应的图上的节点。
7.根据权利要求6所述的一种基于自动生成模型的数字矩阵特征分析方法,其特征在于,所述隐藏特征采用下述步骤计算:
获取当前节点i所有的邻居节点,对当前节点i的重要性注意系数,具体为下述公式:
式中,aij为邻居节点j对当前节点i的重要性注意系数、softmaxj(*)为计算函数、dij为邻居节点j对当前节点i的权值向量、exp(*)为指数运算、Ni为邻居节点集合、k为当前邻居节点;dik为当前邻居节点k对当前节点i的权值向量;
根据所有的重要性注意系数,计算当前节点的隐藏特征,具体为下述公式:
式中,为隐藏特征、w(1)为网络系数、σ为非线性函数、/>为隐藏表示。
8.根据权利要求7所述的一种基于自动生成模型的数字矩阵特征分析方法,其特征在于,所述的采用所述隐藏特征对聚类算法集合进行选择的步骤,具体包括:
通过所述聚类算法集合中的每种聚类算法分别对所述数字矩阵的特征进行聚类处理;
根据聚类处理的结果,获取准确率ACC和标准互信息素NMI指标,且由高到低进行排序;
将排序最高的指标所对应的聚类算法,作为最优聚类算法。
9.根据权利要求8所述的一种基于自动生成模型的数字矩阵特征分析方法,其特征在于,所述聚类算法的聚类损失为下述公式:
式中,Lc为聚类损失、为指标计算矩阵、/>为指标计算矩阵的转置、XT为拉普拉斯矩阵的转置、tr为矩阵的迹、X为拉普拉斯矩阵。
10.根据权利要求9所述的一种基于自动生成模型的数字矩阵特征分析方法,其特征在于,所述的将所述神经网络模型和聚类算法进行训练的步骤,具体包括:
设置用于所述神经网络模型和聚类算法的共同训练的总目标函数,具体为下述公式:
L=Lr+αLc;
式中,α为控制重构误差和聚类损失的平衡的系数、L为总损失、Lc为聚类损失;Lr为重构误差;
设置共同训练的迭代次数与最大轮数;
基于所述总目标函数对神经网络模型和聚类算法进行共同训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310958497.7A CN117093849A (zh) | 2023-08-01 | 2023-08-01 | 一种基于自动生成模型的数字矩阵特征分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310958497.7A CN117093849A (zh) | 2023-08-01 | 2023-08-01 | 一种基于自动生成模型的数字矩阵特征分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117093849A true CN117093849A (zh) | 2023-11-21 |
Family
ID=88781323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310958497.7A Pending CN117093849A (zh) | 2023-08-01 | 2023-08-01 | 一种基于自动生成模型的数字矩阵特征分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093849A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576980A (zh) * | 2024-01-19 | 2024-02-20 | 中国民用航空飞行学院 | 一种飞行模拟座舱数据补全方法及系统 |
-
2023
- 2023-08-01 CN CN202310958497.7A patent/CN117093849A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576980A (zh) * | 2024-01-19 | 2024-02-20 | 中国民用航空飞行学院 | 一种飞行模拟座舱数据补全方法及系统 |
CN117576980B (zh) * | 2024-01-19 | 2024-03-22 | 中国民用航空飞行学院 | 一种飞行模拟座舱数据补全方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111785329B (zh) | 基于对抗自动编码器的单细胞rna测序聚类方法 | |
CN110909125B (zh) | 推文级社会媒体谣言检测方法 | |
CN113535964B (zh) | 企业分类模型智能构建方法、装置、设备及介质 | |
Yang et al. | Triplet Enhanced AutoEncoder: Model-free Discriminative Network Embedding. | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
Bonaccorso | Hands-on unsupervised learning with Python: implement machine learning and deep learning models using Scikit-Learn, TensorFlow, and more | |
CN114118369B (zh) | 一种基于群智能优化的图像分类卷积神经网络设计方法 | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
CN115270752A (zh) | 一种基于多层次对比学习的模板句评估方法 | |
CN111709225A (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN111428181A (zh) | 一种基于广义加性模型结合矩阵分解的银行理财产品推荐方法 | |
Zhang et al. | Clustering noisy trajectories via robust deep attention auto-encoders | |
CN113297385B (zh) | 基于改进GraphRNN的多标签文本分类系统及分类方法 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN111400413B (zh) | 一种确定知识库中知识点类目的方法及系统 | |
CN113743620A (zh) | 一种基于机器学习的财务数据造假识别方法及系统 | |
CN115240782A (zh) | 药物属性预测方法、装置、电子设备及存储介质 | |
CN117194966A (zh) | 对象分类模型的训练方法和相关装置 | |
CN114820074A (zh) | 基于机器学习的目标用户群体预测模型构建方法 | |
CN111882441A (zh) | 一种基于理财产品推荐场景的用户预测解释Treeshap方法 | |
CN113591930A (zh) | 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 | |
Fei et al. | Image clustering: Utilizing teacher-student model and autoencoder | |
JP6230501B2 (ja) | 縮約素性生成装置、情報処理装置、方法、及びプログラム | |
Deng et al. | Active Learning Music Genre Classification Based on Support Vector Machine | |
Soto de la Cruz et al. | Isodata-Based Method for Clustering Surveys Responses with Mixed Data: The 2021 StackOverflow Developer Survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |