CN108763576A - 一种用于高维文本数据的并行k-means算法 - Google Patents

一种用于高维文本数据的并行k-means算法 Download PDF

Info

Publication number
CN108763576A
CN108763576A CN201810576890.9A CN201810576890A CN108763576A CN 108763576 A CN108763576 A CN 108763576A CN 201810576890 A CN201810576890 A CN 201810576890A CN 108763576 A CN108763576 A CN 108763576A
Authority
CN
China
Prior art keywords
data
cluster
sample
algorithm
neuron
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810576890.9A
Other languages
English (en)
Other versions
CN108763576B (zh
Inventor
申彦明
单晓磊
王宇新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201810576890.9A priority Critical patent/CN108763576B/zh
Publication of CN108763576A publication Critical patent/CN108763576A/zh
Application granted granted Critical
Publication of CN108763576B publication Critical patent/CN108763576B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言处理和机器学习的交叉领域,提供一种用于高维文本数据的并行k‑means算法。该算法首先将文本数据向量化,其次对该向量化后的矩阵建立降维模型,将高维数据转化为具有高效特征的低维数据;然后通过优化k‑means聚类算法进一步提高算法准确度,再对降维后的数据进行聚类,并通过GPU以及MPI技术实现算法并行化,最终实现高维文本数据的准确度以及效率的提高。本发明能够大幅度提高文本聚类的准确度,提高算法的运行速率以及可移植性。

Description

一种用于高维文本数据的并行k-means算法
技术领域
本发明属于自然语言处理和机器学习的交叉领域,涉及一种用于医疗文本数据的并行k-means算法(pk-means)。
背景技术
本发明中提到的医疗文本数据是指医生所开的医嘱,医嘱属于短文本数据,因此在整个医嘱语料库中医嘱就具有高维且稀疏的特性。本发明处在整个工程的预处理部分,意在使用高效的方法对所有医嘱进行初始聚类,为工程后续的其他工作做准备。在下文我们皆用“文本数据”这一词来指代“医疗文本数据”。
现阶段,针对于文本数据的聚类主要可以分为两个步骤:数据预处理、聚类。
在数据预处理方面,主要采用基于降维的思想,大致可以分为特征选择和特征变换这两种方法。在特征选择方法中,本发明企图从源数据中挑选出特征项,例如TF-IDF等。特性转换是一种不同的方法,它将新特性定义为原始数据集中特性的函数表示,例如LSI、PCA、SVD、非负矩阵分解等。这些传统的方法大多采用评估函数进行特征权重的计算,由于这些评估函数是基于统计学的,其中一个主要缺陷就是需要用一个很庞大的训练集才能获得几乎所有的对分类起关键作用的特征。此外,在深度学习领域中,自动编码器已经成功地从图像数据集中学习有意义的表示。然而,他们在文本数据集上的表现还没有被广泛研究。传统的自动编码器倾向于学习文本文档的可能微不足道的特征用来表示文本,因为文本数据具有高维度,稀疏性和幂律分布等复杂性质。所以选择传统的自动编码器来学习特征还是不够完善的。
聚类不需要先验知识,通过发掘数据集内部存在的模式与结构,实现对数据样本的自主划分。其中,文本聚类算法大致可以分为基于划分的和基于层次的这两大类聚类算法。基于划分的k-means聚类算法是目前最受欢迎的算法之一。针对高维文本数据,若采用Lloyd提出的经典k-means,使用随机选取初始聚类种子的方法,会使得聚类结果的随机性过大;此外,在该算法的聚类过程中采用的是基于距离的数据相似度度量方法,但对于高维的文档数据来说,使用距离度量相似性并不适合。
发明内容
本发明提出了一种用于高维文本数据的并行k-means算法,目的在于提高文本数据聚类的准确性以及运行速率。针对传统自编码器在文本数据集上学习文档特征不够准确的特点,本发明使用了加入了一个竞争层的自编码器;针对Lloyd k-means方法选取初始种子节点的随机性特点,本发明提出了一种基于密度以及k-means++思想的初始种子选取方法,并将算法并行化,来提高算法的运行速率与可移植性。如图1显示的是本发明对应的模块化设计。
为了达到上述目的,本发明所采用的技术方案如下:
一种用于高维文本数据的并行k-means算法,首先将文本数据向量化,其次对该向量化后的矩阵建立降维模型,将高维数据转化为具有高效特征的低维数据。然后通过优化k-means聚类算法进一步提高算法准确度,再对降维后的数据进行聚类。并通过GPU以及MPI技术实现算法并行化。从而实现了高维文本数据的准确度以及效率的提高。具体包括以下步骤:
第一步,将高维的文本数据训练得到低维数据
1.1)选择恰当的文本表示模型,将文本数据向量化。本发明采用词袋模型(Bag-of-words)作为文本表示模型。
1.2)设计降维模型
该降维模型在只有输入层、隐含层、输出层三层的自编码网络Auto encoder中,依据注意力机制的思想加入一个竞争层。在该模型中,输入层和隐含层之间选用激活函数在隐含层和输出层之间选用激活函数将损失函数定义为交叉熵,利用反向传播进行微调以及迭代,进而得到低维数据。
第二步,利用pk-means聚类算法对第一步预处理后的低维数据进行聚类
传统的K-means方法是聚类中的经典算法,是数据挖掘十大经典算法之一。算法接受参数k,将事先输入的n个数据对象划分为k个簇,使得所获得的簇满足簇中对象相似度较高,而不同簇中的对象相似度较小。
根据该思想本发明提出一种改进的k-means聚类算法pk-means,针对高维文本数据进行聚类,改进的k-means聚类算法pk-means包括如下步骤:
步骤1设置相关参数
步骤2初始种子选择
步骤3分配数据点
步骤4更新聚类中心点
步骤5计算当前迭代代价值
步骤6判断是否满足算法终止条件
步骤7停止迭代,输出结果
第三步,将单机算法并行化
在该步骤主要可以分为两个方面,一方面为将第二步得到的单机算法中的聚类过程使用CUDA计算框架实现GPU,启动多线程;另一方面为实现多节点并行计算,本发明中使用MPI来实现,通过将节点分成控制节点和计算节点,让两类型节点协同工作进而实现并行工作。
本发明区别于已有方法的特色在于,首先针对数据降维方向采用了一种前馈神经网络——自编码器和注意力机制思想的结合来设计模型,这区别于传统大多基于统计学思想的降维方法,其次在对于k-means算法初始种子选择这一方面采用了基于密度和k-means++结合的思想,该方法既避免了边界点的影响又保证了算法的准确度。此外在针对后续整合后的聚类算法,则采用CUDA计算框架以及消息传递接口MPI对算法进行提速。
本发明的有益效果为:(1)使得文本聚类的准确度得以大幅度提高;(2)提高了算法的运行速率以及可移植性。
附图说明
图1为对应的是本发明的模块化设计图形;
图2为本发明对应的文本数据向量化流程;
图3为对应的是本发明的降维模型的框架图。
具体实施方法
下面对本发明的实施方式进行详细说明。
一种用于高维文本数据的并行k-means算法,包括以下步骤:
第一步,将高维的文本数据训练得到低维数据
1.1)选择恰当的文本表示模型,将文本数据向量化。本发明采用Bag-of-words文本表示模型,通过该模型得到的矩阵大小为N*d,其中N表示的是文本数量,d表示的是整个语料库的特征词数目,也可以说成是每个文档的当前维度。如图2显示的使用词袋模型将文本向量化的流程:首先,按行读取文件内容;然后,在Python中使用nltk库对所读取的内容进行分词;之后,读取停用词表中内容,去除文件中的停用词;最后,通过对所有文件进行如上操作得到了整个语料库的特征词集合。然后,针对每一个文档进行特征词词频统计,若该文档中未出现该特征词则对应位赋值为0,这样每个文档就对应生成一个统一长度(语料库中特征词个数)的向量。
1.2)将向量化后的文本数据采用log-normalized方法进行数据标准化,公式如下所示:
其中,x∈Rd对应一个文档,xi表示第i号特征词;ni对应为其词频,max为针对该特征词对应的最大词频。
1.3)设计降维模型
该降维模型在只有输入层、隐含层、输出层三层的自编码网络Auto encoder中,依据注意力机制的思想加入一个竞争层,设计为四层模型,如图3所示。令x∈Rd是一个d维的输入向量,h1,h2,……hm为m个隐含层神经元,W∈Rd*m为输入层和隐含层之间的权重矩阵,b∈Rm、c∈Rd为偏差,令g代表激活函数,在输入层和隐含层之间选用激活函数在隐含层和输出层之间选用激活函数因此在训练阶段的数据流向为如下所以:
z=tanh(Wx+b) (2)
其中,公式(3)中对应的为竞争层,在该层中判断通过激活函数tanh后的神经元情况将神经元分成正神经元和负神经元。最具竞争力的s个神经元是那些具有最大绝对激活值的神经元,s是一个参数。如图3所示在隐含层上层的神经元可以看成是正神经元,下层对应为负神经元。本发明通过选取个绝对值最大的正神经元,将输了的正神经元的能量分配给赢的神经元,同理选取个绝对值最大的负神经元,做同样的操作,这样就使得隐含层的神经元能量实现了再分配。这使得训练出的特征更具有代表性。
此外,在该模型中本发明将训练过程中的损失函数定义为交叉熵,然后利用反向传播进行微调以及迭代;本发明采用Adam优化器来进行学习。本模型采用Keras框架来实现,并在模型中使用了Early Stopping函数来避免过拟合问题。
通过该模型本发明将原本为N*d大小的矩阵,转变为N*m大小的矩阵。
第二步,利用pk-means聚类算法对第一步预处理后的数据作为算法的输入数据进行聚类,聚类过程包括以下步骤:
(1)设置相关参数
初始化聚类数目k、最大迭代次数、误差阈值参数。迭代次数:i=0
(2)初始种子选择
在该步骤主要需要确定初始中心点:C1,C2,……Ck,具体步骤如下所示:
Step 1:定义一个半径R,R为某一个样本到其他样本距离的平均值的整体平均。扫描样本集,选择在该半径组成的球形内样本点数目最多的样本作为初始聚类中心C1
Step2:计算每个样本x与当前已有聚类中心Ct-1(t=2,3,…,k)之间的最短距离(即与最近的一个聚类中心的距离),用D(x)表示;计算每个样本被选为下一个聚类中心的概率按照轮盘法选择一个聚类中心;
Step3:重复第2步至选择出k个聚类中心。
(3)分配数据点
采用如公式(5)所示的cosine余弦距离计算样本与聚类中心之间的相似度,公式如下:
其中,A为样本,B为聚类中心点,d为向量维度,Ai、Bi为向量的成分。
将样本分配到与其具有最大相似度的聚类中心所在的簇中。迭代次数:i=i+1
(4)更新聚类中心点
当迭代一次后,所有样本均被分配完毕,依据簇内样本坐标总和除以簇内样本数目得到新的中心点坐标。
(5)计算当前迭代误差
统计当前迭代后生成的误差,采用每次迭代后各个样本距离其所在簇中心点的余弦之和作为本次迭代的误差。
(6)判断是否满足算法终止条件
算法的终止条件是,两次迭代后的误差之差小于阈值,或者聚类的迭代次数超过设定的最大迭代次数,转步骤(7);否则,转步骤(3)。
(7)停止迭代,输出结果。
本发明中采用标准化互信息(NMI)衡量算法的准确度,公式如下所示:
其中,X表示的聚类后所得的文档对应标签;Y为标准标签;n为文档数目;p(x,y)为x和y的联合概率分布;p(x)为x的概率分布;p(y)为y的概率分布。
经过以上两步实现了单机文本聚类算法准确度的提高。
本发明对所述的第二步中pk-means聚类算法还可以进行如下优化:
1)将单机算法并行化
将pk-means聚类算法中的聚类过程也就是第二步的步骤(3),采用CUDA计算框架实现GPU,启动多线程,原pk-means聚类算法的固有时间复杂度O(nkdl)。其中,n表示的是文本数量,d为单词数量,k为聚类数目,l为迭代次数。
在这一部分设计主要的工作在于文本相似度计算这一部分,在单机算法中该部分的复杂度为O(nkdl)。通过并行设计启动n个线程,复杂度就降为了O(kdl),这大大减少了算法复杂度。
2)实现多节点并行计算
将启动的所有节点分为一个控制节点和多个计算节点,通过MPI技术使各个节点协同工作继而实现多节点并行计算。所述的控制节点负责接收外部数据并将数据发布到远程存储窗口,再将控制信息、初始化种子发送给计算节点。所述的计算节点通过从远程存储窗口读取的数据以及收到的控制信息、初始化种子这些信息,进行相应的计算,并将计算结果再发送给控制节点;此时,控制节点接收数据并执行相应判断及其他操作。通过这两个节点之间的信息传递,本发明可以实现多节点并行计算。
所述的判断条件为第二步步骤(6)。
以上本发明所述针对的是医疗文本数据提出的pk-means聚类算法,但是对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以针对其他文本数据,来对pk-means聚类算法做出若干变形和改进。

Claims (2)

1.一种用于高维文本数据的并行k-means算法,其特征在于以下步骤:
第一步,将高维的文本数据训练得到低维数据
1.1)采用Bag-of-words文本表示模型,将文本数据向量化;通过该模型得到大小为N*d的矩阵,其中N表示的是文本数量,d表示的是整个语料库的特征词数目,也可以说成是每个文档的当前维度;
1.2)将向量化后的文本数据采用log-normalized方法进行数据标准化,公式如下所示:
其中,x∈Rd对应一个文档,xi表示第i号特征词;ni对应为其词频,max为针对该特征词对应的最大词频;
1.3)设计降维模型
该降维模型在只有输入层、隐含层、输出层三层的自编码网络Auto encoder中,依据注意力机制的思想加入一个竞争层,设计为四层模型;令x∈Rd是一个d维的输入向量,h1,h2,……hm为m个隐含层神经元,W∈Rd*m为输入层和隐含层之间的权重矩阵,b∈Rm、c∈Rd为偏差,令g代表激活函数,在输入层和隐含层之间选用激活函数在隐含层和输出层之间选用激活函数因此在训练阶段的数据流向为如下所以:
z=tanh(Wx+b) (2)
其中,公式(3)中对应的为竞争层,在该层中判断通过激活函数tanh后的神经元情况将神经元分成正神经元和负神经元;最具竞争力的s个神经元是具有最大绝对激活值的神经元,s是一个参数;通过选取个绝对值最大的正神经元,将输了的正神经元的能量分配给赢的神经元,同理选取个绝对值最大的负神经元,做同样的操作,这样就使得隐含层的神经元能量实现再分配;
此外,在该模型中将训练过程中的损失函数定义为交叉熵,然后利用反向传播进行微调以及迭代;采用Adam优化器进行学习;采用Keras框架来实现,并在模型中使用了EarlyStopping函数避免过拟合问题;
通过该模型本发明将原本为N*d大小的矩阵,转变为N*m大小的矩阵;
第二步,利用pk-means聚类算法对第一步预处理后的数据作为算法的输入数据进行聚类,聚类过程包括以下步骤:
(1)设置相关参数
初始化聚类数目k、最大迭代次数、误差阈值参数;迭代次数:i=0
(2)初始种子选择
在该步骤主要需要确定初始中心点:C1,C2,……Ck,具体步骤如下所示:
Step1:定义一个半径R,R为某一个样本到其他样本距离的平均值的整体平均;扫描样本集,选择在该半径组成的球形内样本点数目最多的样本作为初始聚类中心C1
Step2:计算每个样本x与当前已有聚类中心Ct-1(t=2,3,…,k)之间的最短距离,用D(x)表示;计算每个样本被选为下一个聚类中心的概率按照轮盘法选择一个聚类中心;
Step3:重复第2步至选择出k个聚类中心;
(3)分配数据点
采用如公式(5)所示的cosine余弦距离计算样本与聚类中心之间的相似度,公式如下:
其中,A为样本,B为聚类中心点,d为向量维度,Ai、Bi为向量的成分;
将样本分配到与其具有最大相似度的聚类中心所在的簇中;迭代次数:i=i+1
(4)更新聚类中心点
当迭代一次后,所有样本均被分配完毕,依据簇内样本坐标总和除以簇内样本数目得到新的中心点坐标;
(5)计算当前迭代误差
统计当前迭代后生成的误差,采用每次迭代后各个样本距离其所在簇中心点的余弦之和作为本次迭代的误差;
(6)判断是否满足算法终止条件
算法的终止条件是,两次迭代后的误差之差小于阈值,或者聚类的迭代次数超过设定的最大迭代次数,转步骤(7);否则,转步骤(3);
(7)停止迭代,输出结果。
2.根据权利要求1所述的一种用于高维文本数据的并行k-means算法,其特征在于,所述的第二步中pk-means聚类算法还可以进行如下优化:
1)将单机算法并行化
将pk-means聚类算法中的聚类过程也就是第二步的步骤(3),采用CUDA计算框架实现GPU,启动多线程,原pk-means聚类算法的固有时间复杂度O(nkdl);其中,n表示的是文本数量,d为单词数量,k为聚类数目,l为迭代次数;
在单机算法中在文本相似度计算部分,其复杂度为O(nkdl);通过并行设计启动n个线程,复杂度就降为O(kdl),减少算法复杂度;
2)实现多节点并行计算
将启动的所有节点分为一个控制节点和多个计算节点,通过MPI技术使各个节点协同工作继而实现多节点并行计算;所述的控制节点负责接收外部数据并将数据发布到远程存储窗口,再将控制信息、初始化种子发送给计算节点;所述的计算节点通过从远程存储窗口读取的数据以及收到的控制信息、初始化种子这些信息,进行相应的计算,并将计算结果再发送给控制节点;此时,控制节点接收数据并执行相应判断及其他操作;通过这两个节点之间的信息传递,实现多节点并行计算;所述的判断条件与第二步步骤(6)相同。
CN201810576890.9A 2018-05-28 2018-05-28 一种用于高维文本数据的并行k-means算法 Expired - Fee Related CN108763576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810576890.9A CN108763576B (zh) 2018-05-28 2018-05-28 一种用于高维文本数据的并行k-means算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810576890.9A CN108763576B (zh) 2018-05-28 2018-05-28 一种用于高维文本数据的并行k-means算法

Publications (2)

Publication Number Publication Date
CN108763576A true CN108763576A (zh) 2018-11-06
CN108763576B CN108763576B (zh) 2021-01-19

Family

ID=63999261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810576890.9A Expired - Fee Related CN108763576B (zh) 2018-05-28 2018-05-28 一种用于高维文本数据的并行k-means算法

Country Status (1)

Country Link
CN (1) CN108763576B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558873A (zh) * 2018-12-03 2019-04-02 哈尔滨工业大学 一种基于变样本栈式自编码网络的模式识别方法
CN109858254A (zh) * 2019-01-15 2019-06-07 西安电子科技大学 基于日志分析的物联网平台攻击检测系统及方法
CN110717517A (zh) * 2019-09-06 2020-01-21 中国平安财产保险股份有限公司 智能化多线程聚类方法、装置及计算机可读存储介质
CN111105041A (zh) * 2019-12-02 2020-05-05 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111341437A (zh) * 2020-02-21 2020-06-26 山东大学齐鲁医院 基于舌图像的消化道疾病判断辅助系统
CN112259228A (zh) * 2020-11-12 2021-01-22 湖北理工学院 一种动态注意力网络非负矩阵分解的抑郁症筛选方法
CN113485738A (zh) * 2021-07-19 2021-10-08 上汽通用五菱汽车股份有限公司 一种软件故障智能分类方法与可读存储介质
CN113627514A (zh) * 2021-08-05 2021-11-09 南方电网数字电网研究院有限公司 知识图谱的数据处理方法、装置、电子设备和存储介质
CN115344693A (zh) * 2022-07-11 2022-11-15 北京容联易通信息技术有限公司 一种基于传统算法和神经网络算法融合的聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077253A (zh) * 2013-01-25 2013-05-01 西安电子科技大学 Hadoop框架下高维海量数据GMM聚类方法
CN104850629A (zh) * 2015-05-21 2015-08-19 杭州天宽科技有限公司 一种基于改进k-means算法的海量智能用电数据分析方法
WO2017201605A1 (en) * 2016-05-03 2017-11-30 Affinio Inc. Large scale social graph segmentation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077253A (zh) * 2013-01-25 2013-05-01 西安电子科技大学 Hadoop框架下高维海量数据GMM聚类方法
CN104850629A (zh) * 2015-05-21 2015-08-19 杭州天宽科技有限公司 一种基于改进k-means算法的海量智能用电数据分析方法
WO2017201605A1 (en) * 2016-05-03 2017-11-30 Affinio Inc. Large scale social graph segmentation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YU CHEN等: "Kate: K-competitive autoencoder for text", 《PROCEEDINGS OF THE ACM SIGKDD INTERNATIONAL CONFERENCE ON DATA MINING AND KNOWLEDGE DISCOVERY》 *
王乔: "基于CUDA的并行K-means算法在文本聚类的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558873A (zh) * 2018-12-03 2019-04-02 哈尔滨工业大学 一种基于变样本栈式自编码网络的模式识别方法
CN109858254A (zh) * 2019-01-15 2019-06-07 西安电子科技大学 基于日志分析的物联网平台攻击检测系统及方法
CN110717517A (zh) * 2019-09-06 2020-01-21 中国平安财产保险股份有限公司 智能化多线程聚类方法、装置及计算机可读存储介质
CN111105041B (zh) * 2019-12-02 2022-12-23 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111105041A (zh) * 2019-12-02 2020-05-05 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111341437A (zh) * 2020-02-21 2020-06-26 山东大学齐鲁医院 基于舌图像的消化道疾病判断辅助系统
CN111341437B (zh) * 2020-02-21 2022-02-11 山东大学齐鲁医院 基于舌图像的消化道疾病判断辅助系统
CN112259228A (zh) * 2020-11-12 2021-01-22 湖北理工学院 一种动态注意力网络非负矩阵分解的抑郁症筛选方法
CN112259228B (zh) * 2020-11-12 2023-06-02 湖北理工学院 一种动态注意力网络非负矩阵分解的抑郁症筛选方法
CN113485738A (zh) * 2021-07-19 2021-10-08 上汽通用五菱汽车股份有限公司 一种软件故障智能分类方法与可读存储介质
CN113627514A (zh) * 2021-08-05 2021-11-09 南方电网数字电网研究院有限公司 知识图谱的数据处理方法、装置、电子设备和存储介质
CN115344693A (zh) * 2022-07-11 2022-11-15 北京容联易通信息技术有限公司 一种基于传统算法和神经网络算法融合的聚类方法
CN115344693B (zh) * 2022-07-11 2023-05-12 北京容联易通信息技术有限公司 一种基于传统算法和神经网络算法融合的聚类方法

Also Published As

Publication number Publication date
CN108763576B (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
CN108763576A (zh) 一种用于高维文本数据的并行k-means算法
Zheng et al. The fusion of deep learning and fuzzy systems: A state-of-the-art survey
Chen et al. Adaptive feature selection-based AdaBoost-KNN with direct optimization for dynamic emotion recognition in human–robot interaction
Es-Sabery et al. Sentence-level classification using parallel fuzzy deep learning classifier
Tirumala Implementation of evolutionary algorithms for deep architectures
Özbakır et al. Exploring comprehensible classification rules from trained neural networks integrated with a time-varying binary particle swarm optimizer
Karnowski et al. Deep spatiotemporal feature learning with application to image classification
Das et al. NAS-SGAN: a semi-supervised generative adversarial network model for atypia scoring of breast cancer histopathological images
Kim et al. Building deep random ferns without backpropagation
Kaburlasos et al. Granular self-organizing map (grSOM) for structure identification
Anderson Pattern recognition: An introduction
Ravanmehr et al. Deep learning overview
Xiang et al. Semi-supervised text classification with temporal ensembling
Zhao et al. Modified generative adversarial networks for image classification
Mitchell Overview of advanced neural network architectures
Nyquist et al. Football match prediction using deep learning
Weng et al. Optimal in-place self-organization for cortical development: Limited cells, sparse coding and cortical topography
Ashraf et al. A survey of swarm and evolutionary computing approaches for deep learning
El-Hassani et al. A New Optimization Model for MLP Hyperparameter Tuning: Modeling and Resolution by Real-Coded Genetic Algorithm
CN104102918A (zh) 一种基于模糊神经网络的脉象信号分类方法和装置
Prassanna et al. Effective use of deep learning and image processing for cancer diagnosis
Plested Beyond binary hyperparameters in deep transfer learning for image classification
Sharma et al. Handwritten Indic scripts recognition using neuro-evolutionary adaptive PSO based convolutional neural networks
Bharadi Random net implementation of mlp and lstms using averaging ensembles of deep learning models
Wang et al. Generative and discriminative infinite restricted Boltzmann machine training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210119