CN104915386B - 一种基于深度语义特征学习的短文本聚类方法 - Google Patents
一种基于深度语义特征学习的短文本聚类方法 Download PDFInfo
- Publication number
- CN104915386B CN104915386B CN201510270028.1A CN201510270028A CN104915386B CN 104915386 B CN104915386 B CN 104915386B CN 201510270028 A CN201510270028 A CN 201510270028A CN 104915386 B CN104915386 B CN 104915386B
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- features
- convolutional neural
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 54
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 47
- 230000009467 reduction Effects 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 13
- 230000001537 neural effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 5
- 238000003064 k means clustering Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 238000004321 preservation Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 235000006693 Cassia laevigata Nutrition 0.000 description 1
- 241000522641 Senna Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 229940124513 senna glycoside Drugs 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度语义特征学习的短文本聚类方法,包括:通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示,并对得到的低维实值向量进行二值化,做为卷积神经网络结构的监督信息进行误差反向传播训练模型;采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征;得到深度语义特征表示后,采用传统的K均值算法对文本进行聚类。本发明的方法不需要额外的自然语言处理等专业知识,设计简单且可学习深度的语义特征,并且,学习到的语义特征具有无偏性,可更有效地达到较好的聚类性能。
Description
技术领域
本发明涉及文本特征向量化表示领域,特别是涉及一种基于深度语义特征学习的短文本聚类方法。
背景技术
随着社交媒体的广泛流行,短文本聚类日益成为一项重要的任务,它的主要挑战在于文本表示的稀疏性。为了克服这个困难,一些研究者尝试通过维基百科或本体库对短文本数据进行丰富和扩展。可是这些方法需要大量的自然语言处理知识,并且仍然采用高维的特征表示,很容易浪费存储和计算时间。另外一些研究者尝试开发复杂的模型用于聚类短文本数据。但是如何设计一个有效的模型是一个开放性的问题,并且之前大多数方法都是基于词袋特征的潜层模型。
随着深度神经网络的兴起,一些研究者尝试采用深度学习方法学习特征。如Hinton等人利用深度自编码模型(DAE)从原始特征数据中学习文本表示。近几年,词向量化表示方法大大改善了神经网络模型的性能,如递归神经网络(RecNN)和循环神经网络(RNN)。然而,递归神经网络需要构建额外的句法树并具有较高的复杂度,且循环神经网络的文本语义表示更偏重于最后一个词的表示信息。近日,卷积神经网络已经在很多自然语言处理领域取得多项突破性进展。但目前大多数工作都致力于利用卷积神经网络做有监督任务学习,如主题分类、关系分类等。本发明方法则着重于挖掘卷积神经网络在无监督学习任务的潜力,如文本聚类工作。
发明内容
本发明的主要目的在于提供一种基于深度语义特征学习的短文本聚类方法,从而能够将海量语义相似的短文本进行快速和准确地聚类。
为了实现上述目的,根据本发明的一方面,本发明提供了一种基于深度语义特征学习的短文本聚类方法,包括以下步骤:
选取训练文本,通过特征降维方法在局部信息保存约束下对所述训练文本的原始特征进行降维,并对低维实值向量进行二值化;
从所述训练文本中获取词特征,根据所述词特征通过查表分别获取所述词特征对应的词向量,以此作为卷积神经网络的输入特征学习深度语义表示特征;
所述卷积神经网络的输出节点通过多个逻辑斯特回归拟合降维得到二值码;
通过所述卷积神经网络输出的二值特征与所述原始特征降维后二值化特征的拟合残差进行误差反向传播训练所述卷积神经网络模型;
利用所述更新后的卷积神经网络模型对所述训练文本进行深度语义特征映射,然后利用K均值聚类算法得到所述短文本的聚类结果。
其中,所述选取训练文本,通过特征降维方法在局部信息保存约束下对所述训练文本的原始特征进行降维,并对低维实值向量进行二值化的步骤包括:
选取训练文本;
根据所述训练文本构造相似度矩阵;
通过所述相似度矩阵获取拉普拉斯特征向量;
通过所述拉普拉斯特征向量获取中值向量;
通过所述中值向量对所述拉普拉斯特征向量进行二值化,从而生成低维二值码。
其中,所述根据所述训练文本构造相似度矩阵的步骤包括:
根据下式计算所述相似度矩阵:
其中,Sij为所述相似度矩阵,σ为局部缩放因子,NNk(x)为所述训练文本x的k近邻集合。
其中,所述从训练文本中获取词特征,根据所述词特征通过查表分别获取词特征对应的词向量,以此作为卷积神经网络的输入特征学习深度语义表示特征的步骤包括:
从训练文本中获取词特征;
根据所述词特征通过查表分别获取词特征对应的词向量;
将所述词向量进行一维卷积,获取卷积后的特征矩阵;
所述特征矩阵通过折叠操作和采样进行特征压缩;
从所述压缩后特征中动态选取K最大神经单元;
所述K最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征。
其中,所述折叠操作和采样操作分别为:
折叠操作:对卷积层相邻两行神经元特征按对应所在列进行简单求和,给定一个dw行的卷积层,通过折叠操作可以得到dw/2行特征;以及
采样操作:根据输入文本长度进行动态K最大神经单元采样。
所述从所述压缩后特征中动态选取K最大神经单元的步骤包括:
给定一个顶层采样的参数Ktop,则第l层的采样参数K可根据如下公式计算得到:
其中,L是选用卷积神经网络的层数,为短文本的长度。
其中,所述K最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征的步骤包括:
根据下式计算所述训练文本的隐式语义特征:
其中,h为所述训练文本的隐式语义特征。
其中,所述通过所述卷积神经网络输出的二值特征与所述原始特征降维后二值化特征的拟合残差进行误差反向传播训练所述卷积神经网络模型的步骤包括:
将所述训练文本的隐式语义特征通过卷积神经网络模型的全连接输出到输出层;
在所述输出层特征上添加多个逻辑斯特回归进行特征变换,得到最终输出特征;
将所述低维二值码同所述最终输出特征的残差进行误差反向传播得到更新的卷积神经网络模型的参数。
其中,所述将低维二值码同所述最终输出特征的残差进行误差反向传播得到更新的卷积神经网络模型的参数的步骤中,所述卷积神经网络模型采用交叉熵作为优化目标函数,并利用基于梯度下降的Adagrad更新规则。
其中,所述训练文本来自两种公开短文本数据集:
SearchSnippets:该数据集搜集了网络检索引擎的结果片段,按照事先预定的领域范围检索词将检索结果划分为8个类别;
StackOverflow:该数据集包含了从2012年7月31日至2012年8月14日的3百多万条问题,从其中20个不同类别标签下随机抽取了2万条文本。
由上述技术方案可知,本发明的方法采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征。得到文本的深度语义特征表示之后,本发明采用传统的K均值算法对文本进行聚类,可以得到更好的聚类结果。
相比于基于知识库语义扩展的短文本聚类方法,本发明方法不需要额外的自然语言处理等专业知识。相比于基于复杂模型语义抽取的短文本聚类方法,本发明方法设计简单而且可学习深度的语义特征。而且与目前流型的基于语言模型的无监督深度学习模型不同,本发明方法学习到的语义特征具有无偏性,可更有效地达到较好的聚类性能。
附图说明
图1为作为本发明一个实施例的基于深度语义特征学习的短文本聚类方法的流程图;
图2为作为本发明一个实施例的基于深度语义特征学习的短文本聚类方法的框架示意图;
图3为在本发明一个实施例中采用的一种深度卷积神经网络的结构示意图;
图4为本发明一个实施例中基于深度特征表示的聚类的性能示意图;
图5为本发明另一个实施例中基于深度特征表示的聚类的性能示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明的总体构思是,通过特征降维方法在局部信息保存约束下对原始特征进行降维,并对低维实值向量进行二值化,以此二值化特征做为卷积神经网络结构的监督信息进行误差反向传播训练模型。利用训练好的卷积神经网络结构对短文本集合进行特征映射,得到文本的深度语义特征表示之后利用K均值聚类方法进行短文本聚类。
下面结合附图对本发明实施例提供的基于深度语义特征学习的短文本聚类方法进行详细描述。
图1为作为本发明一个实施例的基于深度语义特征学习的短文本聚类方法的流程图。
参照图1,在步骤S101,选取训练文本,通过特征降维方法在局部信息保存约束下对训练文本的原始特征进行降维,并对低维实值向量进行二值化生成低维二值码。
根据本发明的一个示例性实施例,所述将训练文本通过特征降维方法进行降维二值化生成低维二值码包括:
在步骤S1011,根据所述训练文本的原始特征构造相似度矩阵。
在步骤S1012,通过所述相似度矩阵获取拉普拉斯特征向量。
在步骤S1013,通过所述拉普拉斯特征向量获取中值向量。
在步骤S1014,通过所述中值向量对所述拉普拉斯特征向量进行二值化,从而生成所述低维二值码。
根据本发明的一个示例性实施例,所述根据所述训练文本构造相似度矩阵包括:
根据公式(1)计算相似度矩阵:
其中,Sij为所述相似度矩阵,NNk(x)为所述训练文本x的k近邻集合,σ为局部缩放因子(默认为1)。
这里,训练文本用x表示,相似度矩阵用Sij表示,相似度度量方法包括夹角余弦、欧式距离、高斯核和线性核。例如可以是,但不限于通过高斯核来构建局部相似度矩阵。
在步骤S1012,通过所述相似度矩阵获取拉普拉斯特征向量,拉普拉斯特征向量用表示。
为得到文xi本集合的低维二值码B,采用拉普拉斯特征映射优化目标函数如公式(2)所示:
其中,Sij是由公式(1)构造的局部相似度矩阵,bi是文本的低维二值码,||·||F是F-范数。通过松弛二值码离散化的约束条件B∈{-1,1}n×r,最优的r维实值向量可以通过求解拉普拉斯特征映射问题解决,在此不再赘述。
在步骤S1013,通过拉普拉斯特征向量获取中值向量,其中,中值向量表示为
在步骤S102,从所述训练文本中获取词特征,根据所述词特征通过查表分别获取词特征对应的词向量,以此作为卷积神经网络的输入特征学习深度语义表示特征;
这里,通过从词特征的分布式向量化表示中进行查表得到词向量。同时,词向量化在模型中做为参数进行更新。
根据本发明的一个示例性实施例,所述将所述词向量作为卷积神经网络的输入特征学习深度语义表示特征包括:
在步骤S1021,将所述词向量进行一维卷积,获取卷积后的特征矩阵。
在步骤S1022,所述特征矩阵通过折叠和采样操作进行特征压缩。所述两种操作方式如下:
折叠操作:对卷积层相邻两行神经元特征按对应所在列进行简单求和,则给定一个dw行的卷积层,通过折叠操作可以得到dw/2行特征;
采用操作:本发明采用一种根据输入文本长度的动态K最大神经单元采样方法。给定一个顶层采样的参数Ktop,则第l层的采样参数K可根据如下公式计算得到:
其中,L是本发明选用的卷积神经网络的层数,为短文本的长度。
在步骤S1023,所述压缩后神经元特征根据正切激活函数得到所述训练文本的隐式语义特征。
在步骤S103,所述卷积神经网络的输出节点通过多个逻辑斯特回归拟合降维得到的二值码。
为了拟合二值码B,在输出层特征O上应用q个逻辑斯特回归:
在步骤S104,将所述低维二值码进行训练得到更新的卷积神经网络模型。
根据本发明的一个示例性实施例,所述将所述低维二值码进行训练得到更新的卷积神经网络模型包括:
在步骤S1041,将训练文本的隐式语义特征输入所述卷积神经网络模型的输出层;
在步骤S1042,将所述低维二值码同输出特征的残差进行误差反向传播得到更新的卷积神经网络模型的参数。
这里,在步骤S1041中,训练文本的深层语义特征用h表示,并进行线性变换,具体由公式(5)可知:
O=Wh (5)
其中,为输出向量,为线性变换矩阵。
为进行二值化,得到哈希码,在输出层特征O使用q个逻辑斯特回归,具体如公式(4)所示。
这里,在步骤S1042中,模型采用交叉熵作为优化目标函数,并利用基于梯度下降的Adagrad更新规则。
在步骤S105,利用更新后卷积神经网络模型对训练文本进行深度语义特征映射,然后利用K均值算法得到短文本的最终聚类结果。
图2为作为本发明一个实施例的基于深度语义特征学习的短文本聚类方法的框架示意图。
参照图2,基于深度语义特征学习的短文本聚类方法中深度特征学习包括两个阶段,第一阶段是特征降维二值化阶段;第二阶段是卷积神经网络模型训练及深度特征学习阶段。
第一阶段:通过传统的特征降维在局部信息保存的约束下对原始特征进行降维表示。并对得到的低维实值向量进行二值化。
第二阶段:所述降维后的二值向量作为卷积神经网络结构的监督信息进行误差反向传播训练模型;本方法采用外部大规模语料无监督训练词向量,并对文本中每个词按词序进行向量化表示,做为卷积神经网络结构的初始化输入特征学习文本的隐式语义特征。
得到文本的深度语义特征表示之后,本发明采用传统的K均值算法对短文本进行聚类。
为了准确评估本发明方法的聚类性能,本发明通过对比文本的聚类结果和类别标签得到两个性能指标:精度(ACC)和标准化互信息(NMI)。给一个样本xi,分别标注它们的聚类标签为ci,及类别标签为yi。则精度的定义如下:
其中,n是所有的文本数,δ(x,y)是指示函数,当x=y时指示函数为1,当x≠y时指示函数为0。而map(ci)是一个排列映射函数,借助于匈牙利算法可以将聚类标签ci映射到对应的类别标签上。而类别标签集合Y和聚类集合之间的标准化互信息是另外一种比较流行的评测指标,定义如下:
其中,是Y和之间的互信息,而H(·)是熵信息。
本发明试验中采用两种公开短文本数据集:
SearchSnippets:该数据集搜集了网络检索引擎的结果片段,按照事先预定的领域范围检索词将检索结果划分为8个类别。
StackOverflow:该数据集包含了从2012年7月31日至2012年8月14日的3百多万条问题。本发明进行的实验中从其中20个不同类别标签下随机抽取了2万条文本。
针对这些短文本数据集,本发明不做任何处理(包括去停用词和词干还原等操作),数据集的统计信息如表1所示:
表1
数据集 | 类别数 | 样本数量 | 长度(平均/最大) | 词典维数 |
SearchSnippets | 8 | 12340 | 17.88/38 | 30642 |
StackOverflow | 20 | 20000 | 8.31/34 | 22956 |
本发明采用公开的word2vec工具在大规模语料库中无监督训练词向量。其中,应用于SearchSnippets数据集的词向量在Wikipedia语料中进行训练,而应用于StackOverflow数据集的词向量则在上面描述到的StackOverflow全语料(包括所有问题标题和问题内容)上进行训练。无监督训练得到的词向量在两个数据集上的覆盖度统计信息如表2所示,其中未训练词在神经网络模型输入时则直接随机初始化。
具体参照如表2所示的GloVe和Senna词向量的覆盖度统计信息:
表2
数据集 | 词覆盖度 | Token覆盖度 |
SearchSnippets | 23826(77%) | 211575(95%) |
StackOverflow | 19639(85%) | 162998(97%) |
本发明试验中采用以下对比聚类方法:
对比方法一:K均值聚类方法,该方法直接在原始特征上采用K均值方法,而原始特征分别采用词频(TF)和词频-反向文档频率(TF-IDF)进行加权。
对比方法二:谱聚类方法,该方法采用拉普拉斯特征映射,并应用K均值方法进行聚类。其中,特征向量的维数默认和聚类的数目相同,并且本发明对比试验中,在特征向量维数10∶10∶200范围内进行遍历以寻找最优聚类结果,得到SearchSnippets数据集的最优特征向量维数为20维,而StackOverflow的最优特征维数为70维。
对比方法三:均值词向量方法,在加权平均的词向量特征上采用K均值方法聚类,其中加权方式分别为TF和TF-IDF。
本发明试验中采用以下参数设置:
本发明的方法及对比方法二采用同样的相似度矩阵构造方法,且设置公式(1)中的近邻数为15。所采用的卷积神经网络模型,其中,顶层Ktop最大采样中的参数设置为5,且第一层网络的卷积核数为12个而第二层的卷积核数为8个。两个卷积层都紧跟一个折叠操作。本发明同时固定词向量维度为48,则最终深层特征表示的特征被固定到480维。此外,本发明设定学习率为0.01,分批训练的文本数量为200。而输出层神经单元个数同对比方法二中得到的最优特征向量维数一致。本发明进行的试验中,所有聚类方法执行5次,且其中的K均值方法每次重复执行100次以减少初始的聚类中心对聚类结果性能的影响。最终的聚类试验结果如表3所示:
表3
表3为本发明方法、K均值聚类方法、谱聚类方法以及均值词向量方法在两个短文本数据集上聚类结果的ACC和NMI评测结果。试验结果表明,本发明方法的聚类性能显著优越于其他对比方法。且相对于均值词向量(TF)聚类方法,本发明方法在两个数据集上分别提升了2.33%/4.86%和14.23%/10.01%(ACC/NMI)。
同时,本发明进行的试验利用随机近邻映射方法将所有聚类方法中的特征表示降维到二维空间中进行可视化展示,如图4和图5所示(原图为彩色)。可以看到,基于本发明的方法学习到的深度特征表示得到的二维可视化结果具有更加明显的主题区分度。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度语义特征学习的短文本聚类方法,包括以下步骤:
选取训练文本,通过特征降维方法在局部信息保存约束下对所述训练文本的原始特征进行降维,并对低维实值向量进行二值化;
从所述训练文本中获取词特征,根据所述词特征通过查表分别获取所述词特征对应的词向量,以此作为卷积神经网络的输入特征学习深度语义表示特征;
所述卷积神经网络的输出节点通过多个逻辑斯特回归拟合降维得到二值码;
通过所述卷积神经网络输出的二值特征与所述原始特征降维后二值化特征的拟合残差进行误差反向传播训练得到更新后的卷积神经网络模型;
利用所述更新后的卷积神经网络模型对所述训练文本进行深度语义特征映射,然后利用K均值聚类算法得到所述短文本的聚类结果。
2.根据权利要求1所述的基于深度语义特征学习的短文本聚类方法,其特征在于,所述选取训练文本,通过特征降维方法在局部信息保存约束下对所述训练文本的原始特征进行降维,并对低维实值向量进行二值化的步骤包括:
选取训练文本;
根据所述训练文本构造相似度矩阵;
通过所述相似度矩阵获取拉普拉斯特征向量;
通过所述拉普拉斯特征向量获取中值向量;
通过所述中值向量对所述拉普拉斯特征向量进行二值化,从而生成低维二值码。
3.根据权利要求2所述的基于深度语义特征学习的短文本聚类方法,其特征在于,所述根据所述训练文本构造相似度矩阵的步骤包括:
根据下式计算所述相似度矩阵:
其中,Sij为所述相似度矩阵,σ为局部缩放因子,NNk(x)为所述训练文本x的k近邻集合,xi和xj分别为第i条文本和第j条文本,NNk(xi)和NNk(xj)分别表示文本xi和文本xj的k近邻集合,xi∈NNk(xj)表示文本xi属于文本xj的k近邻集合,xj∈NNk(xi)表示文本xj属于文本xi的k近邻集合。
4.根据权利要求1所述的基于深度语义特征学习的短文本聚类方法,其特征在于,所述从训练文本中获取词特征,根据所述词特征通过查表分别获取词特征对应的词向量,以此作为卷积神经网络的输入特征学习深度语义表示特征的步骤包括:
从训练文本中获取词特征;
根据所述词特征通过查表分别获取词特征对应的词向量;
将所述词向量进行一维卷积,获取卷积后的特征矩阵;
所述特征矩阵通过折叠操作和采样进行特征压缩;
从所述压缩后特征中动态选取K最大神经单元;
所述K最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征。
5.根据权利要求4所述的基于深度语义特征学习的短文本聚类方法,其特征在于,所述折叠操作和采样操作分别为:
折叠操作:对卷积层相邻两行神经元特征按对应所在列进行简单求和,给定一个dw行的卷积层,通过折叠操作可以得到dw/2行特征;以及
采样操作:根据输入文本长度进行动态K最大神经单元采样。
6.根据权利要求4或5所述的基于深度语义特征学习的短文本聚类方法,所述从所述压缩后特征中动态选取K最大神经单元的步骤包括:
给定一个顶层采样的参数Ktop,则第l层的采样参数K可根据如下公式计算得到:
其中,L是选用卷积神经网络的层数,为短文本的长度。
7.根据权利要求4所述的基于深度语义特征学习的短文本聚类方法,其特征在于,所述K最大神经单元根据正切激活函数得到所述训练文本的隐式语义特征的步骤包括:
根据下式计算所述训练文本的隐式语义特征:
<mrow>
<mi>h</mi>
<mo>=</mo>
<mi>tanh</mi>
<mrow>
<mo>(</mo>
<mover>
<mi>h</mi>
<mo>^</mo>
</mover>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
其中,h为所述训练文本的隐式语义特征。
8.根据权利要求1所述的基于深度语义特征学习的短文本聚类方法,其特征在于,所述通过所述卷积神经网络输出的二值特征与所述原始特征降维后二值化特征的拟合残差进行误差反向传播训练得到更新后的卷积神经网络模型的步骤包括:
将所述训练文本的隐式语义特征通过卷积神经网络模型的全连接输出到输出层;
在所述输出层特征上添加多个逻辑斯特回归进行特征变换,得到最终输出特征;
将所述低维二值码同所述最终输出特征的残差进行误差反向传播得到更新的卷积神经网络模型的参数。
9.根据权利要求8所述的基于深度语义特征学习的短文本聚类方法,其特征在于,所述将所述低维二值码同所述最终输出特征的残差进行误差反向传播得到更新的卷积神经网络模型的参数的步骤中,所述卷积神经网络模型采用交叉熵作为优化目标函数,并利用基于梯度下降的Adagrad更新规则。
10.根据权利要求1所述的基于深度语义特征学习的短文本聚类方法,其特征在于,所述训练文本来自两种公开短文本数据集:
SearchSnippets:该数据集搜集了网络检索引擎的结果片段,按照事先预定的领域范围检索词将检索结果划分为8个类别;
StackOverflow:该数据集包含了从2012年7月31日至2012年8月14日的3百多万条问题,从其中20个不同类别标签下随机抽取了2万条文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510270028.1A CN104915386B (zh) | 2015-05-25 | 2015-05-25 | 一种基于深度语义特征学习的短文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510270028.1A CN104915386B (zh) | 2015-05-25 | 2015-05-25 | 一种基于深度语义特征学习的短文本聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104915386A CN104915386A (zh) | 2015-09-16 |
CN104915386B true CN104915386B (zh) | 2018-04-27 |
Family
ID=54084449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510270028.1A Active CN104915386B (zh) | 2015-05-25 | 2015-05-25 | 一种基于深度语义特征学习的短文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915386B (zh) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651408B (zh) * | 2015-10-28 | 2020-12-25 | 苏宁云计算有限公司 | 一种数据分析方法及装置 |
CN106844368B (zh) | 2015-12-03 | 2020-06-16 | 华为技术有限公司 | 用于人机对话的方法、神经网络系统和用户设备 |
CN106886543B (zh) * | 2015-12-16 | 2020-01-17 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
CN105894088B (zh) * | 2016-03-25 | 2018-06-29 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN107402914B (zh) * | 2016-05-20 | 2020-12-15 | 富士通株式会社 | 自然语言深度学习系统和方法 |
CN106095733B (zh) * | 2016-06-23 | 2019-01-25 | 闽江学院 | 一种改进的基于深度学习的自然语言特征精确提取方法 |
CN107562752B (zh) * | 2016-06-30 | 2021-05-28 | 富士通株式会社 | 对实体词的语义关系进行分类的方法、装置和电子设备 |
CN106326984A (zh) * | 2016-08-09 | 2017-01-11 | 北京京东尚科信息技术有限公司 | 用户意图识别方法和装置、自动应答系统 |
CN107729309B (zh) * | 2016-08-11 | 2022-11-08 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN106776740A (zh) * | 2016-11-17 | 2017-05-31 | 天津大学 | 一种基于卷积神经网络的社交网络文本聚类方法 |
CN106650725B (zh) * | 2016-11-29 | 2020-06-26 | 华南理工大学 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
CN108205523B (zh) * | 2016-12-19 | 2023-05-23 | 北京天广汇通科技有限公司 | 利用语料库训练稠密词向量的方法及装置 |
TWI753034B (zh) * | 2017-03-31 | 2022-01-21 | 香港商阿里巴巴集團服務有限公司 | 特徵向量的產生、搜索方法、裝置及電子設備 |
CN106959946B (zh) * | 2017-04-07 | 2020-05-05 | 闽江学院 | 一种基于深度学习的文本语义特征生成优化方法 |
CN107169031B (zh) * | 2017-04-17 | 2020-05-19 | 广东工业大学 | 一种基于深度表达的图片素材推荐方法 |
CN108876422B (zh) * | 2017-05-09 | 2022-08-12 | 北京京东尚科信息技术有限公司 | 用于信息推广的方法、装置、电子设备及计算机可读介质 |
CN109326278B (zh) * | 2017-07-31 | 2022-06-07 | 科大讯飞股份有限公司 | 一种声学模型构建方法及装置、电子设备 |
CN107392392A (zh) * | 2017-08-17 | 2017-11-24 | 中国科学技术大学苏州研究院 | 基于深度学习的微博转发预测方法 |
CN107832288B (zh) * | 2017-09-27 | 2020-06-16 | 中国科学院自动化研究所 | 中文词语语义相似度的度量方法及装置 |
CN107895000B (zh) * | 2017-10-30 | 2021-06-18 | 昆明理工大学 | 一种基于卷积神经网络的跨领域语义信息检索方法 |
CN107867295B (zh) * | 2017-11-08 | 2019-12-31 | 广东翼卡车联网服务有限公司 | 基于车辆出险概率的事故预警方法、存储设备及车载终端 |
CN107766585B (zh) * | 2017-12-07 | 2020-04-03 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
CN108417205B (zh) * | 2018-01-19 | 2020-12-18 | 苏州思必驰信息科技有限公司 | 语义理解训练方法和系统 |
US20190266482A1 (en) * | 2018-02-26 | 2019-08-29 | Gsi Technology Inc. | Distance based deep learning |
CN108647045B (zh) * | 2018-03-20 | 2021-10-01 | 科大讯飞股份有限公司 | 激活函数的实现方法及装置、存储介质、电子设备 |
CN108491544A (zh) * | 2018-03-30 | 2018-09-04 | 大连大学 | 基于示例语义的音乐检索方法 |
CN108874754A (zh) * | 2018-05-30 | 2018-11-23 | 苏州思必驰信息科技有限公司 | 语言模型压缩方法和系统 |
CN108829671B (zh) * | 2018-06-04 | 2021-08-20 | 北京百度网讯科技有限公司 | 基于调查数据的决策的方法、装置、存储介质和终端设备 |
CN108897791B (zh) * | 2018-06-11 | 2021-09-03 | 云南师范大学 | 一种基于深度卷积特征和语义相似度量的图像检索方法 |
CN108985330B (zh) * | 2018-06-13 | 2021-03-26 | 华中科技大学 | 一种自编码网络及其训练方法、异常用电检测方法和系统 |
CN108875049A (zh) * | 2018-06-27 | 2018-11-23 | 中国建设银行股份有限公司 | 文本聚类方法及装置 |
CN108804622B (zh) * | 2018-08-20 | 2021-09-03 | 天津探数科技有限公司 | 一种考虑语义背景的短文本分类器构造方法 |
CN109241974B (zh) * | 2018-08-23 | 2020-12-01 | 苏州研途教育科技有限公司 | 一种文本图像的识别方法及系统 |
CN109241317B (zh) * | 2018-09-13 | 2022-01-11 | 北京工商大学 | 基于深度学习网络中度量损失的行人哈希检索方法 |
CN109409407A (zh) * | 2018-09-19 | 2019-03-01 | 西安理工大学 | 一种基于le算法的工业监测数据聚类方法 |
CN109299462B (zh) * | 2018-09-20 | 2022-11-29 | 武汉理工大学 | 基于多维卷积特征的短文本相似度计算方法 |
CN110969023B (zh) * | 2018-09-29 | 2023-04-18 | 北京国双科技有限公司 | 文本相似度的确定方法及装置 |
CN109582782A (zh) * | 2018-10-26 | 2019-04-05 | 杭州电子科技大学 | 一种基于用弱监督深度学习的文本聚类方法 |
CN109360658B (zh) * | 2018-11-01 | 2021-06-08 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109711250B (zh) * | 2018-11-13 | 2024-02-02 | 深圳市深网视界科技有限公司 | 特征向量二值化、相似度评价、检索方法、设备和介质 |
CN109815501A (zh) * | 2019-01-29 | 2019-05-28 | 四川无声信息技术有限公司 | 一种获取群聊文本分类词库的方法及装置 |
CN110032739B (zh) * | 2019-04-18 | 2021-07-13 | 清华大学 | 中文电子病历命名实体抽取方法及系统 |
CN110688452B (zh) * | 2019-08-23 | 2022-09-13 | 重庆兆光科技股份有限公司 | 一种文本语义相似度评估方法、系统、介质和设备 |
CN112651221A (zh) * | 2019-10-10 | 2021-04-13 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110955773B (zh) * | 2019-11-06 | 2023-03-31 | 中国科学技术大学 | 基于最小正规化信息距离的判别式文本聚类方法及系统 |
CN111062416B (zh) * | 2019-11-14 | 2021-09-21 | 支付宝(杭州)信息技术有限公司 | 用户聚类及特征学习方法、设备、计算机可读介质 |
CN113010668B (zh) * | 2019-12-20 | 2024-07-05 | 京东方科技集团股份有限公司 | 文本聚类方法、装置、电子设备及计算机可读存储介质 |
CN111309883B (zh) * | 2020-02-13 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的人机对话方法、模型训练方法及装置 |
CN111291317B (zh) * | 2020-02-26 | 2023-03-24 | 上海海事大学 | 一种近似矩阵的卷积神经网络二值化贪心递归方法 |
CN112231482A (zh) * | 2020-11-06 | 2021-01-15 | 中国人民解放军国防科技大学 | 基于可伸缩表示学习的长短文本分类方法 |
CN113360657B (zh) * | 2021-06-30 | 2023-10-24 | 安徽商信政通信息技术股份有限公司 | 一种公文智能分发办理方法、装置及计算机设备 |
CN113421632B (zh) * | 2021-07-09 | 2024-08-06 | 中国人民大学 | 一种基于时间序列的心理疾病类型诊断系统 |
CN113672915A (zh) * | 2021-10-20 | 2021-11-19 | 南京中孚信息技术有限公司 | 一套基于机器学习的数据防泄露系统 |
CN116050401B (zh) * | 2023-03-31 | 2023-07-25 | 云南师范大学 | 基于Transformer问题关键词预测的多样性问题自动生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831184A (zh) * | 2012-08-01 | 2012-12-19 | 中国科学院自动化研究所 | 根据对社会事件的文字描述来预测社会情感的方法及系统 |
CN103617230A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院深圳先进技术研究院 | 一种基于微博的广告推荐方法及系统 |
CN103714139A (zh) * | 2013-12-20 | 2014-04-09 | 华南理工大学 | 一种移动海量客户群识别的并行数据挖掘方法 |
CN104537097A (zh) * | 2015-01-09 | 2015-04-22 | 成都布林特信息技术有限公司 | 微博舆情监测系统 |
-
2015
- 2015-05-25 CN CN201510270028.1A patent/CN104915386B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831184A (zh) * | 2012-08-01 | 2012-12-19 | 中国科学院自动化研究所 | 根据对社会事件的文字描述来预测社会情感的方法及系统 |
CN103617230A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院深圳先进技术研究院 | 一种基于微博的广告推荐方法及系统 |
CN103714139A (zh) * | 2013-12-20 | 2014-04-09 | 华南理工大学 | 一种移动海量客户群识别的并行数据挖掘方法 |
CN104537097A (zh) * | 2015-01-09 | 2015-04-22 | 成都布林特信息技术有限公司 | 微博舆情监测系统 |
Non-Patent Citations (3)
Title |
---|
A Convolutional Neural Network for Modelling Sentences;Nal Kalchbrenner etal;《Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics》;20140625;第655-665页 * |
Convolutional Neural Networks for Sentence Classification;Yoon Kim etal;《Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing》;20141231;第1746-1751页 * |
基于聚类算法的微博影响力评价模型研究与实现;张剑金;《中国优秀硕士学位论文全文数据库信息科技辑》;20150115;第I138-839页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104915386A (zh) | 2015-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915386B (zh) | 一种基于深度语义特征学习的短文本聚类方法 | |
CN109189925B (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN111209384B (zh) | 基于人工智能的问答数据处理方法、装置及电子设备 | |
Balaha et al. | Recognizing arabic handwritten characters using deep learning and genetic algorithms | |
CN107832458B (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
Cottrell et al. | Theoretical and applied aspects of the self-organizing maps | |
Du et al. | Graph-based class-imbalance learning with label enhancement | |
CN112861936B (zh) | 一种基于图神经网络知识蒸馏的图节点分类方法及装置 | |
Ji et al. | Unsupervised few-shot feature learning via self-supervised training | |
Nalmpantis et al. | Signal2vec: Time series embedding representation | |
CN105631479A (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
CN112101031B (zh) | 一种实体识别方法、终端设备及存储介质 | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
Kulkarni et al. | Spleap: Soft pooling of learned parts for image classification | |
Manik et al. | Out-of-Scope Intent Detection on A Knowledge-Based Chatbot. | |
Mandlik et al. | Mapping the internet: Modelling entity interactions in complex heterogeneous networks | |
Khayyat et al. | A deep learning based prediction of arabic manuscripts handwriting style. | |
Lorencs et al. | Selection of informative hyperspectral band subsets based on entropy and correlation | |
You et al. | Supertickets: Drawing task-agnostic lottery tickets from supernets via jointly architecture searching and parameter pruning | |
Marconi et al. | Hyperbolic manifold regression | |
Zhu et al. | Multi‐image matching for object recognition | |
Xiang et al. | Wool fabric image retrieval based on soft similarity and listwise learning | |
Xue et al. | Learn decision trees with deep visual primitives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |