CN104834747B

CN104834747B - 基于卷积神经网络的短文本分类方法

Info

Publication number: CN104834747B
Application number: CN201510271672.0A
Authority: CN
Inventors: 徐博; 王鹏; 王方圆; 郝红卫
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2018-04-27
Anticipated expiration: 2035-05-25
Also published as: CN104834747A

Abstract

本发明是一种基于卷积神经网络的短文本分类方法，该卷积神经网络共分五层：第一层，获取短文本中的多尺度候选语义单元；第二层，计算每一个候选语义单元与向量空间中所有词表示向量的欧式距离并找出最近邻的词表示，选择所有满足欧式距离预设阈值的最近邻词表示构建语义扩展矩阵；第三层，用多个不同宽度、不同权值的核矩阵分别对短文本的映射矩阵和语义扩展矩阵进行二维卷积运算提取局部卷积特征并生成多层局部卷积特征矩阵；第四层，对多层局部卷积特征矩阵进行下采样并得到多层全局特征矩阵，将所述全局特征矩阵进行非线性正切变换并转换为定长的语义特征向量；第五层，将语义特征向量赋予分类器，对短文本的类别进行预测。

Description

基于卷积神经网络的短文本分类方法

技术领域

本发明涉及文本挖掘和深度学习技术领域，是一种基于卷积神经网络的短文本分类方法，可应用于短文本语义向量化表示，并进行海量短文本分类、聚类任务，以及情感分析等，并最终应用于用户意图理解，智能信息检索，推荐系统和社交网络等子领域。

背景技术

短文本分析是自然语言处理领域的一项基础任务，能够有效帮助用户从海量的短文本资源中发掘有用的信息。特别是随着移动互联网的成熟，大量的短文本信息丰富而繁杂，比如用户个人信息、地理位置、微信息、产品评论、新闻标题等，而特定用户所关注的有用信息也被海量的资源所湮没。因此一种高效的短文本分类方法可以改善系统对短文本内容的理解，让系统更加智能的管理和使用这些海量的数据资源，对于构建智能网络和智能系统有重要作用。

短文本自动分类是文本挖掘领域中一个重要的子问题。与其紧密相关的技术领域包括：知识问答、意图理解以及信息检索等。目前，短文本分类任务的一个显著特征是总体数据量巨大，数据类型多元化，呈无结构化存储。由于短文本受其长度的限制，所包含的词语共现和上下文信息不足，因此基于统计量的传统的文本表示方法和分类模型面临数据稀疏性和语义敏感性问题。同时由于同义词和多义词的影响，语义表达上的歧义性问题在短文本相关任务中更容易遇到。因此，准确的进行短文本的语义特征表示并实现自动分类，仍然是一项极具挑战性而且亟待解决的技术。

对短文本进行语义特征向量表示，基本要求是能够尽量保留原始文本的语义信息，同时尽量解决数据稀疏性和语义敏感性问题。近年来，关于短文本的语义特征向量化表示方法的研究，总体上可以分为两种，其一是基于统计量的方法，包括词袋模型(Bag ofWords，BOW)，该算法使用词频-逆文档频率(TF-IDF)作为权重系数，以及各种主题模型，如潜在狄利克雷分配(Latent Dirichlet Allocation，LDA)、潜在语义索引(LatentSemantic Indexing，LSI)和概率潜在语义分析(probabilistic Latent SemanticAnalysis，pLSA)等；其二是基于神经网络语言模型，可以获得每个词语的向量化表示，简称为词表示或者词嵌入(Word embedding)，并将短文本在特征空间中映射为定长的语义特征向量。后者和前者相比较，优点主要包括在对短文本进行语义特征表示时考虑了词语的语义信息和词语在上下文中的依赖关系，所得特征向量的维数可控，能有效解决由于短文本自身特性所造成的稀疏性和语义敏感性问题。

为了弥补短文本上下文信息不足的问题，有研究者提出基于主题模型挖掘潜在的语义信息，对短文本内容进行信息扩展。其中主题模型的训练需要借助大规模的外部辅助语料，而该外部辅助语料要求和待扩展短文本数据集具有语义一致性。但是，所述利用主题模型的潜语义信息提取是基于统计模型的方法，仍然依赖短文本上下文的词语共现信息，不能做到语义层次上的特征表达。因此，一种专门用于短文本主题建模的算法被提出，命名为二元词包主题模型(Biterm Topic Model，BTM)，该算法不再直接对短文本句子进行建模，而是以二元词包为建模目标。所述BTM模型较传统主题模型，能在一定程度上解决短文本的数据稀疏性问题，但是没有得到词语层次上有效的语义向量表示，短文本的歧义性问题没有得到解决。再就是基于搜索引擎对短文本内容进行扩展，首先提取所述短文本中出现的核心词语作为搜索关键词(Query)，然后提交至搜索引擎进行检索，将返回的结果作为所述短文本的扩展信息。但是该方法在处理海量短文本时，其时间复杂度很大。

众所周知，深度学习(Deep Learning)算法在语音识别和图像处理领域取得了令人瞩目的成果，因此自然语言处理(Natural Language Processing，NLP)领域相关研究者也将深度学习用于语言模型的训练。所述深度学习相关方法通过组合低层文本信息，形成更加抽象的高层表示，同时获得词语的语义向量表示(分布式特征表示)。较传统BOW模型和主题模型，所述基于深度学习的方法能够更好的捕捉词、短语以及句子级别的语义信息，如递归神经网络(Recursive Neural Network)，卷积神经网络(ConvolutionalNeuralNetwork)，循环神经网络(Recurrent Neural Network)以及长-短时记忆模型(Long-shortTime Memory，LSTM)等已被应用于自然语言处理相关任务并取得了良好的效果。基于深度语言模型对短文本语义特征进行向量化表示，比较经典的方法是基于词的向量表示进行语义合成，主流的方法包括依赖语法树的递归神经网络(Matrix-vectorRecurrentNeuralNetwork，MV-RNN)，该算法首先通过对短文本进行句法解析，得到语义树结构，每一个叶子节点表示短文本中出现的一个词或者短语，然后使用矩阵-向量运算对词向量进行有序结合；段向量(Paragraph Vector，PV)方法将每一个段落赋予一个和词语类似的标号，并与词语做同等训练，即在词向量训练过程中同时完成段落的语义向量化表示。所述算法PV在对所有文档进行训练过程中，每一个段落的标号保持不变，并共享所有词的语义向量表示，即相当于在预测的每一个词在上下文出现的概率时，都利用了整个段落的语义。研究结果表明，所述算法PV也适用于对短文本句子进行语义特征向量化建模；动态卷积神经网络(Dynamic ConvolutionalNeural Network，DCNN)，是基于卷积神经网络改进的用于句子向量化建模的算法，主要体现在卷积操作结束之后，采用动态多值池化(k-max pooling)算法对多层局部特征矩阵进行下采样。

综上所述，对短文本语义特征进行向量化表示，目前流行的技术主要存在以下四个问题：

一、由于短文本上下文信息不足，以及关键词出现在不同的上下文环境中表达不同的语义，即短文本在进行语义特征向量表示时存在数据稀疏性和语义敏感性问题。

二、基于主题模型的短文本信息扩展技术，能在一定程度上缓解数据稀疏性的影响，但是主题模型的训练依赖大规模的外部辅助语料，而所述外部辅助语料要求与待扩展短文本数据集保持语义一致性，使得所述外部辅助语料的搜集过程耗时耗力。

三、利用搜索引擎对短文本内容进行扩展的方法，时间复杂度较大，难以适应海量数据或者在线数据的处理。

四、基于深度学习的短文本建模方法，仅仅利用有限的上下文进行语义合成，由于所述短文本包含的词共现信息有限，因此并不能有效的解决语义敏感性问题。

以上所述在短文本语义特征向量化表示过程中存在的这些问题，都在一定程度上导致无法准确的获取短文本的特征表示，并进而影响分类任务的性能。本发明提出一种基于卷积神经网络的短文本分类方法，实验证明所提方法能大幅改善短文本分类任务的性能。

发明内容

针对上述四个主要问题，本发明提出了一种基于卷积神经网络的短文本分类方法，使用预训练的词表示向量对短文本进行语义扩展，然后利用卷积神经网络提取定长的语义特征向量，用于训练分类器，对所述短文本的类别进行预测。所述发明方法解决了在短文本语义特征向量化表示中，词袋模型存在的数据稀疏性和语义敏感性问题。同时，较传统基于深度语言模型的方法，本发明通过对短文本进行语义扩展，使其语义特征向量化表示得到进一步增强，并最终使其分类任务的性能得以改善。

本发明所提出的一种基于卷积神经网络的短文本分类方法包括以下步骤：

步骤1：在卷积神经网络的第一层，获取输入短文本中每一个词的向量化表示并组成映射矩阵；利用所述映射矩阵和权值为1的核矩阵进行一维卷积运算，检测出所述短文本中潜在的多尺度候选语义单元；

步骤2：在卷积神经网络的第二层，计算所述候选语义单元与向量空间中所有词表示向量的欧式距离，并找出每个候选语义单元最近邻词表示；选出所有满足欧式距离预设阈值条件的最近邻词表示，构建语义扩展矩阵，作为所述短文本的扩展信息；

步骤3：在卷积神经网络的第三层，使用多个不同宽度、包含不同权值的核矩阵分别对所述短文本的映射矩阵和语义扩展矩阵进行二维卷积运算，提取局部卷积特征，并生成多层局部卷积特征矩阵；

步骤4：在卷积神经网络的第四层，使用k-max pooling算法对多层局部卷积特征矩阵进行下采样，得到所述短文本的全局特征矩阵；将全局特征矩阵进行非线性正切变换，并将变换后的特征矩阵转换为语义特征向量；

步骤5：在卷积神经网络的输出层，将短文本的语义特征向量赋予分类器，对短文本的类别进行预测。

本发明的有益效果：本发明提出的基于卷积神经网络的短文本分类方法，利用预训练的词表示集合初始化卷积神经网络的词表，引入了外部大量的有用信息，并最终用于短文本的语义信息扩展，有效解决了短文本上下文信息不足的问题。本发明不依赖于复杂的句法分析树，通过卷积神经网络提取多层局部卷积特征矩阵，有效挖掘所述短文本中的语义信息和词语之间的关联信息，改善了短文本的语义敏感性问题，并提高了短文本的分类性能。本发明主要针对短文本的特性，提出一种面向短文本的语义特征向量表示方法，并应用于短文本分类任务。但是，对于知识问答、用户意图理解、智能检索等其他相关领域亦具有借鉴意义。本发明方法较传统语言模型，不依赖于句法分析树，执行效率高，充分利用短文本有限的上下文语义信息；较基于词袋模型的短文本特征表示方法，有效缓解了数据稀疏性问题和语义敏感性问题，充分利用词语之间的语序信息；基于预训练好的词表示向量对短文本进行扩展，引入有效的外部信息，改善短文本的分类性能。

附图说明

图1a是本发明提出的基于卷积神经网络的短文本分类的流程图。

图1b是本发明提出的基于词的语义向量表示，对短文本进行语义扩展的流程图。

图2是本发明方法在测试数据集上的语义扩展数量-精度对比曲线图。

图3是本发明方法在测试数据集上的欧式距离-精度对比曲线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提出了一种基于卷积神经网络的短文本分类方法，具体为基于预训练的词表示向量对短文本进行语义扩展，有效解决了短文本上下文信息不足的问题。然后，通过卷积神经网络对所述扩展后的短文本提取定长的语义特征向量，充分挖掘短文本中词语之间的语义信息。本发明的基本特征主要有以下六个方面：一是使用预训练的词的语义向量表示初始化卷积神经网络的词表，引入大量外部有用的知识；二是，在模型训练过程中，不再更新所述卷积神经网络的词表，使模型收敛速度更快；三是不依赖于复杂的句法分析树，使得模型整体架构得以简化，同时避免为后续特征的提取引入新的噪声；四是提出一种面向短文本的多尺度语义单元检测方法；五是提出并应用了一种针对短文本的语义扩展矩阵的构建方法，在语义向量空间中，通过计算每一个语义单元的最近邻词表示，并选择满足预设欧式距离阈值条件的最近邻词表示构建语义扩展矩阵；六是提出一种基于所述短文本的映射矩阵和语义扩展矩阵，提取定长语义特征向量的方法。实验证明，与其它方法相比，本发明所提方法，能够提取有效的语义信息，进一步提高短文本分类的准确度。

请参阅图1a基于卷积神经网络的短文本分类方法，首先示出输入短文本，再经过构建的映射矩阵、语义扩展矩阵，二维卷积运算，k值最大池化算法(k-max pooling)，获得分类器的流程示意图，该方法具体实施例包括以下步骤：

步骤1，使用预训练的词表示向量集合对卷积神经网络的词表LT进行初始化，有效引入对短文本分类有用的外部信息；

步骤2，在卷积神经网络的第一层，通过查询词表LT的方法，获得输入短文本中出现在词表LT中的所有词的语义向量表示，并组成映射矩阵；利用映射矩阵和权值为1的核矩阵进行一维卷积运算，检测出所述短文本中潜在的多尺度候选语义单元；对于所述短文本中的个别词没有出现在所述词表LT中的情况，本实施案例采用直接丢弃的方法(由于词表LT能覆盖绝大部分的常用词，因此可将不包含的词作停用词处理)。利用所述查询到的词的语义向量，依序排列，构建映射矩阵PM，具体计算公式为：

PM＝LT·index(Sen) (1)

其中，Sen＝{w₁，w₂，...，w_N}是包含N个词的短文本，index()是所述短文本中的词语在所述词表LT中的索引函数。

表1是本发明所提方法中使用的参数定义及说明。

利用短文本对应的映射矩阵PM，对所述短文本中的候选语义单元进行检测。多尺度候选语义单元S_i的一维卷积运算的具体计算公式为：

其中，E_win是采用的核矩阵，所有核矩阵E_win中的所有权值为1，S_i是短文本中存在的第i个候选的语义单元，1≤i≤l-m+1，l-m+1为候选语义单元的数量，l是短文本的长度，m是所述核矩阵的宽度，候选语义单元S_i的计算公式为：

其中，PM_win，i是核矩阵E_win在短文本的映射矩阵PM上第i次滑动时所覆盖的子矩阵，是所述子矩阵PM_win，i的第j列，j＝1，2...，|PM_win，i|。由于卷积核矩阵E_win的尺度可以调整，因此随着m值的变化，可以检测到多尺度候选语义单元。

表1 参数定义

步骤3，利用所述候选语义单元S_i和词表LT，为所述短文本构建语义扩展矩阵EM，作为对所述短文本的信息补充，请参阅图1b是本发明提出的基于词的语义向量表示，对短文本进行语义扩展的具体操作为：

在卷积神经网络的第二层，计算每一个候选语义单元S_i与向量空间中所有词的语义向量表示或称词表示向量的欧式距离，并找出每个候选语义单元的最近邻词表示，选出所有满足欧式距离预设阈值条件的最近邻词表示，构建语义扩展矩阵，作为所述短文本的扩展信息；所述候选语义单元与其最近邻词表示向量之间的欧式距离小于所述预设阈值，候选语义单元为有效语义单元，则将有效语义单元的最近邻词表示用于构建语义扩展矩阵；所述候选语义单元与其最近邻词表示向量之间的欧式距离不小于所述预设阈值，候选语义单元为无效语义单元，其最近邻词表示向量不包含对短文本分类有用的信息，则丢弃所述无效语义单元的最近邻词表示。当假设所述候选语义单元与其最近邻词表示的欧式距离为ρ_min。依据实验，设置欧式距离预设阈值ρ^*，并依据如下条件识别有效的语义单元，

然后选择所有满足条件(4)的语义单元的最近邻词表示，依序排列，构建所述短文本的语义扩展矩阵EM。

步骤4，在卷积神经网络的第三层，利用在训练阶段得到的多个不同宽度、包含不同权值核矩阵(核矩阵的数目为本发明方法的超参数之一)，分别对所述短文本的映射矩阵PM和语义扩展矩阵EM做二维卷积运算，提取多层局部卷积特征，并生成多层局部卷积特征矩阵C；

其中，如图1a，卷积层核矩阵k_i，输出层连接权值以及多类逻辑斯特回归分类器都是在所述卷积神经网络的训练阶段获得，而具体的训练过程又包括以下步骤：

A，本发明所采用的卷积神经网络，在输出层通过多类逻辑斯特回归分类器对所述短文本的类别预测一个概率分布p(z_j|x_i，θ)具体计算公式为：

其中，x_i是所述输入短文本，z_j是第j个类别，θ是所述卷积神经网络中需要估计的超参数的集合，Z是训练样本预定义的类别集合，φ_j(x_i，θ)是所述网络结构对样本x_i在类别z_j上的评分，即通过多类逻辑斯特回归分类器将所述评分映射为关于所有预定义类别的概率分布向量，该概率向量的维度与所述预定义的类别集合大小一致。

B.在对所述卷积神经网络结构进行训练时，本发明采用的训练目标函数是最小化目标概率分布和实际概率分布的交叉熵，训练目标函数J(θ)的定义式为：

其中，t是训练样本数目，α是正则化因子，是样本x_i的正确类别。

C.基于所述训练目标函数，通过梯度下降算法计算批量样本的误差，并使用反馈传播(Back Propagation，BP)的方式更新所述网络结构的超参数的集合θ，具体的更新公式为：

其中，λ是学习率。

通过所述训练过程，得到所述卷积神经网络的卷积层核矩阵(视为局部特征提取器)后，提取多层局部卷积特征矩阵C的计算公式为，

其中，k_i∈R^2×n是第i个核矩阵，n是核矩阵的宽度，d是词表示向量的维数。是核矩阵k_i在映射矩阵PM或者语义扩展矩阵EM上覆盖的子矩阵。c_i是核矩阵k_i与子矩阵对应的卷积结果，卷积结果具体计算公式为：

其中，为核矩阵k_i第j次滑动计算得到的卷积结果。为了提取更鲁棒的信息，对于所述映射矩阵PM和语义扩展矩阵EM分别使用不同的卷积核矩阵，T为矩阵转置运算。

步骤5，在卷积神经网络的第四层，使用k值最大池化算法(k-max pooling)对所述多层局部卷积特征矩阵C进行下采样，得到所述短文本的全局特征矩阵，其中采样数目k是动态确定的。

将所述全局特征矩阵进行非线性正切变换，并将变换后的特征矩阵转化为语义特征向量，并依序连接，即得到所述短文本的语义特征向量化表示。所述语义特征向量为输入短文本的向量化语义特征表示。

步骤6，在卷积神经网络的输出层，将短文本的向量化语义特征表示赋予多类逻辑斯特回归分类器，并对所述短文本的类别进行预测。

实施例采用的环境参数和模型参数

所述实施例，所采用的硬件环境为但不限于此：Win7、32位操作系统，Intel i3处理器，CPU主频2.40GHz，内存4G。在所述卷积神经网络中，卷积层采用的核矩阵的数目为6，宽度为5，最大池化操作时k＝3，模型训练时学习率λ＝0.01。

实验说明及结果

为了全面准确的评估本发明所提方法的性能，基于谷歌检索片段数据集(Searchsnippets)和问句类型数据集(TREC)分别进行测试。其中，Search snippets是取自Google网页的搜索片段数据集，共包含8类，其短文本平均长度18.07个词语，数据集共包含训练样本10060条短文本，以及2280条测试短文本。TREC是包含5类的问句类型数据集，比如关于地点，数字，时间，人物和事件等，其中训练样本5452条，测试样本500条。

请参阅图2示出本发明方法在测试数据集上的语义扩展数量-精度对比曲线图的对比结果，本发明方法对短文本进行语义特征向量化提取后，采用多类逻辑斯特回归分类器(softmax)，在Search snippets数据集上取得85.7％的准确率，在TREC数据集上取得96.6％的准确率，同以往方法相比分别降低错识率17.34％和32％。在对短文本进行语义扩展时，改变核矩阵的数目，分别使用三种不同的词的语义向量表示初始化所述卷积神经网络的词表，在所述两个数据集上进行测试。

请参阅图3示出本发明方法在测试数据集上的欧式距离-精度对比曲线图，对候选语义单元进行检测时，改变约束条件中预设的欧式距离阈值，在Search snippets数据集上进行测试，如图3所示分别使用三种不同的词表示向量对所述卷积神经网络的词表LT进行初始化，其中词表示一是SENNA(基于神经网络的语义提取词向量)，词表示二是GloVe(全局词向量)，词表示三是WordVec(谷歌词向量)。

综上所述，本发明提出的一种基于卷积神经网络的短文本分类方法，能充分挖掘短文本中潜在的语义信息，并结合预训练的词的语义向量表示对所述短文本进行语义扩展，有效缓解短文本在进行语义向量表示时遇到的数据稀疏性和语义敏感性问题。基于真实数据集的实验测试，证明了本发明较以往方法，能够大幅增强短文本的特征表达能力，并能够进一步提高短文本分类任务的性能。

以上所述的具体实施例，对本发明的技术方案和测试效果进行了详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的短文本分类方法，其特征在于包括以下步骤：

步骤2：在卷积神经网络的第二层，计算所述多尺度候选语义单元与向量空间中所有词表示向量的欧式距离，并找出每个多尺度候选语义单元最近邻词表示；选出所有满足欧式距离预设阈值条件的最近邻词表示，构建语义扩展矩阵，作为所述短文本的扩展信息；

2.根据权利要求1所述的方法，其特征在于，在卷积神经网络的第一层，通过查表方式获取输入短文本中每一个词的向量化表示。

3.根据权利要求1所述的方法，其特征在于，检测多尺度候选语义单元S_i的一维卷积运算如下表示：

<mrow> <mo>&lsqb;</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>S</mi> <mrow> <mi>l</mi> <mo>-</mo> <mi>m</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>&rsqb;</mo> <mo>=</mo> <mi>P</mi> <mi>M</mi> <mo>&CircleTimes;</mo> <msub> <mi>E</mi> <mrow> <mi>w</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> </mrow>

其中，PM是短文本对应的映射矩阵，E_win是核矩阵，所述核矩阵中所有权值为1；S_i是短文本中存在的第i个可能的语义单元，l-m+1为多尺度候选语义单元的数量，l是短文本的长度，m是核矩阵的尺度，多尺度候选语义单元S_i的具体计算如下表示：

<mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mrow> <msub> <mi>PM</mi> <mrow> <mi>w</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>,</mo> <mi>i</mi> </mrow> <mo>|</mo> </mrow> </munderover> <msubsup> <mi>PM</mi> <mrow> <mi>w</mi> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>i</mi> </mrow> <mi>j</mi> </msubsup> </mrow>

其中，PM_win，i是核矩阵E_win在短文本的映射矩阵PM上第i次滑动时所覆盖的子矩阵，是子矩阵PM_win，i的第j列，j＝1，2...，|PM_win，i|。

4.根据权利要求1所述的方法，其特征在于，所述多尺度候选语义单元与其最近邻词表示向量之间的欧式距离小于所述预设阈值，多尺度候选语义单元为有效语义单元，则将有效语义单元的最近邻词表示用于构建语义扩展矩阵；所述多尺度候选语义单元与其最近邻词表示向量之间的欧式距离不小于所述预设阈值，多尺度候选语义单元为无效语义单元，其最近邻词表示向量不包含对短文本分类有用的信息，则丢弃所述无效语义单元的最近邻词表示。

5.根据权利要求1所述的方法，其特征在于，所述多层局部卷积特征矩阵C的计算如下表示：

<mrow> <mi>C</mi> <mo>=</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <msub> <mi>c</mi> <mn>1</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>c</mi> <mn>2</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>c</mi> <mrow> <mi>d</mi> <mo>/</mo> <mn>2</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>=</mo> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <msub> <mi>k</mi> <mn>1</mn> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>k</mi> <mn>2</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>k</mi> <mrow> <mi>d</mi> <mo>/</mo> <mn>2</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> <mo>&CircleTimes;</mo> <msup> <mfenced open = "(" close = ")"> <mtable> <mtr> <mtd> <msubsup> <mi>X</mi> <mn>1</mn> <mrow> <mi>w</mi> <mi>i</mi> <mi>n</mi> </mrow> </msubsup> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>X</mi> <mn>2</mn> <mrow> <mi>w</mi> <mi>i</mi> <mi>n</mi> </mrow> </msubsup> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msubsup> <mi>X</mi> <mrow> <mi>d</mi> <mo>/</mo> <mn>2</mn> </mrow> <mrow> <mi>w</mi> <mi>i</mi> <mi>n</mi> </mrow> </msubsup> </mtd> </mtr> </mtable> </mfenced> <mi>T</mi> </msup> </mrow>

其中，k_i∈R^2×n是第i个核矩阵，n是核矩阵的宽度，d是词表示向量的维数；是第i个核矩阵k_i在映射矩阵或者语义扩展矩阵上覆盖的子矩阵；c_i是核矩阵k_i与子矩阵对应的卷积结果，卷积结果计算如下表示：

<mrow> <msubsup> <mi>c</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <msub> <mi>k</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msup> <mrow> <mo>(</mo> <msubsup> <mi>X</mi> <mi>i</mi> <mrow> <mi>w</mi> <mi>i</mi> <mi>n</mi> <mo>,</mo> <mi>j</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mi>T</mi> </msup> </mrow>

其中，为核矩阵k_i在子矩阵上第j次滑动计算得到的卷积结果，T为矩阵转置运算。

6.根据权利要求1所述的方法，其特征在于，所述语义特征向量为输入短文本的向量化语义特征表示。