CN108664633A

CN108664633A - 一种利用多样化文本特征进行文本分类的方法

Info

Publication number: CN108664633A
Application number: CN201810460235.7A
Authority: CN
Inventors: 黄书剑; 李念奇; 戴新宇; 张建兵; 尹存燕; 陈家骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2018-10-16
Anticipated expiration: 2038-05-15
Also published as: CN108664633B

Abstract

本发明公开了一种利用多样化文本特征进行文本分类的方法，包括以下步骤：使用多维度文本表示算法，生成多组不同的文本特征表示，即纵向生成多维度文本特征表示；使用多种不同的文本表示算法，生成多组不同的文本特征表示，即横向生成多维度文本特征表示；将每个样本不同的特征表示向量进行组合，作为样本新的特征向量，进而得到数据集新的特征表示。将本发明对现有的文本表示算法进行了改进，提出了利用更多的维度较低且差异较大的文本表示来挖掘文本不同的内部结构，增强文本表示的能力，可以在极大程度上降低文本特征维度的同时，提升文本分类等任务的效果。

Description

一种利用多样化文本特征进行文本分类的方法

技术领域

本发明属于文本表示领域，尤其涉及一种利用多样化文本特征进行文本分类的方法。

背景技术

近年来，随着计算机技术与互联网的迅猛发展，人类进入信息时代，海量的数据，尤其是各类文本数据，蕴含着重要的信息与巨大的价值。对这些文本数据进行合理的整理归纳，有利于更好的利用这些大规模的文本数据。文本分类则是一种非常有效的方法。

文本分类一直是机器学习与人工智能领域一个非常重要的基础研究方向，同时也在产业界中有着广泛的应用。文本分类的效果在极大程度上取决于文本特征表示的质量。人类可以阅读的纯文本，对于机器学习算法而言是无法直接识别并利用的，需要转换成算法可以识别的实数向量或矩阵的形式。文本特征表示就是将纯文本转换成实数向量或矩阵的过程，即将语言进行数字化转换。文本特征表示主要分为两大类：一类是词级别的文本特征表示，即将词表示成词向量的形式，进而应用于文本分类等任务。该方法一般认为可以获取到词的语义信息，通过将词的语义信息添加到文本分类中来提升文本分类的效果；另一类是文档级别的文本特征表示，即将每个样本表示成固定长度的实数向量。相较于词级别的文本表示一般应用基于神经网络的分类，文档级别的文本表示应用更加广泛，既可以使用传统的基于统计的机器学习分类器，也可以应用神经网络分类器进行分类。

文本数据中普遍存在着多种内部结构。例如，一个由计算机领域论文构成的数据集，其中一种内部结构是论文涉及的研究方向，包括机器学习、数据结构、数据库等方向；另一种内部结构则是论文所涉及到的编程语言，包括Java、C++、Python等编程语言。使用单一的文本特征表示，无法很好的挖掘到数据集中的多种内部结构，并对这些内部结构进行特征表示。

在机器学习领域，多聚类算法是常见的用于挖掘数据多种内部结构的方法。多聚类算法生成多组差异较大、质量较好的聚类结果，以此来挖掘数据内部的多种结构。

如果能够将多聚类的思想应用到文本特征表示中，挖掘文本的多种内部结构，并强化每种内部结构的表示，则可以提高文本表示的质量，进而对文本分类等任务带来更有效的帮助。

发明内容

发明目的：本发明所解决的问题是针对现有技术的不足，提供一种能够挖掘文本多种内部结构，生成多样化的文本表示，以增强文本表示能力的方法。为了解决上述技术问题，本发明提供了如下技术方案：一种利用多样化文本特征进行文本分类的方法，进而提升文本分类等任务效果的方法。所述方法包含纵向多维度文本表示与横向多维度文本表示两种获取多样化文本特征表示的方法。所述方法包括如下步骤：

步骤1，纵向生成多维度文本特征表示：使用多维度文本表示算法，生成多组不同的文本特征表示，多维度文本表示算法可以为数据集中的每一个样本生成多个差异较大的特征向量；

步骤2，横向生成多维度文本特征表示：使用文本表示算法，生成多组不同的文本特征表示，文本表示算法包含且不仅限于多维度文本表示算法；

步骤3，将不同的文本特征表示进行组合，作为新的文本特征表示；

步骤4，通过新的文本特征表示对待分类样本进行分类。

步骤1中，采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示，或者采用潜层狄利克雷分布(Latent Dirichlet Allocation，LDA)(Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].J Machine Learning ResearchArchive,2003,3:993-1022.)的衍生算法Alter LDA算法生成多组不同的文本特征表示。

步骤1中，采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示，具体包括如下步骤：

步骤A-1，使用词袋模型+TF-IDF权重(https://en.wikipedia.org/wiki/Tf-idf)将数据集X转换成特征矩阵，聚类个数T＝1，下文中所述样本均为数据集X中的样本；

步骤A-2，使用k-Means聚类算法(Hartigan J A.A K-Means ClusteringAlgorithm[J].Appl Stat,1979,28(1):100-108.)对数据集X进行聚类，得到数据的划分结果C¹；

步骤A-3，根据C¹计算每个簇的均值向量α_i，0≤i≤k₁，k₁为预设的参数，即超参，表示聚类中簇的个数，簇为聚类结果中被划分到一个类别中的相似样本的集合，均值向量的计算公式为：

其中，表示第T组聚类的第i个簇，表示第T组聚类第i个簇中元素的个数，x_j表示数据集X中第j个样本；

步骤A-4，计算每个样本到C¹中每个均值向量的余弦距离，得到第一组文本特征表示，样本的特征向量的维度为k₁；

步骤A-5，将T更新为T+1，随机对数据集X进行划分，得到划分结果C^T；

步骤A-6，根据根据C^T计算每个簇的均值向量β_j，0≤j≤k_T，k_T为簇的个数；

步骤A-7，根据公式(1)对新生成的聚类结果中每个簇的表示向量v_j进行更新：

ν_j＝(I-ξ_jMU(I+ξ_jΛ)^-1U^TM^T)β_j (1)

其中，v_j为表示向量，ξ_j为中间参数，计算公式为：

表示第k₁个簇的均值向量，UΛU^T＝MM^T，U是由矩阵MM^T的特征向量构成的矩阵，Λ是由MM^T的特征值构成的对角矩阵，I为单位矩阵，λ是模型输入的超参，是实数类型，可以根据实际任务人工设定，n_ij表示既在第一个聚类结果的第i个簇中、又在第二个聚类结果的第j个簇中的样本数量，簇的表示向量用于计算样本的特征向量；

步骤A-8，将每一个样本划分给距离其最近的表示向量对应的簇，更新C^T；

步骤A-9，重复步骤A-5到步骤A-8直到收敛；

步骤A-10，α＝α∪ν，α为保存的每组聚类结果中簇的表示向量，ν为根据步骤A-5至A-9所述方法新生成的一组聚类中的簇表示向量，k₁＝||α||，计算每个样本到C^T中每个均值向量的余弦距离，得到新一组文本特征表示，样本的特征向量的维度为k₂；

步骤A-11，重复步骤A-5到步骤A-10直到T＞m，得到m组文本特征表示，m为期望得到的文本特征表示的数量，可根据具体使用场景预先设定。

步骤1中，还可以使用潜层狄利克雷分布(Latent Dirichlet Allocation，LDA)的衍生算法Alter LDA算法生成多组不同的文本特征表示，具体包括如下步骤：

步骤B-1，利用潜层狄利克雷分布(Latent Dirichlet Allocation，LDA)算法，根据数据集X得到词的主题分布β⁽¹⁾，文档的主题分布作为第一组文本的特征表示，设置文本特征个数T＝1；

步骤B-2，根据变分EM算法，采用与LDA算法中相同的E步骤进行计算，求得变分参数φ与γ，更新文档主题分布(Blei D M,Ng A Y,Jordan M I.Latent dirichletallocation[J].J Machine Learning Research Archive,2003,3:993-1022.)；

步骤B-3，利用牛顿-拉夫逊方法，更新模型参数α(https://en.wikipedia.org/wiki/Newton％27s_method)；

步骤B-4，利用公式(2)更新模型参数β：

其中，β_ij为在第i个主题下，词典中第j个词的概率，词典是数据集X中所有词构成的列表，每个词只在词典中出现一次，词在词典中的顺序与词在数据集X中第一次出现的顺序相同；λ_i是预设的权重，d是对文档的计数，M为数据集X中文档的数量，N_d为第d篇文档中词的个数，φ_dni为第d篇文档中第n个词属于第i个主题的概率，是一个布尔变量，当第d篇文档中第n个词是词典中第j个词时，否则表示第t个主题结构中，第k个主题下第j个词的概率；

步骤B-5，重复步骤B-2到步骤B-4直到收敛，得到第T+1个词的主题β^T+1，得到第T组文档主题分布，每个文档的主题分布可以作为该文档的特征向量；

步骤B-6，将T更新为T+1，重复步骤B-2到步骤B-5，直到T＞n，得到n组不同的词的文本特征表示，n为期望得到的文本特征表示的数量，可根据具体使用场景预先设定。

步骤2中，将改进的Decorrelated k-Means算法和潜层狄利克雷分布(LatentDirichlet Allocation，LDA)的衍生算法Alter LDA算法进行组合生成多组不同的文本特征表示，或者使用其他文本表示算法(如Doc2Vec模型(Le Q V,Mikolov T.DistributedRepresentations of Sentences and Documents[J].2014,4:II-1188.)、潜层语义分析模型(Latent Semantic Analysis)(Miller F P,Vandome A F,Mcbrewster J.Latentsemantic analysis[M]//Artifical Intelligence and Soft Computing.SpringerBerlin Heidelberg,2010:683–692.)、概率潜层语义分析模型(Probabilistic LatentSemantic Analysis)^[6])生成文本特征表示进行组合作为样本新的特征表示，组合的方式为将样本的多个特征向量进行拼接，得到新的特征向量，向量拼接方法为：假设向量A＝[a₁,a₂,...,a_m]，向量B＝[b₁,b₂,...,b_n]，将向量A和向量B进行拼接，其中m和n分别为向量A的长度和向量B的长度，a_i(1≤i≤m)为向量A第i个位置的分量，b_j(1≤j≤n)为向量第i个位置的分量，将向量A和向量B进行拼接，得到向量C，则向量C＝[a₁,a₂,...,a_m,b₁,b₂,...,b_n]；

或者使用其他文本表示算法(如Doc2Vec模型(Le Q V,Mikolov T.DistributedRepresentations of Sentences and Documents[J].2014,4:II-1188.)、潜层语义分析模型(Latent Semantic Analysis)(Miller F P,Vandome A F,Mcbrewster J.Latentsemantic analysis[M]//Artifical Intelligence and Soft Computing.SpringerBerlin Heidelberg,2010:683–692.)、概率潜层语义分析模型(Probabilistic LatentSemantic Analysis)(Hofmann T.Probabilistic latent semantic analysis[J].Proc.UAI,1999,1999,41(6):289-296.))生成文本特征表示进行组合作为样本新的特征表示；

步骤3中，将每个样本的纵向多维度文本特征表示对应的样本特征向量采用步骤2中所述的方法进行拼接得到新的样本特征向量。

步骤3中，还可以将每个样本由改进的Decorrelated k-Means算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第一个特征向量，将样本由LDA的衍生算法Alter LDA算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第二个特征向量，将每个样本由前述方法得到的两个特征向量进行拼接，为每个样本得到新的特征向量。

步骤3中，还可以将每个样本的横向多维度文本特征表示对应的文本特征向量进行拼接，即将样本由不同文本特征表示算法生成的特征向量进行拼接，得到新的样本特征向量，向量拼接方法为：假设向量A＝[a₁,a₂,...,a_m]，向量B＝[b₁,b₂,...,b_n]，将向量A和向量B进行拼接，得到向量C，则向量C＝[a₁,a₂,...,a_m,b₁,b₂,...,b_n]。

步骤4包括：新的文本特征表示将每一个样本表示成一个新的固定长度的特征向量，在进行文本分类时，首先将训练集的每一个样本使用本发明提出的方法转化成固定长度的特征向量，连同训练集中样本的标签一起作为分类器的输入训练分类器，然后将待分类数据集的每一个样本使用本发明提出的方法转化成与训练集样本特征向量相同长度的特征向量，然后作为分类器的输入对待分类样本进行分类。

纵向生成的多维度文本特征表示和横向生成的多维度文本特征表示，能够挖掘文本内的多种内部结构，并使用较低维度的特征向量强化这些内部结构的特征表示，从而在降低特征维度的同时提升文本表示的质量。

有益效果：本发明使用多样化的文本特征表示，挖掘文本的多种内部结构，能强化对文本多种内部结构的特征表示，进而增强文本表示的能力，在降低文本特征表示维度的同时提升文本分类的任务的效果。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明在生成文本表示时的流程图。

图2是本发明实施例1的测试结果。

图3是本发明实施例2的测试结果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本发明方法包括如下步骤：

步骤1，纵向生成多维度文本特征表示：使用多维度文本表示算法，生成多组不同的文本特征表示；

步骤2，横向生成多维度文本特征表示：使用文本表示算法，生成多组不同的文本特征表示；

步骤4，通过新的文本特征表示对待分类样本进行分类。

步骤A-3，根据C¹计算每个簇的均值向量α_i，0≤i≤k₁，k₁为预设的参数，即超参，表示聚类中簇的个数，簇为聚类结果中被划分到一个类别中的相似样本的集合；

ν_j＝(I-ξ_jMU(I+ξ_jΛ)^-1U^TM^T)β_j (1)

其中，v_j为表示向量，ξ_j为中间参数，计算公式为：

步骤A-9，重复步骤A-5到步骤A-8直到收敛；

步骤B-4，利用公式(2)更新模型参数β：

步骤2中，将改进的Decorrelated k-Means算法和潜层狄利克雷分布(LatentDirichlet Allocation，LDA)的衍生算法Alter LDA算法进行组合生成多组不同的文本特征表示，或者使用其他文本表示算法(如Doc2Vec模型(Le Q V,Mikolov T.DistributedRepresentations of Sentences and Documents[J].2014,4:II-1188.)、潜层语义分析模型(Latent Semantic Analysis)(Miller F P,Vandome A F,Mcbrewster J.Latentsemantic analysis[M]//Artifical Intelligence and Soft Computing.SpringerBerlin Heidelberg,2010:683–692.)、概率潜层语义分析模型(Probabilistic LatentSemantic Analysis)^[6])生成文本特征表示进行组合作为样本新的特征表示，组合的方式为将样本的多个特征向量进行拼接，得到新的特征向量，向量拼接方法为：假设向量A＝[a₁,a₂,...,a_m]，向量B＝[b₁,b_2,...,b_n]，将向量A和向量B进行拼接，其中m和n分别为向量A的长度和向量B的长度，a_i(1≤i≤m)为向量A第i个位置的分量，b_j(1≤j≤n)为向量第i个位置的分量，将向量A和向量B进行拼接，得到向量C，则向量C＝[a₁,a₂,...,a_m,b₁,b₂,...,b_n]；

步骤3中，还可以将每个样本的横向多维度文本特征表示对应的文本特征向量进行拼接，即将样本由不同文本特征表示算法生成的特征向量进行拼接，得到新的样本特征向量，向量拼接方法为：假设向量A＝[a₁,a_2,...,a_m]，向量B＝[b₁,b₂,...,b_n]，将向量A和向量B进行拼接，得到向量C，则向量C＝[a₁,a₂,...,a_m,b₁,b₂,...,b_n]。

实施例1

本实施例以WebKB数据集(http://www.webkb.org/)为实验数据集，利用改进的Dec.k-Means算法生成多维度的文本表示，生成十组特征表示，每组特征50维，如图1所示为本发明在生成文本表示时的流程图。运用过程如下所示：

1、以WebKB数据集作为输入，数据集的详细信息如表1所示：

表1

训练集样本数	测试集样本数	词典大小
			2803	1396	7773

2、使用改进的Dec.k-Means对训练集和测试集生成m＝10组特征表示，每组特征表示中，特征向量的维度为k₁＝k₂＝...＝k₁₀＝50，具体步骤如下：

(1)使用词袋模型+TF-IDF权重将训练集和测试集分别转换成特征矩阵X_train和X_test，T＝1；

(2)使用k-Means聚类算法对训练集X_train进行聚类，得到数据的划分结果C¹；

(3)根据C¹计算每个簇的均值向量α_i(0≤i≤k₁)，k₁为簇的个数；

(4)计算训练集X_train和测试集X_test中每个样本到C¹中每个均值向量的余弦距离，得到第一组文本特征表示，特征向量的维度为k₁；

(5)T＝T+1，随机对训练集X_train进行划分，得到划分结果C^T；

(6)根据根据C^T计算每个簇的均值向量β_j(0≤j≤k_T)，k_T为簇的个数；

(7)根据公式(1)对新生成的聚类结果的表示向量进行更新：

ν_j＝(I-ξ_jMU(I+ξ_jΛ)^-1U^TM^T)β_j (1)

其中，v_j为表示向量，UΛU^T＝MM^T；

(8)将训练集中每一个样本划分给距离其最近的表示向量对应的簇，更新C^T；

(9)重复步骤(5)到步骤(8)直到收敛；

(10)α＝α∪ν，k₁＝||α||，计算训练集X_train和测试集X_test中每个样本到C^T中每个均值向量的余弦距离，得到新一组文本特征表示，特征向量的维度为k_T；

(11)重复步骤(5)到步骤(10)m-1次，得到m组文本特征表示。

4、将训练集和测试集中每个样本的十个不同特征向量拼接，得到样本新的特征表示向量。

5、为检测纵向多维度文本特征表示对文本分类任务的影响，在每拼接一组特征向量后，使用训练集训练LinearSVC分类器(https://en.wikipedia.org/wiki/Support_vector_machine)，并对测试集进行分类，测试正确率，其结果如图2所示；

6、使用TF-IDF权重计算生成训练集与测试集的特征表示，并使用特征值分解SVD降维至500维，将降维后的特征向量与上述特征向量拼接，训练LinearSVC分类器并测试分类效果，结果如表2所示：

表2

特征表示算	TF-IDF	LDA	CBOW	Skip Gramma	Our model
						正确率	95.56％	85.53％	76.30％	90.70％	96.20％

如结果所示，利用改进的Decorrelated k-Means生成的纵向多维度文本特征表示能不断提升文本分类的正确率，在组合横向多维度文本特征表示后，文本分类的正确率明显优于baseline。同时样本新的特征向量维度为1000维，相较于词袋模型+TF-IDF权重的特征表示方法降维接近90％。

实施例2

本实施例以AG's corpus of news articles数据集，简称AGNews数据集(http://www.di.unipi.it/～gulli/AG_corpus_of_news_articles.html)为实验数据集，利用改进的Alter LDA算法生成多维度的文本表示，生成十组特征表示，每组特征50维，运用过程如下所示：

1、以AG News数据集作为输入，数据集的详细信息如表3所示：

表3

训练集样本数	测试集样本数	词典大小
			160000	40000	34098

2、使用Alter LDA对训练集和测试集生成m＝10组特征表示，每组特征表示中，特征向量的维度为k₁＝k₂＝...＝k₁₀＝50，具体步骤如下：

(1)利用潜层狄利克雷分布(Latent Dirichlet Allocation，LDA)算法，得到词的主题分布β⁽¹⁾，文档的主题分布作为第一组文本的特征表示，设置T＝1

(2)根据变分EM算法，采用与LDA中相同的E步骤进行计算，求得变分参数φ与γ，更新文档主题分布；

(3)利用牛顿-拉夫逊方法，更新模型参数α；

(4)利用公式(2)更新模型参数β

(5)重复步骤(2)到步骤(4)直到收敛，得到第T+1个词的主题β^T+1，得到第T个文档主题分布，即第T组文本特征表示；

(6)T＝T+1，重复步骤(2)到步骤(5)，直到T＞n，得到n组不同的词的文本特征表示。

3、将每个样本的十个不同特征向量拼接，每拼接一组特征向量，使用训练集训练LinearSVC分类器，并对测试集进行分类，测试正确率，其结果如图3所示；

4、使用TF-IDF权重计算生成训练集与测试集的特征表示，并使用特征值分解SVD降维至500维，将降维后的特征向量与上述特征向量拼接，，训练LinearSVC分类器(https://en.wikipedia.org/wiki/Support_vector_machine)并测试分类效果，结果如表4所示：

表4

特征表示算	TF-IDF	LDA	CBOW	Skip Gramma	Our model
						正确率	87.21％	74.87％	67.55％	81.37％	88.68％

如结果所示，利用Alter生成的纵向多维度文本特征表示能不断提升文本分类的正确率，在组合横向多维度文本特征表示后，文本分类的正确率明显优于baseline。同时样本新的特征向量维度为1000维，相较于词袋模型+TF-IDF权重的特征表示方法降维超过97％。

本发明提供了一种利用多样化文本特征进行文本分类的方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种利用多样化文本特征进行文本分类的方法，其特征在于，包括如下步骤：

步骤4，通过新的文本特征表示对待分类样本进行分类。

2.根据权利要求1所述的方法，其特征在于，步骤1中，采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示，或者采用潜层狄利克雷分布LDA的衍生算法Alter LDA算法生成多组不同的文本特征表示。

3.根据权利要求2所述的方法，其特征在于，步骤1中，采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示，具体包括如下步骤：

步骤A-1，使用词袋模型+TF-IDF权重将数据集X转换成特征矩阵，聚类个数T＝1；

步骤A-2，使用k-Means聚类算法对数据集X进行聚类，得到数据的划分结果C¹；

ν_j＝(I-ξ_jMU(I+ξ_jΛ)^-1U^TM^T)β_j (1)

其中，v_j为表示向量，ξ_j为中间参数，计算公式为：

表示第k₁个簇的均值向量，UΛU^T＝MM^T，U是由矩阵MM^T的特征向量构成的矩阵，Λ是由MM^T的特征值构成的对角矩阵，I为单位矩阵，λ是模型输入的超参，是实数类型；n_ij表示既在第一个聚类结果的第i个簇中、又在第二个聚类结果的第j个簇中的样本数量，簇的表示向量用于计算样本的特征向量；

步骤A-9，重复步骤A-5到步骤A-8直到收敛；

步骤A-11，重复步骤A-5到步骤A-10直到T＞m，得到m组文本特征表示，m为期望得到的文本特征表示的数量。

4.根据权利要求2所述的方法，其特征在于，步骤1中，使用潜层狄利克雷分布的衍生算法Alter LDA算法生成多组不同的文本特征表示，具体包括如下步骤：

步骤B-1，利用潜层狄利克雷分布算法，根据数据集X得到词的主题分布β⁽¹⁾，文档的主题分布作为第一组文本的特征表示，设置文本特征个数T＝1；

步骤B-2，根据变分EM算法，求得变分参数φ与γ，更新文档主题分布；

步骤B-3，利用牛顿-拉夫逊方法，更新模型参数α；

步骤B-4，利用公式(2)更新模型参数β：

步骤B-5，重复步骤B-2到步骤B-4直到收敛，得到第T+1个词的主题β^T+1，得到第T组文档主题分布，每个文档的主题分布作为该文档的特征向量；

步骤B-6，将T更新为T+1，重复步骤B-2到步骤B-5，直到T＞n，得到n组不同的词的文本特征表示，n为期望得到的文本特征表示的数量。

5.根据权利要求3或4所述的方法，其特征在于，步骤2中，将改进的Decorrelatedk-Means算法和潜层狄利克雷分布LDA的衍生算法Alter LDA算法进行组合生成多组不同的文本特征表示，组合的方式为将样本的多个特征向量进行拼接，得到新的特征向量，向量拼接方法为：假设向量A＝[a₁,a₂,...,a_m]，向量B＝[b₁,b₂,...,b_n]，其中m和n分别为向量A的长度和向量B的长度，a_i(1≤i≤m)为向量A第i个位置的分量，b_j(1≤j≤n)为向量第i个位置的分量，将向量A和向量B进行拼接，得到向量C，则向量C＝[a₁,a₂,...,a_m,b₁,b₂,...,b_n]。

6.根据权利要求5所述的方法，其特征在于，步骤3中，将每个样本的纵向多维度文本特征表示对应的样本特征向量采用步骤2中所述的方法进行拼接得到新的样本特征向量。

7.根据权利要求5所述的方法，其特征在于，步骤3中，将每个样本由改进的Decorrelated k-Means算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第一个特征向量，将样本由LDA的衍生算法Alter LDA算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第二个特征向量，将每个样本由前述方法得到的两个特征向量进行拼接，为每个样本得到新的特征向量。

8.根据权利要求5所述的方法，其特征在于，步骤3中，将每个样本的横向多维度文本特征表示对应的样本特征向量进行拼接，即将样本由不同文本特征表示算法生成的样本特征向量进行拼接，得到新的样本特征向量。