CN104750835A

CN104750835A - 一种文本分类方法及装置

Info

Publication number: CN104750835A
Application number: CN201510155665.4A
Authority: CN
Inventors: 于振梅; 刘艺; 张连超; 刘宇; 张鹏
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-04-03
Filing date: 2015-04-03
Publication date: 2015-07-01

Abstract

本发明提供一种文本分类方法及装置，方法包括：确定待分类的文本以及每个文本分别对应的多维向量；获取每个文本分别对应的第一维度向量，析得到待分类的文本所对应的多类主题；在待分类的文本中选择一个尚未被进行分类的文本，将该选择的文本所对应的第一维度向量，分别与每一个第二维度向量计算余弦相似度，将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题，继续执行本步骤，直到待分类的文本均被分类完毕。根据本方案，从而提高了文本分类的效率。

Description

一种文本分类方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种文本分类方法及装置。

背景技术

文本分类技术在很多领域都有应用，例如，将文本进行分类，分类后的文本用于指导机器翻译中翻译模型的训练，可见，文本分类的精度很重要，精度高的分类文本，可以在其应用领域带来有益效果，而如果文本分类的精度不够，就会给使用这些分类文本的应用带来不利影响。

在现有的文本分类方法中，通常采用训练语料进行分类器训练，然后用训练后的分类器对文本进行分类的方式进行，分类效率较低。

发明内容

有鉴于此，本发明提供一种文本分类方法及装置，以解决现有技术分类效率较低的问题。

本发明提供了一种文本分类方法，预先设定维度阈值，还包括：

确定待分类的文本以及每个文本分别对应的多维向量；

根据预先设定的所述维度阈值，和，每个文本分别对应的多维向量，获取每个文本分别对应的第一维度向量，其中，每个文本分别对应的第一维度向量的维度均等于所述维度阈值；

根据预先设定的所述维度阈值以及所述待分类的文本，分析得到所述待分类的文本所对应的多类主题，其中，每类主题分别对应一个维度与所述维度阈值相等的第二维度向量；

在所述待分类的文本中选择一个尚未被进行分类的文本，将该选择的文本所对应的第一维度向量，分别与每一个第二维度向量计算余弦相似度，将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题，继续执行本步骤，直到所述待分类的文本均被分类完毕。

优选地，

进一步包括：设定统计个数阈值；

所述确定每个文本分别对应的多维向量，包括：针对所述待分类的文本中的每个文本，分别执行如下操作：对文本进行分词处理；对分词处理后的文本进行词频反词频统计；在文本中获取与所述统计个数阈值相等个数的值最大的词频反词频统计值；将获取的值最大的词频反词频统计值作为该文本的多维向量，其中，该文本的多维向量的维度个数与所述统计个数阈值相等。

优选地，所述获取每个文本分别对应的第一维度向量，包括：

针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接，以将所述待分类的文本均统一到一个多维空间中；

将统一到的该多维空间进行主成分分析降维，得到每个文本分别对应的第一维度向量。

优选地，通过下式计算所述余弦相似度：

similarity = \cos (θ) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{n} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

其中，similarity用于表征所述余弦相似度，cos(θ)用于表征向量A与向量B之间夹角的余弦值，A用于表征所选择的文本所对应的第一维度向量，B用于表征其中一个第二维度向量，i用于表征向量A或向量B的第i个列值，n用于表征向量A或向量B的列值的最大个数，其中，i是大于等于1且小于等于n的整数。

优选地，所述预设维度阈值等于10。

本发明还提供了一种文本分类装置，包括：

存储单元，用于存储设定的维度阈值；

确定单元，用于确定待分类的文本以及每个文本分别对应的多维向量；

获取单元，用于根据预先设定的所述维度阈值，和，每个文本分别对应的多维向量，获取每个文本分别对应的第一维度向量，其中，每个文本分别对应的第一维度向量的维度均等于所述维度阈值；

分析单元，用于根据预先设定的所述维度阈值以及所述待分类的文本，分析得到所述待分类的文本所对应的多类主题，其中，每类主题分别对应一个维度与所述维度阈值相等的第二维度向量；

计算分类单元，用于在所述待分类的文本中选择一个尚未被进行分类的文本，将该选择的文本所对应的第一维度向量，分别与每一个第二维度向量计算余弦相似度，将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题，继续执行本步骤，直到所述待分类的文本均被分类完毕。

优选地，

所述存储单元，用于存储设定的统计个数阈值；

所述确定单元，用于针对所述待分类的文本中的每个文本，分别执行如下操作：对文本进行分词处理；对分词处理后的文本进行词频反词频统计；在文本中获取与所述统计个数阈值相等个数的值最大的词频反词频统计值；将获取的值最大的词频反词频统计值作为该文本的多维向量，其中，该文本的多维向量的维度个数与所述统计个数阈值相等。

优选地，所述获取单元，用于针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接，以将所述待分类的文本均统一到一个多维空间中；将统一到的该多维空间进行主成分分析降维，得到每个文本分别对应的第一维度向量。

优选地，所述计算分类单元，用于通过下式计算所述余弦相似度：

similarity = \cos (θ) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{n} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

本发明实施例提供了一种文本分类方法及装置，通过确定每个待分类文本对应的多维向量，并实现所有文本特征关联后每个文本对应的第一维度向量，并通过分析出所有文本的多类主题的第二维度向量，使得第二维度向量作为中心向量，并将每个第一维度向量与每个第二维度向量进行余弦相似度分析，不考虑第一维度向量和第二维度向量分别的长度，只考虑两种维度向量的方向，从而确定第一维度向量和第二维度向量之间的夹角，根据两种向量之间夹角越小，即两种向量之间夹角的余弦值越大，两种向量的相似度越大的理论，实现每一个文本的分类，从而提高了文本分类的效率。

附图说明

图1是本发明实施例提供的方法流程图；

图2是本发明另一实施例提供的方法流程图；

图3是本发明实施例提供的装置所在设备的硬件架构图；

图4是本发明实施例提供的装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种文本分类方法，预先设定维度阈值，该方法可以包括以下步骤：

步骤101：确定待分类的文本以及每个文本分别对应的多维向量。

步骤102：根据预先设定的维度阈值，和，每个文本分别对应的多维向量，获取每个文本分别对应的第一维度向量，其中，每个文本分别对应的第一维度向量的维度均等于维度阈值。

步骤103：根据预先设定的维度阈值以及待分类的文本，分析得到待分类的文本所对应的多类主题，其中，每类主题分别对应一个维度与维度阈值相等的第二维度向量。

步骤104：在待分类的文本中选择一个尚未被进行分类的文本，将该选择的文本所对应的第一维度向量，分别与每一个第二维度向量计算余弦相似度，将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题，继续执行本步骤，直到待分类的文本均被分类完毕。

根据上述方案，通过确定每个待分类文本对应的多维向量，并实现所有文本特征关联后每个文本对应的第一维度向量，并通过分析出所有文本的多类主题的第二维度向量，使得第二维度向量作为中心向量，并将每个第一维度向量与每个第二维度向量进行余弦相似度分析，不考虑第一维度向量和第二维度向量分别的长度，只考虑两种维度向量的方向，从而确定第一维度向量和第二维度向量之间的夹角，根据两种向量之间夹角越小，即两种向量之间夹角的余弦值越大，两种向量的相似度越大的理论，实现每一个文本的分类，从而提高了文本分类的效率。

为使本发明的目的、技术方案和优点更加清楚，下面结合附图及具体实施例对本发明作进一步地详细描述。

如图2所示，本发明实施例提供了一种文本分类方法，该方法可以包括以下步骤：

步骤201：确定待分类的1万个文本。

需要说明的是，本实施例的方法可以实现海量文本的分类，为了方便实施例的举例说明，在此仅以1万个文本的分类对本实施例进行具体说明。

其中，该文本可以是word文档、PDF、Excel等。

步骤202：对每个文本进行分词处理，并对分词处理后的每个文本进行词频反词频(TF-IDF)统计。

在本实施例中，为了实现每个文本特征的自动提取，需要将每个文本进行分词处理，该分词处理可以是针对每个文本，提取该文本的所有的词语、句子、标点符号等，以方便后续TF-IDF统计。该分词处理方式可以是目前能够实现文本分词的所有分词处理技术。

在本实施例中，需要对每个文本进行特征提取。在本发明一优选实施例中，可以将词频和反词频这两个值的融合作为本实施例中文本的特征。

例如，对于文本1中，包括a、b、c、……等200个词语，其中，词语a在文本1中的词频值为词语a在文本1中出现的次数除以文本1中的200个词语，而词语a的反词频值为词语在1万个文本中出现的文本个数为5，例如，词语a仅出现在了文本1、文本2、文本3、文本4和文本5中，那么词语a的反词频值为5除以1万。那么根据词语a在文本1中的词频值以及词语a在这1万个文本中的反词频，确定词语a的TF-IDF值。

其中，词语的TF-IDF值时需要将词语的词频和反词频进行融合，该融合方法可以根据词频和反词频的权重值进行融合，也可以根据词频和反词频的比值进行融合。例如，以比值进行融合的方式可以是，TF-IDF值＝词频/反词频。

在本发明一优选实施例中，为了避免在词频反词频统计过程中内存爆栈的问题，可以对TF-IDF进行内存优化。

步骤203：在每个文本中对TF-IDF值进行从大到小的顺序排序，并获取最大的N个IF-IDF值，将每个文本获得的N个词语作为文本向量的基底，并将IF-IDF值作为该文本向量在相应维度上的数值，即每个文本转换为一个N维向量。

以文本1中获取的N个词语为例，其中，该N值可以是大于等于5小于等于20的整数，例如，N＝10，那么获取的10个词语可以是：词语a、词语b、词语c、词语d、词语e、词语f、词语g、词语h、词语i和词语j。例如，词语a的TF-IDF值为0.7，那么文本1在词语a所对应的维度的数值为0.7。即每一个文本都转换为了一个10维向量。

步骤204：针对1万个文本中每个文本分别对应的10维向量进行维度拼接，以将所述待分类的文本均统一到一个多维空间中。

由于每一个文本的多维向量是由TF-IDF值计算出来的，所以不同的文本所对应的10维基底完全独立，即，无法简单的将这1万个文本规划到同一个多维空间中(基底不同)。

因此，在本实施例中，可以利用维度拼接将这1万个文本中每个文本分别对应的10维向量统一到同一个多维空间中，该统一的原理可以包括：将相同的维度基底值拼接在一起，不同的基底值拼接成新的维度基底。

本实施例的维度拼接过程可以包括如下步骤：将文本1进行10维向量的排列，即第1行中的第1列-第10列；将文本2进行10维向量的排列，文本2对应第2行，文本2中的10个基底值与第1行中相同的基底值，写入第2行中与第1行具有相同基底值的那一列，例如，文本2中包括2个基底值与文本1中的两个基底值相同，文本2中剩余的8个基底值位于第2行的第11列-第18列上；将文本3进行10维向量的排列，文本3对应第3行，文本3中与已经排列了的文本1和文本2中具有相同的基底值写入相对应的那一列。依次类推，如果除去写入相同列的基底值，不相同的基底值包括90000个，那么目前维度拼接之后，这1万个文本对应了1万行90000列的多维空间。

步骤205：将统一到的该多维空间进行主成分分析降维，得到每个文本分别对应的F维的第一维度向量，并执行步骤207。

在本发明一优选实施例中，为了便于后续计算，可以对步骤204中进行维度拼接后的多维空间进行主成分分析降维，即PCA降维，将原来多维空间内的所有文本向量映射到F维空间内。这样就将所有的文本控制在了一个合理可控的空间内。

其中，该F维空间可以是10维空间。即将多维空间中的90000列降维到10列。其中，该PCA降维的方式可以采用现有技术方案。

在进行PCA降维后，每个文本对应了一个10维度的向量，在此可以命名为第一维度向量，该第一维度向量包括10个维度。

步骤206：利用LDA方式对这1万个文本进行分析，可以得到C类主题，每类主题分别对应F维的第二维度向量，执行步骤207。

在本实施例中，可以使用LDA(Latent Dirichlet Allocation，文本主题生成模型)通过反复试验等方式确定这1万个文本可以包括的C类主题。例如，8类主题，其中，每一类主题均对应10维的维度向量，将该维度向量称之为第二维度向量。其中，使用LDA方式分析这1万个文本的C类主题可以采用现有技术方案。

步骤207：在1万个文本中选择一个尚未被进行分类的文本，将该选择的文本所对应的第一维度向量，分别与每一个第二维度向量计算余弦相似度，将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题，继续执行本步骤，直到所述待分类的文本均被分类完毕。

其中，可以通过下述公式(1)计算余弦相似度：

similarity = \cos (θ) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{n} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

其中，similarity用于表征余弦相似度，cos(θ)用于表征向量A与向量B之间夹角的余弦值，A用于表征所选择的文本所对应的第一维度向量，B用于表征其中一个第二维度向量，i用于表征向量A或向量B的第i个列值，n用于表征向量A或向量B的列值的最大个数，其中，i是大于等于1且小于等于n的整数。

通过利用上述式(1)计算出每个文本与每个第二维度向量的余弦相似度，从而确定除每个文本所属的分类主题。

如图3、图4所示，本发明实施例提供了一种文本分类装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例文本分类装置所在设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的文本分类装置40包括：

存储单元401，用于存储设定的维度阈值；

确定单元402，用于确定待分类的文本以及每个文本分别对应的多维向量；

获取单元403，用于根据预先设定的所述维度阈值，和，每个文本分别对应的多维向量，获取每个文本分别对应的第一维度向量，其中，每个文本分别对应的第一维度向量的维度均等于所述维度阈值；

分析单元404，用于根据预先设定的所述维度阈值以及所述待分类的文本，分析得到所述待分类的文本所对应的多类主题，其中，每类主题分别对应一个维度与所述维度阈值相等的第二维度向量；

计算分类单元405，用于在所述待分类的文本中选择一个尚未被进行分类的文本，将该选择的文本所对应的第一维度向量，分别与每一个第二维度向量计算余弦相似度，将余弦相似度的最大值所对应的分类主题作为该选择的文本的主题，继续执行本步骤，直到所述待分类的文本均被分类完毕。

进一步地，

所述存储单元，用于存储设定的统计个数阈值；

进一步地，所述获取单元，用于针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接，以将所述待分类的文本均统一到一个多维空间中；将统一到的该多维空间进行主成分分析降维，得到每个文本分别对应的第一维度向量。

进一步地，所述计算分类单元，用于通过下式计算所述余弦相似度：

similarity = \cos (θ) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{n} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

根据上述实施例，本发明实施例至少可以实现如下有益效果：

通过确定每个待分类文本对应的多维向量，并实现所有文本特征关联后每个文本对应的第一维度向量，并通过分析出所有文本的多类主题的第二维度向量，使得第二维度向量作为中心向量，并将每个第一维度向量与每个第二维度向量进行余弦相似度分析，不考虑第一维度向量和第二维度向量分别的长度，只考虑两种维度向量的方向，从而确定第一维度向量和第二维度向量之间的夹角，根据两种向量之间夹角越小，即两种向量之间夹角的余弦值越大，两种向量的相似度越大的理论，实现每一个文本的分类，从而提高了文本分类的效率。

上述设备内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本分类方法，其特征在于，预先设定维度阈值，还包括：

确定待分类的文本以及每个文本分别对应的多维向量；

2.根据权利要求1所述的方法，其特征在于，

进一步包括：设定统计个数阈值；

3.根据权利要求1所述的方法，其特征在于，所述获取每个文本分别对应的第一维度向量，包括：

4.根据权利要求1所述的方法，其特征在于，通过下式计算所述余弦相似度：

similarity = \cos (θ) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{n} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

5.根据权利要求1-4中任一所述的方法，其特征在于，所述预设维度阈值等于10。

6.一种文本分类装置，其特征在于，包括：

存储单元，用于存储设定的维度阈值；

7.根据权利要求6所述的装置，其特征在于，

所述存储单元，用于存储设定的统计个数阈值；

8.根据权利要求6所述的装置，其特征在于，所述获取单元，用于针对所述待分类的文本中每个文本分别对应的多维向量进行维度拼接，以将所述待分类的文本均统一到一个多维空间中；将统一到的该多维空间进行主成分分析降维，得到每个文本分别对应的第一维度向量。

9.根据权利要求6所述的装置，其特征在于，所述计算分类单元，用于通过下式计算所述余弦相似度：

similarity = \cos (θ) = \frac{A \cdot B}{| | A | | | | B | |} = \frac{Σ_{i = 1}^{n} A_{i} \times B_{i}}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}