CN104285224A

CN104285224A - 用于对文本进行分类的方法

Info

Publication number: CN104285224A
Application number: CN201380024544.5A
Authority: CN
Inventors: J·R·赫尔歇; J·勒鲁克斯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-05-24
Filing date: 2013-05-15
Publication date: 2015-01-14
Anticipated expiration: 2033-05-15
Also published as: JP5924713B2; WO2013176154A1; JP2015511733A; DE112013002654T5; US9069798B2; CN104285224B; US20130317804A1

Abstract

通过根据文本确定文本特征并将文本特征变换为主题特征来对该文本进行分类。使用判别主题模型针对每一个主题特征来确定分数。该模型包括对主题特征进行操作的分类器，其中，通过变换根据文本特征来确定主题特征，并且变换被优化以最大化相对于不正确的类的分数的正确的类的分数。接着，选择针对文本具有最高分数的类标签。在按层次结构组织类的情况下，判别主题模型适用于根据前面的级别调节的每一个级别的类，并且跨级别组合分数以评估最高得分的类标签。

Description

用于对文本进行分类的方法

技术领域

本发明总体上涉及一种用于对文本进行分类的方法，并且更具体地，涉及针对大量的类别对文本进行分类。

背景技术

文本分类对于在诸如用于命令和控制的用户接口这样的自然语言处理中的许多任务来说是一个重要的问题。在这样的方法中，从文本的许多类得到的训练数据被用于优化由用于估计针对该文本的最可能的类的方法所使用的参数。

用于文本分类的多项逻辑斯蒂回归(MLR)分类器。

文本分类根据输入文本x来估计类y，其中y是类的标签。该文本能够从语音信号得到。

在现有技术的多项逻辑斯蒂回归中，使用以下的特征函数来对关于输入文本的信息进行编码：

其通常被这样定义：

换句话说，如果项t_j包含在文本x中，则特征是1，类标签y等于类别I_k。

用于分类的模型是如下形式的条件指数模型：

pΛ (y | x) = \frac{1}{Z_{Λ} (x)} e^{\underset{j, k}{Σ} λ_{j, k} f_{j, k} (x, y)},

其中，

Z_{Λ} (x) = \underset{y}{Σ} e^{\underset{j, k}{Σ} λ_{j, k} f_{j, k} (x, y)},

并且λ_j,k和Λ是分类参数。

使用如下目标函数对于文本x_i和标签y_i的训练对来优化这些参数：

L_{Λ} = \underset{i, j, k}{Σ} λ_{j, k} f_{j, k} (x_{i}, y_{i}) - \log \underset{y^{'}}{Σ} e^{\underset{j, k}{Σ} λ_{j, k} f_{j, k} (x_{i}, y^{'})},

其将关于Λ被最大化。

正则化多项逻辑斯蒂回归分类器

能够在逻辑斯蒂回归中向分类参数添加正则化项以提高泛化能力。

在正则化多项逻辑斯蒂回归分类器中，使用L1范数正则项(regularizer)和L2范数正则项两者的一般公式化是

\begin{matrix} L_{Λ} = \underset{i, j, k}{Σ} λ_{j, k} f_{j, k} (x_{i}, y_{i}) - \log \underset{y^{'}}{Σ} e^{\underset{j, k}{Σ} λ_{j, k} f_{j, k} (x_{i}, y^{'})} \\ - α \underset{j, k}{Σ} {| λ_{j, k} |}^{2} - β \underset{j, k}{Σ} | λ_{j, k} |, \end{matrix}

其中，是L2范数正则项，而是L1范数正则项，并且α和β是加权因子。该目标函数将再一次关于Λ被最大化。

各种方法都能够在这些正则化下优化参数。

主题建模

在现有技术中，概率潜在语义分析(PLSA)和潜在狄利克雷分析(LDA)是其中主题是多项潜在变量的生成主题模型，并且主题的分布取决于包括其中如果给定主题则单词是多项分布的文本在内的特定文档。如果文档与类相关联，则这样的模型能够被用于文本分类。

然而使用生成主题模型，类特定参数和主题特定参数根据对数概率是相加的。

发明内容

本发明的实施方式提供了一种用于使用判别主题变换来对文本进行分类的方法。本发明的实施方式也执行按层次(hierarchy)布置类的问题下的分类。

所述方法从文本中提取特征，并且接着在对文本进行分类以确定分数之前，将这些特征变换为主题特征。

具体地，通过根据文本确定文本特征并将所述文本特征变换为主题特征，来对该文本进行分类。该文本能够从识别出的语音获得。

使用判别主题变换模型针对每一个主题特征来确定分数。

该模型包括对主题特征进行操作的分类器，其中，通过从文本特征进行变换来确定主题特征，并且对该变换进行优化以最大化相对于不正确的类的分数的正确的类的分数。

接着，针对该文本选择具有最高分数的一组类标签。所选择的标签的数目可以是预定的或动态的。

在按层次结构组织类的情形下，在每一个类对应于层次中的一个节点的情况下，所述方法如下地进行。能够以宽度优先顺序来遍历该层次。

所述方法的第一阶段使用以与以上所描述的相同的方式针对一级类训练的判别主题变换模型来评估层次的最高级别(一级)的输入文本的类分数。针对每一个一级类的分数由这个阶段来产生并且被用来选择具有最大分数的一组一级类。对于所选的一级类中的每一个，接着使用与每一个一级类相关联的判别主题变换模型来评估对应的二级子类。对于一个或更多个级别重复该过程，或者直到到达了层次的最后一个级别为止。来自在从最高的级别到该层次的任何节点的路径上使用的每一个分类器的分数被组合以产生针对该节点的级别的分类的联合分数。这些分数被用来输出层次中的任何给定的级别的最高得分侯选。判别主题变换模型中的主题变换参数能够在这些模型的一个或更多个子集之间共享，以便于促进层次内的泛化。

附图说明

图1是根据本发明的实施方式的文本分类方法和系统的流程图。

图2是根据本发明的实施方式的层次文本分类方法和系统的流程图。

具体实施方式

本发明的实施方式提供了用于使用判别主题变换模型对文本进行分类的方法。

该方法从待分类的文本中提取文本特征f_j,k(x,y)，其中j是针对特征的类型的索引，k是与该特征相关联的类的索引，x是文本，并且y是类的假设。

使用下式来将文本特征变换为主题特征：

g_l,k(x,y)＝h_l(f_1,k(x,y),...,f_J,k(x,y)),

其中h_l(.)是对文本特征进行变换的函数，并且l是主题特征的索引。

使用术语“主题特征”是因为特征与文本的语义方面有关。如在本领域和在本文中所使用的，“语义”整体上涉及文本在自然语言中的含义。语义集中于诸如单词、短语、记号和符号这样的意符(signifier)之间的关系以及这些意符表示什么。语义不同于单个单词的“词典”含义。

由特征变换矩阵A参数化的线性变换

h_l(f_1,k(x,y),...,f_J,k(x,y))＝∑_jA_l,jf_j,k(x,y)，

产生主题特征

g_{l, k} (x, y) = \underset{j}{Σ} A_{l, j} f_{j, k} (x, y) .

接着，我们的判别主题变换模型为

pΛ, A (x | y) = \frac{1}{Z_{Λ, A} (x)} e^{\underset{l, j, k}{Σ} λ_{l, k} A_{l, j} f_{j, k} (x, y)},

其中

Z_{Λ, A} (x) = \underset{y}{Σ} e^{\underset{l, j, k}{Σ} λ_{l, k} A_{l, j} f_{j, k} (x, y)} .

我们使用训练文本来构造和优化我们的模型。该模型包括集合分类参数Λ和特征变换矩阵A。这些参数使正确的类标签的分数最大化。该模型还被用来在分类期间评估分数。能够在一次预处理步骤中完成该构造。

还能够在优化期间使用为特征变换矩阵A设计的各种正则项和分类参数Λ来正则化这些模型参数。

一个方式对分类参数Λ使用

L 2 α \underset{j, k}{Σ} {| λ_{j, k} |}^{2}, L 1 β \underset{j, k}{Σ} | λ_{j, k} |

正则项的混合，而对特征变换矩阵A使用组合的L1/L2正则项其中α、β和γ是加权因子。

用于训练模型参数的目标函数

接着，用于对于文本x_i和标签y_i的训练对训练模型参数Λ和A的目标函数为

L_{Λ, A} = \underset{i}{Σ} \log (p_{Λ, A} (y_{i} | x_{i})) - α \underset{l, k}{Σ} {| λ_{l, k} |}^{2} - β \underset{l, k}{Σ} | λ_{l, k} | - γ \underset{l}{Σ} {(\underset{j}{Σ} | A_{l, j} |)}^{2},

其中α,β,γ是控制每一个正则项的相对强度的权重，其使用交叉验证来确定。这个目标函数将相对于Λ和A被最大化。

得分

在给定文本x的情况下，每类y的分数能够使用与在以上目标函数中所使用的公式相似的公式来计算，同时省去常数项：

s_{Λ, A} (y | x) = \underset{l, j, k}{Σ} λ_{l, k} A_{l, j} f_{j, k} (x, y) .

层次分类

我们现在考虑按层次结构组织类的情况。对于每一个文本x，我们现在具有针对层次的每一个级别的标签y^d,d＝1,...,D。每一个级别d的标签变量y^d取集合C^d中的值。针对y^d的考虑值的集合能够根据由之前的级别的标签变量y^1:(d-1)＝y¹,...,y^d-1所取的值而限制于子集C^d(y^1:(d-1))。

例如，在针对类的树结构的情况下，每一个集合C^d(y^1:(d-1))能够被定义为级别d-1的标签y^d-1的子元素的集合。

为了估计每一个级别d的类，我们能够为文本构造取决于之前的级别d'≤d-1的类的假设的分类器。对于类y^d的分数使用以下公式来计算：

s_{Λ^{d} (y^{1 : (d - 1)}), A} (y^{d} | x, y^{1 : (d - 1)}) = \underset{l, j, k}{Σ} λ_{l, k}^{d} (y^{1 : (d - 1)}) A_{l, j} f_{j, k} (x, y^{d}),

其中Λ^d(y^1:(d-1))是给定级别1至d-1的类的情况下的级别d的类的参数的集合。可选地，矩阵A能够取决于级别d和之前的级别的类y^1:(d-1)，但是可能存在使它跨级别共享的优点。

在树表示的情况下，能够将上述公式简化为

s_{Λ^{d} (y^{d - 1}), A} (y^{d} | x, y^{d - 1}) = \underset{l, j, k}{Σ} λ_{l, k}^{d} (y^{d - 1}) A_{l, j} f_{j, k} (x, y^{d}),

使得得分仅取决于之前的级别的类。

在这个框架中，能够通过遍历层次并组合用于假设y^1:d的组合的跨级别分数来执行推理。

跨级别分数的组合能够以许多方式来完成。这里，我们将考虑来自不同级别的分数的求和：

s (y^{1 : d} | x) = \underset{d^{'} \leq d}{Σ} s_{Λ^{d^{'}} (y^{1 : (d^{'} - 1)}), A} (y^{d^{'}} | x, y^{1 : (d^{'} - 1)})

在某些情况下，确定y^d的边际分数s(y^d|x)能够是重要的。在条件指数模型的情况下，这由下式给出(由无关常数决定)：

s (y^{d} | x) = \log (\underset{y^{1 : (d - 1)}}{Σ} \exp (s (y^{1 : d} | x))) .

在树的情况下，我们简单地具有s(y^d|x)＝s(y^1:d|x)，因为仅存在导致y^d的单一路径。

针对不同假设的组合分数被用来对假设进行排名并确定针对输入文本的每一个级别的最可能的类。

遍历层次也能够以许多方式来完成，我们在宽度优先搜索策略中从顶部遍历层次。在这种情况下，我们能够通过从考虑中消除直到其分数太低的级别d-1的假设y^1:(d-1)来加速该过程。在级别d，我们现在仅需要考虑包括最高得分y^1:(d-1)的假设y^1:d。

层次也能够由有向无环图(DAG)来表示。DAG没有循环。无向图能够通过选择该无向图中的节点的总排序并且定向在从在顺序上较早的节点到在顺序上更迟的节点的两个节点之间的每一条边而变换为一个DAG。

方法

图1示出了根据我们的发明的实施方式的用于使用判别主题变换模型来对文本进行分类的方法。

如以上所描述的，我们在预处理期间从已知的标记的训练文本104构造105我们的模型103。

在构造了该模型之后，能够对未知的未标记的文本进行分类。

对该方法的输入是文本101，其中文本包括字形、字符、符号、单词、短语或句子。文本能够从语音来得到。

输出是最可能对应于未知的输入文本的一组类标签102，即，类假设。

使用该模型，根据输入文本101来确定110文本特征111。这些文本特征被变换120为主题特征121。

根据模型103来确定130类分数。接着，产生具有最高分数的该组类标签102。

能够像本领域中所公知的那样在连接至存储器和输入/输出接口的处理器100中来执行上述方法的步骤。

图2示出了按树结构化的层次布置类的情况下使用上述方法来对文本进行分类的方法。

根据用于在层次的每一个级别执行分类的上述方法来构造参数202。如上所述对未标记的文本201评估210针对级别1类的分数，产生针对级别1类的分数203。接着基于级别1的分数来选择220下一级别2中的一个或更多个节点。针对级别2的已选择的节点的分数使用上述方法对未标记的文本201进行再一次评估230，并且与之前的级别的分数聚合204。

在层次的每一个后续的级别执行相同的方法，开始于选择220针对级别i的节点，评估230级别i的分数，存储直到级别i的分数204。

在已经聚合了直到最后级别i＝n的分数之后，跨级别组合240这些分数，并且产生针对具有最高分数的每一个级别的类标签的集合205。

本发明的效果

本发明提供了对常规的文本分类方法的替代方案。常规的方法能够使用基于主题模型的特征。然而，这些特征在分类器的框架内未被有区别地训练。

与常规的分类模型中那样仅在每一个类内相比，主题特征的使用允许参数在所有的类之间共享，这使得模型能够跨类来确定单词之间的关系。

主题特征也允许针对每一个类的参数用于所有的类，这能够在参数估计期间减少噪声和过拟合，并且改善泛化。

相对于潜在变量主题模型，我们的模型在对数概率域中涉及主题特定参数和类特定参数的乘法，然而现有技术的潜在变量主题模型在对数概率域中涉及加法，这产生可能模型的不同集合。

作为另一个优点，我们的方法使用具有优化的多变量逻辑斯蒂函数，其对远离判定边界的训练文本点不太敏感。

与判别主题变换组合的分类的层次操作使得系统能够通过在类之间共享参数从训练数据进行很好的泛化。如果无法以足够的信心来执行在较低的级别下的推理，则它也使得退回到更高级别的类成为可能。

Claims

1.一种用于对文本进行分类的方法，该方法包括以下步骤：

根据所述文本来确定文本特征；

将所述文本特征变换为主题特征；

根据所述主题特征来确定分数，其中，所述确定步骤使用下述模型，其中，所述模型是包括对所述主题特征进行操作的分类器的判别主题模型，并且所述变换步骤被优化以最大化相对于不正确的类的分数的正确的类的分数；以及

选择针对所述文本具有最高分数的一组类标签，其中，在处理器中执行所述步骤。

2.根据权利要求1所述的方法，其中，所述主题特征是所述文本特征的线性变换。

3.根据权利要求1所述的方法，其中，所述模型的参数使用包括L1、L2的正则项和混合范数正则项来正则化。

4.根据权利要求1所述的方法，其中，所述文本是从来自对语音信号进行操作的自动语音识别系统的一个或更多个假设得到的。

5.根据权利要求1所述的方法，其中，所述文本特征是f(_j,k(x,y)，所述变换是根据下式进行的：

g_l,k(x,y)＝h_l(f_1,k(x,y),...,f_J,k(x,y)),

其中，j是针对特征的类型的索引，k是与特征相关联的类的索引，x是文本，y是类标签的假设，并且h_l(.)是对文本特征进行变换的函数，并且l是主题特征的索引。

6.根据权利要求1所述的方法，其中，所述主题特征与所述文本的语义方面有关。

7.根据权利要求5所述的方法，其中，线性变换

h_l(f_1,k(x,y),...,f_J,k(x,y))＝∑_jA_l,jf_j,k(x,y)

由特征变换矩阵A来参数化以产生所述主题特征

g_{l . k} (x, y) = \underset{j}{Σ} A_{l, j} f_{j, k} (x, y)

8.根据权利要求5所述的方法，其中，所述判别主题模型为

\max_{Λ, A} {\log (p_{Λ, A} (y | x)) - α \underset{l, k}{Σ} {| λ_{l, k} |}^{2} - β \underset{l, k}{Σ} | λ_{l, k} | - γ \underset{l}{Σ} {(\underset{j}{Σ} | A_{l, j} |)}^{2}}

其中，α,β,γ是权重，并且Λ是分类优化参数。

9.根据权利要求8所述的方法，其中，所述权重通过交叉验证来确定。

10.根据权利要求1所述的方法，其中，根据由文本使用的自然语言的语义进行所述分类。

11.根据权利要求1所述的方法，其中，按层次结构组织所述类，其中每一个类对应于所述层次中的某一节点，其中，节点被分配给所述层次的不同的级别，其中，不同的分类参数被用于所述层次的所述级别中的一个或更多个，其中，分类是通过下述方式来进行的：遍历所述层次以评估每一个级别的按照前面的级别的类的假设调节的部分分数并且组合这些级别中的一个或更多个的类的所述部分分数以确定联合分数。

12.根据权利要求11所述的方法，其中，所述层次被表示为树。

13.根据权利要求11所述的方法，其中，所述层次被表示为有向无环图。

14.根据权利要求11所述的方法，其中，以宽度优先方式来遍历所述层次。

15.根据权利要求11所述的方法，其中，使用一个或更多个级别的分数来根据其它的级别的考虑消除假设。

16.根据权利要求15所述的方法，其中，在给定级别，根据进一步的考虑消除除了最高得分假设以外的所有假设。

17.根据权利要求15所述的方法，其中，在给定级别，对于某个正整数n，根据进一步的考虑消除除了n个最高得分假设以外的所有假设。

18.根据权利要求11所述的方法，其中，通过对沿着从最高的级别到另一个级别的一个类的路径的部分分数求和来确定沿着该路径的一系列类的联合分数。

19.根据权利要求18所述的方法，其中，通过使通向所述类的所有路径的联合分数边缘化来确定特定级别下的所述类的分数。