CN103473309A

CN103473309A - 一种基于概率单词选择和监督主题模型的文本分类方法

Info

Publication number: CN103473309A
Application number: CN2013104106570A
Authority: CN
Inventors: 庄越挺; 吴飞; 高海东
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2013-12-25
Anticipated expiration: 2033-09-10
Also published as: CN103473309B

Abstract

本发明公开了一种基于概率单词选择和监督主题模型的文本分类方法。包括如下步骤：1）去除训练文本中的标点符号，统计词频信息及类别信息，并形成单词表和类别表；2）初始化主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵；3）根据训练文本的单词列表及其类别迭代更新主题比例矢量、主题单词矩阵、主题单词鉴别度矩阵和回归系数矩阵；4）对于测试文本，统计词频信息，然后利用主题比例矢量、主题单词矩阵、主题单词鉴别度矩阵和回归系数矩阵进行分类。本发明能够最大程度地减轻文本分类时繁杂的预处理过程，可以更加准确地对测试文本进行分类。本发明还能挖掘出主题中单词的鉴别度，以形象化展示文本中单词的重要性。

Description

一种基于概率单词选择和监督主题模型的文本分类方法

技术领域

本发明涉及概率单词选择、监督主题模型，尤其涉及一种基于概率单词选择和监督主题模型的文本分类方法。

背景技术

互联网的出现使得人们获取信息越来越方便。然而，互联网的快速发展所产生的海量数据同样为人们对数据分析、利用带来了巨大的困难。因此，自动地组织，管理和挖掘数据变得越来越重要。因为主题模型的潜在结构的可解释性，如PLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent DirichletAllocation)等，它们广泛地用于挖掘文本的低维表达。主题模型假设文本中所有的单词都是从一个叫做“主题”的多项分布中产生而来，而文本则是由这些主题混合而成。

传统的LDA是基于BOW(Bag Of Words)的无监督模型，不能很好地利用文本常常伴有的监督信息，如伴随新闻文本的类别信息、伴随电影文本的评分信息等。为了克服LDA在处理伴随有监督信息的文本时的不足，人们提出了LDA的扩展模型。例如，Blei等人将文本的监督信息看作文本单词的主题结构上的响应，并且以回归的方式将文本的监督信息和文本单词联系了起来。他们称之为监督LDA。监督LDA构造了一个分析伴随有监督信息的文本的框架模型，在分析伴随有评分信息的电影文本上取得了成功。之后，Wang等人将监督LDA扩展到了文本的分类上来。

和传统的LDA一样，监督LDA同样需要对文本进行大量的繁琐的预处理。不进行预处理或者不当的预处理，都会使得模型面对的文本数据包含冗余的数据，从而影响主题模型的性能。另一方面，忽视主题中单词相对于鉴别信息所体现出来的不一样的重要性(或可做成鉴别度)同样会对主题模型的性能造成影响。最后，直接基于单词而非主题结构的监督模型则不能利用广泛存在的单词多义性。

针对这些方法的不足，我们提出了一个基于概率单词选择和监督主题模型的文本分类方法，并将其运用在了从http：//web.ist.utl.pt/～acardoso/datasets/下载的新闻文本20newsgroups上。该方法首先为主题中的单词构造了各自不同的鉴别度，这个鉴别度依赖与单词本身和其对应的主题；其次，当每篇文本的单词产生之后，该方法通过以文本单词鉴别度为参数的伯努利分布来对单词进行筛选，筛选后的单词将会以两种不同的权重中的一种参与到文本监督信息的生成；最后，通过在文本中单词新的权重上的回归产生了文本的类别。通过在训练文本上的学习过程，该方法能很好地学习到单词的鉴别度并用于分类测试文本。

发明内容

本发明的目的是克服现有推荐技术的不足，提供一种基于概率单词选择和监督主题模型的文本分类方法。

基于概率单词选择和监督主题模型的文本分类方法，包括如下步骤：

1)去除训练文本中的标点符号，统计词频信息及类别信息，并形成单词表和类别表；

2)初始化主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵；

3)根据训练文本的单词列表及其类别迭代更新主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵；

4)对于测试文本，统计词频信息，然后利用主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵进行分类。

所述的去除训练文本中的标点符号，统计词频信息及类别信息，并形成单词表和类别表的步骤包括：

2.1)去除训练文本中的标点符号，顺序扫描训练文本中的所有单词，每个不同的单词保留一个，最终形成一个大小为V的词汇表，顺序扫描每个训练文本的类别，每个不同的类别保留一个，最终形成一个大小为C的文本类别表；

2.2)统计训练文本的词频信息，加上训练文本所属的类别信息，得到训练文本TRAIN＝{((w_d，f_d，y_d))，d＝1，…，D_tr}，其中D_tr表示训练文本的数目，w_d＝{(w_dm)，m＝1，…，M_d，w_dm∈{1，…，V}}表示训练文本d的所有不同的单词，M_d表示训练文本d中不同的单词的个数；f_d＝{(f_dm)，m＝1，…，M_d，f_dm∈z⁺}表示训练文本d中每个不同的单词出现的频数，z⁺表示正整数；y_d∈{1，…，C}表示训练文本d所属的类别。

所述的初始化主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵的步骤包括：

3.1)初始化主题比例矢量α＝{(α_k)，k＝1，…，K}，其中K表示主题的个数；

3.2)初始化主题单词矩阵β＝{(β_kv)，k＝1，…，K，v＝1，…，V}；

3.3)初始化主题单词鉴别度矩阵ψ＝{(ψ_kv)，k＝1，…，K，v＝1，…，V}；

3.4)初始化回归系数矩阵η＝{(η_cv)，c＝1，…，C，v＝1，…，V}。

所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵的方法是：当算法没有满足终止条件时，反复迭代执行以下步骤：

4.1)置下述统计量的所有元素的值为0：

(4.1.1)主题中单词的个数矩阵N＝{(n_kv)，k＝1，…，K，v＝1，…，V}；

(4.1.2)主题中显著性单词的数量矩阵S＝{(s_kv)，k=1，…，K，v=1，…，V}；

(4.1.3)主题比例累积量A={(a_k)，k=1，…，K}；

(4.1.4)训练文本的统计期望E={(e_dm)，d=1，…，D_train，m=1，…，M_d}；

(4.1.5)训练文本的统计方差Q={(q_dm)，d=1，…，D_tr，m=1，…，M_d}；

4.2)对于所有训练文本(w_d，f_d，y_d)，d=1，…，D_tr，进行变分推理，并更新有关统计变量N_tv，S_tv，E_d和Q_d；

4.3)用N，S来学习β和ψ；用A来学习α；用E和Q来学习η。

所述的步骤4.2)具体是：对于所有训练文本的(w_d，f_d，y_d)，d=1，…，D_tr，执行下述步骤：

(5.1)初始化主题比例变分参数γ={(γ_k)，k=1，…，K}；

(5.2)初始化主题分配变分参数φ={(φ_mk)，m=1，…，M_d，k=1，…，K}；

(5.3)初始化单词鉴别值变分参数μ={(μ_m)，m=1，…，M_d}；

(5.4)初始化已完成迭代次数iter=0；

(5.5)对训练文本d中所有不同的单词及其词频(w_dm，f_dm)，m=1，…，M_d，执行下述步骤：

(a)运用固定点迭代的方法学习μ_m：

\log \frac{μ_{m}}{1 - μ_{m}} = Σ_{k = 1}^{K} φ_{mk} \log \frac{ψ_{k w_{dm}}}{1 - ψ_{{kw}_{dm}}} + η_{y_{d} w_{dm}} ({&Element;}_{1} - {&Element;}_{0})

- \frac{h_{m 1} - h_{m 0}}{f_{dm} (h_{m 1} μ_{m} + h_{m 0} (1 - μ_{m}))},

其中，∈₁和∈₀分别表示峰鉴别值单词的权重和谷鉴别值单词的权重，

h_{m 1} = Σ_{c = 1}^{C} g_{mc} \exp ({&Element;}_{1} η_{{cw}_{dm}} f_{dm}),

h_{m 0} = Σ_{c = 1}^{C} g_{mc} \exp ({&Element;}_{0} η_{{cw}_{dm}} f_{dm}),

而g_mc由以下方式计算：

g_{mc} = Π_{\underset{m^{'} &NotEqual; m}{m^{'} = 1},}^{M_{d}} {μ_{m^{'}} \exp ({&Element;}_{1} η_{{cw}_{{dm}^{'}}} f_{{dm}^{'}}) + (1 - μ_{m^{'}}) \exp ({&Element;}_{0} η_{{cw}_{{dm}^{'}}} f_{{dm}^{'}})}

(b)删除旧的φ_mk对γ的影响：

γ_k=γ_k-φ_mkf_dm，k=1，…，K

(c)更新φ_mk：

φ_{mk} &Proportional; β_{{kw}_{dm}} \exp {Ψ (γ_{k}) + μ_{m} \log ψ_{{kw}_{dm}} + (1 - μ_{m} \log (1 - ψ_{{kw}_{dm}}))},

k = 1, \cdot \cdot \cdot, K

其中，Ψ表示digamma函数；

(d)更新γ：

γ_k=γ_k+φ_mkf_dm，k=1，…，K

(5.6)由训练文本d对应的γ，φ和μ计算训练文本d的似然概率，如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数，则iter=iter+1，转到步骤(5.5)继续执行；

(5.7)更新N的每个元素：

n_{kv} = n_{kv} + Σ_{m = 1}^{M_{d}} φ_{mk} f_{dm} δ (w_{dm}, v), k = 1, \cdot \cdot \cdot, K, v = 1, \cdot \cdot \cdot, V

其中，δ(a，b)表示Kronecker delta函数，当a=b时，δ(a，b)=1；而a≠b时，δ(a，b)=0；

(5.8)更新S的每个元素：

s_{kv} = s_{kv} + Σ_{m = 1}^{M_{d}} μ_{m} φ_{mk} f_{dm} δ (w_{dm}, v), k = 1, \cdot \cdot \cdot, K, v = 1, \cdot \cdot \cdot, V

(5.9)更新A的每个元素：

a_{k} = a_{k} + \frac{Ψ (γ_{k}) - Ψ (Σ_{k = 1}^{K} γ_{k})}{M_{d}}, k = 1, \cdot \cdot \cdot, K

(5.10)更新训练文本d的统计期望e_dm：

e_dm=f_dm(μ_m∈_l+(1-μ_m)∈₀)，m=1，…，M_d

(5.11)更新训练文本d的统计方差q_dm

q_{dm} = f_{dm}^{2} μ_{m} (1 - μ_{m}) {({&Element;}_{1} - {&Element;}_{0})}^{2}, m = 1, \cdot \cdot \cdot, M_{d}

所述的步骤4.3)具体是：

6.1)由式子

β_{kv} = n_{kv} / Σ_{v^{'} = 1}^{V} n_{{kv}^{'}}, k = 1, \cdot \cdot \cdot, K, v = 1, \cdot \cdot \cdot, V

得到β的每个元素；

6.2)由式子ψ_kv＝s_kv/n_kv，k＝1，…，K，v＝1，…，V得到ψ的每个元素；

6.3)用Newton-Raphson算法最大化下式：

\log Γ (Σ_{k = 1}^{K} α_{k}) + Σ_{k = 1}^{K} {a_{k} (α_{k} - 1) - \log Γ (α_{k})},

从而求出α，其中，Γ表示digamma函数；

6.4)求取η来最大化目标函数F(η)：

Σ_{d = 1}^{D_{tr}} {Σ_{m = 1}^{M_{d}} e_{dm} η_{y_{d} w_{dm}} -

\log [Σ_{c = 1}^{C} (1 + \frac{1}{2} Σ_{m = 1}^{M_{d}} q_{dm} η_{{cw}_{dm}}^{2}) \exp (Σ_{m = 1}^{M_{d}} e_{dm} η_{{cw}_{dm}})]},

其中，最大化F(η)采用共轭梯度下降或者梯度下降的方法。

所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵所述的定义的终止条件是：所有文本的似然概率之和的改变量小于给定参数学习似然变化阈值或者已经达到了参数学习最大迭代次数；

所述的对于测试文本，统计词频信息，然后利用主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵进行分类的步骤是：

8.1)对于测试文本，去除标点符号，统计词频信息，得到测试文本TEST={((w_t，f_t))，t＝1，…，D_te}，其中D_te表示测试文本的数目，w_t={(w_tm)，m=1，…，M_t，w_tm∈{1，…，V}}表示测试文本t的所有不同的单词，M_t表示训练文本t中不同的单词的个数；f_t={(f_tm)，m=1，…，M_t，f_tm∈Z⁺)表示训练文本t中每个不同的单词出现的频数；

8.2)对于每篇测试文本(w_t，f_t)，t=1，…，D_te，进行变分推理，并进行类别预测；

所述的步骤8.2)具体是：对于所有测试文本的(w_t，f_t)，t=1，…，D_te，执行下述步骤：

(9.1)初始化主题比例变分参数γ={(γ_k)，k=1，…，K}；

(9.2)初始化主题分配变分参数φ={(φ_mk)，m=1，…，M_t，k=1，…，K}；

(9.3)初始化单词鉴别值变分参数μ={(μ_m)，m=1，…，M_t}；

(9.4)初始化已完成迭代次数iter=0；

(9.5)对训练文本t中所有不同的单词及其词频(W_tm，f_tm)，m=1，…，M_t，执行下述步骤：

(e)运用固定点迭代的方法学习单μ_m：

\log \frac{μ_{m}}{1 - μ_{m}} = Σ_{k = 1}^{K} φ_{mk} \log \frac{ψ_{{kw}_{tm}}}{1 - ψ_{{kw}_{tm}}},

(f)删除旧的φ_mk对γ的影响：

γ_k=γ_k-φ_mkf_tm，k=1，…，K

(g)更新φ_mk：

φ_{mk} &Proportional; β_{{kw}_{tm}} \exp {Ψ (γ_{k}) + μ_{m} \log ψ_{{kw}_{tm}} + (1 - μ_{m} \log (1 - ψ_{{kw}_{tm}}))}

, k = 1, \cdot \cdot \cdot, K,

其中，Ψ表示digamma函数；

(h)更新γ：

和现有技术相比，本发明能够最大程度地减轻文本分类时繁杂的预处理过程，可以更加准确地对测试文本进行分类。除此之外，本发明还能挖掘出主题中单词的鉴别度，以形象化展示文本中单词的重要性。

附图说明

图1是基于概率单词选择和监督主题模型的文本分类方法流程图；

图2是从20newsgroups学习到的4个主题中单词的鉴别度与单词实际分布的熵比较图。

具体实施方式

2.2)统计训练文本的词频信息，加上训练文本所属的类别信息，得到训练文本TRAIN={((w_d，f_d，y_d))，d=1，…，D_tr}，其中D_tr表示训练文本的数目，w_d={(w_dm)，m=1，…，M_d，w_dm∈{1，…，V}}表示训练文本d的所有不同的单词，M_d表示训练文本d中不同的单词的个数；f_d={(f_dm)，m=1，…，M_d，f_dm∈Z⁺}表示训练文本d中每个不同的单词出现的频数，Z⁺表示正整数；y_d∈{1，…，C}表示训练文本d所属的类别。

3.1)初始化主题比例矢量α={(α_k)，k=1，…，K}，其中K表示主题的个数；

3.2)初始化主题单词矩阵β={(β_kv)，k=1，…，K，v=1，…，V}；

3.3)初始化主题单词鉴别度矩阵ψ={(ψ_kv)，k=1，…，K，v=1，…，V}；

3.4)初始化回归系数矩阵η={(η_cv)，c=1，…，C，v=1，…，V}。

4.1)置下述统计量的所有元素的值为0：

(4.1.1)主题中单词的个数矩阵N={(n_kv)，k=1，…，K，v=1，…，V}；

(4.1.2)主题中显著性单词的数量矩阵S={(s_kv)，k=1，…，K，v=1，…，V}；

(4.1.3)主题比例累积量A={(a_k)，k=1，…，K}；

4.3)用N，S来学习β和ψ；用A来学习α；用E和Q来学习η。

(5.1)初始化主题比例变分参数γ＝{(γ_k)，k＝1，…，K}；

(5.2)初始化主题分配变分参数φ＝{(φ_mk)，m＝1，…，M_d，k＝1，…，K}；

(5.3)初始化单词鉴别值变分参数μ＝{(μ_m)，m＝1，…，M_d}；

(5.4)初始化已完成迭代次数iter＝0；

(5.5)对训练文本d中所有不同的单词及其词频(w_dm，f_dm)，m＝1，…，M_d，执行下述步骤：

(a)运用固定点迭代的方法学习μ_m：

\begin{matrix} \log \frac{μ_{m}}{1 - μ_{m}} = Σ_{k = 1}^{K} φ_{mk} \log \frac{ψ_{{kw}_{dm}}}{1 - ψ_{{kw}_{dm}}} + η_{y_{d} w_{dm}} ({&Element;}_{1} - {&Element;}_{0}) \\ - \frac{h_{m 1} - h_{m 0}}{f_{dm} (h_{m 1} μ_{m} + h_{m 0} (1 - μ_{m}))}, \end{matrix}

h_{m 1} = Σ_{c = 1}^{C} g_{mc} \exp ({&Element;}_{1} η_{{cw}_{dm}} f_{dm}), h_{m 0} = Σ_{c = 1}^{C} g_{mc} \exp ({&Element;}_{0} η_{{cw}_{dm}} f_{dm}),

而g_mc由以下方式计算：

g_{mc} = {\underset{m^{'} = 1,}{Π}}_{m^{'} &NotEqual; m}^{M_{d}} {μ_{m^{'}} \exp ({&Element;}_{1} η_{{cw}_{{dm}^{'}}} f_{d m^{'}}) + (1 - μ_{m^{'}}) \exp ({&Element;}_{0} η_{{cw}_{{dm}^{'}}} f_{d m^{'}})}

(b)删除旧的φ_mk对γ的影响：

γ_k＝γ_k-φ_mkf_dm，k＝1，…，K

(c)更新φ_mk：

\begin{matrix} φ_{mk} &Proportional; β_{{kw}_{dm}} \exp {Ψ (γ_{k}) + μ_{m} \log ψ_{{kw}_{dm}} + (1 - μ_{m} \log (1 - ψ_{{kw}_{dm}}))}, \\ k = 1, . . ., K \end{matrix}

其中，Ψ表示digamma函数；

(d)更新γ：

γ_k＝γ_k+φ_mkf_dm，k＝1，…，K

(5.6)由训练文本d对应的γ，φ和μ计算训练文本d的似然概率，如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数，则iter＝iter+1，转到步骤(5.5)继续执行；

(5.7)更新N的每个元素：

n_{kv} = n_{kv} + Σ_{m = 1}^{M_{d}} φ_{mk} f_{dm} δ (w_{dm}, v), k = 1, . . ., K, v = 1, . . ., V

其中，δ(a，b)表示Kronecker delta函数，当a＝b时，δ(a，b)＝1；而a≠b时，δ(a，b)＝0；

(5.8)更新S的每个元素：

s_{kv} = s_{kv} + Σ_{m = 1}^{M_{d}} {μ_{m} φ}_{mk} f_{dm} δ (w_{dm}, v), k = 1, . . ., K, v = 1, . . ., V

(5.9)更新A的每个元素：

a_{k} = a_{k} + \frac{Ψ (γ_{k}) - Ψ (Σ_{k = 1}^{K} γ_{k})}{M_{d}}, k = 1, . . ., K

(5.10)更新训练文本d的统计期望e_dm：

e_dm＝f_dm(μ_m∈_l+(1-μ_m)∈₀)，m＝1，…，M_d

(5.11)更新训练文本d的统计方差q_dm

q_{dm} = f_{dm}^{2} μ_{m} (1 - μ_{m}) {({&Element;}_{1} - {&Element;}_{0})}^{2}, m = 1, . . ., M_{d}

所述的步骤4.3)具体是：

6.1)由式子

β_{kv} = n_{kv} / Σ_{v^{'} = 1}^{V} n_{{kv}^{'}}, k = 1, . . ., K, v = 1, . . ., V

得到β的每个元素；

6.2)由式子

ψ_{kv} = s_{kv} / n_{kv}, k = 1, . . ., K, v = 1, . . ., V

得到ψ的每个元素；

6.3)用Newton-Raphson算法最大化下式：

\log Γ (Σ_{k = 1}^{K} α_{k}) + Σ_{k = 1}^{K} {a_{k} (α_{k} - 1) - \log Γ (α_{k})},

从而求出α，其中，Γ表示digamma函数；

6.4)求取η来最大化目标函数F(η)：

\begin{matrix} Σ_{d = 1}^{D_{tr}} {Σ_{m = 1}^{M_{d}} e_{dm} η_{y_{d} w_{dm}} - \\ \log [Σ_{c = 1}^{C} (1 + \frac{1}{2} Σ_{m = 1}^{M_{d}} q_{dm} η_{{cw}_{dm}}^{2}) \exp (Σ_{m = 1}^{M_{d}} e_{dm} η_{{cw}_{dm}})]}, \end{matrix}

其中，最大化F(η)采用共轭梯度下降或者梯度下降的方法。

8.1)对于测试文本，去除标点符号，统计词频信息，得到测试文本TEST＝{((w_t，f_t))，t＝1，…，D_te}，其中D_te表示测试文本的数目，w_t＝{(w_tm)，m＝1，…，M_t，w_tm∈{1，…，V}}表示测试文本t的所有不同的单词，M_t表示训练文本t中不同的单词的个数；f_t＝{(f_tm)，m＝1，…，M_t，f_tm∈Z⁺}表示训练文本t中每个不同的单词出现的频数；

8.2)对于每篇测试文本(w_t，f_t)，t＝1，…，D_te，进行变分推理，并进行类别预测；

所述的步骤8.2)具体是：对于所有测试文本的(w_t，f_t)，t＝1，…，D_te，执行下述步骤：

(9.1)初始化主题比例变分参数γ＝{(γ_k)，k＝1，…，K}；

(9.2)初始化主题分配变分参数φ＝{(φ_mk)，m＝1，…，M_t，k＝1，…，K}；

(9.3)初始化单词鉴别值变分参数μ＝{(μ_m)，m＝1，…，M_t}；

(9.4)初始化已完成迭代次数iter＝0；

(9.5)对训练文本t中所有不同的单词及其词频(w_tm,f_tm)，m＝1，…，M_t，执行下述步骤：

(e)运用固定点迭代的方法学习单μ_m：

\log \frac{μ_{m}}{1 - μ_{m}} = Σ_{k = 1}^{K} φ_{mk} \log \frac{ψ_{{kw}_{tm}}}{1 - ψ_{{kw}_{tm}}},

(f)删除旧的φ_mk对γ的影响：

γ_k=γ_k-φ_mkf_tm，k=1，…，K

(g)更新φ_mk：

φ_{mk} &Proportional; β_{{kw}_{tm}} \exp {Ψ (γ_{k}) + μ_{m} \log ψ_{{kw}_{tm}} + (1 - μ_{m} \log (1 - ψ_{{kw}_{tm}}))}

, k = 1, . . ., K,

其中，Ψ表示digamma函数；

(h)更新γ：

实施例

从http://web.ist.utl.pt/～acardoso/datasets/下载的训练文本20ng-train-all-terms和测试文本20ng-test-all-terms，去掉出现不超过3个单词的文本，得到D_tr=11285篇训练文本和D_tr=8571篇测试文本。实验中，主题个数K设置为20，其他实验参数选取如表1：

表1

对于训练文本，执行下列步骤：

1)去除标点符号，统计词频信息及类别信息，并形成大小为73712的单词表和大小为20的类别表；

2)初始化主题比例矢量α，主题单词矩阵β，主题单词鉴别度矩阵ψ和回归系数矩阵η：

(2.1)对于α，ψ和η，α_k=0.1，ψ_kv=0.5，η_cv=0，k=1，…，K，c=1，…，C，v=1，…，V；

(2.2)对于β，先令

k=1，…，K，v=1，…，V，其中rand函数随机产生0～1之间的数；然后对β进行归一化处理：

β_{kv} = \frac{β_{kv}^{old}}{Σ_{v^{'} = 1}^{V} β_{{kv}^{'}}^{old}}, k = 1, \cdot \cdot \cdot, K, v = 1, \cdot \cdot \cdot, V,

其中

表示归一化前的元素值；

3)根据训练文本的单词列表及其类别迭代更新α，β，ψ和η：当算法没有满足终止条件时，反复迭代执行以下步骤：

(3.1)置下述统计量的所有元素的值为0：

(a)主题中单词的个数矩阵N={(n_kv)，k=1，…，K，v=1，…，V}；

(b)主题中显著性单词的数量矩阵S={(s_kv)，k=1，…，K，v=1，…，V}；

(c)主题比例累积量A={(a_k)，k=1，…，K}；

(d)训练文本的统计期望E={(e_dm)，d=1，…，D_train，m=1，…，M_d}；

(e)训练文本的统计方差Q={(q_dm)，d=1，…，D_tr，m=1，…，M_d}；

(3.2)对于每篇训练文本(w_d，f_d，y_d)，d=1，…，D_tr，进行变分推理，并更新有关统计变量N_tv，S_tv，E_d和Q_d，具体是执行下述步骤：

(a)初始化主题分配变分参数φ：

φ_{mk} = \frac{1}{T}, m = 1, \cdot \cdot \cdot, M_{d}, k = 1, \cdot \cdot \cdot, K;

(b)初始化单词鉴别值变分参数μ：

μ_m=0.5，m=1，…，M_d；

(c)初始化主题比例变分参数γ：

γ_{k} = α_{k} + \frac{1}{T} \times Σ_{m = 1}^{M_{d}} f_{dm}, k = 1, \cdot \cdot \cdot, K;

(d)初始化已完成迭代次数iter=0；

(e)对训练文本d中所有不同的单词及其词频(w_dm,f_dm)，m=1，…，M_d，执行下述步骤：

(e1)运用固定点迭代的方法学习单词w_dm对应的鉴别值变分参数μ_m：

\log \frac{μ_{m}}{1 - μ_{m}} = Σ_{k = 1}^{K} φ_{mk} \log \frac{ψ_{{kw}_{dm}}}{1 - ψ_{{kw}_{dm}}} + η_{y_{d} w_{dm}} ({&Element;}_{1} - {&Element;}_{0})

- \frac{h_{m 1} - h_{m 0}}{f_{dm} (h_{m 1} μ_{m} + h_{m 0} (1 - μ_{m}))},

其中，

h_{m 1} = Σ_{c = 1}^{C} g_{mc} \exp ({&Element;}_{1} η_{{cw}_{dm}} f_{dm}),

h_{m 0} = Σ_{c = 1}^{C} g_{mc} \exp ({&Element;}_{0} η_{{cw}_{dm}} f_{dm}),

而g_mc由以下方式计算：

g_{mc} = {\underset{m^{'} = 1,}{Π}}_{m^{'} &NotEqual; m}^{M_{d}} {μ_{m^{'}} \exp ({&Element;}_{1} η_{{cw}_{d m^{'}}} f_{d m^{'}}) + (1 - μ_{m^{'}}) \exp ({&Element;}_{0} η_{{cw}_{{dm}^{'}}} f_{{dm}^{'}})}

(e2)删除旧的φ_mk对γ的影响：

γ_k=γ_k-φ_mkf_dm，k=1，…，K

(e3)更新φ_mk，k=1，…，K：

φ_{mk} &Proportional; β_{{kw}_{dm}} \exp {Ψ (γ_{k}) + μ_{m} \log ψ_{{dw}_{dm}} + (1 - μ_{m} \log (1 - ψ_{{kw}_{dm}}))},

其中，Ψ表示digamma函数；

(e4)更新γ：

γ_k=γ_k+φ_mkf_dm，k=1，…，K

(f)由训练文本d对应的γ，φ和μ计算训练文本d的似然概率，如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数，则iter=iter+1，转到步骤(e)继续执行；

(g)更新N的每个元素：

n_{kv} = n_{kv} + Σ_{m = 1}^{M_{d}} φ_{mk} f_{dm} δ (w_{dm}, v), k = 1, . . ., K, v = 1, . . ., V,

(h)更新S的每个元素：

s_{kv} = s_{kv} + Σ_{m = 1}^{M_{d}} μ_{m} φ_{mk} f_{dm} δ (w_{dm}, v), k = 1, . . ., K, v = 1, . . ., V,

(i)更新A的每个元素：

a_{k} = a_{k} + \frac{Ψ (γ_{k}) - Ψ (Σ_{k = 1}^{K} γ_{k})}{M_{d}}, k = 1, . . ., K,

(j)更新训练文本d的统计期望e_dm：

e_dm=f_dm(μ_m∈₁+(1-μ_m)∈₀)，m=1，…，M_d

(k)更新训练文本d的统计方差q_dm

q_{dm} = f_{dm}^{2} μ_{m} (1 - μ_{m}) {({&Element;}_{1} - {&Element;}_{0})}^{2}, m = 1, . . ., M_{d}

(3.3)用N，S来学习β和ψ；用A来学习α；用E和Q来学习η：

(a)由式

β_{kv} = n_{kv} / Σ_{v^{'} = 1}^{V} n_{k v^{'}}, k = 1, . . ., K, v = 1, . . ., V

得到β的每个元素；

(b)由式ψ_kv=s_kv／n_kv，k=1，…，K，v=1，…，V得到ψ的每个元素；

(c)用Newton-Raphson算法最大化下式：

\log Γ (Σ_{k = 1}^{K} α_{k}) + Σ_{k = 1}^{K} {a_{k} (α_{k} - 1) - \log Γ (α_{k})},

从而求出α，其中，Γ表示digamma函数；

(d)求取η来最大化目标函数F(η)：

\begin{matrix} Σ_{d = 1}^{D_{tr}} {Σ_{m = 1}^{M_{d}} e_{dm} η_{y_{d} w_{dm}} - \\ \log [Σ_{c = 1}^{C} (1 + \frac{1}{2} Σ_{m = 1}^{M_{d}} q_{dm} η_{{cw}_{dm}}^{2}) \exp (Σ_{m = 1}^{M_{d}} e_{dm} η_{{cw}_{dm}})]}, \end{matrix}

其中，最大化F(η)采用共轭梯度下降或者梯度下降的方法。

通过对训练文本的学习，我们得到了主题比例矢量α，主题单词矩阵β，主题单词鉴别度矩阵ψ和回归系数矩阵η；然后，我们将对测试文本进行变分推理并进而预测测试文本的类别，达到对测试文本进行分类的目的。

对于测试文本，执行下述步骤：

1)去除标点符号，统计词频信息；

2)对于每篇测试文本(w_t，f_t)，t=1，…，D_te，进行变分推理和类别预测：

(a)初始化主题比例变分参数γ={(γ_k)，k=1，…，K}；

(b)初始化主题分配变分参数φ={(φ_mk)，m=1，…，M_t，k=1，…，K}；

(c)初始化单词鉴别值变分参数μ={(μ_m)，m=1，…，M_t}；

(d)初始化已完成迭代次数iter=0；

(e)对训练文本t中所有不同的单词及其词频(w_tm，f_tm)，m=1，…，M_t，执行下述步骤：

(e1)运用固定点迭代的方法学习μ_m：

\log \frac{μ_{m}}{1 - μ_{m}} = Σ_{k = 1}^{K} φ_{mk} \log \frac{ψ_{{kw}_{tm}}}{1 - ψ_{{kw}_{tm}}},

(e2)删除旧的φ_mk对γ的影响：

γ_k=γ_k-φ_mkf_tm，k=1，…，K

(e3)更新φ_mk：

\begin{matrix} φ_{mk} &Proportional; β_{{kw}_{tm}} \exp {Ψ (γ_{k}) + μ_{m} \log ψ_{{kw}_{tm}} + (1 - μ_{m} \log (1 - ψ_{{kw}_{tm}}))} \\ , k = 1, . . ., K, \end{matrix}

其中，Ψ表示digamma函数；

(e4)更新γ：

γ_k=γ_k+φ_mkf_tm，k=1，…，K

(f)由测试文本t对应的γ，φ和μ计算测试文本t的似然概率，如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数，则iter=iter+1，转到步骤(e)继续执行；

(g)得到测试文本t的统计期望e_tm：

e_tm=f_tm(μ_m∈₁+(1-μ_m)∈₀)，m=1，…，M_t

(h)由式

y_{t} = \underset{c}{\arg \max} Σ_{m = 1}^{M_{d}} e_{tm} η_{{cw}_{tm}}

预测测试文本t的类别y_t。

在得到测试文本的预测类别之后，我们将预测结果与测试文本的真实类别用Accuracy，MacroAUC，MicroAUC，MacroF1，MicroF1等5个评价标准进行比对，结果如表2所示。结果表明了本发明良好的预测能力，在总共20个类的数据上，达到了80％的预测精确度。

表2

Accuracy	MacroAUC	MicroAUC	MacroF1	MicroF1
					0.8026	0.8882	0.8979	0.8819	0.8905

另外，我们也学习到了主题中单词的鉴别度。表3展示了学习到的4个主题中的前10个高鉴别度的单词。这里，高鉴别度是指鉴别度高于0.9。不难发现，虽然我们对文本数据只做过极其简单地预处理，本发明依然能很好的发现体现主题的高鉴别度的单词。例如，就“atheism”(无神论)而言，本发明挖掘除了能强烈关联这一意味的“jesus”(耶稣)“church”(教堂)“Christianity”(基督教)，“hell”(地狱)等等。

表3

主题	前10个高鉴别度的单词
		atheism	jesus，church，christianity，hell，atheism，atheists，gay，athos，jews，

最后，我们将学习到的主题中单词的鉴别度(Discrimination)和单词在文本中的熵进行比对，如图2所示。这里，单词w在文本中的熵entropy(w)由式子

计算得出，其中#(w，c)表示单词w在所属类别为c的训练文本中总共出现的次数，

表示单词w在训练文本中总共出现的次数。图2中每个子图各自表示一个主题，每个子图中，横坐标对应主题的前20个流行的单词(按单词在主题中的权重由大到小排序)，其中红色带方框的离散点的横纵坐标分别表示单词以及单词在主题中的鉴别度，蓝色带星号的离散点的横纵坐标分别表示单词以及单词在文本中的熵。图2恰如其分地反映出了这样一个事实：单词在文本中的熵较低时，单词在主题中的鉴别度较高；反之亦然。

Claims

1.一种基于概率单词选择和监督主题模型的文本分类方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法，其特征在于所述的去除训练文本中的标点符号，统计词频信息及类别信息，并形成单词表和类别表的步骤包括：

2.2)统计训练文本的词频信息，加上训练文本所属的类别信息，得到训练文本TRAIN={((w_d，f_d，y_d))，d=1，…，D_tr}，其中D_tr表示训练文本的数目，w_d={(w_dm)，m=1，…，M_d，w_dm∈{1，…，V}}表示训练文本d的所有不同的单词，M_d表示训练文本d中不同的单词的个数；f_d＝{(f_dm)，m=1，…，M_d，f_dm∈Z⁺}表示训练文本d中每个不同的单词出现的频数，Z⁺表示正整数；y_d∈{1，…，C}表示训练文本d所属的类别。

3.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法，其特征在于所述的初始化主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵的步骤包括：

3.2)初始化主题单词矩阵β={(β_kv)，k=1，…，K，v=1，…，V}；

3.4)初始化回归系数矩阵η={(η_cv)，c=1，…，C，v=1，…，V}。

4.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法，其特征在于所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵的方法是：当算法没有满足终止条件时，反复迭代执行以下步骤：

4.1)置下述统计量的所有元素的值为0：

(4.1.3)主题比例累积量A={(a_k)，k=1，…，K}；

4.3)用N，S来学习β和ψ；用A来学习α；用E和Q来学习η。

5.根据权利要求4所述的基于概率单词选择和监督主题模型的文本分类方法，其特征在于所述的步骤4.2)具体是：对于所有训练文本的(w_d，f_d，y_d)，d=1，…，D_tr，执行下述步骤：

(5.1)初始化主题比例变分参数γ={(γ_k)，k=1，…，K}；

(5.3)初始化单词鉴别值变分参数μ={(μ_m)，m=1，…，M_d}；

(5.4)初始化已完成迭代次数iter=0；

(a)运用固定点迭代的方法学习μ_m：

其中，∈₁和∈₀分别表示峰鉴别值单词的权重和谷鉴别值单词的权重，而g_mc由以下方式计算：

(b)删除旧的φ_mk对γ的影响：

γ_k=γ_k-φ_mkf_dm，k=1，…，K

(c)更新φ_mk：

k=1，…，K

其中，Ψ表示digamma函数；

(d)更新γ：

γ_k=γ_k+φ_mkf_dm，k=1，…，K

(5.7)更新N的每个元素：

(5.8)更新S的每个元素：

(5.9)更新A的每个元素：

(5.10)更新训练文本d的统计期望e_dm：

e_dm＝f_dm(μ_m∈₁+(1-μ_m)∈₀)，m＝1，…，M_d

(5.11)更新训练文本d的统计方差q_dm

。

6.根据权利要求4所述的基于概率单词选择和监督主题模型的文本分类方法，其特征在于所述的步骤4.3)具体是：

6.1)由式子

得到β的每个元素；

6.3)用Newton-Raphson算法最大化下式：

从而求出α，其中，Γ表示digamma函数；

6.4)求取η来最大化目标函数F(η)：

其中，最大化F(η)采用共轭梯度下降或者梯度下降的方法。

7.根据权利要求4所述的基于概率单词选择和监督主题模型的文本分类方法，其特征在于所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵所述的定义的终止条件是：所有文本的似然概率之和的改变量小于给定参数学习似然变化阈值或者已经达到了参数学习最大迭代次数。

8.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法，其特征在于所述的对于测试文本，统计词频信息，然后利用主题比例矢量，主题单词矩阵，主题单词鉴别度矩阵和回归系数矩阵进行分类的步骤是：