CN108280164B

CN108280164B - 一种基于类别相关单词的短文本过滤与分类方法

Info

Publication number: CN108280164B
Application number: CN201810048272.7A
Authority: CN
Inventors: 李晨亮; 张芷芊; 陈诗倩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-01-18
Filing date: 2018-01-18
Publication date: 2021-10-01
Anticipated expiration: 2038-01-18
Also published as: CN108280164A

Abstract

本发明公开了一种基于类别相关单词的短文本过滤与分类方法，将传统主题模型的主题根据功能分成“类别主题”和“普通主题”；构造伪文本集，并以伪文本集作为模型的训练集对SSCF进行训练。训练结束后计算两类主题各自的词分布，并根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题，进而判断该短文本是否为无关文本，若有关，得到其所属类别。本发明利用“类别主题”和“普通主题”，结合词类关系，可以很好地从短文本集中抽取出与指定类别相关的文本并同时完成分类。由于该方法是一种非监督性的方法，不需要人工对数据进行标注，使得本发明可以广泛应用到各种短文本数据之上，具有广泛的实际意义和商业价值。

Description

一种基于类别相关单词的短文本过滤与分类方法

技术领域

本发明属于计算机技术领域，涉及一种文本挖掘、文本分类、主题建模的方法，具体涉及一种借助人工选词和构建伪文本来估计语料中的词与类别间的关系，进而实现短文本的分类与过滤的主题建模方法。

背景技术

随着互联网的兴起，我们逐步进入大数据时代。与此同时，短文本已经成为互联网上一种越来越流行的文本数据。而短文本指的是长度较短，通常不超过 140个字符的文本，且表述内容丰富，组合比较灵活。常见的有网页页面摘要、新闻标题、文本广告、微博、Twitter、朋友圈更新等等。数量庞大的短文本中蕴含着庞杂的信息，建立一种高效的主题模型并从大量的短文本数据集快速准确得过滤掉包含无关信息的文本，同时对包含相关信息的文本实现准确分类是极具现实意义的。

传统的主题模型，旨在构建一个更为完全概率生成模型的主题模型方法，使得不同长度的文本可以以相同的维度向量进行表示。例如2003年，Bei.在 Journal of MachineLearning Research发表的一篇名为“Latent Dirichlet Allocation”，常用于传统文本的分析。要想更进一步得利用短文本中蕴含的信息，需要在文本分析的基础上建立起过滤和分类能力。

发明内容

为了解决上述技术问题，本发明提出了一种基于类别相关单词的短文本过滤与分类方法。

本发明所采用的技术方案是：一种基于类别相关单词的短文本过滤与分类方法，其特征在于，包括以下步骤：

步骤1：根据上下文，为短文本数据集中出现过的每一个单词构建伪文本；

步骤2：利用伪文本集训练标准主题模型LDA，确定出各个伪文本的主题分布和单词在主题下的分布，为后续SSCF主题模型的构建提供先验信息；

步骤3：根据步骤2得到的单词在主题下的分布，为每个类别选出若干相关词，记为“种子词”；

步骤4：利用步骤2中确定出的结果和步骤3中选出的种子词，计算每个词与每个类别之间的关联度；

步骤5：每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成，根据步骤4得到的词与类别之间的相似度构建SSCF主题模型，经过训练得到单词关于主题的分布；

步骤6：根据步骤5的单词主题分布确定该文本的分类结果。

作为优选，步骤1的具体实现包括以下子步骤：

步骤1.1：对于短文本数据集词汇表中的每一个词w一次执行步骤1.2到1.4；

步骤1.2：对于短文本数据集中的每一篇文档d依次执行步骤1.3；

步骤1.3：用滑动窗口扫描短文本，同时窗口每滑动一次就记录所有与词w 出现在同一窗口中的词；

步骤1.4：用步骤1.3记录的词组成属于词w的伪文本d_w。

作为优选，步骤2的具体实现包括以下子步骤：

步骤2.1：给定标准主题模型LDA的超参数α和β，其中α是文档到主题的狄利克雷分布的先验参数，β是主题到单词的狄利克雷分布的先验参数，主题数目 T，模型训练迭代次数Iter；

步骤2.2：遍历伪文本数据集中每一篇文档d，随机为d中的每一个词赋予一个主题k，关联到主题k下的单词数量，记为n_k，各个主题k下各个单词w与主题k所关联的数量，记为

在伪文本d中关联到主题k下的单词数量记为

步骤2.3:对于短文本数据集中的每一篇文档d依次执行步骤2.4至步骤 2.6；

步骤2.4：对于文档d的每一个单词w，以及上一轮迭代中文档d赋予的主题k，首先从计数器中

和

减去当前词带来的影响，即分别从计数器中减去1；

步骤2.5：对词w采样出一个新主题k^new；

步骤2.6：得到k^new后，依次更新相关计数器

和

即分别在计数器中加上1；

步骤2.7：循环执行步骤2.3至步骤2.6，直到运行完预设迭代次数Iter 后，计算出该短文本数据集下的主题单词分布p_LDA(w|k)，伪文本主题分布 p_LDA(k│d_w)，其中，p_LDA(w|k)表示单词在主题下的分布，p_LDA(k│d_w)表示主题在伪文本下的分布。

作为优选，步骤2.5中采样公式为：

其中，

表示减去当前词的影响，V表示文本集词汇表，K表示主题数。

作为优选，步骤2.7中：

。

作为优选，步骤3的具体实现过程是：对每个主题z，取单词w在主题z下分布p_LDA(w|k)中最大的前30个词，人工判断这些词与每个类别的语义关联，若单词w与在经验上看来与类别c相关，则取词w为类别c的种子词。

作为优选，步骤4中所述每个词与每个类别之间的关联度π_w,c为：

其中，s表示种子词，|S_c|表示属于类别c的种子词数量，d_s表示种子词s 对应的伪文本，σ，υ为可调参数，K表示步骤2中标准主题模型LDA的主题数目，k表示其中的某个主题，C表示数据集中总的类别数，c表示其中某个类别。

作为优选，步骤5的具体实现包括以下子步骤：

步骤5.1：将SSCF主题模型的主题分为“类别主题”和“普通主题”两种类型；其中，“类别主题”与短文本数据集中的类别一一对应，即数据集中有多少类别，“类别主题”就有多少主题；而“普通主题”是人为指定；

步骤5.2：给定SSCF主题模型的超参数α，∈和β₀，β₁，其中α是文本到普通主题的狄利克雷分布的先验参数，∈是文本到类别主题的狄利克雷分布的先验参数，β₀是类别主题到单词的狄利克雷分布的先验参数，β₁是普通主题到单词的狄利克雷分布的先验参数，普通主题数目T，类别数目C，模型训练迭代次数Iter；

步骤5.3：遍历数据集中每一篇伪文本d，随机为d中的每个词赋予一个主题；类别主题c下的单词w的数量记为

普通主题t下的单词w的数量记为

步骤5.4：循环执行步骤5.5至步骤5.15直到运行完预设迭代次数Iter；

步骤5.5：对数据集中的每个类别c依次执行步骤5.6至5.10；

步骤5.6：对每个属于c的种子词s依次执行步骤5.7至5.10；

步骤5.7：对s对应的伪文本d_s中的每一个单词w依次执行步骤5.8至5.10；

步骤5.8：首先从计数器

或

减去当前词带来的影响，即分别从计数器中减去1；

步骤5.9：对当前词w采样类别主题

采样普通主题

采样变量x_w，如果x_w＝0，词w的主题

如果x_w＝1，词w的主题

步骤5.10：在得到新主题后更新相关计数器，即在计数器中加1；

步骤5.11：对每个非种子词w依次执行步骤5.12至5.15；

步骤5.12：对每个属于w的伪文本d_w中的词w′依次执行步骤5.13至5.15；

步骤5.13：首先从计数器

减去当前词带来的影响，即分别从计数器中减去1；

步骤5.14：对当前词w采样类别主题

采样普通主题

采样变量x_w，如果x_w＝0，词w的主题

如果x_w＝1，词w的主题

步骤5.15：在得到新主题后更新相关计数器，即在计数器中加1；

步骤5.16：计算单词集合中单词到普通主题的概率分布p(w|z＝t)和单词到类别主题的概率分布。

作为优选，步骤5.9中的采样公式为：

步骤5.14的采样公式为：

各变量对应的计算公式如下：

其中

表示属于种子词s的伪文本d_s中第i个词与类别c的相关度，

表示属于非种子词w的伪文本d_w中第i个词与类别c的相关度；

表示类别主题c中词w的个数，

表示普通主题t中词w的个数，

和

分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量；

和

分别表示种子词s或非种子词w对应的伪文本中含有关联到普通主题t的词的数量；

为指示符，只有当s为类别c的种子词时才为1，否则为0。

作为优选，步骤5.16的单词到普通主题的概率分布p(w|z＝t)的计算方法如下：

单词到类别主题的概率分布p(w|z＝c)的计算方法如下：

。

作为优选，步骤6的具体实现过程是，短文本d的关联主题

的计算方法：

其中k表示类别主题或普通主题中任一主题，p(w|z＝k)表示主题下单词的分布，p(z＝k|w)表示单词关于主题的分布，p(w|d)表示在文本d中词w的词频；

的预测值为类别主题c时文本d即为属于类别c的相关文本，

的预测值为普通主题时文本d即为无关文本。

本发明提出将传统主题模型的主题根据功能分成两种类型的主题：“类别主题”和“普通主题”。“类别主题”与短文本集中的类别一一对应，“普通主题”是人为指定。构造伪文本集，并以伪文本集作为模型的训练集对SSCF进行训练。伪文本的每个词都被视作由“类别主题”或“普通主题”所生成的，在训练过程中结合词类相关度使得与每个类别真正相关的词能够尽可能地关联到正确的“类别主题”中，而与每个类别都没有明显关系的词则会关联到“普通主题”中，在训练结束后计算“类别主题”和“普通主题”各自的词分布。最后，根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题，如果关联主题是“类别主题”，短文本即属于“类别主题”对应的类别；如果关联主题是“普通主题”，短文本即为无关文本。

本发明模型利用“类别主题”和“普通主题”结合词类关系，很好地实现了基于类别相关单词的短文本分类和过滤任务。根据本发明所提供的模型结果，可以很好地从短文本集中抽取出与指定类别相关的文本并同时完成分类。由于该方法是一种非监督性的方法，不需要人工对数据进行标注，使得本发明可以广泛应用到各种短文本数据之上，具有广泛的实际意义和商业价值。

附图说明

图1为本发明实施例的原理示意图；

图2为本发明实施例的伪文本的构造示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了基于类别相关单词的短文本过滤与分类方法，该方法利用了“类别主题”和“普通主题”结合词类关系实现了主题模型在短文中的分类和过滤功能。本发明假定短文本中的每个词都由一个主题生成，通过在伪文本集上的训练，本发明模型可以得到每个单词由不同主题生成的概率，也就是单词在主题下的分布，利用这些分布最终决定短文本的关联主题也就是文本的分类结果。

本发明的主题模型，首先提出了两种类型主题：“类别主题”和“普通主题”。并通过滑动窗口扫描短文本构建出伪文本集与人工选出的关键词计算出词与类别的关系。两种类型的主题结合词类关系实现了从短文本集中过滤掉与所有类别的文本，并对剩下的文本分类。

请见图1和图2，本发明提供的一种基于类别相关单词的短文本过滤与分类方法，包括以下步骤：

a)下载公开的短文本数据集Snippet (http://acube.di.unipi.it/tmn-dataset/)，该数据集中每个文档都被赋予一个类别标签；在预处理过程中去除其中的停用词，过滤掉单词频率小于5的单词，最后得到12,265篇文档，文档平均长度为10.72，共有单词数目5,581；

b)用滑动窗口扫描短文本，窗口长度为5，窗口每次滑动步长为一个单词。每一次滑动都要记录所有与词w出现在同一窗口中的词，直至窗口范围完全离开词w。离词w越近的词被记录的次数就越多；

c)利用滑动窗口，词w在不同文本中扫描得到的记录全部汇集到一起组成属于词w的伪文本记为d_w。

具体实现包括以下子步骤：

a)给定标准主题模型LDA的超参数α和β，其中α是文档到主题的狄利克雷分布的先验参数，β是主题到单词的狄利克雷分布的先验参数，主题数目T，模型训练迭代次数Iter；

b)遍历数据集中每一篇文档d，随机为d中的每一个词赋予一个主题k，关联到主题k下的单词数量，记为n_k，各个主题k下各个单词w与主题k所关联的数量，记为

在文本d中关联到主题k下的单词数量记为

c)对于短文本数据集中的每一篇文档d依次执行步骤d)至步骤f)；

d)对于文档d的每一个单词w，以及上一轮迭代中文档d赋予的主题k，首先从计数器中

和

减去当前词带来的影响，即分别从计数器中减去1；

e)对词w采样出一个新主题k^new，采样公式如下：

其中，

表示减去当前词的影响，V表示文本集词汇表，K表示主题数，其中α是文档到主题的狄利克雷分布的先验参数，β是主题到单词的狄利克雷分布的先验参数。

f)得到k^new后，依次更新相关计数器

和

即分别在计数器中加上1；

g )循环执行步骤c)至步骤f)，直到运行完预设迭代次数Iter后，计算出该数据集下的主题单词分布p_LDA(w|k)，伪文本主题分布p_LDA(k│d_w)；

其中，主题单词分布计算如下：

伪文本主题分布计算如下：

。

步骤3：根据步骤2得到的单词在主题下的分布，为每个类别人工选出一些相关词，这些词也称为“种子词”；

对每个主题z取p_LDA(w|k)最大的前30个词，人工判断这些词与每个类别的语义关联，若单词w与在经验上看来与类别c相关，则取词w为类别c的种子词。

步骤4：利用步骤2得到的分布和步骤3选出的种子词，计算每个词与每个类别之间的关联度π_w,c，公式如下：

其中，s表示种子词，|S_c|表示属于类别c的种子词数量，d_s表示种子词s 对应的伪文本，σ，υ为可调参数，K表示步骤2中标准主题模型LDA的主题数目， k表示其中的某个主题，C表示数据集中总的类别数，c表示其中某个类别。

步骤5：不同于普通的话题模型只有一种，本发明的模型有两种主题。每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成。其中“类别主题”与短文本集中所包含的类别是一一对应的，“普通主题”则是由人为指定。根据本发明的模型，同时利用步骤4得到的词与类别之间的相关度，就可以训练得到每个单词关于不同主题的分布；

a)将主题模型SSCF的主题分为“类别主题”和“普通主题”两种类型；其中，“类别主题”与短文本数据集中的类别一一对应，即数据集中有多少类别，“类别主题”就有多少主题；而“普通主题”是人为指定；

b)给定主题模型SSCF的超参数α，∈和β₀，β₁，其中α是文本到普通主题的狄利克雷分布的先验参数，∈是文本到类别主题的狄利克雷分布的先验参数，β₀是类别主题到单词的狄利克雷分布的先验参数，β₁是普通主题到单词的狄利克雷分布的先验参数，普通主题数目T，类别数目C，模型训练迭代次数Iter；

c)遍历数据集中每一篇伪文本d，随机为d中的每个词赋予一个主题。类别主题c下的单词w的数量记为

普通主题t下的单词w的数量记为

d)循环执行步骤e)至步骤j)直到运行完预设迭代次数Iter；

e)对数据集中的每个类别c依次执行步骤f)至j)；

f)对每个属于c的种子词s依次执行步骤g)至j)；

g)对s对应的伪文本d_s中的每一个单词w依次执行步骤h)至j)；

h)首先从计数器

或

减去当前词带来的影响，即分别从计数器中减去1；

i)对当前词w采样类别主题

采样普通主题

采样变量x_w，如果x_w＝0，词w的主题

如果x_w＝1，词w的主题

采样公式为：

各部分的详细计算方法：

其中

表示属于种子词s的伪文本d_s中第i个词与类别c的相关度，

表示属于非种子词w的伪文本d_w中第i个词与类别c的相关度。

表示类别主题c中词w的个数，

表示普通主题t中词w的个数，

和

分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量。

和

为指示符，只有当s为类别c的种子词时才为1，否则为0；α，∈，β₀，β₁同步骤b)所述。

j)在得到新主题后更新相关计数器，即在计数器中加1；

k)对每个非种子词w依次执行步骤l)至o)；

l)对每个属于w的伪文本d_w中的词w′依次执行步骤m)至o)；

m)首先从计数器

或

减去当前词带来的影响，即分别从计数器中减去1；

n)对当前词w采样类别主题

采样普通主题

采样变量x_w，如果x_w＝0，词w的主题

如果x_w＝1，词w的主题

采样公式为：

其中

表示属于非种子词w的伪文本d_w中第i个词与类别c的相关度。其余各部分的计算方法与变量含义均已在步骤i)中列举。

o)在得到新主题后更新相关计数器，即在计数器中加1；

p)计算单词集合中单词到普通主题的概率分布p(w|z＝t)和单词到类别主题的概率分布。其中，单词到普通主题的概率分布p(w|z＝t)的计算方法：

单词到类别主题的概率分布p(w|z＝c)的计算方法如下：

其中β₀是类别主题到单词的狄利克雷分布的先验参数，β₁是普通主题到单词的狄利克雷分布的先验参数。

步骤6：根据步骤5的单词到主题的分布确定该文本的分类结果，具体计算方法如下：

其中k表示类别主题或普通主题中任一主题，p(w|z＝k)表示主题下单词的分布，p(w|z＝k)表示单词关于主题的分布，p(w|d)表示在文本d中词w的词频。

的预测值为类别主题c时文本d即为属于c对应类别的相关文本，

的预测值为普通主题时文本d即为无关文本。

传统的主题模型经过训练只能得到主题的词分布和文本的主题分布，然而只依靠这两个分布是不能完成文本分类或是过滤功能。本发明提出将传统主题模型的主题根据功能分成两种类型的主题：“类别主题”和“普通主题”。“类别主题”与短文本集中的类别一一对应，与“类别主题”相关联的文本即被视为文本内容属于这个类别。“普通主题”是人为指定，与“普通主题”相关联的文本被视为无关文本，也即文本中的内容不属于任何一个类别。

本实施例在模型训练前先通过滑动窗口扫描短文本集并构建出对应的伪文本集，之后以伪文本集作为模型的训练集。在伪文本中，每个词都被视作由“类别主题”或“普通主题”所生成的。该模型在训练前估计了每个词与类别相关度，在训练过程中结合词类相关度使得与每个类别真正相关的词能够尽可能得关联到正确的“类别主题”中。而与每个类别都没有明显关系的词则会关联到“普通主题”中。在训练结束后计算“类别主题”和“普通主题”各自的词分布。

在最终环节，根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题，如果关联主题是“类别主题”，短文本即属于“类别主题”对应的类别；如果关联主题是“普通主题”，短文本即为无关文本。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于类别相关单词的短文本过滤与分类方法，模型名称为SSCF，其特征在于，包括以下步骤：

步骤2的具体实现包括以下子步骤：

步骤2.1：给定标准主题模型LDA的超参数α和β，其中α是文档到主题的狄利克雷分布的先验参数，β是主题到单词的狄利克雷分布的先验参数，主题数目T，模型训练迭代次数Iter；

在伪文本d中关联到主题k下的单词数量记为

步骤2.3:对于短文本数据集中的每一篇文档d依次执行步骤2.4至步骤2.6；

和

减去当前词带来的影响，即分别从计数器中减去1；

步骤2.5：对词w采样出一个新主题k^new；

步骤2.5中采样公式为：

其中，

表示减去当前词的影响，V表示文本集词汇表，K表示主题数；

步骤2.6：得到k^new后，依次更新相关计数器

和

即分别在计数器中加上1；

步骤2.7：循环执行步骤2.3至步骤2.6，直到运行完预设迭代次数Iter后，计算出该短文本数据集下的主题单词分布p_LDA(w|k)，伪文本主题分布p_LDA(k│d_w)，其中，p_LDA(w|k)表示单词在主题下的分布，p_LDA(k│d_w)表示主题在伪文本下的分布；

步骤2.7中：

；

步骤5的具体实现包括以下子步骤：

步骤5.1：将SSCF主题模型的主题分为“类别主题”和“普通主题”两种类型；其中，“类别主题”与短文本数据集中的类别一一对应，即数据集中有多少类别，“类别主题”就有多少主题；“普通主题”是人为指定；

普通主题t下的单词w的数量记为

步骤5.5：对数据集中的每个类别c依次执行步骤5.6至5.10；

步骤5.6：对每个属于c的种子词s依次执行步骤5.7至5.10；

步骤5.8：首先从计数器

或

减去当前词带来的影响，即分别从计数器中减去1；

步骤5.9：对当前词w采样类别主题

采样普通主题

采样变量x_w，如果x_w＝0，词w的主题

如果x_w＝1，词w的主题

步骤5.9中的采样公式为：

步骤5.11：对每个非种子词w依次执行步骤5.12至5.13；

步骤5.13：首先从计数器

减去当前词带来的影响，即分别从计数器中减去1；

步骤5.14：对当前词w采样类别主题

采样普通主题

采样变量x_w，如果x_w＝0，词w的主题

如果x_w＝1，词w的主题

步骤5.14的采样公式为：

各变量对应的计算公式如下：

其中，

表示属于种子词s的伪文本d_s中第i个词与类别c的相关度，

表示属于非种子词w的伪文本d_w中第i个词与类别c的相关度；

表示类别主题c中词w的个数，

表示普通主题t中词w的个数，

和

和

为指示符，只有当s为类别c的种子词时才为1，否则为0；

步骤5.16：计算单词集合中单词到普通主题的概率分布p(w|z＝t)和单词到类别主题的概率分布；

步骤6：根据步骤5的单词主题分布确定该文本的分类结果。

2.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法，其特征在于，步骤1的具体实现包括以下子步骤：

步骤1.3：用滑动窗口扫描短文本，同时窗口每滑动一次就记录所有与词w出现在同一窗口中的词；

步骤1.4：用步骤1.3记录的词组成属于词w的伪文本d_w。

3.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法，其特征在于，步骤3的具体实现过程是：对每个主题z，取单词w在主题z下分布p_LDA(w|k)中最大的前30个词，人工判断这些词与每个类别的语义关联，若单词w与在经验上看来与类别c相关，则取词w为类别c的种子词。

4.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法，其特征在于，步骤4中所述每个词与每个类别之间的关联度π_w,c为：

其中，s表示种子词，|S_c|表示属于类别c的种子词数量，d_s表示种子词s对应的伪文本，σ，υ为可调参数，K表示步骤2中标准主题模型LDA的主题数目，k表示其中的某个主题，C表示数据集中总的类别数，c表示其中某个类别。

5.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法，其特征在于，步骤5.16的单词到普通主题的概率分布p(w|z＝t)的计算方法如下：

单词到类别主题的概率分布p(w|z＝c)的计算方法如下：

。

6.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法，其特征在于，步骤6的具体实现过程是，短文本d的关联主题

的计算方法：

其中k表示类别主题或普通主题中任一主题，p(w|z＝k)表示主题下单词的分布，p(z＝k|w)表示单词关于主题的分布,p(w|d)表示在文本d中词w的词频；

的预测值为类别主题c时文本d即为属于类别c的相关文本，

的预测值为普通主题时文本d即为无关文本。