CN108920482A

CN108920482A - 基于词汇链特征扩展和lda模型的微博短文本分类方法

Info

Publication number: CN108920482A
Application number: CN201810393067.4A
Authority: CN
Inventors: 刘端阳; 刘坤; 沈国江; 刘志; 朱李楠; 杨曦; 阮中远
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2018-11-30
Anticipated expiration: 2038-04-27
Also published as: CN108920482B

Abstract

基于词汇链特征扩展和LDA模型的微博分类方法，针对微博文本长度短、内容少、特征稀疏等问题，提出了词汇链特征扩展方法。在《同义词词林》的基础上生成基础词汇链，再利用基础词汇链去扩展微博文本。词汇链不仅能够涵盖到被《同义词词林》收录的词汇，而且还能涵盖到未被《同义词词林》收录的其他词汇，并且在扩展微博文本的同时还能不断丰富词汇链。针对向量空间模型在微博文本分类中高维数、语义特征不明显的问题，使用LDA主题模型的主题概率分布来表示微博文本，有效地降低了相似度计算的维度，并且融合了一定的语义特征。本方法综合了词汇链特征扩展和LDA模型的各自的优势，提出了微博分类方法。实验结果表明，这个方法有效地提高了微博文本的分类性能。

Description

基于词汇链特征扩展和LDA模型的微博短文本分类方法

技术领域

本发明涉及一种微博文本的分类方法。

背景技术

随着微博的普及和发展，它在促进人们交流和沟通的同时也带来了巨大的挑战。日常广泛使用的微博使得信息出现了爆炸式的增长，微博文本的主要特点有：文本篇幅短、内容少、特征稀疏等。由于这些特点，从海量的微博中筛选出用户感兴趣的部分，并将其加以分类，就成为一个研究热点和难点。

微博文本的分类方法主要有两类：一类是基于大规模语料库的方法。这类方法针对微博文本特征稀疏等问题，利用知识库进行概念语义扩展，常用的知识库有WordNet、Wikipedia和《同义词词林》等。采用这种方法可以挖掘文本内部词语之间的潜在关系，扩展微博文本的特征信息，但是对未收录在知识库中的词语就没有作用，使用范围有限。另一类是基于搜索引擎的方法，即使用搜索引擎搜索文本关键词并利用所得内容去扩展微博文本。这种方法能够在一定程度解决微博短文本特征稀疏的问题，但是引入特征的同时不可避免的会引入噪声数据，同时这种借助搜索引擎的文本扩展方法也非常耗时。

近几年来，采用主题模型进行文本分类的方法成为研究热点，其中隐含狄里克雷分配(LDA：Latent Dirichlet Allocation)模型是常用的主题模型。很多研究都利用LDA模型训练得到的主题分布对向量空间模型(VSM：Vector Space Model)进行加权，可以获得良好的分类性能。一些研究则利用LDA模型处理得到的主题概率分布作为文本的向量表示，也有一些研究利用LDA模型来提取文本所隐藏的主题信息。在这些研究中，LDA模型都可以获得较好的效果，但是在微博文本分类领域，LDA模型也无法解决微博文本的特征稀疏问题。

发明内容

本发明克服了上述分类方法的不足，综合了词汇链特征扩展和 LDA模型各自的优势，提供一种基于词汇链特征扩展和LDA模型的微博分类方法。

本发明提出的微博分类方法，首先在《同义词词林》的基础上生成基础词汇链，然后利用基础词汇链对微博文本进行特征扩展。词汇链不仅能够涵盖到被《同义词词林》收录的词语，而且还能涵盖到未被《同义词词林》收录的其它词语，并且在扩展微博文本的同时还能不断丰富词汇链。最后使用LDA模型对词汇链扩展后的微博语料库进行建模处理，将微博文本映射成主题概念分布，这样不仅有将降低了相似度计算的维度，还融合了一定的语义特征。实验证明，这个方法有效地提高了微博文本的分类性能。

本发明涉及的《同义词词林》是一部汉语分类词典，根据树状层次把所有收录的词条组织起来，共分为大、中、小三类词语，最新版的《同义词词林》包含了近八万条词语。《同义词词林》的词语编码总共八位，前面七位表示词语的五层结构。其中，第一位是大写英文字母，表示词语的第一层；第二位是小写英文字母，表示词语的第二层；第三位和第四位是二位十进制整数，表示词语的第三层；第五位是大写英文字母，表示第四层；第六位和第七位是二位十进制整数，表示第五层。而词语编码的第八位，即词语编码的最后一位，取值为“＝”、“#”和“@”，其中，“＝”表示词语同义；“#”表示词语相关；“@”表示词语独立，即该词既没有同义词，也没有相关词。例如：“Gb12A01＝尊敬崇敬敬重敬爱尊崇”，其中“Gb12A01＝”是编码，“尊敬”、“崇敬”、“敬重”等都是该编码所对应的同义词语。

本发明涉及的词汇链是指文本中一组相似相近的词语共同组成的链式词汇集。它是基于文章的语义结构的，表达了文章的主题信息，每一条链表示某一主题信息。生成词汇链的基本原理是对文本预处理后的候选词汇集中的词语逐一进行筛选，计算候选词语与每个词汇链的语义相似度，语义相似度结果最大的词汇链即为该候选词语所属的链，并把该候选词语插入到该词汇链中。对于某个微博类别的微博文本集，可以将该微博类别的微博文本集视为一篇文档，然后生成该文档的词汇链，选取其中最能代表该类的词汇链作为该微博类别的基础词汇链，用来扩展微博文本。

本发明涉及的LDA模型，即隐含狄里克雷分配(Latent Dirichlet Allocation)模型，是一种对文本数据进行有效降维和发掘潜在主题信息的模型，比较适合用于文本分类。LDA模型是一个三层贝叶斯概率生成的模型，其中文档表示为隐含主题的概率分布，主题表示为词语的概率分布。该模型将文档表示成主题概率分布，而主题的数量是一定的，从而较好地实现对文档的降维。

本发明是通过以下技术方案，综合了词汇链特征扩展和LDA模型各自的优势，在《同义词词林》的基础上，实现了一种基于词汇链特征扩展和LDA模型的微博分类方法。整个方案分为三个阶段：微博预处理(从第1步至第3步)、词汇链扩展(从第4步至第20步) 和LDA建模分类(从第21步至第24步)。

本发明的基于词汇链特征扩展和LDA模型的微博分类方法，具体如下：

(1)通过相应的渠道，如新浪微博、腾讯微博等，获取一定数量且包含多个不同微博类别的微博文本数据；

(2)对获取的微博文本进行预处理，主要包括文本清理、中文分词和去停用词等。首先采用正则表达式来去除微博中的空文本、表情符号、账户名称、网络链接和图片等无关的噪声数据，然后利用分词工具对微博文本进行中文分词和词性标注，并去除那些没有意义且频繁出现的词语，如虚词；

(3)输出微博语料库；

(4)将微博语料库分为训练集和测试集；

(5)针对训练集，进行基础词汇链的生成；

(6)开始循环，依次处理训练集中的各个微博类别；

(7)计算和统计某个微博类别下所有微博词语的出现频率；

(8)对于该微博类别的微博词语，如果某个词语未被《同义词词林》收录且出现频率大于或等于指定阈值ε(ε＝3，可以根据情况设定)，则把该词语归为词汇链L₀。如果某个词语未被《同义词词林》收录且出现频率小于阈值ε，则该词语不归入任何词汇链，保留其出现频率，用于下次累计；

(9)建立该微博类别的候选词汇集，把该微博类别下所有被《同义词词林》收录的词语w₁,w₂,…,w_n划入候选词汇集；

(10)开始循环，依次处理该微博类别的候选词汇集的词语 w_i(i＝1,2,…,n)；

(11)如果该微博类别除L₀外没有其它词汇链，则生成初始词汇链L₁，并把词语w₁加入词汇链L₁，并返回第10步，继续处理下一个词语。否则，继续下一步；

(12)分别计算词w_i与m条词汇链L_j(j＝1,…,m)的语义相似度 S(w_i,L_j)，计算公式为：

其中，n_j为词汇链L_j包含的词语个数，w_jk为词汇链L_j的第k个词语。Sim(w_i,w_jk)为两个词语的语义相似度，采用了基于《同义词词林》的相似度计算方法，计算公式为：

其中Sim(w_i,w_j)为两个词语w_i和w_j的语义相似度，取值范围为 0～1。d为系数，由两个词语所对应的编码在哪一层分支(即编码不相同)所决定。如果两个词语在第一层分支，即第一层的编码不相同，则两个词语的相似度直接取为0.1，即 Sim(w_i,w_j)＝0.1；如果两个词语在第二层分支，即第二层编码不相同，则d＝0.65；同理，如果两个词语在第三层至第五层分支，则d的取值分别为0.8，0.9，0.96。t为分支层节点的总个数； h为分支间的距离。举例说明：有三个《同义词词林》的词语编码，如下：

Bi10D01＝獭水獭海狸

Bi10D02@旱獭

Bi10D03＝海獭海龙

词语“水獭”和“海獭”的语义相似度计算过程中，由于这两个词语是在第五层分支，其系数d的值取0.96；该分支层的节点总数为3，则t值为3；词语“水獭”在01分支，“海獭”在 03分支，因此h值为2。

(13)计算可以得知在所有词汇链 L_j(j＝1,…,m)中，词语w_i与词汇链L_r(1≤r≤m)的相似度S(w_i,L_r)最大。

(14)比较S(w_i,L_r)和预设的相似度阈值σ，如果S(w_i,L_r)≥σ，就把词语w_i加入到对应的词汇链L_r中。如果S(w_i,L_r)<σ，就生成一个新词汇链，并把词语w_i加入到新生成的词汇链中。

(15)判断候选词汇集中的词是否处理完毕，如果没有，则返回第10步，继续处理下一个词语；否则，继续下一步。

(16)判断训练集中的所有微博类别是否处理完毕，如果没有，则返回第6步；否则，继续下一步；

(17)汇总训练集中所有微博类别的词汇链，形成基础词汇链，用于扩展微博文本，基础词汇链生成完毕。

(18)词汇链特征扩展：根据基础词汇链分别对训练集和测试集的微博词语进行特征扩展。

(19)针对训练集的所有微博词语，如果词语被《同义词词林》收录，则在基础词汇链中找到对应微博类别的包含该词语的词汇链，并检查该词汇链的词语数量。如果词语数量大于或等于设定值(根据经验可设定为8)，则直接使用该词汇链去扩展原词语；否则，保持原词语，不进行扩展处理。如果词语未被《同义词词林》收录，则检查该词语是否在对应微博类别的词汇链L₀中，如果在，则使用词汇链L₀去扩展原词语；否则，保持原词语，不进行扩展处理。最后，输出扩展后的训练集。

(20)针对测试集语料库的所有微博词语，如果词语被《同义词词林》收录，则在基础词汇链中搜索所有微博类别的词汇链，如果存在某个微博类别的某条词汇链包含该词语，则直接使用该词汇链去扩展原词语；否则，计算该词语和每个微博类别的所有词汇链的相似度，并从中选取最大的相似度。如果这个最大的相似度大于或等于相似度阈值σ，则直接采用该词汇链来扩展原词语，同时将该词语加入到该词汇链中，扩充原词汇链；否则，保持原词语，不进行扩展处理。如果词语未被《同义词词林》收录，则在基础词汇链中搜索所有微博类别的L₀词汇链。如果存在某个微博类别的L₀词汇链包含该词语，则直接使用该 L₀词汇链扩展原词语；否则，累计该词语的出现频率，包括训练集中的出现次数，判断该词的出现频率是否大于或等于指定阈值ε，如果是，则把该词归入对应微博类别的L₀词汇链。最后，输出扩展后的测试集和扩展后的基础词汇链。扩展后的基础词汇链可以用于下次训练或微博分类。

(21)使用LDA主题模型分别对扩展后的训练集和测试集进行建模，提取每条微博的主题概率分布，输出训练集微博和测试集微博的主题概率分布。

(22)依次计算训练集中每个微博类别的主题概率分布。计算方法采用求平均值的方法，即对某个微博类别下的所有微博，计算这些微博的主题概率分布的平均值。例如，若训练集中体育类别的微博有2000条，则这2000条微博的主题概率分布的平均值即为体育类的主题概率分布。

(23)依次计算测试集中每条微博与各个微博类别主题概率分布的相似度，相似度值最大的为微博所属类别，相似度计算公式如下：

Sim(W,C)＝2/[D_KL(W||C)+D_KL(C||W)]

其中，W为某条微博的主题概率分布，C为某个微博类别的主题概率分布，Sim(W,C)表示微博与微博类别的相似度，它的值越大，则表示两者越相近。D_KL(W||C)表示W与C的KL距离，而D_KL(C||W)表示C与W的KL距离。在计算KL距离时，由于 KL距离是不对称的，因此，D_KL(W||C)和D_KL(C||W)是不相等的。公式中的KL距离，是用来衡量两个概率分布的差异情况，其计算公式如下：

其中，P和Q是两个主题概率分布，x表示主题概率分布P和 Q的某个维度，topics[k]表示LDA模型所使用的k个主题值。由于LDA主题模型的主题个数是一定的，因此x∈topics[k]。

(24)输出分类结果。

本发明的有益效果：首先在《同义词词林》的基础上生成基础词汇链，然后利用基础词汇链去扩展微博文本。词汇链不仅能够涵盖到被《同义词词林》收录的词语，而且还能涵盖到未被《同义词词林》收录的其它词语，并且在扩展微博文本的同时还能不断丰富词汇链。最后使用LDA模型对扩展后的微博语料库进行建模处理，并利用得到的主题概率分布作为微博文本的向量表示，不仅达到了降维的目的，还融合一定的语义特征。这个方法有效提高了微博文本的分类性能。

附图说明

附图1本发明方法的流程图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

本发明的基于词汇链特征扩展和LDA模型的微博分类方法，具体实施步骤如下：

(3)输出微博语料库；

(4)将微博语料库分为训练集和测试集；

(5)针对训练集，进行基础词汇链的生成；

(6)开始循环，依次处理训练集中的各个微博类别；

(7)计算和统计某个微博类别下所有微博词语的出现频率；

其中Sim(w_i,w_j)为两个词语w_i和w_j的语义相似度，取值范围为 0～1。d为系数，由两个词语所对应的编码在哪一层分支(即编码不相同)所决定。如果两个词语在第一层分支，即第一层的编码不相同，则两个词语的相似度直接取为0.1，即Sim(w_i,w_j)＝0.1；如果两个词语在第二层分支，即第二层编码不相同，则d＝0.65；同理，如果两个词语在第三层至第五层分支，则d的取值分别为0.8，0.9，0.96。t为分支层节点的总个数； h为分支间的距离。举例说明：有三个《同义词词林》的词语编码，如下：

Bi10D01＝獭水獭海狸

Bi10D02@旱獭

Bi10D03＝海獭海龙

词语“水獭”和“海獭”的语义相似度计算过程中，由于这两个词语是在第五层分支，其系数d的值取0.96；该分支层的节点总数为3，则t值为3；词语“水獭”在01分支，“海獭”在

03分支，因此h值为2。

Sim(W,C)＝2/[D_KL(W||C)+D_KL(C||W)]

(24)输出分类结果。

如附图1，本方法分为三个阶段：预处理，词汇链扩展和LDA 建模分类。第一阶段为预处理，从第1步至第3步。针对微博文本进行预处理，包含文本清理、中文分词和去停用词等，过滤掉微博中的标签、表情符号、超链接等与分类无关的信息。第一阶段预处理后，可以获得微博语料库。第二阶段为词汇链扩展，从第4步至第20步，包含基础词汇链的生成和词汇链特征扩展。微博语料库首先分为训练集和测试集两部分。基础词汇链，是针对训练集，在《同义词词林》的基础上生成的。训练集的词汇链特征扩展，是在基础词汇链基础上进行扩展的，扩展后可以得到扩展后的训练集；而测试集的词汇链特征扩展，则是在基础词汇链和《同义词词林》的基础上进行扩展的，扩展后可以得到扩展后的测试集，同时也可以丰富原有基础词汇链，形成扩展后的基础词汇链。第三阶段为LDA建模分类，从第21步至第24步。主要是对扩展后的训练集和测试集，分别进行LDA建模，获得训练集和测试集的主题概念分布；然后进行分类处理，从而获得最终的分类结果。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于词汇链特征扩展和LDA模型的微博分类方法，包括如下步骤：

1)获取包含多个不同微博类别的微博文本数据；

2)对获取的微博文本进行预处理，包括文本清理、中文分词和去停用词等；首先采用正则表达式来去除微博中的空文本、表情符号、账户名称、网络链接和图片的无关的噪声数据，然后利用分词工具对微博文本进行中文分词和词性标注，并去除那些没有意义且频繁出现的词语；

3)输出微博语料库；

4)将微博语料库分为训练集和测试集；

5)针对训练集，进行基础词汇链的生成；

6)开始循环，依次处理训练集中的各个微博类别；

7)计算和统计某个微博类别下所有微博词语的出现频率；

8)对于该微博类别的微博词语，如果某个词语未被《同义词词林》收录且出现频率大于或等于指定阈值ε，则把该词语归为词汇链L₀；如果某个词语未被《同义词词林》收录且出现频率小于阈值ε，则该词语不归入任何词汇链，保留其出现频率，用于下次累计；

9)建立该微博类别的候选词汇集，把该微博类别下所有被《同义词词林》收录的词语w₁,w₂,…,w_n划入候选词汇集；

10)开始循环，依次处理该微博类别的候选词汇集的词语w_i(i＝1,2,…,n)；

11)如果该微博类别除L₀外没有其它词汇链，则生成初始词汇链L₁，并把词语w₁加入词汇链L₁，并返回第10步，继续处理下一个词语；否则，继续下一步；

12)分别计算词w_i与m条词汇链L_j(j＝1,…,m)的语义相似度S(w_i,L_j)，计算公式为：

其中，n_j为词汇链L_j包含的词语个数，w_jk为词汇链L_j的第k个词语，Sim(w_i,w_jk)为两个词语的语义相似度，采用了基于《同义词词林》的相似度计算方法；

13)计算可以得知在所有词汇链L_j(j＝1,…,m)中，词语w_i与词汇链L_r(1≤r≤m)的相似度S(w_i,L_r)最大；

14)比较S(w_i,L_r)和预设的相似度阈值σ，如果S(w_i,L_r)≥σ，就把词语w_i加入到对应的词汇链L_r中；如果S(w_i,L_r)<σ，就生成一个新词汇链，并把词语w_i加入到新生成的词汇链中；

15)判断候选词汇集中的词是否处理完毕，如果没有，则返回第10步，继续处理下一个词语；否则，继续下一步；

16)判断训练集中的所有微博类别是否处理完毕，如果没有，则返回第6步；否则，继续下一步；

17)汇总训练集中所有微博类别的词汇链，形成基础词汇链，用于扩展微博文本，基础词汇链生成完毕；

18)词汇链特征扩展：根据基础词汇链分别对训练集和测试集的微博词语进行特征扩展；

19)针对训练集的所有微博词语，如果词语被《同义词词林》收录，则在基础词汇链中找到对应微博类别的包含该词语的词汇链，并检查该词汇链的词语数量；如果词语数量大于或等于设定值，则直接使用该词汇链去扩展原词语；否则，保持原词语，不进行扩展处理；如果词语未被《同义词词林》收录，则检查该词语是否在对应微博类别的词汇链L₀中，如果在，则使用词汇链L₀去扩展原词语；否则，保持原词语，不进行扩展处理；最后，输出扩展后的训练集；

20)针对测试集语料库的所有微博词语，如果词语被《同义词词林》收录，则在基础词汇链中搜索所有微博类别的词汇链，如果存在某个微博类别的某条词汇链包含该词语，则直接使用该词汇链去扩展原词语；否则，计算该词语和每个微博类别的所有词汇链的相似度，并从中选取最大的相似度；如果这个最大的相似度大于或等于相似度阈值σ，则直接采用该词汇链来扩展原词语，同时将该词语加入到该词汇链中，扩充原词汇链；否则，保持原词语，不进行扩展处理；如果词语未被《同义词词林》收录，则在基础词汇链中搜索所有微博类别的L₀词汇链；如果存在某个微博类别的L₀词汇链包含该词语，则直接使用该L₀词汇链扩展原词语；否则，累计该词语的出现频率，包括训练集中的出现次数，判断该词的出现频率是否大于或等于指定阈值ε，如果是，则把该词归入对应微博类别的L₀词汇链；最后，输出扩展后的测试集和扩展后的基础词汇链；扩展后的基础词汇链可以用于下次训练或微博分类；

21)使用LDA主题模型分别对扩展后的训练集和测试集进行建模，提取每条微博的主题概率分布，输出训练集微博和测试集微博的主题概率分布；

22)依次计算训练集中每个微博类别的主题概率分布；计算方法采用求平均值的方法，即对某个微博类别下的所有微博，计算这些微博的主题概率分布的平均值；

23)依次计算测试集中每条微博与各个微博类别主题概率分布的相似度，相似度值最大的为微博所属类别，相似度计算公式如下：

Sim(W,C)＝2/[D_KL(W||C)+D_KL(C||W)]

其中，W为某条微博的主题概率分布，C为某个微博类别的主题概率分布，Sim(W,C)表示微博与微博类别的相似度，它的值越大，则表示两者越相近；D_KL(W||C)表示W与C的KL距离，而D_KL(C||W)表示C与W的KL距离；

24)输出分类结果。