CN108280164B - 一种基于类别相关单词的短文本过滤与分类方法 - Google Patents

一种基于类别相关单词的短文本过滤与分类方法 Download PDF

Info

Publication number
CN108280164B
CN108280164B CN201810048272.7A CN201810048272A CN108280164B CN 108280164 B CN108280164 B CN 108280164B CN 201810048272 A CN201810048272 A CN 201810048272A CN 108280164 B CN108280164 B CN 108280164B
Authority
CN
China
Prior art keywords
word
words
topic
category
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810048272.7A
Other languages
English (en)
Other versions
CN108280164A (zh
Inventor
李晨亮
张芷芊
陈诗倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201810048272.7A priority Critical patent/CN108280164B/zh
Publication of CN108280164A publication Critical patent/CN108280164A/zh
Application granted granted Critical
Publication of CN108280164B publication Critical patent/CN108280164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于类别相关单词的短文本过滤与分类方法,将传统主题模型的主题根据功能分成“类别主题”和“普通主题”;构造伪文本集,并以伪文本集作为模型的训练集对SSCF进行训练。训练结束后计算两类主题各自的词分布,并根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题,进而判断该短文本是否为无关文本,若有关,得到其所属类别。本发明利用“类别主题”和“普通主题”,结合词类关系,可以很好地从短文本集中抽取出与指定类别相关的文本并同时完成分类。由于该方法是一种非监督性的方法,不需要人工对数据进行标注,使得本发明可以广泛应用到各种短文本数据之上,具有广泛的实际意义和商业价值。

Description

一种基于类别相关单词的短文本过滤与分类方法
技术领域
本发明属于计算机技术领域,涉及一种文本挖掘、文本分类、主题建模的方法,具体涉及一种借助人工选词和构建伪文本来估计语料中的词与类别间的关系,进而实现短文本的分类与过滤的主题建模方法。
背景技术
随着互联网的兴起,我们逐步进入大数据时代。与此同时,短文本已经成为互联网上一种越来越流行的文本数据。而短文本指的是长度较短,通常不超过 140个字符的文本,且表述内容丰富,组合比较灵活。常见的有网页页面摘要、新闻标题、文本广告、微博、Twitter、朋友圈更新等等。数量庞大的短文本中蕴含着庞杂的信息,建立一种高效的主题模型并从大量的短文本数据集快速准确得过滤掉包含无关信息的文本,同时对包含相关信息的文本实现准确分类是极具现实意义的。
传统的主题模型,旨在构建一个更为完全概率生成模型的主题模型方法,使得不同长度的文本可以以相同的维度向量进行表示。例如2003年,Bei.在 Journal of MachineLearning Research发表的一篇名为“Latent Dirichlet Allocation”,常用于传统文本的分析。要想更进一步得利用短文本中蕴含的信息,需要在文本分析的基础上建立起过滤和分类能力。
发明内容
为了解决上述技术问题,本发明提出了一种基于类别相关单词的短文本过滤与分类方法。
本发明所采用的技术方案是:一种基于类别相关单词的短文本过滤与分类方法,其特征在于,包括以下步骤:
步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;
步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;
步骤3:根据步骤2得到的单词在主题下的分布,为每个类别选出若干相关词,记为“种子词”;
步骤4:利用步骤2中确定出的结果和步骤3中选出的种子词,计算每个词与每个类别之间的关联度;
步骤5:每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成,根据步骤4得到的词与类别之间的相似度构建SSCF主题模型,经过训练得到单词关于主题的分布;
步骤6:根据步骤5的单词主题分布确定该文本的分类结果。
作为优选,步骤1的具体实现包括以下子步骤:
步骤1.1:对于短文本数据集词汇表中的每一个词w一次执行步骤1.2到1.4;
步骤1.2:对于短文本数据集中的每一篇文档d依次执行步骤1.3;
步骤1.3:用滑动窗口扫描短文本,同时窗口每滑动一次就记录所有与词w 出现在同一窗口中的词;
步骤1.4:用步骤1.3记录的词组成属于词w的伪文本dw
作为优选,步骤2的具体实现包括以下子步骤:
步骤2.1:给定标准主题模型LDA的超参数α和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目 T,模型训练迭代次数Iter;
步骤2.2:遍历伪文本数据集中每一篇文档d,随机为d中的每一个词赋予一个主题k,关联到主题k下的单词数量,记为nk,各个主题k下各个单词w与主题k所关联的数量,记为
Figure BDA0001551586700000021
在伪文本d中关联到主题k下的单词数量记为
Figure BDA0001551586700000022
步骤2.3:对于短文本数据集中的每一篇文档d依次执行步骤2.4至步骤 2.6;
步骤2.4:对于文档d的每一个单词w,以及上一轮迭代中文档d赋予的主题k,首先从计数器中
Figure BDA0001551586700000023
Figure BDA0001551586700000024
减去当前词带来的影响,即分别从计数器中减去1;
步骤2.5:对词w采样出一个新主题knew
步骤2.6:得到knew后,依次更新相关计数器
Figure BDA0001551586700000025
Figure BDA0001551586700000026
即分别在计数器中加上1;
步骤2.7:循环执行步骤2.3至步骤2.6,直到运行完预设迭代次数Iter 后,计算出该短文本数据集下的主题单词分布pLDA(w|k),伪文本主题分布 pLDA(k│dw),其中,pLDA(w|k)表示单词在主题下的分布,pLDA(k│dw)表示主题在伪文本下的分布。
作为优选,步骤2.5中采样公式为:
Figure BDA0001551586700000031
其中,
Figure BDA0001551586700000032
表示减去当前词的影响,V表示文本集词汇表,K表示主题数。
作为优选,步骤2.7中:
Figure BDA0001551586700000033
Figure BDA0001551586700000034
作为优选,步骤3的具体实现过程是:对每个主题z,取单词w在主题z下分布pLDA(w|k)中最大的前30个词,人工判断这些词与每个类别的语义关联,若单词w与在经验上看来与类别c相关,则取词w为类别c的种子词。
作为优选,步骤4中所述每个词与每个类别之间的关联度πw,c为:
Figure BDA0001551586700000035
Figure BDA0001551586700000036
Figure BDA0001551586700000037
Figure BDA0001551586700000038
Figure BDA0001551586700000039
Figure BDA00015515867000000310
Figure BDA00015515867000000311
其中,s表示种子词,|Sc|表示属于类别c的种子词数量,ds表示种子词s 对应的伪文本,σ,υ为可调参数,K表示步骤2中标准主题模型LDA的主题数目,k表示其中的某个主题,C表示数据集中总的类别数,c表示其中某个类别。
作为优选,步骤5的具体实现包括以下子步骤:
步骤5.1:将SSCF主题模型的主题分为“类别主题”和“普通主题”两种类型;其中,“类别主题”与短文本数据集中的类别一一对应,即数据集中有多少类别,“类别主题”就有多少主题;而“普通主题”是人为指定;
步骤5.2:给定SSCF主题模型的超参数α,∈和β0,β1,其中α是文本到普通主题的狄利克雷分布的先验参数,∈是文本到类别主题的狄利克雷分布的先验参数,β0是类别主题到单词的狄利克雷分布的先验参数,β1是普通主题到单词的狄利克雷分布的先验参数,普通主题数目T,类别数目C,模型训练迭代次数Iter;
步骤5.3:遍历数据集中每一篇伪文本d,随机为d中的每个词赋予一个主题;类别主题c下的单词w的数量记为
Figure BDA0001551586700000041
普通主题t下的单词w的数量记为
Figure BDA0001551586700000042
步骤5.4:循环执行步骤5.5至步骤5.15直到运行完预设迭代次数Iter;
步骤5.5:对数据集中的每个类别c依次执行步骤5.6至5.10;
步骤5.6:对每个属于c的种子词s依次执行步骤5.7至5.10;
步骤5.7:对s对应的伪文本ds中的每一个单词w依次执行步骤5.8至5.10;
步骤5.8:首先从计数器
Figure BDA0001551586700000043
Figure BDA0001551586700000044
减去当前词带来的影响,即分别从计数器中减去1;
步骤5.9:对当前词w采样类别主题
Figure BDA0001551586700000045
采样普通主题
Figure BDA0001551586700000046
采样变量xw,如果xw=0,词w的主题
Figure BDA0001551586700000047
如果xw=1,词w的主题
Figure BDA0001551586700000048
步骤5.10:在得到新主题后更新相关计数器,即在计数器中加1;
步骤5.11:对每个非种子词w依次执行步骤5.12至5.15;
步骤5.12:对每个属于w的伪文本dw中的词w′依次执行步骤5.13至5.15;
步骤5.13:首先从计数器
Figure BDA0001551586700000049
减去当前词带来的影响,即分别从计数器中减去1;
步骤5.14:对当前词w采样类别主题
Figure BDA00015515867000000410
采样普通主题
Figure BDA00015515867000000411
采样变量xw,如果xw=0,词w的主题
Figure BDA0001551586700000051
如果xw=1,词w的主题
Figure BDA0001551586700000052
步骤5.15:在得到新主题后更新相关计数器,即在计数器中加1;
步骤5.16:计算单词集合中单词到普通主题的概率分布p(w|z=t)和单词到类别主题的概率分布。
作为优选,步骤5.9中的采样公式为:
Figure BDA0001551586700000053
步骤5.14的采样公式为:
Figure BDA0001551586700000054
各变量对应的计算公式如下:
Figure BDA0001551586700000055
Figure BDA0001551586700000056
Figure BDA0001551586700000057
Figure BDA0001551586700000058
Figure BDA0001551586700000059
Figure BDA00015515867000000510
其中
Figure BDA00015515867000000511
表示属于种子词s的伪文本ds中第i个词与类别c的相关度,
Figure BDA00015515867000000512
表示属于非种子词w的伪文本dw中第i个词与类别c的相关度;
Figure BDA00015515867000000513
表示类别主题c中词w的个数,
Figure BDA0001551586700000061
表示普通主题t中词w的个数,
Figure BDA0001551586700000062
Figure BDA0001551586700000063
分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量;
Figure BDA0001551586700000064
Figure BDA0001551586700000065
分别表示种子词s或非种子词w对应的伪文本中含有关联到普通主题t的词的数量;
Figure BDA0001551586700000066
为指示符,只有当s为类别c的种子词时才为1,否则为0。
作为优选,步骤5.16的单词到普通主题的概率分布p(w|z=t)的计算方法如下:
Figure BDA0001551586700000067
单词到类别主题的概率分布p(w|z=c)的计算方法如下:
Figure BDA0001551586700000068
作为优选,步骤6的具体实现过程是,短文本d的关联主题
Figure BDA0001551586700000069
的计算方法:
Figure BDA00015515867000000610
Figure BDA00015515867000000611
Figure BDA00015515867000000612
其中k表示类别主题或普通主题中任一主题,p(w|z=k)表示主题下单词的分布,p(z=k|w)表示单词关于主题的分布,p(w|d)表示在文本d中词w的词频;
Figure BDA00015515867000000613
的预测值为类别主题c时文本d即为属于类别c的相关文本,
Figure BDA00015515867000000614
的预测值为普通主题时文本d即为无关文本。
本发明提出将传统主题模型的主题根据功能分成两种类型的主题:“类别主题”和“普通主题”。“类别主题”与短文本集中的类别一一对应,“普通主题”是人为指定。构造伪文本集,并以伪文本集作为模型的训练集对SSCF进行训练。伪文本的每个词都被视作由“类别主题”或“普通主题”所生成的,在训练过程中结合词类相关度使得与每个类别真正相关的词能够尽可能地关联到正确的“类别主题”中,而与每个类别都没有明显关系的词则会关联到“普通主题”中,在训练结束后计算“类别主题”和“普通主题”各自的词分布。最后,根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题,如果关联主题是“类别主题”,短文本即属于“类别主题”对应的类别;如果关联主题是“普通主题”,短文本即为无关文本。
本发明模型利用“类别主题”和“普通主题”结合词类关系,很好地实现了基于类别相关单词的短文本分类和过滤任务。根据本发明所提供的模型结果,可以很好地从短文本集中抽取出与指定类别相关的文本并同时完成分类。由于该方法是一种非监督性的方法,不需要人工对数据进行标注,使得本发明可以广泛应用到各种短文本数据之上,具有广泛的实际意义和商业价值。
附图说明
图1为本发明实施例的原理示意图;
图2为本发明实施例的伪文本的构造示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了基于类别相关单词的短文本过滤与分类方法,该方法利用了“类别主题”和“普通主题”结合词类关系实现了主题模型在短文中的分类和过滤功能。本发明假定短文本中的每个词都由一个主题生成,通过在伪文本集上的训练,本发明模型可以得到每个单词由不同主题生成的概率,也就是单词在主题下的分布,利用这些分布最终决定短文本的关联主题也就是文本的分类结果。
本发明的主题模型,首先提出了两种类型主题:“类别主题”和“普通主题”。并通过滑动窗口扫描短文本构建出伪文本集与人工选出的关键词计算出词与类别的关系。两种类型的主题结合词类关系实现了从短文本集中过滤掉与所有类别的文本,并对剩下的文本分类。
请见图1和图2,本发明提供的一种基于类别相关单词的短文本过滤与分类方法,包括以下步骤:
步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;
a)下载公开的短文本数据集Snippet (http://acube.di.unipi.it/tmn-dataset/),该数据集中每个文档都被赋予一个类别标签;在预处理过程中去除其中的停用词,过滤掉单词频率小于5的单词,最后得到12,265篇文档,文档平均长度为10.72,共有单词数目5,581;
b)用滑动窗口扫描短文本,窗口长度为5,窗口每次滑动步长为一个单词。每一次滑动都要记录所有与词w出现在同一窗口中的词,直至窗口范围完全离开词w。离词w越近的词被记录的次数就越多;
c)利用滑动窗口,词w在不同文本中扫描得到的记录全部汇集到一起组成属于词w的伪文本记为dw
步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;
具体实现包括以下子步骤:
a)给定标准主题模型LDA的超参数α和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目T,模型训练迭代次数Iter;
b)遍历数据集中每一篇文档d,随机为d中的每一个词赋予一个主题k,关联到主题k下的单词数量,记为nk,各个主题k下各个单词w与主题k所关联的数量,记为
Figure BDA0001551586700000081
在文本d中关联到主题k下的单词数量记为
Figure BDA0001551586700000082
c)对于短文本数据集中的每一篇文档d依次执行步骤d)至步骤f);
d)对于文档d的每一个单词w,以及上一轮迭代中文档d赋予的主题k,首先从计数器中
Figure BDA0001551586700000083
Figure BDA0001551586700000084
减去当前词带来的影响,即分别从计数器中减去1;
e)对词w采样出一个新主题knew,采样公式如下:
Figure BDA0001551586700000085
其中,
Figure BDA0001551586700000086
表示减去当前词的影响,V表示文本集词汇表,K表示主题数,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数。
f)得到knew后,依次更新相关计数器
Figure BDA0001551586700000087
Figure BDA0001551586700000088
即分别在计数器中加上1;
g )循环执行步骤c)至步骤f),直到运行完预设迭代次数Iter后,计算出该数据集下的主题单词分布pLDA(w|k),伪文本主题分布pLDA(k│dw);
其中,主题单词分布计算如下:
Figure BDA0001551586700000091
伪文本主题分布计算如下:
Figure BDA0001551586700000092
步骤3:根据步骤2得到的单词在主题下的分布,为每个类别人工选出一些相关词,这些词也称为“种子词”;
对每个主题z取pLDA(w|k)最大的前30个词,人工判断这些词与每个类别的语义关联,若单词w与在经验上看来与类别c相关,则取词w为类别c的种子词。
步骤4:利用步骤2得到的分布和步骤3选出的种子词,计算每个词与每个类别之间的关联度πw,c,公式如下:
Figure BDA0001551586700000093
Figure BDA0001551586700000094
Figure BDA0001551586700000095
Figure BDA0001551586700000096
Figure BDA0001551586700000097
Figure BDA0001551586700000098
Figure BDA0001551586700000099
其中,s表示种子词,|Sc|表示属于类别c的种子词数量,ds表示种子词s 对应的伪文本,σ,υ为可调参数,K表示步骤2中标准主题模型LDA的主题数目, k表示其中的某个主题,C表示数据集中总的类别数,c表示其中某个类别。
步骤5:不同于普通的话题模型只有一种,本发明的模型有两种主题。每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成。其中“类别主题”与短文本集中所包含的类别是一一对应的,“普通主题”则是由人为指定。根据本发明的模型,同时利用步骤4得到的词与类别之间的相关度,就可以训练得到每个单词关于不同主题的分布;
a)将主题模型SSCF的主题分为“类别主题”和“普通主题”两种类型;其中,“类别主题”与短文本数据集中的类别一一对应,即数据集中有多少类别,“类别主题”就有多少主题;而“普通主题”是人为指定;
b)给定主题模型SSCF的超参数α,∈和β0,β1,其中α是文本到普通主题的狄利克雷分布的先验参数,∈是文本到类别主题的狄利克雷分布的先验参数,β0是类别主题到单词的狄利克雷分布的先验参数,β1是普通主题到单词的狄利克雷分布的先验参数,普通主题数目T,类别数目C,模型训练迭代次数Iter;
c)遍历数据集中每一篇伪文本d,随机为d中的每个词赋予一个主题。类别主题c下的单词w的数量记为
Figure BDA0001551586700000101
普通主题t下的单词w的数量记为
Figure BDA0001551586700000102
d)循环执行步骤e)至步骤j)直到运行完预设迭代次数Iter;
e)对数据集中的每个类别c依次执行步骤f)至j);
f)对每个属于c的种子词s依次执行步骤g)至j);
g)对s对应的伪文本ds中的每一个单词w依次执行步骤h)至j);
h)首先从计数器
Figure BDA0001551586700000103
Figure BDA0001551586700000104
减去当前词带来的影响,即分别从计数器中减去1;
i)对当前词w采样类别主题
Figure BDA0001551586700000105
采样普通主题
Figure BDA0001551586700000106
采样变量xw,如果xw=0,词w的主题
Figure BDA0001551586700000107
如果xw=1,词w的主题
Figure BDA0001551586700000108
采样公式为:
Figure BDA0001551586700000109
各部分的详细计算方法:
Figure BDA00015515867000001010
Figure BDA0001551586700000111
Figure BDA0001551586700000112
Figure BDA0001551586700000113
Figure BDA0001551586700000114
Figure BDA0001551586700000115
其中
Figure BDA0001551586700000116
表示属于种子词s的伪文本ds中第i个词与类别c的相关度,
Figure BDA0001551586700000117
表示属于非种子词w的伪文本dw中第i个词与类别c的相关度。
Figure BDA0001551586700000118
表示类别主题c中词w的个数,
Figure BDA0001551586700000119
表示普通主题t中词w的个数,
Figure BDA00015515867000001110
Figure BDA00015515867000001111
分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量。
Figure BDA00015515867000001112
Figure BDA00015515867000001113
分别表示种子词s或非种子词w对应的伪文本中含有关联到普通主题t的词的数量;
Figure BDA00015515867000001114
为指示符,只有当s为类别c的种子词时才为1,否则为0;α,∈,β0,β1同步骤b)所述。
j)在得到新主题后更新相关计数器,即在计数器中加1;
k)对每个非种子词w依次执行步骤l)至o);
l)对每个属于w的伪文本dw中的词w′依次执行步骤m)至o);
m)首先从计数器
Figure BDA00015515867000001115
Figure BDA00015515867000001116
减去当前词带来的影响,即分别从计数器中减去1;
n)对当前词w采样类别主题
Figure BDA00015515867000001117
采样普通主题
Figure BDA00015515867000001118
采样变量xw,如果xw=0,词w的主题
Figure BDA00015515867000001119
如果xw=1,词w的主题
Figure BDA00015515867000001120
采样公式为:
Figure BDA00015515867000001121
其中
Figure BDA0001551586700000121
表示属于非种子词w的伪文本dw中第i个词与类别c的相关度。其余各部分的计算方法与变量含义均已在步骤i)中列举。
o)在得到新主题后更新相关计数器,即在计数器中加1;
p)计算单词集合中单词到普通主题的概率分布p(w|z=t)和单词到类别主题的概率分布。其中,单词到普通主题的概率分布p(w|z=t)的计算方法:
Figure BDA0001551586700000122
单词到类别主题的概率分布p(w|z=c)的计算方法如下:
Figure BDA0001551586700000123
其中β0是类别主题到单词的狄利克雷分布的先验参数,β1是普通主题到单词的狄利克雷分布的先验参数。
步骤6:根据步骤5的单词到主题的分布确定该文本的分类结果,具体计算方法如下:
Figure BDA0001551586700000124
Figure BDA0001551586700000125
Figure BDA0001551586700000126
其中k表示类别主题或普通主题中任一主题,p(w|z=k)表示主题下单词的分布,p(w|z=k)表示单词关于主题的分布,p(w|d)表示在文本d中词w的词频。
Figure BDA0001551586700000127
的预测值为类别主题c时文本d即为属于c对应类别的相关文本,
Figure BDA0001551586700000128
的预测值为普通主题时文本d即为无关文本。
传统的主题模型经过训练只能得到主题的词分布和文本的主题分布,然而只依靠这两个分布是不能完成文本分类或是过滤功能。本发明提出将传统主题模型的主题根据功能分成两种类型的主题:“类别主题”和“普通主题”。“类别主题”与短文本集中的类别一一对应,与“类别主题”相关联的文本即被视为文本内容属于这个类别。“普通主题”是人为指定,与“普通主题”相关联的文本被视为无关文本,也即文本中的内容不属于任何一个类别。
本实施例在模型训练前先通过滑动窗口扫描短文本集并构建出对应的伪文本集,之后以伪文本集作为模型的训练集。在伪文本中,每个词都被视作由“类别主题”或“普通主题”所生成的。该模型在训练前估计了每个词与类别相关度,在训练过程中结合词类相关度使得与每个类别真正相关的词能够尽可能得关联到正确的“类别主题”中。而与每个类别都没有明显关系的词则会关联到“普通主题”中。在训练结束后计算“类别主题”和“普通主题”各自的词分布。
在最终环节,根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题,如果关联主题是“类别主题”,短文本即属于“类别主题”对应的类别;如果关联主题是“普通主题”,短文本即为无关文本。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种基于类别相关单词的短文本过滤与分类方法,模型名称为SSCF,其特征在于,包括以下步骤:
步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;
步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;
步骤2的具体实现包括以下子步骤:
步骤2.1:给定标准主题模型LDA的超参数α和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目T,模型训练迭代次数Iter;
步骤2.2:遍历伪文本数据集中每一篇文档d,随机为d中的每一个词赋予一个主题k,关联到主题k下的单词数量,记为nk,各个主题k下各个单词w与主题k所关联的数量,记为
Figure FDA0002986517430000011
在伪文本d中关联到主题k下的单词数量记为
Figure FDA0002986517430000012
步骤2.3:对于短文本数据集中的每一篇文档d依次执行步骤2.4至步骤2.6;
步骤2.4:对于文档d的每一个单词w,以及上一轮迭代中文档d赋予的主题k,首先从计数器中
Figure FDA0002986517430000013
Figure FDA0002986517430000014
减去当前词带来的影响,即分别从计数器中减去1;
步骤2.5:对词w采样出一个新主题knew
步骤2.5中采样公式为:
Figure FDA0002986517430000015
其中,
Figure FDA0002986517430000016
表示减去当前词的影响,V表示文本集词汇表,K表示主题数;
步骤2.6:得到knew后,依次更新相关计数器
Figure FDA0002986517430000017
Figure FDA0002986517430000018
即分别在计数器中加上1;
步骤2.7:循环执行步骤2.3至步骤2.6,直到运行完预设迭代次数Iter后,计算出该短文本数据集下的主题单词分布pLDA(w|k),伪文本主题分布pLDA(k│dw),其中,pLDA(w|k)表示单词在主题下的分布,pLDA(k│dw)表示主题在伪文本下的分布;
步骤2.7中:
Figure FDA0002986517430000021
Figure FDA0002986517430000022
步骤3:根据步骤2得到的单词在主题下的分布,为每个类别选出若干相关词,记为“种子词”;
步骤4:利用步骤2中确定出的结果和步骤3中选出的种子词,计算每个词与每个类别之间的关联度;
步骤5:每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成,根据步骤4得到的词与类别之间的相似度构建SSCF主题模型,经过训练得到单词关于主题的分布;
步骤5的具体实现包括以下子步骤:
步骤5.1:将SSCF主题模型的主题分为“类别主题”和“普通主题”两种类型;其中,“类别主题”与短文本数据集中的类别一一对应,即数据集中有多少类别,“类别主题”就有多少主题;“普通主题”是人为指定;
步骤5.2:给定SSCF主题模型的超参数α,∈和β0,β1,其中α是文本到普通主题的狄利克雷分布的先验参数,∈是文本到类别主题的狄利克雷分布的先验参数,β0是类别主题到单词的狄利克雷分布的先验参数,β1是普通主题到单词的狄利克雷分布的先验参数,普通主题数目T,类别数目C,模型训练迭代次数Iter;
步骤5.3:遍历数据集中每一篇伪文本d,随机为d中的每个词赋予一个主题;类别主题c下的单词w的数量记为
Figure FDA0002986517430000023
普通主题t下的单词w的数量记为
Figure FDA0002986517430000024
步骤5.4:循环执行步骤5.5至步骤5.15直到运行完预设迭代次数Iter;
步骤5.5:对数据集中的每个类别c依次执行步骤5.6至5.10;
步骤5.6:对每个属于c的种子词s依次执行步骤5.7至5.10;
步骤5.7:对s对应的伪文本ds中的每一个单词w依次执行步骤5.8至5.10;
步骤5.8:首先从计数器
Figure FDA0002986517430000025
Figure FDA0002986517430000026
减去当前词带来的影响,即分别从计数器中减去1;
步骤5.9:对当前词w采样类别主题
Figure FDA0002986517430000027
采样普通主题
Figure FDA0002986517430000028
采样变量xw,如果xw=0,词w的主题
Figure FDA0002986517430000031
如果xw=1,词w的主题
Figure FDA0002986517430000032
步骤5.9中的采样公式为:
Figure FDA0002986517430000033
步骤5.10:在得到新主题后更新相关计数器,即在计数器中加1;
步骤5.11:对每个非种子词w依次执行步骤5.12至5.13;
步骤5.12:对每个属于w的伪文本dw中的词w′依次执行步骤5.13至5.15;
步骤5.13:首先从计数器
Figure FDA0002986517430000034
减去当前词带来的影响,即分别从计数器中减去1;
步骤5.14:对当前词w采样类别主题
Figure FDA0002986517430000035
采样普通主题
Figure FDA0002986517430000036
采样变量xw,如果xw=0,词w的主题
Figure FDA0002986517430000037
如果xw=1,词w的主题
Figure FDA0002986517430000038
步骤5.14的采样公式为:
Figure FDA0002986517430000039
各变量对应的计算公式如下:
Figure FDA00029865174300000310
Figure FDA00029865174300000311
Figure FDA00029865174300000312
Figure FDA00029865174300000313
Figure FDA00029865174300000314
Figure FDA0002986517430000041
其中,
Figure FDA0002986517430000042
表示属于种子词s的伪文本ds中第i个词与类别c的相关度,
Figure FDA0002986517430000043
表示属于非种子词w的伪文本dw中第i个词与类别c的相关度;
Figure FDA0002986517430000044
表示类别主题c中词w的个数,
Figure FDA0002986517430000045
表示普通主题t中词w的个数,
Figure FDA0002986517430000046
Figure FDA0002986517430000047
分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量;
Figure FDA0002986517430000048
Figure FDA0002986517430000049
分别表示种子词s或非种子词w对应的伪文本中含有关联到普通主题t的词的数量;
Figure FDA00029865174300000410
为指示符,只有当s为类别c的种子词时才为1,否则为0;
步骤5.15:在得到新主题后更新相关计数器,即在计数器中加1;
步骤5.16:计算单词集合中单词到普通主题的概率分布p(w|z=t)和单词到类别主题的概率分布;
步骤6:根据步骤5的单词主题分布确定该文本的分类结果。
2.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤1的具体实现包括以下子步骤:
步骤1.1:对于短文本数据集词汇表中的每一个词w一次执行步骤1.2到1.4;
步骤1.2:对于短文本数据集中的每一篇文档d依次执行步骤1.3;
步骤1.3:用滑动窗口扫描短文本,同时窗口每滑动一次就记录所有与词w出现在同一窗口中的词;
步骤1.4:用步骤1.3记录的词组成属于词w的伪文本dw
3.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤3的具体实现过程是:对每个主题z,取单词w在主题z下分布pLDA(w|k)中最大的前30个词,人工判断这些词与每个类别的语义关联,若单词w与在经验上看来与类别c相关,则取词w为类别c的种子词。
4.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤4中所述每个词与每个类别之间的关联度πw,c为:
Figure FDA00029865174300000411
Figure FDA0002986517430000051
Figure FDA0002986517430000052
Figure FDA0002986517430000053
Figure FDA0002986517430000054
Figure FDA0002986517430000055
Figure FDA0002986517430000056
其中,s表示种子词,|Sc|表示属于类别c的种子词数量,ds表示种子词s对应的伪文本,σ,υ为可调参数,K表示步骤2中标准主题模型LDA的主题数目,k表示其中的某个主题,C表示数据集中总的类别数,c表示其中某个类别。
5.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤5.16的单词到普通主题的概率分布p(w|z=t)的计算方法如下:
Figure FDA0002986517430000057
单词到类别主题的概率分布p(w|z=c)的计算方法如下:
Figure FDA0002986517430000058
6.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤6的具体实现过程是,短文本d的关联主题
Figure FDA00029865174300000512
的计算方法:
Figure FDA0002986517430000059
Figure FDA00029865174300000510
Figure FDA00029865174300000511
其中k表示类别主题或普通主题中任一主题,p(w|z=k)表示主题下单词的分布,p(z=k|w)表示单词关于主题的分布,p(w|d)表示在文本d中词w的词频;
Figure FDA0002986517430000061
的预测值为类别主题c时文本d即为属于类别c的相关文本,
Figure FDA0002986517430000062
的预测值为普通主题时文本d即为无关文本。
CN201810048272.7A 2018-01-18 2018-01-18 一种基于类别相关单词的短文本过滤与分类方法 Active CN108280164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810048272.7A CN108280164B (zh) 2018-01-18 2018-01-18 一种基于类别相关单词的短文本过滤与分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810048272.7A CN108280164B (zh) 2018-01-18 2018-01-18 一种基于类别相关单词的短文本过滤与分类方法

Publications (2)

Publication Number Publication Date
CN108280164A CN108280164A (zh) 2018-07-13
CN108280164B true CN108280164B (zh) 2021-10-01

Family

ID=62804133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810048272.7A Active CN108280164B (zh) 2018-01-18 2018-01-18 一种基于类别相关单词的短文本过滤与分类方法

Country Status (1)

Country Link
CN (1) CN108280164B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032642B (zh) * 2019-03-26 2022-02-11 广东工业大学 基于词嵌入的流形主题模型的建模方法
CN111090995B (zh) * 2019-11-15 2023-03-31 合肥工业大学 短文本主题识别方法和系统
CN111126597A (zh) * 2019-12-17 2020-05-08 武汉大学 一种用于条件文本生成的深度学习模型的构建方法以及条件文本的生成方法
CN111897952B (zh) * 2020-06-10 2022-10-14 中国科学院软件研究所 一种面向社交媒体的敏感数据发现方法
CN112667806A (zh) * 2020-10-20 2021-04-16 上海金桥信息股份有限公司 一种使用lda的文本分类筛选方法
CN113704471B (zh) * 2021-08-26 2024-02-02 唯品会(广州)软件有限公司 语句的分类方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN103984771A (zh) * 2014-06-04 2014-08-13 武汉大学 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN104572613A (zh) * 2013-10-21 2015-04-29 富士通株式会社 数据处理装置、数据处理方法和程序
CN105955948A (zh) * 2016-04-22 2016-09-21 武汉大学 一种基于单词语义相似度的短文本主题建模方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9092422B2 (en) * 2009-12-30 2015-07-28 Google Inc. Category-sensitive ranking for text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927302A (zh) * 2013-01-10 2014-07-16 阿里巴巴集团控股有限公司 一种文本分类方法和系统
CN104572613A (zh) * 2013-10-21 2015-04-29 富士通株式会社 数据处理装置、数据处理方法和程序
CN103984771A (zh) * 2014-06-04 2014-08-13 武汉大学 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN105955948A (zh) * 2016-04-22 2016-09-21 武汉大学 一种基于单词语义相似度的短文本主题建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
词向量与LDA相融合的短文本分类方法;张群 等;《现代图书情报技术》;20161231;全文 *

Also Published As

Publication number Publication date
CN108280164A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN108280164B (zh) 一种基于类别相关单词的短文本过滤与分类方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN106650943B (zh) 基于人工智能的辅助写作方法和装置
CN107239529B (zh) 一种基于深度学习的舆情热点类别划分方法
CN107832299B (zh) 基于人工智能的标题的改写处理方法、装置及可读介质
CN109977413A (zh) 一种基于改进cnn-lda的情感分析方法
WO2021073116A1 (zh) 生成法律文书的方法、装置、设备和存储介质
CN106844632B (zh) 基于改进支持向量机的产品评论情感分类方法及装置
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN109858034B (zh) 一种基于注意力模型和情感词典的文本情感分类方法
CN105551485B (zh) 语音文件检索方法及系统
CN107679031B (zh) 基于堆叠降噪自编码机的广告博文识别方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN109741824B (zh) 一种基于机器学习的医疗问诊方法
CN109902289A (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
WO2021093012A1 (zh) 时间序列数据组成模式的提取方法、装置及终端设备
US11727915B1 (en) Method and terminal for generating simulated voice of virtual teacher
CN103559193A (zh) 一种基于选择单元的主题建模方法
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
CN102521402B (zh) 文本过滤系统及方法
CN111026866B (zh) 一种面向领域的文本信息抽取聚类方法、设备和存储介质
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN110738047A (zh) 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant