CN108280164B - 一种基于类别相关单词的短文本过滤与分类方法 - Google Patents
一种基于类别相关单词的短文本过滤与分类方法 Download PDFInfo
- Publication number
- CN108280164B CN108280164B CN201810048272.7A CN201810048272A CN108280164B CN 108280164 B CN108280164 B CN 108280164B CN 201810048272 A CN201810048272 A CN 201810048272A CN 108280164 B CN108280164 B CN 108280164B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- topic
- category
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于类别相关单词的短文本过滤与分类方法,将传统主题模型的主题根据功能分成“类别主题”和“普通主题”;构造伪文本集,并以伪文本集作为模型的训练集对SSCF进行训练。训练结束后计算两类主题各自的词分布,并根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题,进而判断该短文本是否为无关文本,若有关,得到其所属类别。本发明利用“类别主题”和“普通主题”,结合词类关系,可以很好地从短文本集中抽取出与指定类别相关的文本并同时完成分类。由于该方法是一种非监督性的方法,不需要人工对数据进行标注,使得本发明可以广泛应用到各种短文本数据之上,具有广泛的实际意义和商业价值。
Description
技术领域
本发明属于计算机技术领域,涉及一种文本挖掘、文本分类、主题建模的方法,具体涉及一种借助人工选词和构建伪文本来估计语料中的词与类别间的关系,进而实现短文本的分类与过滤的主题建模方法。
背景技术
随着互联网的兴起,我们逐步进入大数据时代。与此同时,短文本已经成为互联网上一种越来越流行的文本数据。而短文本指的是长度较短,通常不超过 140个字符的文本,且表述内容丰富,组合比较灵活。常见的有网页页面摘要、新闻标题、文本广告、微博、Twitter、朋友圈更新等等。数量庞大的短文本中蕴含着庞杂的信息,建立一种高效的主题模型并从大量的短文本数据集快速准确得过滤掉包含无关信息的文本,同时对包含相关信息的文本实现准确分类是极具现实意义的。
传统的主题模型,旨在构建一个更为完全概率生成模型的主题模型方法,使得不同长度的文本可以以相同的维度向量进行表示。例如2003年,Bei.在 Journal of MachineLearning Research发表的一篇名为“Latent Dirichlet Allocation”,常用于传统文本的分析。要想更进一步得利用短文本中蕴含的信息,需要在文本分析的基础上建立起过滤和分类能力。
发明内容
为了解决上述技术问题,本发明提出了一种基于类别相关单词的短文本过滤与分类方法。
本发明所采用的技术方案是:一种基于类别相关单词的短文本过滤与分类方法,其特征在于,包括以下步骤:
步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;
步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;
步骤3:根据步骤2得到的单词在主题下的分布,为每个类别选出若干相关词,记为“种子词”;
步骤4:利用步骤2中确定出的结果和步骤3中选出的种子词,计算每个词与每个类别之间的关联度;
步骤5:每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成,根据步骤4得到的词与类别之间的相似度构建SSCF主题模型,经过训练得到单词关于主题的分布;
步骤6:根据步骤5的单词主题分布确定该文本的分类结果。
作为优选,步骤1的具体实现包括以下子步骤:
步骤1.1:对于短文本数据集词汇表中的每一个词w一次执行步骤1.2到1.4;
步骤1.2:对于短文本数据集中的每一篇文档d依次执行步骤1.3;
步骤1.3:用滑动窗口扫描短文本,同时窗口每滑动一次就记录所有与词w 出现在同一窗口中的词;
步骤1.4:用步骤1.3记录的词组成属于词w的伪文本dw。
作为优选,步骤2的具体实现包括以下子步骤:
步骤2.1:给定标准主题模型LDA的超参数α和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目 T,模型训练迭代次数Iter;
步骤2.2:遍历伪文本数据集中每一篇文档d,随机为d中的每一个词赋予一个主题k,关联到主题k下的单词数量,记为nk,各个主题k下各个单词w与主题k所关联的数量,记为在伪文本d中关联到主题k下的单词数量记为
步骤2.3:对于短文本数据集中的每一篇文档d依次执行步骤2.4至步骤 2.6;
步骤2.5:对词w采样出一个新主题knew;
步骤2.7:循环执行步骤2.3至步骤2.6,直到运行完预设迭代次数Iter 后,计算出该短文本数据集下的主题单词分布pLDA(w|k),伪文本主题分布 pLDA(k│dw),其中,pLDA(w|k)表示单词在主题下的分布,pLDA(k│dw)表示主题在伪文本下的分布。
作为优选,步骤2.5中采样公式为:
作为优选,步骤2.7中:
作为优选,步骤3的具体实现过程是:对每个主题z,取单词w在主题z下分布pLDA(w|k)中最大的前30个词,人工判断这些词与每个类别的语义关联,若单词w与在经验上看来与类别c相关,则取词w为类别c的种子词。
作为优选,步骤4中所述每个词与每个类别之间的关联度πw,c为:
其中,s表示种子词,|Sc|表示属于类别c的种子词数量,ds表示种子词s 对应的伪文本,σ,υ为可调参数,K表示步骤2中标准主题模型LDA的主题数目,k表示其中的某个主题,C表示数据集中总的类别数,c表示其中某个类别。
作为优选,步骤5的具体实现包括以下子步骤:
步骤5.1:将SSCF主题模型的主题分为“类别主题”和“普通主题”两种类型;其中,“类别主题”与短文本数据集中的类别一一对应,即数据集中有多少类别,“类别主题”就有多少主题;而“普通主题”是人为指定;
步骤5.2:给定SSCF主题模型的超参数α,∈和β0,β1,其中α是文本到普通主题的狄利克雷分布的先验参数,∈是文本到类别主题的狄利克雷分布的先验参数,β0是类别主题到单词的狄利克雷分布的先验参数,β1是普通主题到单词的狄利克雷分布的先验参数,普通主题数目T,类别数目C,模型训练迭代次数Iter;
步骤5.4:循环执行步骤5.5至步骤5.15直到运行完预设迭代次数Iter;
步骤5.5:对数据集中的每个类别c依次执行步骤5.6至5.10;
步骤5.6:对每个属于c的种子词s依次执行步骤5.7至5.10;
步骤5.7:对s对应的伪文本ds中的每一个单词w依次执行步骤5.8至5.10;
步骤5.10:在得到新主题后更新相关计数器,即在计数器中加1;
步骤5.11:对每个非种子词w依次执行步骤5.12至5.15;
步骤5.12:对每个属于w的伪文本dw中的词w′依次执行步骤5.13至5.15;
步骤5.15:在得到新主题后更新相关计数器,即在计数器中加1;
步骤5.16:计算单词集合中单词到普通主题的概率分布p(w|z=t)和单词到类别主题的概率分布。
作为优选,步骤5.9中的采样公式为:
步骤5.14的采样公式为:
各变量对应的计算公式如下:
其中表示属于种子词s的伪文本ds中第i个词与类别c的相关度,表示属于非种子词w的伪文本dw中第i个词与类别c的相关度;表示类别主题c中词w的个数,表示普通主题t中词w的个数,和分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量;和分别表示种子词s或非种子词w对应的伪文本中含有关联到普通主题t的词的数量;为指示符,只有当s为类别c的种子词时才为1,否则为0。
作为优选,步骤5.16的单词到普通主题的概率分布p(w|z=t)的计算方法如下:
单词到类别主题的概率分布p(w|z=c)的计算方法如下:
其中k表示类别主题或普通主题中任一主题,p(w|z=k)表示主题下单词的分布,p(z=k|w)表示单词关于主题的分布,p(w|d)表示在文本d中词w的词频;的预测值为类别主题c时文本d即为属于类别c的相关文本,的预测值为普通主题时文本d即为无关文本。
本发明提出将传统主题模型的主题根据功能分成两种类型的主题:“类别主题”和“普通主题”。“类别主题”与短文本集中的类别一一对应,“普通主题”是人为指定。构造伪文本集,并以伪文本集作为模型的训练集对SSCF进行训练。伪文本的每个词都被视作由“类别主题”或“普通主题”所生成的,在训练过程中结合词类相关度使得与每个类别真正相关的词能够尽可能地关联到正确的“类别主题”中,而与每个类别都没有明显关系的词则会关联到“普通主题”中,在训练结束后计算“类别主题”和“普通主题”各自的词分布。最后,根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题,如果关联主题是“类别主题”,短文本即属于“类别主题”对应的类别;如果关联主题是“普通主题”,短文本即为无关文本。
本发明模型利用“类别主题”和“普通主题”结合词类关系,很好地实现了基于类别相关单词的短文本分类和过滤任务。根据本发明所提供的模型结果,可以很好地从短文本集中抽取出与指定类别相关的文本并同时完成分类。由于该方法是一种非监督性的方法,不需要人工对数据进行标注,使得本发明可以广泛应用到各种短文本数据之上,具有广泛的实际意义和商业价值。
附图说明
图1为本发明实施例的原理示意图;
图2为本发明实施例的伪文本的构造示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了基于类别相关单词的短文本过滤与分类方法,该方法利用了“类别主题”和“普通主题”结合词类关系实现了主题模型在短文中的分类和过滤功能。本发明假定短文本中的每个词都由一个主题生成,通过在伪文本集上的训练,本发明模型可以得到每个单词由不同主题生成的概率,也就是单词在主题下的分布,利用这些分布最终决定短文本的关联主题也就是文本的分类结果。
本发明的主题模型,首先提出了两种类型主题:“类别主题”和“普通主题”。并通过滑动窗口扫描短文本构建出伪文本集与人工选出的关键词计算出词与类别的关系。两种类型的主题结合词类关系实现了从短文本集中过滤掉与所有类别的文本,并对剩下的文本分类。
请见图1和图2,本发明提供的一种基于类别相关单词的短文本过滤与分类方法,包括以下步骤:
步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;
a)下载公开的短文本数据集Snippet (http://acube.di.unipi.it/tmn-dataset/),该数据集中每个文档都被赋予一个类别标签;在预处理过程中去除其中的停用词,过滤掉单词频率小于5的单词,最后得到12,265篇文档,文档平均长度为10.72,共有单词数目5,581;
b)用滑动窗口扫描短文本,窗口长度为5,窗口每次滑动步长为一个单词。每一次滑动都要记录所有与词w出现在同一窗口中的词,直至窗口范围完全离开词w。离词w越近的词被记录的次数就越多;
c)利用滑动窗口,词w在不同文本中扫描得到的记录全部汇集到一起组成属于词w的伪文本记为dw。
步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;
具体实现包括以下子步骤:
a)给定标准主题模型LDA的超参数α和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目T,模型训练迭代次数Iter;
c)对于短文本数据集中的每一篇文档d依次执行步骤d)至步骤f);
e)对词w采样出一个新主题knew,采样公式如下:
g )循环执行步骤c)至步骤f),直到运行完预设迭代次数Iter后,计算出该数据集下的主题单词分布pLDA(w|k),伪文本主题分布pLDA(k│dw);
其中,主题单词分布计算如下:
伪文本主题分布计算如下:
步骤3:根据步骤2得到的单词在主题下的分布,为每个类别人工选出一些相关词,这些词也称为“种子词”;
对每个主题z取pLDA(w|k)最大的前30个词,人工判断这些词与每个类别的语义关联,若单词w与在经验上看来与类别c相关,则取词w为类别c的种子词。
步骤4:利用步骤2得到的分布和步骤3选出的种子词,计算每个词与每个类别之间的关联度πw,c,公式如下:
其中,s表示种子词,|Sc|表示属于类别c的种子词数量,ds表示种子词s 对应的伪文本,σ,υ为可调参数,K表示步骤2中标准主题模型LDA的主题数目, k表示其中的某个主题,C表示数据集中总的类别数,c表示其中某个类别。
步骤5:不同于普通的话题模型只有一种,本发明的模型有两种主题。每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成。其中“类别主题”与短文本集中所包含的类别是一一对应的,“普通主题”则是由人为指定。根据本发明的模型,同时利用步骤4得到的词与类别之间的相关度,就可以训练得到每个单词关于不同主题的分布;
a)将主题模型SSCF的主题分为“类别主题”和“普通主题”两种类型;其中,“类别主题”与短文本数据集中的类别一一对应,即数据集中有多少类别,“类别主题”就有多少主题;而“普通主题”是人为指定;
b)给定主题模型SSCF的超参数α,∈和β0,β1,其中α是文本到普通主题的狄利克雷分布的先验参数,∈是文本到类别主题的狄利克雷分布的先验参数,β0是类别主题到单词的狄利克雷分布的先验参数,β1是普通主题到单词的狄利克雷分布的先验参数,普通主题数目T,类别数目C,模型训练迭代次数Iter;
d)循环执行步骤e)至步骤j)直到运行完预设迭代次数Iter;
e)对数据集中的每个类别c依次执行步骤f)至j);
f)对每个属于c的种子词s依次执行步骤g)至j);
g)对s对应的伪文本ds中的每一个单词w依次执行步骤h)至j);
各部分的详细计算方法:
其中表示属于种子词s的伪文本ds中第i个词与类别c的相关度,表示属于非种子词w的伪文本dw中第i个词与类别c的相关度。表示类别主题c中词w的个数,表示普通主题t中词w的个数,和分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量。和分别表示种子词s或非种子词w对应的伪文本中含有关联到普通主题t的词的数量;为指示符,只有当s为类别c的种子词时才为1,否则为0;α,∈,β0,β1同步骤b)所述。
j)在得到新主题后更新相关计数器,即在计数器中加1;
k)对每个非种子词w依次执行步骤l)至o);
l)对每个属于w的伪文本dw中的词w′依次执行步骤m)至o);
o)在得到新主题后更新相关计数器,即在计数器中加1;
p)计算单词集合中单词到普通主题的概率分布p(w|z=t)和单词到类别主题的概率分布。其中,单词到普通主题的概率分布p(w|z=t)的计算方法:
单词到类别主题的概率分布p(w|z=c)的计算方法如下:
其中β0是类别主题到单词的狄利克雷分布的先验参数,β1是普通主题到单词的狄利克雷分布的先验参数。
步骤6:根据步骤5的单词到主题的分布确定该文本的分类结果,具体计算方法如下:
其中k表示类别主题或普通主题中任一主题,p(w|z=k)表示主题下单词的分布,p(w|z=k)表示单词关于主题的分布,p(w|d)表示在文本d中词w的词频。的预测值为类别主题c时文本d即为属于c对应类别的相关文本,的预测值为普通主题时文本d即为无关文本。
传统的主题模型经过训练只能得到主题的词分布和文本的主题分布,然而只依靠这两个分布是不能完成文本分类或是过滤功能。本发明提出将传统主题模型的主题根据功能分成两种类型的主题:“类别主题”和“普通主题”。“类别主题”与短文本集中的类别一一对应,与“类别主题”相关联的文本即被视为文本内容属于这个类别。“普通主题”是人为指定,与“普通主题”相关联的文本被视为无关文本,也即文本中的内容不属于任何一个类别。
本实施例在模型训练前先通过滑动窗口扫描短文本集并构建出对应的伪文本集,之后以伪文本集作为模型的训练集。在伪文本中,每个词都被视作由“类别主题”或“普通主题”所生成的。该模型在训练前估计了每个词与类别相关度,在训练过程中结合词类相关度使得与每个类别真正相关的词能够尽可能得关联到正确的“类别主题”中。而与每个类别都没有明显关系的词则会关联到“普通主题”中。在训练结束后计算“类别主题”和“普通主题”各自的词分布。
在最终环节,根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题,如果关联主题是“类别主题”,短文本即属于“类别主题”对应的类别;如果关联主题是“普通主题”,短文本即为无关文本。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (6)
1.一种基于类别相关单词的短文本过滤与分类方法,模型名称为SSCF,其特征在于,包括以下步骤:
步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;
步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;
步骤2的具体实现包括以下子步骤:
步骤2.1:给定标准主题模型LDA的超参数α和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目T,模型训练迭代次数Iter;
步骤2.2:遍历伪文本数据集中每一篇文档d,随机为d中的每一个词赋予一个主题k,关联到主题k下的单词数量,记为nk,各个主题k下各个单词w与主题k所关联的数量,记为在伪文本d中关联到主题k下的单词数量记为
步骤2.3:对于短文本数据集中的每一篇文档d依次执行步骤2.4至步骤2.6;
步骤2.5:对词w采样出一个新主题knew;
步骤2.5中采样公式为:
步骤2.7:循环执行步骤2.3至步骤2.6,直到运行完预设迭代次数Iter后,计算出该短文本数据集下的主题单词分布pLDA(w|k),伪文本主题分布pLDA(k│dw),其中,pLDA(w|k)表示单词在主题下的分布,pLDA(k│dw)表示主题在伪文本下的分布;
步骤2.7中:
步骤3:根据步骤2得到的单词在主题下的分布,为每个类别选出若干相关词,记为“种子词”;
步骤4:利用步骤2中确定出的结果和步骤3中选出的种子词,计算每个词与每个类别之间的关联度;
步骤5:每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成,根据步骤4得到的词与类别之间的相似度构建SSCF主题模型,经过训练得到单词关于主题的分布;
步骤5的具体实现包括以下子步骤:
步骤5.1:将SSCF主题模型的主题分为“类别主题”和“普通主题”两种类型;其中,“类别主题”与短文本数据集中的类别一一对应,即数据集中有多少类别,“类别主题”就有多少主题;“普通主题”是人为指定;
步骤5.2:给定SSCF主题模型的超参数α,∈和β0,β1,其中α是文本到普通主题的狄利克雷分布的先验参数,∈是文本到类别主题的狄利克雷分布的先验参数,β0是类别主题到单词的狄利克雷分布的先验参数,β1是普通主题到单词的狄利克雷分布的先验参数,普通主题数目T,类别数目C,模型训练迭代次数Iter;
步骤5.4:循环执行步骤5.5至步骤5.15直到运行完预设迭代次数Iter;
步骤5.5:对数据集中的每个类别c依次执行步骤5.6至5.10;
步骤5.6:对每个属于c的种子词s依次执行步骤5.7至5.10;
步骤5.7:对s对应的伪文本ds中的每一个单词w依次执行步骤5.8至5.10;
步骤5.9中的采样公式为:
步骤5.10:在得到新主题后更新相关计数器,即在计数器中加1;
步骤5.11:对每个非种子词w依次执行步骤5.12至5.13;
步骤5.12:对每个属于w的伪文本dw中的词w′依次执行步骤5.13至5.15;
步骤5.14的采样公式为:
各变量对应的计算公式如下:
其中,表示属于种子词s的伪文本ds中第i个词与类别c的相关度,表示属于非种子词w的伪文本dw中第i个词与类别c的相关度;表示类别主题c中词w的个数,表示普通主题t中词w的个数,和分别表示种子词s或非种子词w对应的伪文本中含有关联到类别主题c的词的数量;和分别表示种子词s或非种子词w对应的伪文本中含有关联到普通主题t的词的数量;为指示符,只有当s为类别c的种子词时才为1,否则为0;
步骤5.15:在得到新主题后更新相关计数器,即在计数器中加1;
步骤5.16:计算单词集合中单词到普通主题的概率分布p(w|z=t)和单词到类别主题的概率分布;
步骤6:根据步骤5的单词主题分布确定该文本的分类结果。
2.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤1的具体实现包括以下子步骤:
步骤1.1:对于短文本数据集词汇表中的每一个词w一次执行步骤1.2到1.4;
步骤1.2:对于短文本数据集中的每一篇文档d依次执行步骤1.3;
步骤1.3:用滑动窗口扫描短文本,同时窗口每滑动一次就记录所有与词w出现在同一窗口中的词;
步骤1.4:用步骤1.3记录的词组成属于词w的伪文本dw。
3.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤3的具体实现过程是:对每个主题z,取单词w在主题z下分布pLDA(w|k)中最大的前30个词,人工判断这些词与每个类别的语义关联,若单词w与在经验上看来与类别c相关,则取词w为类别c的种子词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810048272.7A CN108280164B (zh) | 2018-01-18 | 2018-01-18 | 一种基于类别相关单词的短文本过滤与分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810048272.7A CN108280164B (zh) | 2018-01-18 | 2018-01-18 | 一种基于类别相关单词的短文本过滤与分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108280164A CN108280164A (zh) | 2018-07-13 |
CN108280164B true CN108280164B (zh) | 2021-10-01 |
Family
ID=62804133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810048272.7A Active CN108280164B (zh) | 2018-01-18 | 2018-01-18 | 一种基于类别相关单词的短文本过滤与分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280164B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110032642B (zh) * | 2019-03-26 | 2022-02-11 | 广东工业大学 | 基于词嵌入的流形主题模型的建模方法 |
CN111090995B (zh) * | 2019-11-15 | 2023-03-31 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN111126597A (zh) * | 2019-12-17 | 2020-05-08 | 武汉大学 | 一种用于条件文本生成的深度学习模型的构建方法以及条件文本的生成方法 |
CN111897952B (zh) * | 2020-06-10 | 2022-10-14 | 中国科学院软件研究所 | 一种面向社交媒体的敏感数据发现方法 |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN113704471B (zh) * | 2021-08-26 | 2024-02-02 | 唯品会(广州)软件有限公司 | 语句的分类方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927302A (zh) * | 2013-01-10 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和系统 |
CN103984771A (zh) * | 2014-06-04 | 2014-08-13 | 武汉大学 | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 |
CN104572613A (zh) * | 2013-10-21 | 2015-04-29 | 富士通株式会社 | 数据处理装置、数据处理方法和程序 |
CN105955948A (zh) * | 2016-04-22 | 2016-09-21 | 武汉大学 | 一种基于单词语义相似度的短文本主题建模方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9092422B2 (en) * | 2009-12-30 | 2015-07-28 | Google Inc. | Category-sensitive ranking for text |
-
2018
- 2018-01-18 CN CN201810048272.7A patent/CN108280164B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927302A (zh) * | 2013-01-10 | 2014-07-16 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和系统 |
CN104572613A (zh) * | 2013-10-21 | 2015-04-29 | 富士通株式会社 | 数据处理装置、数据处理方法和程序 |
CN103984771A (zh) * | 2014-06-04 | 2014-08-13 | 武汉大学 | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 |
CN105955948A (zh) * | 2016-04-22 | 2016-09-21 | 武汉大学 | 一种基于单词语义相似度的短文本主题建模方法 |
Non-Patent Citations (1)
Title |
---|
词向量与LDA相融合的短文本分类方法;张群 等;《现代图书情报技术》;20161231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108280164A (zh) | 2018-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280164B (zh) | 一种基于类别相关单词的短文本过滤与分类方法 | |
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN106650943B (zh) | 基于人工智能的辅助写作方法和装置 | |
CN107239529B (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
CN107832299B (zh) | 基于人工智能的标题的改写处理方法、装置及可读介质 | |
CN109977413A (zh) | 一种基于改进cnn-lda的情感分析方法 | |
WO2021073116A1 (zh) | 生成法律文书的方法、装置、设备和存储介质 | |
CN106844632B (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
CN107992531A (zh) | 基于深度学习的新闻个性化智能推荐方法与系统 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN109858034B (zh) | 一种基于注意力模型和情感词典的文本情感分类方法 | |
CN105551485B (zh) | 语音文件检索方法及系统 | |
CN107679031B (zh) | 基于堆叠降噪自编码机的广告博文识别方法 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
CN109741824B (zh) | 一种基于机器学习的医疗问诊方法 | |
CN109902289A (zh) | 一种面向模糊文本挖掘的新闻视频主题分割方法 | |
WO2021093012A1 (zh) | 时间序列数据组成模式的提取方法、装置及终端设备 | |
US11727915B1 (en) | Method and terminal for generating simulated voice of virtual teacher | |
CN103559193A (zh) | 一种基于选择单元的主题建模方法 | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
CN102521402B (zh) | 文本过滤系统及方法 | |
CN111026866B (zh) | 一种面向领域的文本信息抽取聚类方法、设备和存储介质 | |
CN106710588B (zh) | 语音数据句类识别方法和装置及系统 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN110738047A (zh) | 基于图文数据与时间效应的微博用户兴趣挖掘方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |