CN108399228A - 文章分类方法、装置、计算机设备及存储介质 - Google Patents

文章分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108399228A
CN108399228A CN201810145905.6A CN201810145905A CN108399228A CN 108399228 A CN108399228 A CN 108399228A CN 201810145905 A CN201810145905 A CN 201810145905A CN 108399228 A CN108399228 A CN 108399228A
Authority
CN
China
Prior art keywords
word
article
theme
matrix
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810145905.6A
Other languages
English (en)
Other versions
CN108399228B (zh
Inventor
陈海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810145905.6A priority Critical patent/CN108399228B/zh
Priority to PCT/CN2018/085344 priority patent/WO2019153551A1/zh
Publication of CN108399228A publication Critical patent/CN108399228A/zh
Application granted granted Critical
Publication of CN108399228B publication Critical patent/CN108399228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文章分类方法、装置、计算机设备及存储介质。该方法包括:将待打标签文章对应的词语‑文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题‑词语矩阵及文档‑主题矩阵;通过文档‑主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;按主题标签对已打标签文章进行分类,得到文章分类结果。该方法将文章分词后,取文档‑主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。

Description

文章分类方法、装置、计算机设备及存储介质
技术领域
本申请涉及文章分类技术领域,尤其涉及一种文章分类方法、装置、计算机设备及存储介质。
背景技术
文章的标签有助于文章的搜索以及分类,目前常用的方式是手动打标签,即作者为自己的文章打标签,但是并非所有作者都为自己的文章打标签。若海量的未打标签的文章都通过手动打标的方式来实现标签的添加之后在进行分类,而不是在无标签或智能化添加标签后进行分类,则效率极其低下,而且大大的增加了人力成本。
发明内容
本申请提供了一种文章分类方法、装置、计算机设备及存储介质,旨在解决现有技术中海量的未打标签的文章都通过手动打标的方式来实现标签的添加之后在进行分类,导致效率极其低下,而且大大的增加了人力成本的问题。
第一方面,本申请提供了一种文章分类方法,其包括:
将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
按主题标签对已打标签文章进行分类,得到文章分类结果。
第二方面,本申请提供了一种文章分类装置,其包括:
LDA模型训练单元,用于将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
主题标签增加单元,用于通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
文章分类单元,用于按主题标签对已打标签文章进行分类,得到文章分类结果。
第三方面,本申请又提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请提供的任一项所述的文章分类方法。
第四方面,本申请还提供了一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的文章分类方法。
本申请提供一种文章分类方法、装置、计算机设备及存储介质。该方法将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;按主题标签对已打标签文章进行分类,得到文章分类结果。该方法将文章分词后,取文档-主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文章分类方法的示意流程图;
图2是本申请实施例提供的一种文章分类方法的另一示意流程图;
图3为本申请实施例提供的一种文章分类装置的示意性框图;
图4为本申请实施例提供的一种文章分类装置的另一示意性框图;
图5为本申请实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本申请实施例提供的一种文章分类方法的示意流程图。该方法应用于台式电脑、手提电脑、平板电脑等终端中。如图1所示,该方法包括步骤S101~S103。
S101、将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵。
本实施例中,待打标签文章是已预先存储至指定路径的多篇文章或是从互联网上爬取的多篇文章,这多篇文章则是作为LDA模型的输入进行处理。例如终端上有一任务文件夹,可通过手动拷贝文件的方式将文章拷贝进任务文件夹,也可以是通过编写的自动拷贝脚本将文章自动拷贝进任务文件夹。将任务文件夹中的待打标签文章分词预处理而得到对应的词语-文档矩阵,通过LDA模型对词语-文档矩阵进行训练后,得到对应的主题-词语矩阵及文档-主题矩阵。
如图2所示,所述步骤S101之前还包括:
S1001、对待打标签文章进行分词,得到分词后文本。
在本实施例中,是基于概率统计模型的分词方法对待打标签文本进行分词。基于概率统计模型的分词方法的步骤如下:
S10011、对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;
S10012、到词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;
S10013、计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
S10014、如果当前词wn是字串S的尾词,且累计概率P(wn)最大,则wn就是S的终点词;
S10015、从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。
S1002、对分词后文本包括的分词一一设置加权值。
在本实施例中,以已进行分词的待打标签文本中分词来进行加权处理,也就是已进行分词的待打标签文本中是可以视作由多个分词组成,此时对整篇已进行分词的待打标签文本从头至尾按位置、词性、长度等因素对文本中的各分词进行加权处理,按如下规则:
文本第一个词是标题,赋予权值8*;段首第一个词等于“摘要”,则赋予权值5*;段首第一个词等于“关键词”或“结论”,则赋予权值5*;词语长度等于2,赋予权值3*;词性为名词,赋予权值2*;其他,每段首赋予权值1*。
S1003、删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组。
三元组<wi,frei,vi>表示待打标签文本经处理后的结果集,其中wi是词语,frei是词语wi加权后出现的次数,vi是词语在文本中的位置权重;其中,当对分词后文本包括的分词一一设置加权值后,需删除其中的停用词(停用词包括虚拟词、语气组词、副词、符号、一个字的词,这些停用词不会作为关键词的候选词),能准确的筛选出候选的关键词进行后续处理。
S1004、获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度。
其中,通过词语相似度计算,计算第一三元组<wi,frei,vi>中词频frei>2的所有词语相似度simij;当simij>0.9则认为两个词语的相似度极高,在文本中可以替换,将返回四元组<wi,wj,simij,frei+frej>,并删除第一三元组里的词语wj。四元组<wi,wj,simij,frei+frej>表示对三元组中部分词语计算相似度后的集合,其中simij表示词语wi、wj的相似度,frei+frej表示两个词语的词频之和。
S1005、若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本。
其中,在第一三元组<wi,frei,vi>中,查找四元组<wi,wj,simij,frei+frej>中的词语;当三元组的frei替换为四元组中的frei+frej,重新组成第二三元组<wi,frei+frej,vi>,该第二三元组<wi,frei+frej,vi>即为预处理文本。
S1006、根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
其中,得到了三元组<wi,frei+frej,vi>后,就能根据每一词语wi及其对应的加权后出现的次数frei得到一个词语-文档矩阵。
为了更清楚的理解本申请的技术方案,下面对LDA模型进行介绍。
LDA模型(英文全称是Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。
通过LDA模型对M份包含N个单词的文档(M和N均为正整数)进行训练时,主要通过以下步骤:
把每篇文章看成一个向量,词为特征,假设总共有N个词,则M篇文章组成N*M的矩阵,该LDA模型使用下面方法生成1个文档,
Chooseparameterθ~p(θ);
For each ofthe N words w_n:
Choose atopic z_n~p(z|θ);
Choose aword w_n~p(w|z);
其中,Chooseparameter表示选择参数,Choose atopic表示选择主题,Choose aword表示选择词语,For each ofthe N words w_n表示将每篇文档的N个词用w_n简记;其中,θ是一个主题向量,向量的每一列表示每个主题在文档出现的概率,该向量为非负归一化向量;p(θ)是θ的分布,具体为狄利克雷分布;N和w_n同上;z_n表示选择的主题,p(z|θ)表示给定θ时主题z的概率分布,具体为θ的值,即p(z=i|θ)=θ_i;p(w|z)表示给定主题z时词语n的概率分布。
上述LDA模型首先选定一个主题向量θ,确定每个主题被选择的概率;然后在生成每个单词时,从主题分布向量θ中选择一个主题z,按主题z的单词概率分布生成一个单词。
在一实施例中,所述LDA模型具体如下:
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
其中,α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次;θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ;z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个单词w对应一个主题z。
从上可知,LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:
α,分布p(θ)需要一个向量参数,即Dirichlet分布(即狄利克雷分布)的参数,用于生成一个主题θ向量;
β,各个主题对应的单词概率分布矩阵p(w|z);
其中给定的输入语料则是相当于训练出LDA模型中两个控制参数α和β的历史数据,即给定的输入语料也就是已打好标签的多篇文章。将已打好标签的多篇文章作为LDA模型的输入,不断进行训练,就能确定控制参数α和β。
在一实施例中,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。若求解过程中遇到后验概率p(θ,z|w)无法直接求解,通过EM算法(即最大期望算法)来近似求解;每次E-step(E-step为LDA模型中的变分推断)输入α和β,计算似然函数,M-step最大化这个似然函数,算出α和β,不断迭代直到收敛,从而对应得到主题-词语矩阵、及文档-主题矩阵。
其中,要生成一篇文档,它里面的每个词语出现的概率为:
上述公式可以用矩阵表示,即文档-词语矩阵=主题-词语矩阵×文档-主题矩阵;其中,文档-词语矩阵表示每个文档中每个单词的词频,即每个单词出现的概率;主题-词语矩阵表示每个主题中每个单词的出现概率;文档-主题矩阵表示每个文档中每个主题出现的概率。
给定一系列文档,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到左边的文档-词语矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵。
S102、通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章。
在本实施例中,获取了文档-主题矩阵后,就获取了该文档的主题,也可以理解为获取了该文章的关键词,这一关键词就能直接作为该文章的标签以作分类使用。由于通过LDA模型对将待打标签文章进行训练而得到词语-文档矩阵,这一过程会随着训练数据计算的增大,输出的文档-主题矩阵越来越精确,能更精准的根据主题(即文章的最佳关键词)对文章进行分类。
S103、按主题标签对已打标签文章进行分类,得到文章分类结果。
在本实施例中,是将具有相同主题的文档归到同一类后,得到文章分类结果。通过上述分类,实现了文章的自动化和智能化的分类,无需手动分类。
在一实施例中,所述步骤S1001之前还包括:
S1000、爬取待打标签文章,并将待打标签文章传输至指定路径存储。
即原始数据从网上爬取,得到待打标签文章,存放到MongoDB数据库。通过爬取数据,可设置一筛选条件,即爬取未设置标签的文本从而进行打标签,以进行文章分类。
可见,该方法将文章分词后,取文档-主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。
本申请实施例还提供一种文章分类装置,该文章分类装置用于执行前述任一项文章分类方法。具体地,请参阅图3,图3是本申请实施例提供的一种文章分类装置的示意性框图。文章分类装置100可以安装于台式电脑、平板电脑、手提电脑、等终端中。
如图3所示,文章分类装置100包括LDA模型训练单元101、主题标签增加单元102、文章分类单元103。
LDA模型训练单元101,用于将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵。
本实施例中,待打标签文章是已预先存储至指定路径的多篇文章或是从互联网上爬取的多篇文章,这多篇文章则是作为LDA模型的输入进行处理。例如终端上有一任务文件夹,可通过手动拷贝文件的方式将文章拷贝进任务文件夹,也可以是通过编写的自动拷贝脚本将文章自动拷贝进任务文件夹。将任务文件夹中的待打标签文章分词预处理而得到对应的词语-文档矩阵,通过LDA模型对词语-文档矩阵进行训练后,得到对应的主题-词语矩阵及文档-主题矩阵。
如图4所示,所述文章分类装置100还包括:
分词单元1001,用于对待打标签文章进行分词,得到分词后文本。
在本实施例中,是基于概率统计模型的分词方法对待打标签文本进行分词。基于概率统计模型的分词方法如下:
1)对一个待分词的子串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi,…,wn;
2)到词典中查出每个候选词的概率值P(wi),并记录每个候选词的全部左邻词;
3)计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词;
4)如果当前词wn是字串S的尾词,且累计概率P(wn)最大,则wn就是S的终点词;
5)从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即S的分词结果。
加权单元1002,用于对分词后文本包括的分词一一设置加权值。
在本实施例中,以已进行分词的待打标签文本中分词来进行加权处理,也就是已进行分词的待打标签文本中是可以视作由多个分词组成,此时对整篇已进行分词的待打标签文本从头至尾按位置、词性、长度等因素对文本中的各分词进行加权处理,按如下规则:
文本第一个词是标题,赋予权值8*;段首第一个词等于“摘要”,则赋予权值5*;段首第一个词等于“关键词”或“结论”,则赋予权值5*;词语长度等于2,赋予权值3*;词性为名词,赋予权值2*;其他,每段首赋予权值1*。
统计单元1003,用于删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组。
三元组<wi,frei,vi>表示待打标签文本经处理后的结果集,其中wi是词语,frei是词语wi加权后出现的次数,vi是词语在文本中的位置权重;其中,当对分词后文本包括的分词一一设置加权值后,需删除其中的停用词(停用词包括虚拟词、语气组词、副词、符号、一个字的词,这些停用词不会作为关键词的候选词),能准确的筛选出候选的关键词进行后续处理。
相似度获取单元1004,用于获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度。
其中,通过词语相似度计算,计算第一三元组<wi,frei,vi>中词频frei>2的所有词语相似度simij;当simij>0.9则认为两个词语的相似度极高,在文本中可以替换,将返回四元组<wi,wj,simij,frei+frej>,并删除第一三元组里的词语wj。四元组<wi,wj,simij,frei+frej>表示对三元组中部分词语计算相似度后的集合,其中simij表示词语wi、wj的相似度,frei+frej表示两个词语的词频之和。
删词单元1005,用于若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本。
其中,在第一三元组<wi,frei,vi>中,查找四元组<wi,wj,simij,frei+frej>中的词语;当三元组的frei替换为四元组中的frei+frej,重新组成第二三元组<wi,frei+frej,vi>,该第二三元组<wi,frei+frej,vi>即为预处理文本。
其中,得到了三元组<wi,frei+frej,vi>后,就能根据每一词语wi及其对应的加权后出现的次数frei得到一个词语-文档矩阵。
词语-文档矩阵获取单元1006,用于根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
其中,得到了三元组<wi,frei+frej,vi>后,就能根据每一词语wi及其对应的加权后出现的次数frei得到一个词语-文档矩阵。
在一实施例中,所述LDA模型具体如下:
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
其中,α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次;θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ;z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个单词w对应一个主题z。
从上可知,LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:
α,分布p(θ)需要一个向量参数,即Dirichlet分布(即狄利克雷分布)的参数,用于生成一个主题θ向量;
β,各个主题对应的单词概率分布矩阵p(w|z);
其中给定的输入语料则是相当于训练出LDA模型中两个控制参数α和β的历史数据,即给定的输入语料也就是已打好标签的多篇文章。将已打好标签的多篇文章作为LDA模型的输入,不断进行训练,就能确定控制参数α和β。
在一实施例中,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。若求解过程中遇到后验概率p(θ,z|w)无法直接求解,通过EM算法(即最大期望算法)来近似求解;每次E-step(E-step为LDA模型中的变分推断)输入α和β,计算似然函数,M-step最大化这个似然函数,算出α和β,不断迭代直到收敛,从而对应得到主题-词语矩阵、及文档-主题矩阵。
其中,要生成一篇文档,它里面的每个词语出现的概率为:
上述公式可以用矩阵表示,即文档-词语矩阵=主题-词语矩阵×文档-主题矩阵;其中,文档-词语矩阵表示每个文档中每个单词的词频,即每个单词出现的概率;主题-词语矩阵表示每个主题中每个单词的出现概率;文档-主题矩阵表示每个文档中每个主题出现的概率。
给定一系列文档,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到左边的文档-词语矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵。
主题标签增加单元102,用于通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章。
在本实施例中,获取了文档-主题矩阵后,就获取了该文档的主题,也可以理解为获取了该文章的关键词,这一关键词就能直接作为该文章的标签以作分类使用。由于通过LDA模型对将待打标签文章进行训练而得到词语-文档矩阵,这一过程会随着训练数据计算的增大,输出的文档-主题矩阵越来越精确,能更精准的根据主题(即文章的最佳关键词)对文章进行分类。
文章分类单元103,用于按主题标签对已打标签文章进行分类,得到文章分类结果。
在本实施例中,是将具有相同主题的文档归到同一类后,得到文章分类结果。通过上述分类,实现了文章的自动化和智能化的分类,无需手动分类。
可见,该装置将文章分词后,取文档-主题矩阵便可得到各篇文章所属的主题,利用主题给文章分类,采用自动学习代替手动分类,节省人力成本,提高了分类效率。
上述文章分类装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500设备可以是终端。该终端可以是平板电脑、笔记本电脑、台式电脑、个人数字助理等电子设备。
参阅图5,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种文章分类方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种文章分类方法。
该网络接口505用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;按主题标签对已打标签文章进行分类,得到文章分类结果。
在一实施例中,处理器502还执行如下操作:对待打标签文章进行分词,得到分词后文本;对分词后文本包括的分词一一设置加权值;删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
在一实施例中,所述LDA模型为:
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,P(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
在一实施例中,处理器502还执行如下操作:爬取待打标签文章,并将待打标签文章传输至指定路径存储。
在一实施例中,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
本领域技术人员可以理解,图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图5所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供一种存储介质。该存储介质可以为存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时实现:将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;按主题标签对已打标签文章进行分类,得到文章分类结果。
在一实施例中,该程序指令被处理器执行时实现:对待打标签文章进行分词,得到分词后文本;对分词后文本包括的分词一一设置加权值;删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
在一实施例中,所述LDA模型为:
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
在一实施例中,该程序指令被处理器执行时实现:爬取待打标签文章,并将待打标签文章传输至指定路径存储。
在一实施例中,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
所述存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文章分类方法,其特征在于,包括:
将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
按主题标签对已打标签文章进行分类,得到文章分类结果。
2.根据权利要求1所述的文章分类方法,其特征在于,所述将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵之前,还包括:
对待打标签文章进行分词,得到分词后文本;
对分词后文本包括的分词一一设置加权值;
删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;
获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;
若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;
根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
3.根据权利要求1所述的文章分类方法,其特征在于,所述LDA模型为:
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
4.根据权利要求2所述的文章分类方法,其特征在于,所述对待打标签文章进行分词,得到分词后文本之前,还包括:
爬取待打标签文章,并将待打标签文章传输至指定路径存储。
5.根据权利要求3所述的文章分类方法,其特征在于,所述LDA模型中将w当做观察变量,θ和z当做隐藏变量,通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
6.一种文章分类装置,其特征在于,包括:
LDA模型训练单元,用于将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练,得到对应的主题-词语矩阵及文档-主题矩阵;
主题标签增加单元,用于通过文档-主题矩阵,获取与待打标签文章中每一文档对应的主题,并对每一文档对应增加主题标签,得到已打标签文章;
文章分类单元,用于按主题标签对已打标签文章进行分类,得到文章分类结果。
7.根据权利要求6所述的文章分类装置,其特征在于,还包括:
分词单元,用于对待打标签文章进行分词,得到分词后文本;
加权单元,用于对分词后文本包括的分词一一设置加权值;
统计单元,用于删除分词后文本中的停用词,并统计各分词的词频,得到第一三元组;
相似度获取单元,用于获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度;
删词单元,用于若分词之间的词语相似度大于预设词语相似度阈值,保留其中任意一个分词,得到第二三元组,并将第二三元组作为预处理文本;
词语-文档矩阵获取单元,用于根据预处理文本中所包括词语,及与每一词语的词频,获取词语-文档矩阵。
8.根据权利要求6所述的文章分类装置,其特征在于,所述LDA模型为:
其中,θ是主题向量,z是主题,w是单词,p(θ,z,w|α,β)是词语-文档矩阵对应的概率分布矩阵,p(θ|α)是θ关于α的狄利克雷分布,p(zn|θ)是主题-词语矩阵对应的概率分布矩阵,p(wn|zn,β)是主题-文档矩阵对应的概率分布矩阵,α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的文章分类方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的文章分类方法。
CN201810145905.6A 2018-02-12 2018-02-12 文章分类方法、装置、计算机设备及存储介质 Active CN108399228B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810145905.6A CN108399228B (zh) 2018-02-12 2018-02-12 文章分类方法、装置、计算机设备及存储介质
PCT/CN2018/085344 WO2019153551A1 (zh) 2018-02-12 2018-05-02 文章分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810145905.6A CN108399228B (zh) 2018-02-12 2018-02-12 文章分类方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN108399228A true CN108399228A (zh) 2018-08-14
CN108399228B CN108399228B (zh) 2020-11-13

Family

ID=63096460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810145905.6A Active CN108399228B (zh) 2018-02-12 2018-02-12 文章分类方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN108399228B (zh)
WO (1) WO2019153551A1 (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271519A (zh) * 2018-10-11 2019-01-25 北京邮电大学 宫廷服饰文本主题生成方法、装置、电子设备及存储介质
CN109388696A (zh) * 2018-09-30 2019-02-26 北京字节跳动网络技术有限公司 删除谣言文章的方法、装置、存储介质及电子设备
CN109446318A (zh) * 2018-09-14 2019-03-08 深圳市元征科技股份有限公司 一种确定汽车维修文档主题的方法及相关设备
CN109635290A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法、装置、设备和介质
CN109815495A (zh) * 2019-01-16 2019-05-28 西安交通大学 一种通过标签传播算法进行主题分面挖掘的方法
CN109885826A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质
CN110032639A (zh) * 2018-12-27 2019-07-19 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
CN110162797A (zh) * 2019-06-21 2019-08-23 北京百度网讯科技有限公司 文章质量检测方法和装置
CN110413994A (zh) * 2019-06-28 2019-11-05 宁波深擎信息科技有限公司 热点话题生成方法、装置、计算机设备和存储介质
CN110717326A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 基于机器学习的文本信息作者的识别方法及其装置
CN111191011A (zh) * 2020-04-17 2020-05-22 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN111325030A (zh) * 2020-03-31 2020-06-23 卓尔智联(武汉)研究院有限公司 文本标签构建方法、装置、计算机设备和存储介质
CN111353019A (zh) * 2020-02-25 2020-06-30 上海昌投网络科技有限公司 一种微信公众号公号主题分类方法及装置
CN111625650A (zh) * 2020-06-01 2020-09-04 领猎网络科技(上海)有限公司 一种文本归类方法
CN112036485A (zh) * 2020-08-31 2020-12-04 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN112052666A (zh) * 2020-08-09 2020-12-08 中信银行股份有限公司 一种专家确定方法、装置及存储介质
CN112084334A (zh) * 2020-09-04 2020-12-15 中国平安财产保险股份有限公司 语料的标签分类方法、装置、计算机设备及存储介质
CN112507113A (zh) * 2020-09-18 2021-03-16 青岛海洋科学与技术国家实验室发展中心 一种海洋大数据文本分类方法及系统
CN112667826A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种篇章去噪方法、装置、系统及存储介质
CN113326350A (zh) * 2021-05-31 2021-08-31 江汉大学 基于远程学习的关键词提取方法、系统、设备及存储介质
CN114691867A (zh) * 2022-03-09 2022-07-01 电子科技大学 一种内容分类方法、装置、系统及存储介质
CN115730237A (zh) * 2022-11-28 2023-03-03 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质
CN116702775A (zh) * 2023-08-07 2023-09-05 深圳市智慧城市科技发展集团有限公司 文本处理方法、文本处理装置及计算机可读存储介质
WO2023202322A1 (zh) * 2022-04-19 2023-10-26 北京字节跳动网络技术有限公司 一种主题聚合方法、装置及电子设备

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727797A (zh) * 2019-09-17 2020-01-24 北京三快在线科技有限公司 标签生成方法、装置、电子设备和计算机可读介质
CN110717043A (zh) * 2019-09-29 2020-01-21 三螺旋大数据科技(昆山)有限公司 基于网络表示学习训练的学术团队构建方法
CN110728135B (zh) * 2019-10-12 2023-06-09 中国科学技术信息研究所 文本主题标引方法、装置、电子设备及计算机存储介质
CN110781671B (zh) * 2019-10-29 2023-02-14 西安科技大学 一种智能ietm故障维修记录文本的知识挖掘方法
CN111125358B (zh) * 2019-12-17 2023-07-11 北京工商大学 一种基于超图的文本分类方法
CN111104483A (zh) * 2019-12-18 2020-05-05 华北电力大学 基于机器学习的ict系统故障分析及辅助判别方法
CN111144113B (zh) * 2019-12-31 2024-02-06 安徽智恒信科技股份有限公司 一种基于机器学习的能力模型与工单匹配方法及系统
CN111241284B (zh) * 2020-01-15 2024-04-02 北京小米松果电子有限公司 文章内容识别方法、装置及计算机存储介质
CN111382268B (zh) * 2020-02-25 2023-12-01 北京小米松果电子有限公司 文本训练数据处理方法、装置及存储介质
CN111737995B (zh) * 2020-05-29 2024-04-05 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
CN111666401B (zh) * 2020-05-29 2023-06-30 平安科技(深圳)有限公司 基于图结构的公文推荐方法、装置、计算机设备及介质
CN111782814B (zh) * 2020-07-17 2023-11-10 安徽大学 一种专利技术主题内容和热度演化的分析方法
CN112836051B (zh) * 2021-02-19 2024-03-26 太极计算机股份有限公司 一种在线自学习的法院电子卷宗文本分类方法
CN112860900B (zh) * 2021-03-23 2022-11-04 上海壁仞智能科技有限公司 文本分类方法、装置、电子设备及存储介质
CN113434671B (zh) * 2021-06-23 2024-06-07 平安国际智慧城市科技股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN113449063B (zh) * 2021-06-25 2023-06-16 树根互联股份有限公司 一种构建文档结构信息检索库的方法及装置
CN113377965B (zh) * 2021-06-30 2024-02-23 中国农业银行股份有限公司 感知文本关键词的方法及相关装置
CN114492425B (zh) * 2021-12-30 2023-04-07 中科大数据研究院 采用一套领域标签体系将多维度数据打通的方法
CN115563311B (zh) * 2022-10-21 2023-09-15 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN103425686A (zh) * 2012-05-21 2013-12-04 微梦创科网络科技(中国)有限公司 一种信息发布方法和装置
US20140258987A1 (en) * 2013-03-08 2014-09-11 Emc Corporation Determining correctness of an application
CN106202391A (zh) * 2016-07-08 2016-12-07 深圳市中北明夷科技有限公司 一种用户社群的自动分类方法及装置
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209665B2 (en) * 2008-04-08 2012-06-26 Infosys Limited Identification of topics in source code
CN103714171B (zh) * 2013-12-31 2017-02-01 深圳先进技术研究院 文本聚类方法
CN104199857B (zh) * 2014-08-14 2017-06-27 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106971306B (zh) * 2016-01-12 2020-11-03 创新先进技术有限公司 产品问题的识别方法及系统
CN105718579B (zh) * 2016-01-22 2018-12-18 浙江大学 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN106815214B (zh) * 2016-12-30 2019-11-22 东软集团股份有限公司 最优主题数获取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902700A (zh) * 2012-04-05 2013-01-30 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
CN103425686A (zh) * 2012-05-21 2013-12-04 微梦创科网络科技(中国)有限公司 一种信息发布方法和装置
US20140258987A1 (en) * 2013-03-08 2014-09-11 Emc Corporation Determining correctness of an application
CN106202391A (zh) * 2016-07-08 2016-12-07 深圳市中北明夷科技有限公司 一种用户社群的自动分类方法及装置
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
勒孚刚: "基于LDA模型的专利文本分类及演化研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446318A (zh) * 2018-09-14 2019-03-08 深圳市元征科技股份有限公司 一种确定汽车维修文档主题的方法及相关设备
CN109388696A (zh) * 2018-09-30 2019-02-26 北京字节跳动网络技术有限公司 删除谣言文章的方法、装置、存储介质及电子设备
CN109388696B (zh) * 2018-09-30 2021-07-23 北京字节跳动网络技术有限公司 删除谣言文章的方法、装置、存储介质及电子设备
CN109271519A (zh) * 2018-10-11 2019-01-25 北京邮电大学 宫廷服饰文本主题生成方法、装置、电子设备及存储介质
CN109635290A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法、装置、设备和介质
CN109635290B (zh) * 2018-11-30 2022-07-22 北京百度网讯科技有限公司 用于处理信息的方法、装置、设备和介质
CN110032639B (zh) * 2018-12-27 2023-10-31 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
CN110032639A (zh) * 2018-12-27 2019-07-19 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
US11586658B2 (en) 2018-12-27 2023-02-21 China Unionpay Co., Ltd. Method and device for matching semantic text data with a tag, and computer-readable storage medium having stored instructions
CN109885826A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质
CN109815495A (zh) * 2019-01-16 2019-05-28 西安交通大学 一种通过标签传播算法进行主题分面挖掘的方法
CN109815495B (zh) * 2019-01-16 2020-06-05 西安交通大学 一种通过标签传播算法进行主题分面挖掘的方法
CN110162797B (zh) * 2019-06-21 2023-04-07 北京百度网讯科技有限公司 文章质量检测方法和装置
CN110162797A (zh) * 2019-06-21 2019-08-23 北京百度网讯科技有限公司 文章质量检测方法和装置
CN110413994B (zh) * 2019-06-28 2022-11-22 宁波深擎信息科技有限公司 热点话题生成方法、装置、计算机设备和存储介质
CN110413994A (zh) * 2019-06-28 2019-11-05 宁波深擎信息科技有限公司 热点话题生成方法、装置、计算机设备和存储介质
CN110717326A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 基于机器学习的文本信息作者的识别方法及其装置
CN112667826A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种篇章去噪方法、装置、系统及存储介质
CN111353019A (zh) * 2020-02-25 2020-06-30 上海昌投网络科技有限公司 一种微信公众号公号主题分类方法及装置
CN111325030A (zh) * 2020-03-31 2020-06-23 卓尔智联(武汉)研究院有限公司 文本标签构建方法、装置、计算机设备和存储介质
CN111191011B (zh) * 2020-04-17 2024-02-23 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN111191011A (zh) * 2020-04-17 2020-05-22 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN111625650A (zh) * 2020-06-01 2020-09-04 领猎网络科技(上海)有限公司 一种文本归类方法
CN112052666B (zh) * 2020-08-09 2024-05-17 中信银行股份有限公司 一种专家确定方法、装置及存储介质
CN112052666A (zh) * 2020-08-09 2020-12-08 中信银行股份有限公司 一种专家确定方法、装置及存储介质
WO2022041898A1 (zh) * 2020-08-31 2022-03-03 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN112036485A (zh) * 2020-08-31 2020-12-04 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN112036485B (zh) * 2020-08-31 2023-10-24 平安科技(深圳)有限公司 主题分类的方法、装置和计算机设备
CN112084334A (zh) * 2020-09-04 2020-12-15 中国平安财产保险股份有限公司 语料的标签分类方法、装置、计算机设备及存储介质
CN112084334B (zh) * 2020-09-04 2023-11-21 中国平安财产保险股份有限公司 语料的标签分类方法、装置、计算机设备及存储介质
CN112507113A (zh) * 2020-09-18 2021-03-16 青岛海洋科学与技术国家实验室发展中心 一种海洋大数据文本分类方法及系统
CN113326350A (zh) * 2021-05-31 2021-08-31 江汉大学 基于远程学习的关键词提取方法、系统、设备及存储介质
CN114691867A (zh) * 2022-03-09 2022-07-01 电子科技大学 一种内容分类方法、装置、系统及存储介质
WO2023202322A1 (zh) * 2022-04-19 2023-10-26 北京字节跳动网络技术有限公司 一种主题聚合方法、装置及电子设备
CN115730237A (zh) * 2022-11-28 2023-03-03 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质
CN115730237B (zh) * 2022-11-28 2024-04-23 智慧眼科技股份有限公司 垃圾邮件检测方法、装置、计算机设备及存储介质
CN116702775A (zh) * 2023-08-07 2023-09-05 深圳市智慧城市科技发展集团有限公司 文本处理方法、文本处理装置及计算机可读存储介质
CN116702775B (zh) * 2023-08-07 2023-11-03 深圳市智慧城市科技发展集团有限公司 文本处理方法、文本处理装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN108399228B (zh) 2020-11-13
WO2019153551A1 (zh) 2019-08-15

Similar Documents

Publication Publication Date Title
CN108399228A (zh) 文章分类方法、装置、计算机设备及存储介质
CN105824802B (zh) 一种获取知识图谱向量化表示的方法以及装置
CN108399227A (zh) 自动打标签的方法、装置、计算机设备及存储介质
Srivastava et al. Modeling documents with deep boltzmann machines
CN109766437A (zh) 一种文本聚类方法、文本聚类装置及终端设备
CN106874292A (zh) 话题处理方法及装置
CN106156163B (zh) 文本分类方法以及装置
US10135723B2 (en) System and method for supervised network clustering
CN109684476A (zh) 一种文本分类方法、文本分类装置及终端设备
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN108959265A (zh) 跨领域文本情感分类方法、装置、计算机设备及存储介质
CN109325122A (zh) 词表生成方法、文本分类方法、装置、设备及存储介质
CN110222260A (zh) 一种搜索方法、装置及存储介质
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
Van et al. Vietnamese news classification based on BoW with keywords extraction and neural network
CN108667678A (zh) 一种基于大数据的运维日志安全检测方法及装置
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
CN105224577A (zh) 一种多标签文本分类方法及系统
CN111539612A (zh) 一种风险分类模型的训练方法和系统
Belouadah et al. Active class incremental learning for imbalanced datasets
Long et al. Tcsst: transfer classification of short & sparse text using external data
CN109992667A (zh) 一种文本分类方法以及装置
Patidar et al. Automatic conversational helpdesk solution using seq2seq and slot-filling models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant