CN109492092A - 基于lda主题模型的文献分类方法和系统 - Google Patents

基于lda主题模型的文献分类方法和系统 Download PDF

Info

Publication number
CN109492092A
CN109492092A CN201811147398.6A CN201811147398A CN109492092A CN 109492092 A CN109492092 A CN 109492092A CN 201811147398 A CN201811147398 A CN 201811147398A CN 109492092 A CN109492092 A CN 109492092A
Authority
CN
China
Prior art keywords
word
document
dictionary
theme
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811147398.6A
Other languages
English (en)
Other versions
CN109492092B (zh
Inventor
史晓凌
唐先明
景帅
刘锋
陈新荣
王晓丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiming Zhitong (beijing) Technology Co Ltd
Original Assignee
Beiming Zhitong (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiming Zhitong (beijing) Technology Co Ltd filed Critical Beiming Zhitong (beijing) Technology Co Ltd
Priority to CN201811147398.6A priority Critical patent/CN109492092B/zh
Publication of CN109492092A publication Critical patent/CN109492092A/zh
Application granted granted Critical
Publication of CN109492092B publication Critical patent/CN109492092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于LDA主题模型的文献分类方法,包括以下步骤:步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,获得聚类字典;步骤三、根据聚类字典组成新的监督字典;步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,完成对待分类文献的分类。本发明还公开了一种基于LDA主题模型的文献分类系统。本发明的方法既保持了规则分类方法的准确性,又具有LDA的联想聚类能力,分类结果准确,工程量小。

Description

基于LDA主题模型的文献分类方法和系统
技术领域
本发明涉及文献分类技术领域,具体是一种基于LDA主题模型的文献分类方法和系统。
背景技术
现有的分类方法,无论是规则法、统计法还是深度学习方法,都依赖于大量标注语料来实现的。现实中,得到全部标注语料是非常困难的,往往只能确定部分语料和关键词,也就是,要在部分先验知识的前提下,得到高精度的分类结果。这里的技术矛盾体现为,标注语料的全部和部分、无限和有限之间的矛盾。
用有限的样本进行统计分类,随着上下文的不同,会严重的损害分类的召回率,即对于一些明显的分类结果,经过计算之后,会出现意想不到的分类结果。比如出现“三维水平井钻井”这个词串的时候,在一个句子长度有限意义专一的标题里,都应该属于“钻井工程”这个类,如“苏东区块三维水平井钻井难点分析”,但是经过统计分析后的“长庆致密油三维水平井钻井技术研究与应用”被计算成为“成藏研究”,显然这个计算结果是错误的。因此需要一个分类方法,既要保持规则分类的召回率,又要有模型分类的发现和联想的能力。LDA计算出来的最佳聚类只有一个,但是现实中需要挖掘的属性有很多,因此LDA也不能满足分类的要求。纯粹的LDA聚类不能表达人的想法,因此在实际中不能实现分类。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种基于LDA主题模型的文献分类方法和系统,其可以在有限先验知识的前提下实现大规模的分类;通过加载初始监督字典或获得的不同的新的监督字典,可以实现文献的多属性挖掘;通过对获得的不同的新的监督字典的不断人工校对,即不断加强监督学习的过程,可以实现准确度的不断提高。本方法既保持了规则分类方法的准确性,又具有LDA的联想聚类能力,分类结果准确,工程量小。
为了实现根据本发明的这些目的和其它优点,提供了一种基于LDA主题模型的文献分类方法,包括以下步骤:
步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;
步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;
步骤三、根据聚类字典,对于每个主题中的词根据其出现的频率由高到低进行排序,抽取前M%个词加入初始监督字典组成新的监督字典,其中,M为大于或等于1的整数;
步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,完成对待分类文献的分类。
优选的是,步骤一中的多个类包括N个类和一个其他类,N为大于1的整数,其他类中收纳了不属于N个类的词,N个类可以按照感情色彩进行分类、或按照满意度进行分类、或按照专题进行分类。
优选的是,N个类按照感情色彩进行分类时,包括正向情感类、负向情感类、中性情感类,其他类中收纳了与感情色彩无关的词。
优选的是,步骤二中,先对待分类文献中的词进行中文分词处理,再根据初始监督字典除去待分类文献中出现的属于初始监督字典里的其他类中的词,获取待分类文献中的所有的词,其中,待分类文献的所有的词包括待分类文献的标题或正文中出现的词。
优选的是,步骤二中将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,其具体操作为:判断待分类文献中的每个词是否包含于初始监督字典中,若包含,则将该词对应的所属主题的概率调整为1,属于其他主题的概率调整为0,若不包含,则不进行处理,获得的聚类字典中收纳了待分类文献中经过判断的所有的词及该所有的词所属的主题。
基于LDA主题模型的文献分类系统,包括:
初始监督字典模块,其用于预先设置词所属的类,预先设置多个已知的词,一个词属于一个类,一个类对应LDA主题模型的一个主题;
文件处理模块,其用于获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;
字典整理模块,其用于对聚类字典中的每个主题中的词根据其出现的频率由高到低进行排序,抽取前M%个词加入初始监督字典组成新的监督字典,其中,M为大于或等于1的整数;
输出文件模块,其用于根据新的监督字典查找每篇文献包含新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,并输出该篇文献和其对应的主题。
优选的是,初始监督字典模块中的多个类包括N个类和一个其他类,N为大于1的整数,其他类中收纳了不属于N个类的词,N个类可以按照感情色彩进行分类、或按照满意度进行分类、或按照专题进行分类。
优选的是,还包括:
初步降噪模块,其用于除去待分类文献中出现的属于初始监督字典中的其他类的词,以供文件处理模块进行处理。
优选的是,所述文件处理模块包括语料模块和词模块,语料模块用于将待分类的文献按照语料格式读入,语料格式包括待分类文献的ID、标题、正文,词模块用于将待分类文献的标题或正文中出现的词按照字典格式读入,字典格式设置了与LDA主题模型的主题一致的主题。
本发明至少包括以下有益效果:
本发明通过对LDA主题模型进行监督(supervised),即将LDA的主题当作类,将已知的属于类的词作为初始监督字典,在LDA主题模型的循环迭代中,对中间结果(中间结果即对得到的待分类文献中的词)进行类别判断和调整;这样既发挥了LDA聚类发现的能力,又保持了根据字典初始监督字典的规则进行分类的精确性;从数学上看,是将无约束条件的全局LDA最优方法改造成带约束条件的部分最优方法。
本发明对聚类字典进行人工检验,将新出现的词确认之后,就得到一副新的监督字典;随着这个过程的不断深入,最终会通过聚类的方法穷举出属于这个主题(即这个类)的所有的词,形成一个不断更新、越来越准确的字典,从而对待分类文献进行准确的分类。本发明在每一次分类结束后都会得到一部新的监督字典,通过调用不同的新的监督字典,就可以在新的监督字典的监督下,聚出所需要的类别,也就是实现对待分类文献的文本的多属性挖掘。
本发明是基于LDA主题模型的文献分类方法和系统,可以在有限先验知识的前提下实现大规模的分类;通过加载初始监督字典或获得的不同的新的监督字典,可以实现文献的多属性挖掘;通过对获得的不同的新的监督字典的不断人工校对,即不断加强监督学习的过程,可以实现准确度的不断提高。本方法既保持了规则分类方法的准确性,又具有LDA的联想聚类能力,分类结果准确,工程量小。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明提供了一种基于LDA主题模型的文献分类方法,包括以下步骤:
步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;初始监督字典里预先设置多个已知的词,同时预先设置了词所属的类,使一个已知的词仅属于一个类,一个类对应LDA主题模型的一个主题;
步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;聚类字典中包括了待分类文献中出现的属于初始监督字典中的词,也包括了待分类文献中出现的不属于初始监督字典中的词,不属于初始监督字典中的词只要根据计算所得的属于每个主题的概率不为0,则均划入相对应的主题,如果主题预先设置为4个,一个词根据计算得到了属于第一个主题的概率为0,属于剩余3个主题的概率均不为0,则剩余3个主题里均含有该一个词,而第一个主题里不含有该一个词;
计算每个词属于每个主题的概率时,通过吉布斯采样进行计算,具体为:对于待分类文献,先取每一篇文献进行第一重循环,再从每一篇待分类文献的所有的词中取每一个词进行第二重循环,进而计算每一个词属于每个主题的概率。
步骤三、根据聚类字典,对于每个主题中的词根据其出现的频率由高到低进行排序,抽取前M%个词加入初始监督字典组成新的监督字典,其中,M为大于或等于1的整数;对于每个主题中的词进行排序后,出现频率高的词也就是待分类文献中出现的频率比较多的词,根据截取前M%个词加入初始监督字典组成新的监督字典,能够更准确地对待分类文献进行分类;
步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,完成对待分类文献的分类。比如一篇文献中出现的频率多的词有90%在同一个主题中,则将该篇文献分类到该一个主题中。
本发明通过对LDA主题模型进行监督(supervised),即将LDA的主题当作类,将已知的属于类的词作为初始监督字典,在LDA主题模型的循环迭代中,对中间结果(中间结果即对得到的待分类文献中的词)进行类别判断和调整;这样既发挥了LDA聚类发现的能力,又保持了根据字典初始监督字典的规则进行分类的精确性;从数学上看,是将无约束条件的全局LDA最优方法改造成带约束条件的部分最优方法。
本发明对聚类字典进行人工检验,将新出现的词确认之后,就得到一副新的监督字典;随着这个过程的不断深入,最终会通过聚类的方法穷举出属于这个主题(即这个类)的所有的词,形成一个不断更新、越来越准确的字典,从而对待分类文献进行准确的分类。本发明在每一次分类结束后都会得到一部新的监督字典,通过调用不同的新的监督字典,就可以在新的监督字典的监督下,聚出所需要的类别,也就是实现对待分类文献的文本的多属性挖掘。
在另一技术方案中,步骤一中的多个类包括N个类和一个其他类,N为大于1的整数,其他类中收纳了不属于N个类的词,N个类可以按照感情色彩进行分类、或按照满意度进行分类、或按照专题进行分类。N个类和一个其他类是根据目标需求人为设置的,如果需要得到待分类文献的情感分类,就按照感情色彩进行分类,如果需要得到待分类的文本的满意度的分类,就按照满意度进行分类,如果需要得到待分类的文献的专题的分类,就按照专题进行分类,专题可以为物理专题、化学专题等,或国内专题、国际专题等。
在另一技术方案中,N个类按照感情色彩进行分类时,包括正向情感类、负向情感类、中性情感类,其他类中收纳了与感情色彩无关的词。
在另一技术方案中,步骤二中,先对待分类文献中的词进行中文分词处理,再根据初始监督字典除去待分类文献中出现的属于初始监督字典里的其他类中的词,及对待分类文献进行去停用词处理,获取待分类文献中的所有的词,其中,待分类文献的所有的词包括待分类文献的标题或正文中出现的词。在具体的分类时,按照待分类文献的标题和正文可分别进行分类,即只按照待分类文献的标题中出现的词对待分类文献进行分类,或只按照待分类文献的正文中出现的词对待分类文献进行分类。
在另一技术方案中,步骤二中将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,其具体操作为:判断待分类文献中的每个词是否包含于初始监督字典中,若包含,则将该词对应的所属主题的概率调整为1,属于其他主题的概率调整为0,该操作主要体现在操作界面上的人为的调整,若不包含,则不进行处理,获得的聚类字典中收纳了待分类文献中经过判断的所有的词及该所有的词所属的主题,即聚类字典中含有主题以及主题中的词
本发明提供一种基于LDA主题模型的文献分类系统,包括:
初始监督字典模块,其用于预先设置词所属的类,预先设置多个已知的词,一个词属于一个类,一个类对应LDA主题模型的一个主题;
文件处理模块,其用于获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;聚类字典中包括了待分类文献中出现的属于初始监督字典中的词,也包括了待分类文献中出现的不属于初始监督字典中的词,不属于初始监督字典中的词只要根据计算所得的属于每个主题的概率不为0,则均划入相对应的主题,如果主题预先设置为4个,一个词根据计算得到了属于第一个主题的概率为0,属于剩余3个主题的概率均不为0,则剩余3个主题里均含有该一个词,而第一个主题里不含有该一个词;
字典整理模块,其用于对聚类字典中的每个主题中的词根据其出现的频率由高到低进行排序,抽取前M%个词加入初始监督字典组成新的监督字典,其中,M为大于或等于1的整数;对于每个主题中的词进行排序后,出现频率高的词也就是待分类文献中出现的频率比较多的词,根据截取前M%个词加入初始监督字典组成新的监督字典,能够更准确地对待分类文献进行分类;
输出文件模块,其用于根据新的监督字典查找每篇文献包含新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,并输出该篇文献和其对应的主题。比如一篇文献中出现的频率多的词有90%在同一个主题中,则将该篇文献分类到该一个主题中。输出时,可输出已经分类好的文献的标题与对应的主题,也可输出已经分类好的文献的正文与对应的主题。
在另一技术方案中,初始监督字典模块中的多个类包括N个类和一个其他类,N为大于1的整数,其他类中收纳了不属于N个类的词,N个类可以按照感情色彩进行分类、或按照满意度进行分类、或按照专题进行分类。N个类和一个其他类是根据目标需求人为设置的,如果需要得到待分类文献的情感分类,就按照感情色彩进行分类,如果需要得到待分类的文本的满意度的分类,就按照满意度进行分类,如果需要得到待分类的文献的专题的分类,就按照专题进行分类,专题可以为物理专题、化学专题等,或国内专题、国际专题等。
在另一技术方案中,还包括:
初步降噪模块,其用于除去待分类文献中出现的属于初始监督字典中的其他类的词,即对待分类文献进行去停用词处理,以供文件处理模块进行处理。
在另一技术方案中,所述文件处理模块包括语料模块和词模块,语料模块用于将待分类的文献按照语料格式读入,语料格式包括待分类文献的ID、标题、正文,举例如下表1所示,词模块用于将待分类文献的标题或正文中出现的词按照字典格式读入,字典格式设置了与LDA主题模型的主题一致的主题,举例如下表2所示。
表1
表2
正向 真不错
负向 停车难
中性 大势已定
其他
实施例1
根据本发明的方法,以将待分类文献按照标题进行情感分类为例,如下:
初始监督字典里预先设置了10个词,分别为“喜欢”、“首创”、“拼命”、“离婚”、“上调”、“散伙”、“郁闷”、“过户”、“也”、“为”,根据词的情感预先设置了四类对应四个主题,分别为正向、负向、中性、其他,正向中包含“喜欢”、“首创”、“拼命”、“上调”,负向中包含“离婚”、“散伙”、“郁闷”,中性里包含“过户”,其他中包含“也”、“为”,其他中收纳了与情感无关的词。
一个txt文本内有100篇待分类文献,读入100篇待分类文献后,先对待分类文献的标题中的词进行中文分词处理,再根据初始监督字典除去待分类文献的标题中出现的属于初始监督字典里的其他类中的词,即对待分类文献的标题进行去停用词处理,获取待分类文献标题中的所有的词;
计算每个词属于以上四个主题中每个主题的概率,如果计算得到的“拼命”属于正向的概率为0.7,属于负向的概率为0.2,属于中性的概率为0.1,属于其他的概率为0,但是初始监督字典里预先设置了“拼命”完全是属于正向的,则在实际操作界面,人为将“拼命”属于正向的概率调整为1,属于其他主题的概率调整为0;如果计算得到的一个词“手续”属于正向的概率为0.3,属于负向的概率为0.1,属于中性的概率为0.5,属于其他的概率为0.1,则四个主题中均含有“手续”这个词,由此,获得了关于100篇待分类文献的聚类字典;
再将聚类字典中四个主题中的词分别按照出现的频率进行排序,每个主题中截取排序靠前的前10%个词,加入到初始监督字典组成新的监督字典,比如新的监督字典里正向中包含“喜欢”、“首创”、“拼命”、“上调”、“高兴”、“努力”、“美丽”,负向中包含“离婚”、“散伙”、“郁闷”、“悲伤”、“放弃”,中性里包含“过户”、“手续”、“目标”,其他中包含“也”、“为”、“的”、“呢”,对于待分类的一篇文献中的属于新的监督字典的词有:“喜欢”、努力”、“美丽”、“放弃”、“手续”、“为”、“的”、“呢”,其中,喜欢”出现了8次,努力”、“美丽”、均出现了6次,“放弃”出现了1次,“手续”出现了1次,“喜欢”、努力”、“美丽”出现的次数多,且都属于正向,则该篇文献分类到正向中。由此类推,完成100篇文献的标题的分类。
其中,比如“放弃”这个词计算出来的主题是“正向”,但是初始监督字典里标明是“负向”,然后就把“放弃”的类或主题换成负向,具体实现过程如下:
#计算词所属于的主题或者类,z就是这个类,比如正向、负向等
zz=pz/pz.sum()
zzz=np.random.multinomial(1,pz/pz.sum())
z=zzz.argmax()
#根据字典调整,id_z就是监督字典
if w in id_z.index:
z=id_z.ix[w]['z']
#程序接着往下
Z[d][index]=z
#将当前文档当前单词新采样的topic相关计数加上1
ndz[d,z]+=1#文献-主题矩阵
nzw[z,w]+=1#主题-词矩阵
nz[z]+=1#特征值
在具体的操作过程中,可以调整LDA主题模型相关的参数ndz、nzw和nz等,实现迭代更新,进入下一轮循环,即对下一个txt中的多篇文献进行分类。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。

Claims (9)

1.基于LDA主题模型的文献分类方法,其特征在于,包括以下步骤:
步骤一、预编初始监督字典,初始监督字典里的词包括多个类,并且与LDA主题模型的主题一一对应;
步骤二、获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;
步骤三、根据聚类字典,对于每个主题中的词根据其出现的频率由高到低进行排序,抽取前M%个词加入初始监督字典组成新的监督字典,其中,M为大于或等于1的整数;
步骤四、查找每篇待分类文献所包含的新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,完成对待分类文献的分类。
2.如权利要求1所述的文献分类方法,其特征在于,步骤一中的多个类包括N个类和一个其他类,N为大于1的整数,其他类中收纳了不属于N个类的词,N个类可以按照感情色彩进行分类、或按照满意度进行分类、或按照专题进行分类。
3.如权利要求2所述的文献分类方法,其特征在于,N个类按照感情色彩进行分类时,包括正向情感类、负向情感类、中性情感类,其他类中收纳了与感情色彩无关的词。
4.如权利要求2所述的文献分类方法,其特征在于,步骤二中,先对待分类文献中的词进行中文分词处理,再根据初始监督字典除去待分类文献中出现的属于初始监督字典里的其他类中的词,获取待分类文献中的所有的词,其中,待分类文献的所有的词包括待分类文献的标题或正文中出现的词。
5.如权利要求4所述的文献分类方法,其特征在于,步骤二中将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,其具体操作为:判断待分类文献中的每个词是否包含于初始监督字典中,若包含,则将该词对应的所属主题的概率调整为1,属于其他主题的概率调整为0,若不包含,则不进行处理,获得的聚类字典中收纳了待分类文献中经过判断的所有的词及该所有的词所属的主题。
6.基于LDA主题模型的文献分类系统,其特征在于,包括:
初始监督字典模块,其用于预先设置词所属的类,预先设置多个已知的词,一个词属于一个类,一个类对应LDA主题模型的一个主题;
文件处理模块,其用于获取待分类文献中的所有的词,并计算每个词属于每个主题的概率,将待分类文献中出现的属于初始监督字典中的词根据初始监督字典调整所属的主题,获得聚类字典;
字典整理模块,其用于对聚类字典中的每个主题中的词根据其出现的频率由高到低进行排序,抽取前M%个词加入初始监督字典组成新的监督字典,其中,M为大于或等于1的整数;
输出文件模块,其用于根据新的监督字典查找每篇文献包含新的监督字典中的词所对应的主题,将出现的词最多的主题作为该篇文献的主题,并输出该篇文献和其对应的主题。
7.如权利要求6所述的基于LDA主题模型的文献分类系统,其特征在于,初始监督字典模块中的多个类包括N个类和一个其他类,N为大于1的整数,其他类中收纳了不属于N个类的词,N个类可以按照感情色彩进行分类、或按照满意度进行分类、或按照专题进行分类。
8.如权利要求7所述的基于LDA主题模型的文献分类系统,其特征在于,还包括:
初步降噪模块,其用于除去待分类文献中出现的属于初始监督字典中的其他类的词,以供文件处理模块进行处理。
9.如权利要求8所述的基于LDA主题模型的文献分类系统,其特征在于,所述文件处理模块包括语料模块和词模块,语料模块用于将待分类的文献按照语料格式读入,语料格式包括待分类文献的ID、标题、正文,词模块用于将待分类文献的标题或正文中出现的词按照字典格式读入,字典格式设置了与LDA主题模型的主题一致的主题。
CN201811147398.6A 2018-09-29 2018-09-29 基于lda主题模型的文献分类方法和系统 Active CN109492092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811147398.6A CN109492092B (zh) 2018-09-29 2018-09-29 基于lda主题模型的文献分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811147398.6A CN109492092B (zh) 2018-09-29 2018-09-29 基于lda主题模型的文献分类方法和系统

Publications (2)

Publication Number Publication Date
CN109492092A true CN109492092A (zh) 2019-03-19
CN109492092B CN109492092B (zh) 2020-07-17

Family

ID=65690578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811147398.6A Active CN109492092B (zh) 2018-09-29 2018-09-29 基于lda主题模型的文献分类方法和系统

Country Status (1)

Country Link
CN (1) CN109492092B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
CN103455581A (zh) * 2013-08-26 2013-12-18 北京理工大学 基于语义扩展的海量短文本信息过滤方法
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及系统
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN104111925A (zh) * 2013-04-16 2014-10-22 中国移动通信集团公司 项目推荐方法和装置
US9317809B1 (en) * 2013-09-25 2016-04-19 Emc Corporation Highly scalable memory-efficient parallel LDA in a shared-nothing MPP database
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN106777043A (zh) * 2016-12-09 2017-05-31 宁波大学 一种基于lda的学术资源获取方法
CN107229614A (zh) * 2017-06-29 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
CN104111925A (zh) * 2013-04-16 2014-10-22 中国移动通信集团公司 项目推荐方法和装置
CN103455581A (zh) * 2013-08-26 2013-12-18 北京理工大学 基于语义扩展的海量短文本信息过滤方法
US9317809B1 (en) * 2013-09-25 2016-04-19 Emc Corporation Highly scalable memory-efficient parallel LDA in a shared-nothing MPP database
CN103577579A (zh) * 2013-11-08 2014-02-12 南方电网科学研究院有限责任公司 基于用户潜在需求的资源推荐方法及系统
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN106777043A (zh) * 2016-12-09 2017-05-31 宁波大学 一种基于lda的学术资源获取方法
CN107229614A (zh) * 2017-06-29 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沐晓帆: "基于主题的文本分类模型研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN109492092B (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN106484664B (zh) 一种短文本间相似度计算方法
CN107193801B (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN105608218B (zh) 智能问答知识库的建立方法、建立装置及建立系统
CN105678324B (zh) 基于相似度计算的问答知识库的建立方法、装置及系统
CN106528599B (zh) 一种海量音频数据中的字符串快速模糊匹配算法
CN106649275A (zh) 基于词性信息和卷积神经网络的关系抽取方法
CN112699246A (zh) 基于知识图谱的领域知识推送方法
CN107807910A (zh) 一种基于hmm的词性标注方法
CN107832467A (zh) 一种基于改进的Single‑pass聚类算法的微博话题检测方法
CN108804443A (zh) 一种基于多特征融合的司法类案搜索方法
CN112307153A (zh) 一种产业知识库自动构建方法、装置及存储介质
CN112905800A (zh) 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN103207921A (zh) 一种从中文电子文档中自动提取词语的方法
CN104572628B (zh) 一种基于句法特征的学术定义自动抽取系统及方法
CN109492092A (zh) 基于lda主题模型的文献分类方法和系统
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN106682107B (zh) 数据库表关联关系确定方法及装置
CN111738022B (zh) 一种国防军工领域机器翻译优化方法及系统
CN114283030A (zh) 一种基于知识图谱的配电方案推荐方法及装置
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
CN103377229B (zh) 电网设备和设施的信息的提供方法与提供装置
Min et al. Study on semantic paragraph partition in automatic abstracting system
CN112579769A (zh) 关键词的聚类方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. 601, floor 6, building 19, building 219, Huizhong Beili, Chaoyang District, Beijing 100012

Applicant after: Beijing Zhitong Yunlian Technology Co., Ltd

Address before: 100041, No. 7, building 2, No. 30, 49 Hing Street, Beijing, Shijingshan District

Applicant before: BEIMING SMARTECH (BEIJING) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant