CN107943824A - 一种基于lda的大数据新闻分类方法、系统及装置 - Google Patents
一种基于lda的大数据新闻分类方法、系统及装置 Download PDFInfo
- Publication number
- CN107943824A CN107943824A CN201710967319.5A CN201710967319A CN107943824A CN 107943824 A CN107943824 A CN 107943824A CN 201710967319 A CN201710967319 A CN 201710967319A CN 107943824 A CN107943824 A CN 107943824A
- Authority
- CN
- China
- Prior art keywords
- word
- lda
- distribution probability
- probability matrix
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于LDA的大数据新闻分类方法、系统及装置,方法包括:对获得的新闻文档进行预处理,得到语料库;对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。本发明通过隐含狄利克雷法并在该算法上基于参数优化的改进,再结合分类算法,高效的实现了新闻文档的分类,克服了采用特征提取方法带来的分类性能受损问题,避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题,减少了人工对新闻分类的时间消耗,使信息更快速高效地传播。本发明可广泛应用于新闻分类中。
Description
技术领域
本发明涉及文本分类技术领域,尤其涉及一种基于LDA的大数据新闻分类方法、系统及装置。
背景技术
当今已处在一个信息爆炸的时代,据统计,全球每天互联网产生的流量累计高达1EB(即10亿GB)。其中用以文本表示的信息量急速增长,包括媒体新闻、科技报告、书籍、邮件、微博、评论等文本信息与日俱增。而新闻以互联网、电视、广播、报纸等形式展现,每日需更新报道,具有极大的时效性。若通过人工手动进行分类,将耗费巨大人力物力,因此,实现新闻自动准确的分类,方便读者快速找到感兴趣的新闻乃是大势所趋。
在新闻文本分类领域,已有的技术包括基于TFIDF的特征提取,基于聚类的web方法,以及基潜在语义分析等文本分类方法,这些方法虽各有所长,但普遍存在以下缺点:在处理高维和大规模新闻文本方面存在一定的局限性;基于特征提取的方法TFIDF等,存在没有考虑词和词之间的语义联系问题;采用特征提取方法可能带来新闻分类性能受损的情况。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能提高分类效果准确性的基于LDA的大数据新闻分类方法、系统及装置。
本发明所采取的技术方案是:
一种基于LDA的大数据新闻分类方法,包括以下步骤:
对获得的新闻文档进行预处理,得到语料库;
对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;
根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。
作为所述的一种基于LDA的大数据新闻分类方法的进一步改进,所述的对获得的新闻文档进行预处理,得到语料库,这一步骤具体包括:
对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;
将得到的词根据预设的停留词表进行去停留词处理,得到语料库。
作为所述的一种基于LDA的大数据新闻分类方法的进一步改进,所述的对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵,这一步骤具体包括:
根据语料库,进行LDA建模得到LDA模型;
对LDA模型中的参数进行优化计算;
根据建立的LDA模型进行参数估计;
根据优化后的参数,得到主题分布概率矩阵和词分布概率矩阵。
作为所述的一种基于LDA的大数据新闻分类方法的进一步改进,所述的根据语料库,进行LDA建模得到LDA模型,这一步骤具体表现为:
其中,主题分布θ服从超参数为α的狄利克雷,词分布服从超参数为β的狄利克雷分布,词w服从参数为θ的主题分布,主题编号z服从参数为的多项式分布。
作为所述的一种基于LDA的大数据新闻分类方法的进一步改进,所述的根据建立的LDA模型进行参数估计,这一步骤的具体计算公式为:
其中,表示主题k下词t的分布概率,θm,t表示为第m篇文档主题为k的分布概率,表示主题k下关于词t的计数,表示第m篇文档下关于词t的计数,αt表示关于词t的参数α,βt表示关于词t的参数β。
作为所述的一种基于LDA的大数据新闻分类方法的进一步改进,所述的对LDA模型中的参数进行优化计算,这一步骤的具体计算公式为:
其中,表示优化后的参数α,表示优化后的参数β,αk表示优化前的参数α,βt表示优化前的参数β,为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。
本发明所采用的另一个技术方案是:
一种基于LDA的大数据新闻分类系统,包括:
预处理单元,用于对获得的新闻文档进行预处理,得到语料库;
建模单元,用于对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;
分类单元,用于根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。
本发明所采用的再一个技术方案是:
一种基于LDA的大数据新闻分类装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序以用于:
对获得的新闻文档进行预处理,得到语料库;
对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;
根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。
作为所述的一种基于LDA的大数据新闻分类装置的进一步改进,所述的对获得的新闻文档进行预处理,得到语料库,这一步骤具体包括:
对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;
将得到的词根据预设的停留词表进行去停留词处理,得到语料库。
作为所述的一种基于LDA的大数据新闻分类装置的进一步改进,所述的对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵,这一步骤具体包括:
根据语料库,进行LDA建模得到LDA模型;
根据建立的LDA模型进行参数估计;
对LDA模型中的参数进行优化计算;
根据优化后的参数,得到主题分布概率矩阵和词分布概率矩阵。
本发明的有益效果是:
本发明一种基于LDA的大数据新闻分类方法、系统及装置通过隐含狄利克雷法并在该算法上基于参数优化的改进,再结合分类算法,高效的实现了新闻文档的分类,克服了采用特征提取方法带来的分类性能受损问题,避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题,避免了潜在语义分析和向量空间模型等在处理高维和大规模新闻文本方面存在的局限性,减少了人工对新闻分类的时间消耗,使信息更快速高效地传播。
附图说明
图1是本发明一种基于LDA的大数据新闻分类方法的步骤流程图;
图2是本发明一种基于LDA的大数据新闻分类系统的模块方框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参考图1,本发明一种基于LDA的大数据新闻分类方法,包括以下步骤:
对获得的新闻文档进行预处理,得到语料库;
对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;
根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。
进一步作为优选的实施方式,所述的对获得的新闻文档进行预处理,得到语料库,这一步骤具体包括:
对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;
将得到的词根据预设的停留词表进行去停留词处理,得到语料库。
本发明实施例中,所述分词处理采用结巴分词,并根据隐含马尔科夫模型对未登录词进行识别,自定义词典,对专有词及热门词设定一定的权重,确保分词时,该词能被准确分割。根据停用词表自动过滤掉没有实际意义的词汇,如介词、冠词、语气助词、副词、介词、连接词以及标点等。
本实施例中得到的语料库表如下表1:
文档 | 语料库 |
Doc1 | 生产增加稀土产品市场……采购 |
Doc2 | 公司预计年度亏损股东……净利润 |
…… | ……. |
Docm | 理财利率下滑贷款银行……预计 |
表1
进一步作为优选的实施方式,所述的对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵,这一步骤具体包括:
根据语料库,进行LDA建模得到LDA模型;
对LDA模型中的参数进行优化计算;
根据建立的LDA模型进行参数估计;
根据优化后的参数,得到主题分布概率矩阵和词分布概率矩阵。
进一步作为优选的实施方式,所述的根据语料库,进行LDA建模得到LDA模型,这一步骤具体表现为:
其中,主题分布θ服从超参数为α的狄利克雷,词分布服从超参数为β的狄利克雷分布,词w服从参数为θ的主题分布,主题编号z服从参数为的多项式分布。
进一步作为优选的实施方式,所述的根据建立的LDA模型进行参数估计,这一步骤的具体计算公式为:
其中,表示主题k下词t的分布概率,θm,k表示为第m篇文档主题为k的分布概率,表示主题k下关于词t的计数,表示第m篇文档下关于词t的计数,αt表示关于词t的参数α,βt表示关于词t的参数β。
本实施例中,据变量之间的依赖关系,可得联合概率密度公式如下:
为少计算误差,分别对θ和求积分,最后公式简化为
p(w,z|α,β)=p(w|z,β)p(z|α);
由此可得出p(w,z),通过Collapsed Gibbs Sampling,在设定的迭代次数之内循环抽取当前词的主题,直到词的主题分布达到收敛。具体实现公式如下:
上式展开最后结果为:
其中,表示主题k下出去第i个词,关于词t的计数,同理,表示,第m篇文档下,除开第i个词,主题编号为k的词的计数。
接下来,利用后验概率估计,求出主题分布,和词分布分别,且两者服从狄利克雷分布。根据狄利克雷分布性质可得出词分布概率,和主题分布概率值,即:
其中,表示主题k下词t的分布概率,θm,k表示为第m篇文档主题为k的分布概率,表示主题k下关于词t的计数,表示第m篇文档下关于词t的计数。
进一步作为优选的实施方式,所述的对LDA模型中的参数进行优化计算,这一步骤的具体计算公式为:
其中,表示优化后的参数α,表示优化后的参数β,αk表示优化前的参数α,βt表示优化前的参数β,为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。
本实施例中,计算k取不同值时,模型困惑度perplexity的变化,然后将困惑度最小的主题个数作为模型对数据拟合的最佳主题个数。对给定的语料数据D,其困惑度为:
其中wm表示第m篇文档的词,Nm表示第m篇文档的长度。当主题个数K=40时,困惑度最低,因此最有主题个数设为40。
本发明实施例中,对于参数α和参数β的优化:
其中,表示优化后的参数α,表示优化后的参数β,为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。
最终得出每篇文档的主题分布概率矩阵,以及主题下词的分布概率矩阵。如下表格2、3展示:
文档-主题 | Topic1 | Topic2 | …… | TopicK |
新闻1 | 0.2 | 0.4 | …… | 0.2 |
新闻2 | 0.21 | 0.14 | …… | 0.09 |
…… | …… | …… | …… | …… |
表2
主题-词 | 四川 | 省委 | 银行 |
Topic1 | 0 | 0.1 | 0 |
Topic2 | 0.5 | 0 | 0.4 |
…… | …… | …… | …… |
表3
本发明中的分类算法可以是朴素贝叶斯分类,最近邻分类,以及支持向量机和logistic回归的分类。本实施例中采用基于支持向量机的分类方法。可分情况下,线性SVM可以描述为以下被约束的优化问题:
由于目标函数是二次的,是一个凸函数,而约束在w和b上是线性的,因此这是一个凸优化问题。其拉格朗日函数为:
假定λi≥0,则任何不可行解仅仅是增加了拉格朗日函数的值。为了最小化拉格朗日函数,对Lp关于w和b求偏导并令其等于零:
将它们代入Lp中,得到对偶公式:
将不等式约束变换为等式约束:
λi≥0,λi[yi(w·xi+b)-1]=0;
表明除非训练实例满足yi(w·xi+b)=1,否则拉格朗日乘子λi必须为零。那些λi>0的训练实例位于超平面bi1或bi2上,称为支持向量,不在超平面上的训练实例肯定满足λi=0,即定义决策边界的参数w和b仅依赖于这些支持向量。
本实施例中,在训练集上对LDA建模,得到每篇文档的主题-分布矩阵,即每篇新闻特征信息,而后标记文档所属类别,结合SVM算法进行分类。对14019条财经网上爬去的新闻数据进行训练,其中2000条进行测试。结果显示,LDA+SVM准确率高达91.8%,而LSA+SVM分类方法准确率为80.1%。VSM+SVM准确率仅为78.2%。
参考图2,本发明一种基于LDA的大数据新闻分类系统,包括:
预处理单元,用于对获得的新闻文档进行预处理,得到语料库;
建模单元,用于对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;
分类单元,用于根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。
本发明一种基于LDA的大数据新闻分类装置,包括:
存储器,用于存放程序;
处理器,用于执行所述程序以用于:
对获得的新闻文档进行预处理,得到语料库;
对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;
根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。
进一步作为优选的实施方式,所述的对获得的新闻文档进行预处理,得到语料库,这一步骤具体包括:
对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;
将得到的词根据预设的停留词表进行去停留词处理,得到语料库。
进一步作为优选的实施方式,所述的对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵,这一步骤具体包括:
根据语料库,进行LDA建模得到LDA模型;
根据建立的LDA模型进行参数估计;
对LDA模型中的参数进行优化计算;
根据优化后的参数,得到主题分布概率矩阵和词分布概率矩阵。
从上述内容可知,本发明一种基于LDA的大数据新闻分类方法、系统及装置通过隐含狄利克雷法并在该算法上基于参数优化的改进,再结合分类算法,高效的实现了新闻文档的分类,克服了采用特征提取方法带来的分类性能受损问题,避免了使用特征滤取方法存在的未考虑词与词之间语义联系的问题,避免了潜在语义分析和向量空间模型等在处理高维和大规模新闻文本方面存在的局限性,减少了人工对新闻分类的时间消耗,使信息更快速高效地传播。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于LDA的大数据新闻分类方法,其特征在于,包括以下步骤:
对获得的新闻文档进行预处理,得到语料库;
对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;
根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。
2.根据权利要求1所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的对获得的新闻文档进行预处理,得到语料库,这一步骤具体包括:
对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;
将得到的词根据预设的停留词表进行去停留词处理,得到语料库。
3.根据权利要求1所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵,这一步骤具体包括:
根据语料库,进行LDA建模得到LDA模型;
对LDA模型中的参数进行优化计算;
根据建立的LDA模型进行参数估计;
根据优化后的参数,得到主题分布概率矩阵和词分布概率矩阵。
4.根据权利要求3所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的根据语料库,进行LDA建模得到LDA模型,这一步骤具体表现为:
其中,主题分布θ服从超参数为α的狄利克雷,词分布服从超参数为β的狄利克雷分布,词w服从参数为θ的主题分布,主题编号z服从参数为的多项式分布。
5.根据权利要求3所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的对LDA模型中的参数进行优化计算,这一步骤的具体计算公式为:
其中,表示优化后的参数α,表示优化后的参数β,αk表示优化前的参数α,βt表示优化前的参数β,为Digamma函数,表示求变量x的对数的导数,nik表示第i篇文章,主题为k的文档计数,nkt表示主题编号为k的词t的计数,且ni=∑knik,nk=∑tnkt。
6.根据权利要求4所述的一种基于LDA的大数据新闻分类方法,其特征在于:所述的根据建立的LDA模型进行参数估计,这一步骤的具体计算公式为:
<mrow>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>m</mi>
<mo>,</mo>
<mi>k</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>n</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mi>t</mi>
</msub>
</mrow>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</msubsup>
<msubsup>
<mi>n</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mi>t</mi>
</msub>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
其中,表示主题k下词t的分布概率,θm,k表示为第m篇文档主题为k的分布概率,表示主题k下关于词t的计数,表示第m篇文档下关于词t的计数,αt表示关于词t的参数α,βt表示关于词t的参数β。
7.一种基于LDA的大数据新闻分类系统,其特征在于,包括:
预处理单元,用于对获得的新闻文档进行预处理,得到语料库;
建模单元,用于对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;
分类单元,用于根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。
8.一种基于LDA的大数据新闻分类装置,其特征在于,包括:
存储器,用于存放程序;
处理器,用于执行所述程序以用于:
对获得的新闻文档进行预处理,得到语料库;
对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵;
根据主题分布概率矩阵和词分布概率矩阵,结合分类算法进行分类,得到新闻文档所属的类别。
9.根据权利要求8所述的一种基于LDA的大数据新闻分类装置,其特征在于:所述的对获得的新闻文档进行预处理,得到语料库,这一步骤具体包括:
对获得的新闻文档进行分词处理,并对未登录词进行识别,得到新闻文档中的词;
将得到的词根据预设的停留词表进行去停留词处理,得到语料库。
10.根据权利要求8所述的一种基于LDA的大数据新闻分类装置,其特征在于:所述的对得到的语料库进行LDA建模,得到主题分布概率矩阵和词分布概率矩阵,这一步骤具体包括:
根据语料库,进行LDA建模得到LDA模型;
根据建立的LDA模型进行参数估计;
对LDA模型中的参数进行优化计算;
根据优化后的参数,得到主题分布概率矩阵和词分布概率矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710967319.5A CN107943824A (zh) | 2017-10-17 | 2017-10-17 | 一种基于lda的大数据新闻分类方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710967319.5A CN107943824A (zh) | 2017-10-17 | 2017-10-17 | 一种基于lda的大数据新闻分类方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107943824A true CN107943824A (zh) | 2018-04-20 |
Family
ID=61936188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710967319.5A Pending CN107943824A (zh) | 2017-10-17 | 2017-10-17 | 一种基于lda的大数据新闻分类方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107943824A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920508A (zh) * | 2018-05-29 | 2018-11-30 | 福建新大陆软件工程有限公司 | 基于lda算法的文本分类模型训练方法及系统 |
CN109086443A (zh) * | 2018-08-17 | 2018-12-25 | 电子科技大学 | 基于主题的社交媒体短文本在线聚类方法 |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
CN109492157A (zh) * | 2018-10-24 | 2019-03-19 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109492092A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于lda主题模型的文献分类方法和系统 |
CN109829151A (zh) * | 2018-11-27 | 2019-05-31 | 国网浙江省电力有限公司 | 一种基于分层狄利克雷模型的文本分割方法 |
CN109902181A (zh) * | 2019-03-04 | 2019-06-18 | 北京工业大学 | 文本的检测方法及装置 |
CN110347977A (zh) * | 2019-06-28 | 2019-10-18 | 太原理工大学 | 一种基于lda模型的新闻自动标签方法 |
CN110569270A (zh) * | 2019-08-15 | 2019-12-13 | 中国人民解放军国防科技大学 | 一种基于贝叶斯的lda话题标签标定方法、系统及介质 |
CN110597996A (zh) * | 2019-09-21 | 2019-12-20 | 陕西师范大学 | 一种基于头脑风暴优化算法的中文网页分类方法 |
CN112487185A (zh) * | 2020-11-27 | 2021-03-12 | 国家电网有限公司客户服务中心 | 一种电力客户领域的数据分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
KR101741249B1 (ko) * | 2016-09-01 | 2017-05-30 | 한양대학교 에리카산학협력단 | 카테고리 생성 시스템 및 방법 |
-
2017
- 2017-10-17 CN CN201710967319.5A patent/CN107943824A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
KR101741249B1 (ko) * | 2016-09-01 | 2017-05-30 | 한양대학교 에리카산학협력단 | 카테고리 생성 시스템 및 방법 |
Non-Patent Citations (3)
Title |
---|
宋科: "《Hadoop平台下基于LDA的新闻推荐算法研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
李全刚 等: "《基于主题模型的通信网络建模与仿真》", 《计算机研究与发展》 * |
李熙铭: "《基于主题模型的多标签文本分类和流文本数据建模若干问题研究》", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920508A (zh) * | 2018-05-29 | 2018-11-30 | 福建新大陆软件工程有限公司 | 基于lda算法的文本分类模型训练方法及系统 |
CN109086443A (zh) * | 2018-08-17 | 2018-12-25 | 电子科技大学 | 基于主题的社交媒体短文本在线聚类方法 |
CN109492092A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于lda主题模型的文献分类方法和系统 |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
CN109492157B (zh) * | 2018-10-24 | 2021-08-31 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109492157A (zh) * | 2018-10-24 | 2019-03-19 | 华侨大学 | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 |
CN109829151A (zh) * | 2018-11-27 | 2019-05-31 | 国网浙江省电力有限公司 | 一种基于分层狄利克雷模型的文本分割方法 |
CN109829151B (zh) * | 2018-11-27 | 2023-04-21 | 国网浙江省电力有限公司 | 一种基于分层狄利克雷模型的文本分割方法 |
CN109902181A (zh) * | 2019-03-04 | 2019-06-18 | 北京工业大学 | 文本的检测方法及装置 |
CN109902181B (zh) * | 2019-03-04 | 2021-04-23 | 北京工业大学 | 文本的检测方法及装置 |
CN110347977A (zh) * | 2019-06-28 | 2019-10-18 | 太原理工大学 | 一种基于lda模型的新闻自动标签方法 |
CN110569270A (zh) * | 2019-08-15 | 2019-12-13 | 中国人民解放军国防科技大学 | 一种基于贝叶斯的lda话题标签标定方法、系统及介质 |
CN110569270B (zh) * | 2019-08-15 | 2022-07-05 | 中国人民解放军国防科技大学 | 一种基于贝叶斯的lda话题标签标定方法、系统及介质 |
CN110597996A (zh) * | 2019-09-21 | 2019-12-20 | 陕西师范大学 | 一种基于头脑风暴优化算法的中文网页分类方法 |
CN112487185A (zh) * | 2020-11-27 | 2021-03-12 | 国家电网有限公司客户服务中心 | 一种电力客户领域的数据分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107943824A (zh) | 一种基于lda的大数据新闻分类方法、系统及装置 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
Subakti et al. | The performance of BERT as data representation of text clustering | |
CN105045812B (zh) | 文本主题的分类方法及系统 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN110032639B (zh) | 将语义文本数据与标签匹配的方法、装置及存储介质 | |
CN112035653A (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
CN104216876B (zh) | 信息文本过滤方法及系统 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN105808526A (zh) | 商品短文本核心词提取方法和装置 | |
CN107145560B (zh) | 一种文本分类方法及装置 | |
CN108664574A (zh) | 信息的输入方法、终端设备及介质 | |
CN104915448A (zh) | 一种基于层次卷积网络的实体与段落链接方法 | |
CN112597283B (zh) | 通知文本信息实体属性抽取方法、计算机设备及存储介质 | |
CN103207913A (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN104142912A (zh) | 一种精确的语料类别标注方法及装置 | |
CN101714135A (zh) | 一种跨领域文本情感倾向性分析方法 | |
CN112597300A (zh) | 文本聚类方法、装置、终端设备及存储介质 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN103268346A (zh) | 半监督分类方法及系统 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180420 |