CN110347977A - 一种基于lda模型的新闻自动标签方法 - Google Patents

一种基于lda模型的新闻自动标签方法 Download PDF

Info

Publication number
CN110347977A
CN110347977A CN201910571266.4A CN201910571266A CN110347977A CN 110347977 A CN110347977 A CN 110347977A CN 201910571266 A CN201910571266 A CN 201910571266A CN 110347977 A CN110347977 A CN 110347977A
Authority
CN
China
Prior art keywords
theme
descriptor
news
lda model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910571266.4A
Other languages
English (en)
Inventor
谢珺
郝晓燕
梁凤梅
续欣莹
靳红伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201910571266.4A priority Critical patent/CN110347977A/zh
Publication of CN110347977A publication Critical patent/CN110347977A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于LDA模型的新闻自动标签方法,在语义层面上对文本数据特征的提取,在实际应用中具有较好的效果;针对LDA模型提出改进,利用点互信息对主题词关系进行量化,通过计算主题词的权重得到主题词间的共现关系,设置阈值选择最佳主题词,该方法通过对词汇对应不同主题表征能力的强弱,选出准确率较高的关键词通过本发明,能够引入互信息对主题‑词项矩阵进行改进,提高了LDA模型在新闻文档自动标签应用中的准确率,更好的刻画主题词之间的相关性。

Description

一种基于LDA模型的新闻自动标签方法
技术领域
本发明涉及文本处理技术领域,更具体地说,涉及一种基于LDA模型的新闻自动标签方法。
背景技术
随着信息网络的发展,信息过载,新闻文本爆炸式激增,文本大多篇幅较长,如果在未仔细阅读之前就可以大致了解文章讲的是什么,可以节省时间迅速找到个人关注的新闻内容,选择性的仔细阅读某一条新闻,新闻自动标签的任务就是通过对文本内容进行表征,进而筛选出有用的信息,如何更准确的提取文本中要表达的信息是当下研究的重要课题之一,被广泛应用于文本分类、聚类、新闻推荐、机器翻译、论文索引等自然语言处理任务中。LDA主题模型是一种常用的语义提取模型,通过词项之间的共现,将词项空间转化为主题空间,提取主题词,达到降维的目的。由于LDA模型有很好的语义提取和降维功能被广泛应用于各个领域。
自动标签关键词常用的方法有基于统计的方法,如TFIDF,该方法快速简单,但是仅仅基于词频方面去考虑,不够全面,并且忽略了语义信息,从语义方面考虑有基于主题的方法,如LDA模型,对于语义信息的提取和特征空间的降维效果很好,还有TextRank,该算法不需要训练数据,并且速度较快,但是它忽略了语义之间的相关性,不考虑上下文之间的关系。LDA模型虽然应用广泛,但自身还是有一些缺点的,LDA模型会对所有词项进行主题标签,无法很好地表征数据原始信息。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于LDA模型的新闻自动标签方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于LDA模型的新闻自动标签方法,包括:
将需要进行自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;
利用LDA模型对预处理后的文本进行建模,计算文本中每个词项的词项权重;
根据计算所得的词项权重,从预处理后的文本中采样每一个主题;
在预处理后的文本中,分别计算文档-主题分布和主题-词分布;
通过主题-词分布,计算采样得到的每个主题的主题权重;
根据每个主题的主题权重计算主题词间权重,选出符合的主题词;
获取主题编号,输出文章主题标签。
其中,每个主题的主题权重的计算公式为:
其中,N为主题个数,t1,t2为任意两个不同主题。
其中,从预处理后的文本中采样每一个主题时,采样方式为Gibbs采样;在Gibbs采样中,每个主题的采样公式如下:
其中,W为词项总数,nmkw表示在文本m中,主题词k下词的个数,nkw表示主题为k的词项中,词w出现的次数,根据公式采样每一个主题。
其中,文档-主题分布、主题-词分布的计算公式如下:
根据公式计算θ、得到文档-主题矩阵和主题-词矩阵。
其中,通过主题-词矩阵,利用下面公式计算主题的权重;
其中,主题词的筛选方法为:根据主题词间权重选出符合的主题词,设定阈值则主题k体现在词项w上;其中,η取0.007,ξ取0.08;经过阈值对主题概率不符合的词汇,删除小概率落到主题上的词汇。
其中,采用准确率P(Precision)、召回率R(Recall)和综合指标F(F-measure)或F1(F-score)来评价自动标签的性能;F值是准确率和召回率的调和平均,准确率P、召回率R、F值具体计算公式如下:
准确率
召回率
其中,是调节参数,时就是F1,可以看出F值越大,关键词提取效果越好。
区别于现有技术,本发明的基于LDA模型的新闻自动标签方法,在语义层面上对文本数据特征的提取,在实际应用中具有较好的效果;针对LDA模型提出改进,利用点互信息对主题词关系进行量化,通过计算主题词的权重得到主题词间的共现关系,设置阈值选择最佳主题词,该方法通过对词汇对应不同主题表征能力的强弱,选出准确率较高的关键词通过本发明,能够引入互信息对主题-词项矩阵进行改进,提高了LDA模型在新闻文档自动标签应用中的准确率,更好的刻画主题词之间的相关性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明提供的一种基于LDA模型的新闻自动标签方法的算法示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
如图1所示,图1是本发明提供的一种基于LDA模型的新闻自动标签方法的算法示意图,该方法的步骤包括:
将需要进行自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词。
具体的,对“哈工大停用词词库”、“百度停用词表”、“四川大学机器学习智能实验室停用词表”等各种停用词表整理后,使用结巴分词对文本进行分词,得到“文本-词项”矩阵。
利用LDA模型对预处理后的文本进行建模,计算文本中每个词项的词项权重。
其中,每个主题的主题权重的计算公式为:
其中,N为主题个数,t1,t2为任意两个不同主题。
根据计算所得的词项权重,从预处理后的文本中采样每一个主题。
其中,从预处理后的文本中采样每一个主题时,采样方式为Gibbs采样;在Gibbs采样中,每个主题的采样公式如下:
其中,W为词项总数,nmkw表示在文本m中,主题词k下词的个数,nkw表示主题为k的词项中,词w出现的次数,根据公式采样每一个主题。
在预处理后的文本中,分别计算文档-主题分布和主题-词分布。
文档-主题分布、主题-词分布的计算公式如下:
根据公式计算θ、得到文档-主题矩阵和主题-词矩阵。
通过主题-词分布,计算采样得到的每个主题的主题权重。
通过主题-词矩阵,利用下面公式计算主题的权重;
根据每个主题的主题权重计算主题词间权重,选出符合的主题词。
主题词的筛选方法为:根据主题词间权重选出符合的主题词,设定阈值则主题k体现在词项w上;其中,η取0.007,ξ取0.08;经过阈值对主题概率不符合的词汇,删除小概率落到主题上的词汇。
获取主题编号,输出文章主题标签。
其中,采用准确率P(Precision)、召回率R(Recall)和综合指标F(F-measure)或F1(F-score)来评价自动标签的性能;F值是准确率和召回率的调和平均,准确率P、召回率R、F值具体计算公式如下:
准确率
召回率
其中,是调节参数,时就是F1,可以看出F值越大,关键词提取效果越好。
LDA模型中,词项空间的每一个词都会被赋予主题概率,如果某一词项的主题概率过小,或者主题间的点互信息过大,都无法很好的表征数据实际带有的信息,故而设定阈值η<主题-词分布<ξ,则主题k体现在词项w上,η取0.007,ξ取0.08,取值为多次实验得出。
主题间平均相似度越小,主题之间越独立,主题结构越稳定,对应的模型最优。本发明通过主题之间的点互信息刻画主题之间的相似程度,量化主题之间的关系,利用主题词之间的共现概率度量主题之间的相关性。通过公式可以看出,主题t1,t2的共现概率越大,相关性越大,其值越大,越不相关,则值越小。
在本发明的实施例中,对1000篇新闻文档进行实验,文本来源复旦测试语料库,LDA主题建模过程中,参数估计采用Gibbs采样算法进行参数估计,超参数α=50/K、β=0.01,Gibbs采样的迭代次数为1000次。进行下面三种算法对比实验,a为基于LDA和TextRank的文本关键词提取算法,b为基于TextRank的关键词提取算法,c为基于Word2Vec和TextRank的新闻关键词抽取方法,对比在关键词个数变化时,准确率、召回率、F值的变化情况。
表1 不同算法准确率对比
表2 不同算法召回率对比
表3 不同算法F值对比
根据实验结果可以得出,算法b在效果上整体比算法a和c要好,本文算法效果比b稍好一点。a算法是一种基于LDA和TextRank的关键词抽取方法,利用LDA模型中主题相关性修改TextRank节点跳转概率,但是忽略了一点,LDA模型的主题相关性与主题个数及关键词有关,并且主题个数过多会导致主题间相关性变大,使算法性能下降。b算法引入马尔可夫链改进TextRank,弥补了TextRank忽略语义相关性的不足,但是对于语义的提取,LDA模型表现较好。本文针对LDA模型进行改进,量化了主题词之间的相关性,提高了词项对主题的表征能力,同时可以看出,关键词个数在变化时,准确率、召回率、F值先变大后变小,在7左右取到最大值,说明关键词提取的准确率与其个数有关。
区别于现有技术,本发明的基于LDA模型的新闻自动标签方法,在语义层面上对文本数据特征的提取,在实际应用中具有较好的效果;针对LDA模型提出改进,利用点互信息对主题词关系进行量化,通过计算主题词的权重得到主题词间的共现关系,设置阈值选择最佳主题词,该方法通过对词汇对应不同主题表征能力的强弱,选出准确率较高的关键词通过本发明,能够引入互信息对主题-词项矩阵进行改进,提高了LDA模型在新闻文档自动标签应用中的准确率,更好的刻画主题词之间的相关性。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (7)

1.基于LDA模型的新闻自动标签方法,其特征在于,包括以下步骤:
将需要进行自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;
利用LDA模型对预处理后的文本进行建模,计算文本中每个词项的词项权重;
根据计算所得的词项权重,从预处理后的文本中采样每一个主题;
在预处理后的文本中,分别计算文档-主题分布和主题-词分布;
通过主题-词分布,计算采样得到的每个主题的主题权重;
根据每个主题的主题权重计算主题词间权重,选出符合的主题词;
获取主题编号,输出文章主题标签。
2.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,每个主题的主题权重的计算公式为:
其中,N为主题个数,t1,t2为任意两个不同主题。
3.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,从预处理后的文本中采样每一个主题时,采样方式为Gibbs采样;在Gibbs采样中,每个主题的采样公式如下:
其中,W为词项总数,nmkw表示在文本m中,主题词k下词的个数,nkw表示主题为k的词项中,词w出现的次数,根据公式采样每一个主题。
4.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,文档-主题分布、主题-词分布的计算公式如下:
根据公式计算θ、得到文档-主题矩阵和主题-词矩阵。
5.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,通过主题-词矩阵,利用下面公式计算主题的权重;
6.根据权利要求4所述的基于LDA模型的新闻自动标签方法,其特征在于,主题词的筛选方法为:根据主题词间权重选出符合的主题词,设定阈值则主题k体现在词项w上;其中,η取0.007,ξ取0.08;经过阈值对主题概率不符合的词汇,删除小概率落到主题上的词汇。
7.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,采用准确率P(Precision)、召回率R(Recall)和综合指标F(F-measure)或F1(F-score)来评价自动标签的性能;F值是准确率和召回率的调和平均,准确率P、召回率R、F值具体计算公式如下:
准确率
召回率
其中,是调节参数,时就是F1,可以看出F值越大,关键词提取效果越好。
CN201910571266.4A 2019-06-28 2019-06-28 一种基于lda模型的新闻自动标签方法 Pending CN110347977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910571266.4A CN110347977A (zh) 2019-06-28 2019-06-28 一种基于lda模型的新闻自动标签方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910571266.4A CN110347977A (zh) 2019-06-28 2019-06-28 一种基于lda模型的新闻自动标签方法

Publications (1)

Publication Number Publication Date
CN110347977A true CN110347977A (zh) 2019-10-18

Family

ID=68177225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910571266.4A Pending CN110347977A (zh) 2019-06-28 2019-06-28 一种基于lda模型的新闻自动标签方法

Country Status (1)

Country Link
CN (1) CN110347977A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795134A (zh) * 2019-10-30 2020-02-14 中南大学 基于开源软件包依赖特征的标签推荐方法、模型及系统
CN111581359A (zh) * 2020-04-21 2020-08-25 北京龙云科技有限公司 一种新闻推荐方法及装置
CN112905786A (zh) * 2019-12-04 2021-06-04 北京沃东天骏信息技术有限公司 一种标签推荐方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106407169A (zh) * 2016-09-09 2017-02-15 北京工商大学 一种基于主题模型的文档标注方法
CN106682169A (zh) * 2016-12-27 2017-05-17 北京奇虎科技有限公司 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN107391660A (zh) * 2017-07-18 2017-11-24 太原理工大学 一种用于子话题划分的诱导划分方法
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置
CN108090231A (zh) * 2018-01-12 2018-05-29 北京理工大学 一种基于信息熵的主题模型优化方法
CN108595704A (zh) * 2018-05-10 2018-09-28 成都信息工程大学 一种基于软分类模型的新闻情感和重要性分类方法
CN109885674A (zh) * 2019-02-14 2019-06-14 腾讯科技(深圳)有限公司 一种主题标签的确定、信息推荐方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106407169A (zh) * 2016-09-09 2017-02-15 北京工商大学 一种基于主题模型的文档标注方法
CN106682169A (zh) * 2016-12-27 2017-05-17 北京奇虎科技有限公司 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN106997382A (zh) * 2017-03-22 2017-08-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN107391660A (zh) * 2017-07-18 2017-11-24 太原理工大学 一种用于子话题划分的诱导划分方法
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置
CN108090231A (zh) * 2018-01-12 2018-05-29 北京理工大学 一种基于信息熵的主题模型优化方法
CN108595704A (zh) * 2018-05-10 2018-09-28 成都信息工程大学 一种基于软分类模型的新闻情感和重要性分类方法
CN109885674A (zh) * 2019-02-14 2019-06-14 腾讯科技(深圳)有限公司 一种主题标签的确定、信息推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郝洁 等: ""基于词加权 LDA 算法的无监督情感分类"", 《智能系统学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795134A (zh) * 2019-10-30 2020-02-14 中南大学 基于开源软件包依赖特征的标签推荐方法、模型及系统
CN110795134B (zh) * 2019-10-30 2021-10-15 中南大学 基于开源软件包依赖特征的标签推荐方法、装置及系统
CN112905786A (zh) * 2019-12-04 2021-06-04 北京沃东天骏信息技术有限公司 一种标签推荐方法和装置
CN111581359A (zh) * 2020-04-21 2020-08-25 北京龙云科技有限公司 一种新闻推荐方法及装置

Similar Documents

Publication Publication Date Title
CN106055538B (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
CN106021272B (zh) 基于分布式表达词向量计算的关键词自动提取方法
Gupta et al. Method of text summarization using LSA and sentence based topic modelling with Bert
Al-Shalabi et al. Improving KNN Arabic text classification with n-grams based document indexing
Deshpande et al. Text summarization using clustering technique
CN110347977A (zh) 一种基于lda模型的新闻自动标签方法
Ramadhan et al. Analysis sentiment based on IMDB aspects from movie reviews using SVM
Bolaj et al. Text classification for Marathi documents using supervised learning methods
Abramson et al. What's in a URL? Genre Classification from URLs
Farhoodi et al. Applying machine learning algorithms for automatic Persian text classification
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
Galal et al. Classifying Arabic text using deep learning
CN109657064A (zh) 一种文本分类方法及装置
Rashid et al. Automatic Kurdish text classification using KDC 4007 dataset
KR102376489B1 (ko) 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법
Ghanem et al. Stemming effectiveness in clustering of Arabic documents
Jayady et al. Theme Identification using Machine Learning Techniques
Desai et al. Automatic text summarization using supervised machine learning technique for Hindi langauge
Kaster et al. Combining text and linguistic document representations for authorship attribution
Mahdi et al. A citation-based approach to automatic topical indexing of scientific literature
Campos et al. WISE: hierarchical soft clustering of web page search results based on web content mining techniques
Walkowiak et al. Stylometry analysis of literary texts in polish
Qian et al. Semi-supervised method for extraction of protein-protein interactions using hybrid model
Tohalino et al. Using virtual edges to extract keywords from texts modeled as complex networks
Sobkowicz et al. Reading book by the cover—book genre detection using short descriptions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191018

WD01 Invention patent application deemed withdrawn after publication