CN110347977A - 一种基于lda模型的新闻自动标签方法 - Google Patents
一种基于lda模型的新闻自动标签方法 Download PDFInfo
- Publication number
- CN110347977A CN110347977A CN201910571266.4A CN201910571266A CN110347977A CN 110347977 A CN110347977 A CN 110347977A CN 201910571266 A CN201910571266 A CN 201910571266A CN 110347977 A CN110347977 A CN 110347977A
- Authority
- CN
- China
- Prior art keywords
- theme
- descriptor
- news
- lda model
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 4
- 238000002203 pretreatment Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims 1
- 230000009467 reduction Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于LDA模型的新闻自动标签方法,在语义层面上对文本数据特征的提取,在实际应用中具有较好的效果;针对LDA模型提出改进,利用点互信息对主题词关系进行量化,通过计算主题词的权重得到主题词间的共现关系,设置阈值选择最佳主题词,该方法通过对词汇对应不同主题表征能力的强弱,选出准确率较高的关键词通过本发明,能够引入互信息对主题‑词项矩阵进行改进,提高了LDA模型在新闻文档自动标签应用中的准确率,更好的刻画主题词之间的相关性。
Description
技术领域
本发明涉及文本处理技术领域,更具体地说,涉及一种基于LDA模型的新闻自动标签方法。
背景技术
随着信息网络的发展,信息过载,新闻文本爆炸式激增,文本大多篇幅较长,如果在未仔细阅读之前就可以大致了解文章讲的是什么,可以节省时间迅速找到个人关注的新闻内容,选择性的仔细阅读某一条新闻,新闻自动标签的任务就是通过对文本内容进行表征,进而筛选出有用的信息,如何更准确的提取文本中要表达的信息是当下研究的重要课题之一,被广泛应用于文本分类、聚类、新闻推荐、机器翻译、论文索引等自然语言处理任务中。LDA主题模型是一种常用的语义提取模型,通过词项之间的共现,将词项空间转化为主题空间,提取主题词,达到降维的目的。由于LDA模型有很好的语义提取和降维功能被广泛应用于各个领域。
自动标签关键词常用的方法有基于统计的方法,如TFIDF,该方法快速简单,但是仅仅基于词频方面去考虑,不够全面,并且忽略了语义信息,从语义方面考虑有基于主题的方法,如LDA模型,对于语义信息的提取和特征空间的降维效果很好,还有TextRank,该算法不需要训练数据,并且速度较快,但是它忽略了语义之间的相关性,不考虑上下文之间的关系。LDA模型虽然应用广泛,但自身还是有一些缺点的,LDA模型会对所有词项进行主题标签,无法很好地表征数据原始信息。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于LDA模型的新闻自动标签方法。
本发明解决其技术问题所采用的技术方案是:构造一种基于LDA模型的新闻自动标签方法,包括:
将需要进行自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;
利用LDA模型对预处理后的文本进行建模,计算文本中每个词项的词项权重;
根据计算所得的词项权重,从预处理后的文本中采样每一个主题;
在预处理后的文本中,分别计算文档-主题分布和主题-词分布;
通过主题-词分布,计算采样得到的每个主题的主题权重;
根据每个主题的主题权重计算主题词间权重,选出符合的主题词;
获取主题编号,输出文章主题标签。
其中,每个主题的主题权重的计算公式为:
其中,N为主题个数,t1,t2为任意两个不同主题。
其中,从预处理后的文本中采样每一个主题时,采样方式为Gibbs采样;在Gibbs采样中,每个主题的采样公式如下:
其中,W为词项总数,nmkw表示在文本m中,主题词k下词的个数,nkw表示主题为k的词项中,词w出现的次数,根据公式采样每一个主题。
其中,文档-主题分布、主题-词分布的计算公式如下:
根据公式计算θ、得到文档-主题矩阵和主题-词矩阵。
其中,通过主题-词矩阵,利用下面公式计算主题的权重;
其中,主题词的筛选方法为:根据主题词间权重选出符合的主题词,设定阈值则主题k体现在词项w上;其中,η取0.007,ξ取0.08;经过阈值对主题概率不符合的词汇,删除小概率落到主题上的词汇。
其中,采用准确率P(Precision)、召回率R(Recall)和综合指标F(F-measure)或F1(F-score)来评价自动标签的性能;F值是准确率和召回率的调和平均,准确率P、召回率R、F值具体计算公式如下:
准确率
召回率
其中,是调节参数,时就是F1,可以看出F值越大,关键词提取效果越好。
区别于现有技术,本发明的基于LDA模型的新闻自动标签方法,在语义层面上对文本数据特征的提取,在实际应用中具有较好的效果;针对LDA模型提出改进,利用点互信息对主题词关系进行量化,通过计算主题词的权重得到主题词间的共现关系,设置阈值选择最佳主题词,该方法通过对词汇对应不同主题表征能力的强弱,选出准确率较高的关键词通过本发明,能够引入互信息对主题-词项矩阵进行改进,提高了LDA模型在新闻文档自动标签应用中的准确率,更好的刻画主题词之间的相关性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明提供的一种基于LDA模型的新闻自动标签方法的算法示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
如图1所示,图1是本发明提供的一种基于LDA模型的新闻自动标签方法的算法示意图,该方法的步骤包括:
将需要进行自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词。
具体的,对“哈工大停用词词库”、“百度停用词表”、“四川大学机器学习智能实验室停用词表”等各种停用词表整理后,使用结巴分词对文本进行分词,得到“文本-词项”矩阵。
利用LDA模型对预处理后的文本进行建模,计算文本中每个词项的词项权重。
其中,每个主题的主题权重的计算公式为:
其中,N为主题个数,t1,t2为任意两个不同主题。
根据计算所得的词项权重,从预处理后的文本中采样每一个主题。
其中,从预处理后的文本中采样每一个主题时,采样方式为Gibbs采样;在Gibbs采样中,每个主题的采样公式如下:
其中,W为词项总数,nmkw表示在文本m中,主题词k下词的个数,nkw表示主题为k的词项中,词w出现的次数,根据公式采样每一个主题。
在预处理后的文本中,分别计算文档-主题分布和主题-词分布。
文档-主题分布、主题-词分布的计算公式如下:
根据公式计算θ、得到文档-主题矩阵和主题-词矩阵。
通过主题-词分布,计算采样得到的每个主题的主题权重。
通过主题-词矩阵,利用下面公式计算主题的权重;
根据每个主题的主题权重计算主题词间权重,选出符合的主题词。
主题词的筛选方法为:根据主题词间权重选出符合的主题词,设定阈值则主题k体现在词项w上;其中,η取0.007,ξ取0.08;经过阈值对主题概率不符合的词汇,删除小概率落到主题上的词汇。
获取主题编号,输出文章主题标签。
其中,采用准确率P(Precision)、召回率R(Recall)和综合指标F(F-measure)或F1(F-score)来评价自动标签的性能;F值是准确率和召回率的调和平均,准确率P、召回率R、F值具体计算公式如下:
准确率
召回率
其中,是调节参数,时就是F1,可以看出F值越大,关键词提取效果越好。
LDA模型中,词项空间的每一个词都会被赋予主题概率,如果某一词项的主题概率过小,或者主题间的点互信息过大,都无法很好的表征数据实际带有的信息,故而设定阈值η<主题-词分布<ξ,则主题k体现在词项w上,η取0.007,ξ取0.08,取值为多次实验得出。
主题间平均相似度越小,主题之间越独立,主题结构越稳定,对应的模型最优。本发明通过主题之间的点互信息刻画主题之间的相似程度,量化主题之间的关系,利用主题词之间的共现概率度量主题之间的相关性。通过公式可以看出,主题t1,t2的共现概率越大,相关性越大,其值越大,越不相关,则值越小。
在本发明的实施例中,对1000篇新闻文档进行实验,文本来源复旦测试语料库,LDA主题建模过程中,参数估计采用Gibbs采样算法进行参数估计,超参数α=50/K、β=0.01,Gibbs采样的迭代次数为1000次。进行下面三种算法对比实验,a为基于LDA和TextRank的文本关键词提取算法,b为基于TextRank的关键词提取算法,c为基于Word2Vec和TextRank的新闻关键词抽取方法,对比在关键词个数变化时,准确率、召回率、F值的变化情况。
表1 不同算法准确率对比
表2 不同算法召回率对比
表3 不同算法F值对比
根据实验结果可以得出,算法b在效果上整体比算法a和c要好,本文算法效果比b稍好一点。a算法是一种基于LDA和TextRank的关键词抽取方法,利用LDA模型中主题相关性修改TextRank节点跳转概率,但是忽略了一点,LDA模型的主题相关性与主题个数及关键词有关,并且主题个数过多会导致主题间相关性变大,使算法性能下降。b算法引入马尔可夫链改进TextRank,弥补了TextRank忽略语义相关性的不足,但是对于语义的提取,LDA模型表现较好。本文针对LDA模型进行改进,量化了主题词之间的相关性,提高了词项对主题的表征能力,同时可以看出,关键词个数在变化时,准确率、召回率、F值先变大后变小,在7左右取到最大值,说明关键词提取的准确率与其个数有关。
区别于现有技术,本发明的基于LDA模型的新闻自动标签方法,在语义层面上对文本数据特征的提取,在实际应用中具有较好的效果;针对LDA模型提出改进,利用点互信息对主题词关系进行量化,通过计算主题词的权重得到主题词间的共现关系,设置阈值选择最佳主题词,该方法通过对词汇对应不同主题表征能力的强弱,选出准确率较高的关键词通过本发明,能够引入互信息对主题-词项矩阵进行改进,提高了LDA模型在新闻文档自动标签应用中的准确率,更好的刻画主题词之间的相关性。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (7)
1.基于LDA模型的新闻自动标签方法,其特征在于,包括以下步骤:
将需要进行自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;
利用LDA模型对预处理后的文本进行建模,计算文本中每个词项的词项权重;
根据计算所得的词项权重,从预处理后的文本中采样每一个主题;
在预处理后的文本中,分别计算文档-主题分布和主题-词分布;
通过主题-词分布,计算采样得到的每个主题的主题权重;
根据每个主题的主题权重计算主题词间权重,选出符合的主题词;
获取主题编号,输出文章主题标签。
2.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,每个主题的主题权重的计算公式为:
其中,N为主题个数,t1,t2为任意两个不同主题。
3.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,从预处理后的文本中采样每一个主题时,采样方式为Gibbs采样;在Gibbs采样中,每个主题的采样公式如下:
其中,W为词项总数,nmkw表示在文本m中,主题词k下词的个数,nkw表示主题为k的词项中,词w出现的次数,根据公式采样每一个主题。
4.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,文档-主题分布、主题-词分布的计算公式如下:
根据公式计算θ、得到文档-主题矩阵和主题-词矩阵。
5.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,通过主题-词矩阵,利用下面公式计算主题的权重;
。
6.根据权利要求4所述的基于LDA模型的新闻自动标签方法,其特征在于,主题词的筛选方法为:根据主题词间权重选出符合的主题词,设定阈值则主题k体现在词项w上;其中,η取0.007,ξ取0.08;经过阈值对主题概率不符合的词汇,删除小概率落到主题上的词汇。
7.根据权利要求1所述的基于LDA模型的新闻自动标签方法,其特征在于,采用准确率P(Precision)、召回率R(Recall)和综合指标F(F-measure)或F1(F-score)来评价自动标签的性能;F值是准确率和召回率的调和平均,准确率P、召回率R、F值具体计算公式如下:
准确率
召回率
其中,是调节参数,时就是F1,可以看出F值越大,关键词提取效果越好。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910571266.4A CN110347977A (zh) | 2019-06-28 | 2019-06-28 | 一种基于lda模型的新闻自动标签方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910571266.4A CN110347977A (zh) | 2019-06-28 | 2019-06-28 | 一种基于lda模型的新闻自动标签方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110347977A true CN110347977A (zh) | 2019-10-18 |
Family
ID=68177225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910571266.4A Pending CN110347977A (zh) | 2019-06-28 | 2019-06-28 | 一种基于lda模型的新闻自动标签方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110347977A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795134A (zh) * | 2019-10-30 | 2020-02-14 | 中南大学 | 基于开源软件包依赖特征的标签推荐方法、模型及系统 |
CN111581359A (zh) * | 2020-04-21 | 2020-08-25 | 北京龙云科技有限公司 | 一种新闻推荐方法及装置 |
CN112905786A (zh) * | 2019-12-04 | 2021-06-04 | 北京沃东天骏信息技术有限公司 | 一种标签推荐方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055538A (zh) * | 2016-05-26 | 2016-10-26 | 达而观信息科技(上海)有限公司 | 主题模型和语义分析相结合的文本标签自动抽取方法 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN106682169A (zh) * | 2016-12-27 | 2017-05-17 | 北京奇虎科技有限公司 | 一种应用标签挖掘方法、装置和应用搜索方法、服务器 |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
CN107391660A (zh) * | 2017-07-18 | 2017-11-24 | 太原理工大学 | 一种用于子话题划分的诱导划分方法 |
CN107943824A (zh) * | 2017-10-17 | 2018-04-20 | 广东广业开元科技有限公司 | 一种基于lda的大数据新闻分类方法、系统及装置 |
CN108090231A (zh) * | 2018-01-12 | 2018-05-29 | 北京理工大学 | 一种基于信息熵的主题模型优化方法 |
CN108595704A (zh) * | 2018-05-10 | 2018-09-28 | 成都信息工程大学 | 一种基于软分类模型的新闻情感和重要性分类方法 |
CN109885674A (zh) * | 2019-02-14 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种主题标签的确定、信息推荐方法及装置 |
-
2019
- 2019-06-28 CN CN201910571266.4A patent/CN110347977A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055538A (zh) * | 2016-05-26 | 2016-10-26 | 达而观信息科技(上海)有限公司 | 主题模型和语义分析相结合的文本标签自动抽取方法 |
CN106407169A (zh) * | 2016-09-09 | 2017-02-15 | 北京工商大学 | 一种基于主题模型的文档标注方法 |
CN106682169A (zh) * | 2016-12-27 | 2017-05-17 | 北京奇虎科技有限公司 | 一种应用标签挖掘方法、装置和应用搜索方法、服务器 |
CN106997382A (zh) * | 2017-03-22 | 2017-08-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
CN107391660A (zh) * | 2017-07-18 | 2017-11-24 | 太原理工大学 | 一种用于子话题划分的诱导划分方法 |
CN107943824A (zh) * | 2017-10-17 | 2018-04-20 | 广东广业开元科技有限公司 | 一种基于lda的大数据新闻分类方法、系统及装置 |
CN108090231A (zh) * | 2018-01-12 | 2018-05-29 | 北京理工大学 | 一种基于信息熵的主题模型优化方法 |
CN108595704A (zh) * | 2018-05-10 | 2018-09-28 | 成都信息工程大学 | 一种基于软分类模型的新闻情感和重要性分类方法 |
CN109885674A (zh) * | 2019-02-14 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 一种主题标签的确定、信息推荐方法及装置 |
Non-Patent Citations (1)
Title |
---|
郝洁 等: ""基于词加权 LDA 算法的无监督情感分类"", 《智能系统学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795134A (zh) * | 2019-10-30 | 2020-02-14 | 中南大学 | 基于开源软件包依赖特征的标签推荐方法、模型及系统 |
CN110795134B (zh) * | 2019-10-30 | 2021-10-15 | 中南大学 | 基于开源软件包依赖特征的标签推荐方法、装置及系统 |
CN112905786A (zh) * | 2019-12-04 | 2021-06-04 | 北京沃东天骏信息技术有限公司 | 一种标签推荐方法和装置 |
CN111581359A (zh) * | 2020-04-21 | 2020-08-25 | 北京龙云科技有限公司 | 一种新闻推荐方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106055538B (zh) | 主题模型和语义分析相结合的文本标签自动抽取方法 | |
CN106021272B (zh) | 基于分布式表达词向量计算的关键词自动提取方法 | |
Gupta et al. | Method of text summarization using LSA and sentence based topic modelling with Bert | |
Al-Shalabi et al. | Improving KNN Arabic text classification with n-grams based document indexing | |
Deshpande et al. | Text summarization using clustering technique | |
CN110347977A (zh) | 一种基于lda模型的新闻自动标签方法 | |
Ramadhan et al. | Analysis sentiment based on IMDB aspects from movie reviews using SVM | |
Bolaj et al. | Text classification for Marathi documents using supervised learning methods | |
Abramson et al. | What's in a URL? Genre Classification from URLs | |
Farhoodi et al. | Applying machine learning algorithms for automatic Persian text classification | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
Galal et al. | Classifying Arabic text using deep learning | |
CN109657064A (zh) | 一种文本分类方法及装置 | |
Rashid et al. | Automatic Kurdish text classification using KDC 4007 dataset | |
KR102376489B1 (ko) | 단어 랭킹 기반의 텍스트 문서 군집 및 주제 생성 장치 및 그 방법 | |
Ghanem et al. | Stemming effectiveness in clustering of Arabic documents | |
Jayady et al. | Theme Identification using Machine Learning Techniques | |
Desai et al. | Automatic text summarization using supervised machine learning technique for Hindi langauge | |
Kaster et al. | Combining text and linguistic document representations for authorship attribution | |
Mahdi et al. | A citation-based approach to automatic topical indexing of scientific literature | |
Campos et al. | WISE: hierarchical soft clustering of web page search results based on web content mining techniques | |
Walkowiak et al. | Stylometry analysis of literary texts in polish | |
Qian et al. | Semi-supervised method for extraction of protein-protein interactions using hybrid model | |
Tohalino et al. | Using virtual edges to extract keywords from texts modeled as complex networks | |
Sobkowicz et al. | Reading book by the cover—book genre detection using short descriptions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191018 |
|
WD01 | Invention patent application deemed withdrawn after publication |