CN113987133A - 一种融合tfidf和lda实现抽取式文本摘要方法 - Google Patents
一种融合tfidf和lda实现抽取式文本摘要方法 Download PDFInfo
- Publication number
- CN113987133A CN113987133A CN202111336084.2A CN202111336084A CN113987133A CN 113987133 A CN113987133 A CN 113987133A CN 202111336084 A CN202111336084 A CN 202111336084A CN 113987133 A CN113987133 A CN 113987133A
- Authority
- CN
- China
- Prior art keywords
- lda
- weight
- tfidf
- word
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000000605 extraction Methods 0.000 title claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 12
- 150000007524 organic acids Chemical class 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 230000002950 deficient Effects 0.000 abstract 1
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种融合TFIDF和LDA实现抽取式文本摘要方法。基于融合TFIDF(Term Frequency Inverse Document Frequency)和LDA(Latent Dirichlet Allocation),综合词位置、词性、词长、词跨度等特征调整词素的权重取值,使用最大边缘相关性最终过滤,选择top‑N个句子。为了衡量本发明的优劣,采用准确率、召回率和F1值作为衡量标准。爬取人民网自2021年1至8月的5000篇新闻数据作为数据集,该数据按照话题划分,并且专家标注了摘要的句子。与TFIDF、LDA和TextRank算法对比,本文方法在三个指标上均处于优势,值得推广应用。但是该方法也有不完善的地方:一是计算工作量大,运行时间长、二是仅在具有鲜明主题的文档上的应用效果较好。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种融合TFIDF和LDA实现抽取式文本摘要方法。
背景技术
感知器等信息采集技术的兴起,使得各种信息呈指数级增长。其中,直观表现在文本在篇幅和数量的显著增长,这对信息的利用带来了巨大的挑战。为了应对这一挑战,各种信息抽取技术应运而生。常见的信息抽取技术包括实体识别、事件抽取、文本摘要等。文本摘要作为一种有效的信息抽取技术,在信息爆炸的今天,其重要性不言而喻。
目前,文本摘要技术成功应用的场景包括:新闻标题生成、自动报告生成等。此外,该技术也为一些下游任务(如信息检索或文本分类)提供技术支撑。通过文本摘要技术,可以极大地降低人工摘要的成本,提高人们对信息的利用率。然而,其发展速度却相对较慢。文本摘要技术需要机器阅读并理解整篇文章,然后根据重要性对其中的内容进行取舍,最后得到简短、流畅且涵盖了原文重要信息的摘要。其中有两个较为核心的问题:一是文章的自然语言理解,机器对文章有效进行表示;二是如何获取摘要,即摘要的选择策略。
20世纪90年代末,Larry Page和Sergey Brin创建了评价网页重要性的方法PageRank,随后Mihalcea R和Tarau P在PageRank的基础上,改进出了用来计算文本语句重要性的方法TextRank,TextRank中输入数据是文本中的句子而不是网页,句子的相似度计算方式与算法PageRank中网页的转换概率相同,相似度得分通过矩阵展示和计算,类似于PageRank的矩阵M。TextRank对文本摘要以及其他自然语言处理领域都产生了很大影响。2013年,曾哲军提出了lexrank图集,lexrank是用特定的向量来表示的。然后用lexrank图集来表征文本内容,来自动生成文本摘要。在lexrank图集中通过计算余弦相似度得到语句的邻接矩阵表示,通过生成的邻接矩阵,对文本摘要的质量有了进一步的提升。
以上的方法多数是基于词频统计或是基于一些规则来对文本的权重进行计算,对于文本的语义没有过多的涉及。本文方法对上述方法的模式进行改进,基于TFIDF和一些规则来对文本的权重进行计算,使用LDA来弥补语义的不足,从而实现抽取式文本摘要。
抽取式文本摘要可以拆解为两个独立任务:一是每个句子的表示、二是摘要句子的选择策略。其中每个句子的表示任务尤为重要。
句子表示方式主要有词频表示和空间向量模型表示,其中后者占据统治地位,本文选用便是空间向量模型表示文本。空间向量模型表示文本一般步骤为:分词、特征选择、权重计算、形成N维空间向量。基于TFIDF进行权重计算,对于分词后大于200词的文本,TFIDF的效果较好,但对于简短的文本,采用传统的TFIDF效果较差。其原因,一是TFIDF存在数据集偏斜的问题、二是简短文本中各词素的词频出现频率较平均、三是容易忽略了重要的低频词语和文档内部主题的语义关系。LDA模型为TFIDF所存在的问题提供了很好的解决方案。由于词素的权重取值对最终的句子选择策略至关重要。故本发明基于融合TFIDF与LDA计算词素的权重取值。此外,为保证特征的全面性,增加词位置、词性、词长、词跨度等特征调整词素的权重取值。
通过上述论断,词素的权重计算包括,融合TFIDF和LDA的权重、词位置的权重、词性的权重、词长的权重、词跨度的权重,分别记作:w_tfidf-lda(i)、w_dest(i)、w_attr(i)、w_len(i)、w_span(i),其中i表示词素。词素i的空间向量模型表示为:
发明内容
本发明提供了一种融合TFIDF和LDA实现抽取式文本摘要方法,预先设定影响因素以及对文章进行分词,接着计算词素的权值来确定句子整体的权值,然后处理句子的相似度、选出最终top-N个句子作为摘要。本模型可以提取出总结原文与主旨相关的句子,形成一个简明的句子摘要来把握文章主旨,具体步骤如下所示。
步骤1:对输入数据进行数据清洗,然后将文档拆分成句子集合。数据清洗是将输入数据的噪声数据清除,比如文本中的异常字符、冗余字符,句子是本发明抽取的基本单位,并且词素权重的调整涉及词位置,故对文本做分句操作,并标记句子所处段落。
步骤2:对每个句子分词,然后过滤停用词、特定词性的词和指定长度的词。本发明研究句子的方法是将其拆分成一个一个更小的颗粒。一个句子中所包含的重要颗粒越多,相应的该句子在整篇文章中的重要性也就也大。使用“pkuseg”分词器对每一个句子进行分词并作词性标注,分词后,根据停用词表过滤停用词,根据词性标注过滤介词、连词、语气词、助词、拟声词,根据词长过滤长度小于2大于6的词(长度大于2的词所携带的信息更有意义且完整,词长越长,包含的信息也越大,但一般不超过6字)。
步骤3:采用融合TFIDF和LDA计算每个词素的权重。
在TFIDF模型中,一个词在特定的文档中出现的频率越高, 说明它在区分该文档内容属性方面的能力越强;一个词在文档中出现的范围越广, 说明它区分文档内容的属性越低。为了减少不同类别词频差异的影响,对TFIDF进行归一化处理。计算公式为:
在LDA模型中,一个文本是由若干个主题以不同的概率生成的,每个主题又是由若干个词以不同的概率生成的,其中文档-主题分布,主题-词分布都符合狄利克雷多项式分布。
模型具体定义如下:文档集中,代表文档集的文档数目,单一文档为,代表特征词个数,则文档中的第个特征词为,潜在主题集合,则LDA模型生成文档时首先计算主题中的特征词分布概率向量和主题分布概率向量,接着求解每个特征词,特征词生成的概率公式为:
基于上述论断,确定融合TFIDF和LDA的计算公式为:
步骤4:计算词位置的权重w_dest(i),位置权重设置表如表1所示:
表1 位置权重设置表
步骤5:计算词性的权重w_attr(i),词性权重设置表如表2所示:
表2 词性权重设置表
步骤6:计算词长的权重w_len(i),计算方法为:
w_len(i) = len_i / (len_i + 4) 其中,i表示词素,len_i表示词长。
步骤7:计算词跨度的权重w_span(i),计算方法为:
w_span(i) = num_i / total_num 其中,i表示词素,num_i表示i出现的段落数,total_num表示文章总段落数。
利用上述公式计算出每一个句子的权值,从而表示出T。
步骤9:基于MMR算法综合相关性和多样性计算每个句子最终的权值。对MMR原始公式做出简化,将其应用于文本摘要中,公式如下:
步骤10:权值降序排列每个句子,抽取排名靠前的若干句作为最终结果。
附图说明
图1为本发明流程图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。
为了衡量本发明的优劣,采用3个指标作为衡量的标准,分别是准确率、召回率和F1 值 。
数据集为人民网自2021年1至8月的5000篇新闻数据,该数据按照话题划分,并且专家标注了摘要的句子。准确率、召回率和F1值的计算公式如下:
表3为本发明算法与TFIDF、LDA和TextRank实现文本摘要的对比:
表3 对比算法
从表中可知,融合TFIDF和LDA实现抽取式文本摘要方法(命名为RTL)的三个指标均明显优于经典的 TFIDF、LDA和TextRank。RTL准确率、召回率、F1值分别为80.3%、72.4%、76.2%。其中,对比算法之间准确率的极差在60%左右,召回率和F1值的极差在50%左右。从数据看,RTL值得推广应用。但是该方法也有局限的地方:一是仅在具有鲜明主题的文档上的应用效果较好、二是摘要的句子逻辑分散。综上所述,本文方法比较全面地考虑了影响摘要句子提取的各种因素,具有一定的通用性和推广性。
Claims (6)
1.一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征包括如下步骤:
S1:对输入数据进行数据清洗,然后将文档拆分成句子集合;
S2:对每个句子分词,然后过滤停用词、特定词性的词和指定长度的词;
S3:采用融合TFIDF和LDA计算每个词素的权重w_tfidf-lda(i);
S4:计算词位置的权重w_dest(i);
S5:计算词性的权重w_attr(i);
S6:计算词长的权重w_len(i);
S7:计算词跨度的权重w_span(i);
S8:利用每个句子进行归一化的结果表示文本T;
S9:基于MMR算法综合相关性和多样性计算每个句子最终的权值;
S10:权值降序排列每个句子,抽取排名靠前的若干句作为最终结果。
2.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S3的w_tfidf-lda(i) 计算方法为:
首先,TF-IDF进行归一化处理,计算公式为:
其次,LDA模型具体定义如下:文档集中,代表文档集的文档数目,单一文档为,代表特征词个数,则文档中的第个特征词为,潜在主题集合,则LDA模型生成文档时首先计算主题中的特征词分布概率向量和主题分布概率向量,接着求解每个特征词,特征词生成的概率公式为:
最后,基于上述论断,确定融合TF-IDF和LDA的计算公式为:
表1 位置权重设置表
表2 词性权重设置表
3.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S6的w_len(i)计算方法为:
w_len(i) = len_i / (len_i + 4)其中,i表示词素,len_i表示词长。
4.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S7的w_span(i)计算方法为:
w_span(i) = num_i / total_num其中i表示词素,num_i表示i出现的段落数,total_num表示文章总段落数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111336084.2A CN113987133A (zh) | 2021-11-12 | 2021-11-12 | 一种融合tfidf和lda实现抽取式文本摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111336084.2A CN113987133A (zh) | 2021-11-12 | 2021-11-12 | 一种融合tfidf和lda实现抽取式文本摘要方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113987133A true CN113987133A (zh) | 2022-01-28 |
Family
ID=79748036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111336084.2A Pending CN113987133A (zh) | 2021-11-12 | 2021-11-12 | 一种融合tfidf和lda实现抽取式文本摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987133A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116339799A (zh) * | 2023-04-06 | 2023-06-27 | 山景智能(北京)科技有限公司 | 一种智能化数据接口管理的方法、系统、终端设备及存储介质 |
-
2021
- 2021-11-12 CN CN202111336084.2A patent/CN113987133A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116339799A (zh) * | 2023-04-06 | 2023-06-27 | 山景智能(北京)科技有限公司 | 一种智能化数据接口管理的方法、系统、终端设备及存储介质 |
CN116339799B (zh) * | 2023-04-06 | 2023-11-28 | 山景智能(北京)科技有限公司 | 一种智能化数据接口管理的方法、系统、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
WO2018066445A1 (ja) | 因果関係認識装置及びそのためのコンピュータプログラム | |
CN101968819B (zh) | 面向广域网的音视频智能编目信息获取方法 | |
CN110059311A (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
Sun et al. | The keyword extraction of Chinese medical web page based on WF-TF-IDF algorithm | |
CN109902289B (zh) | 一种面向模糊文本挖掘的新闻视频主题分割方法 | |
CN107153658A (zh) | 一种基于关键字加权算法的舆情热词发现方法 | |
CN112256843B (zh) | 一种基于tf-idf方法优化的新闻关键词提取方法及系统 | |
CN102411621A (zh) | 一种基于云模型的中文面向查询的多文档自动文摘方法 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN116701431A (zh) | 一种基于大语言模型的数据检索方法及系统 | |
CN108920599B (zh) | 一种基于知识本体库的问答系统答案精准定位和抽取方法 | |
CN101685455A (zh) | 数据检索的方法和系统 | |
CN110807326A (zh) | 结合gpu-dmm与文本特征的短文本关键词提取方法 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN101968801A (zh) | 一种单篇文本关键词的提取方法 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN111125299B (zh) | 一种基于用户行为分析的动态词库更新方法 | |
Vetriselvi et al. | RETRACTED ARTICLE: An improved key term weightage algorithm for text summarization using local context information and fuzzy graph sentence score | |
Lin et al. | Enhanced BERT-based ranking models for spoken document retrieval | |
CN113987133A (zh) | 一种融合tfidf和lda实现抽取式文本摘要方法 | |
CN112182332A (zh) | 一种基于爬虫采集的情感分类方法及系统 | |
CN112613612A (zh) | 一种基于专利库的绿色设计知识库的构建方法及其装置 | |
CN113486155B (zh) | 一种融合固定短语信息的中文命名方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |