CN113987133A - 一种融合tfidf和lda实现抽取式文本摘要方法 - Google Patents

一种融合tfidf和lda实现抽取式文本摘要方法 Download PDF

Info

Publication number
CN113987133A
CN113987133A CN202111336084.2A CN202111336084A CN113987133A CN 113987133 A CN113987133 A CN 113987133A CN 202111336084 A CN202111336084 A CN 202111336084A CN 113987133 A CN113987133 A CN 113987133A
Authority
CN
China
Prior art keywords
lda
weight
tfidf
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111336084.2A
Other languages
English (en)
Inventor
刘冰
张甜甜
周威威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Technology
Original Assignee
Changchun University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Technology filed Critical Changchun University of Technology
Priority to CN202111336084.2A priority Critical patent/CN113987133A/zh
Publication of CN113987133A publication Critical patent/CN113987133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种融合TFIDF和LDA实现抽取式文本摘要方法。基于融合TFIDF(Term Frequency Inverse Document Frequency)和LDA(Latent Dirichlet Allocation),综合词位置、词性、词长、词跨度等特征调整词素的权重取值,使用最大边缘相关性最终过滤,选择top‑N个句子。为了衡量本发明的优劣,采用准确率、召回率和F1值作为衡量标准。爬取人民网自2021年1至8月的5000篇新闻数据作为数据集,该数据按照话题划分,并且专家标注了摘要的句子。与TFIDF、LDA和TextRank算法对比,本文方法在三个指标上均处于优势,值得推广应用。但是该方法也有不完善的地方:一是计算工作量大,运行时间长、二是仅在具有鲜明主题的文档上的应用效果较好。

Description

一种融合TFIDF和LDA实现抽取式文本摘要方法
技术领域
本发明属于自然语言处理领域,尤其涉及一种融合TFIDF和LDA实现抽取式文本摘要方法。
背景技术
感知器等信息采集技术的兴起,使得各种信息呈指数级增长。其中,直观表现在文本在篇幅和数量的显著增长,这对信息的利用带来了巨大的挑战。为了应对这一挑战,各种信息抽取技术应运而生。常见的信息抽取技术包括实体识别、事件抽取、文本摘要等。文本摘要作为一种有效的信息抽取技术,在信息爆炸的今天,其重要性不言而喻。
目前,文本摘要技术成功应用的场景包括:新闻标题生成、自动报告生成等。此外,该技术也为一些下游任务(如信息检索或文本分类)提供技术支撑。通过文本摘要技术,可以极大地降低人工摘要的成本,提高人们对信息的利用率。然而,其发展速度却相对较慢。文本摘要技术需要机器阅读并理解整篇文章,然后根据重要性对其中的内容进行取舍,最后得到简短、流畅且涵盖了原文重要信息的摘要。其中有两个较为核心的问题:一是文章的自然语言理解,机器对文章有效进行表示;二是如何获取摘要,即摘要的选择策略。
20世纪90年代末,Larry Page和Sergey Brin创建了评价网页重要性的方法PageRank,随后Mihalcea R和Tarau P在PageRank的基础上,改进出了用来计算文本语句重要性的方法TextRank,TextRank中输入数据是文本中的句子而不是网页,句子的相似度计算方式与算法PageRank中网页的转换概率相同,相似度得分通过矩阵展示和计算,类似于PageRank的矩阵M。TextRank对文本摘要以及其他自然语言处理领域都产生了很大影响。2013年,曾哲军提出了lexrank图集,lexrank是用特定的向量来表示的。然后用lexrank图集来表征文本内容,来自动生成文本摘要。在lexrank图集中通过计算余弦相似度得到语句的邻接矩阵表示,通过生成的邻接矩阵,对文本摘要的质量有了进一步的提升。
以上的方法多数是基于词频统计或是基于一些规则来对文本的权重进行计算,对于文本的语义没有过多的涉及。本文方法对上述方法的模式进行改进,基于TFIDF和一些规则来对文本的权重进行计算,使用LDA来弥补语义的不足,从而实现抽取式文本摘要。
抽取式文本摘要可以拆解为两个独立任务:一是每个句子的表示、二是摘要句子的选择策略。其中每个句子的表示任务尤为重要。
句子表示方式主要有词频表示和空间向量模型表示,其中后者占据统治地位,本文选用便是空间向量模型表示文本。空间向量模型表示文本一般步骤为:分词、特征选择、权重计算、形成N维空间向量。基于TFIDF进行权重计算,对于分词后大于200词的文本,TFIDF的效果较好,但对于简短的文本,采用传统的TFIDF效果较差。其原因,一是TFIDF存在数据集偏斜的问题、二是简短文本中各词素的词频出现频率较平均、三是容易忽略了重要的低频词语和文档内部主题的语义关系。LDA模型为TFIDF所存在的问题提供了很好的解决方案。由于词素的权重取值对最终的句子选择策略至关重要。故本发明基于融合TFIDF与LDA计算词素的权重取值。此外,为保证特征的全面性,增加词位置、词性、词长、词跨度等特征调整词素的权重取值。
通过上述论断,词素的权重计算包括,融合TFIDF和LDA的权重、词位置的权重、词性的权重、词长的权重、词跨度的权重,分别记作:w_tfidf-lda(i)、w_dest(i)、w_attr(i)、w_len(i)、w_span(i),其中i表示词素。词素i的空间向量模型表示为:
Figure 314923DEST_PATH_IMAGE001
摘要句子的选择策略是基于空间向量模型表示的。对句子S分词,可以被表示为
Figure 294380DEST_PATH_IMAGE002
,则句子S的空间向量模型表示为
Figure 74117DEST_PATH_IMAGE003
。首先对D(S)内的每一项做归一化处理,然后对D(S)做归一化处理,所得结果记作:S_all。故整篇文本可以表示为
Figure 469326DEST_PATH_IMAGE004
,将T中的权重作为最大边缘相关性算法的输入,计算相似度,去除冗余句子,确定最终摘要。
发明内容
本发明提供了一种融合TFIDF和LDA实现抽取式文本摘要方法,预先设定影响因素以及对文章进行分词,接着计算词素的权值来确定句子整体的权值,然后处理句子的相似度、选出最终top-N个句子作为摘要。本模型可以提取出总结原文与主旨相关的句子,形成一个简明的句子摘要来把握文章主旨,具体步骤如下所示。
步骤1:对输入数据进行数据清洗,然后将文档拆分成句子集合。数据清洗是将输入数据的噪声数据清除,比如文本中的异常字符、冗余字符,句子是本发明抽取的基本单位,并且词素权重的调整涉及词位置,故对文本做分句操作,并标记句子所处段落。
步骤2:对每个句子分词,然后过滤停用词、特定词性的词和指定长度的词。本发明研究句子的方法是将其拆分成一个一个更小的颗粒。一个句子中所包含的重要颗粒越多,相应的该句子在整篇文章中的重要性也就也大。使用“pkuseg”分词器对每一个句子进行分词并作词性标注,分词后,根据停用词表过滤停用词,根据词性标注过滤介词、连词、语气词、助词、拟声词,根据词长过滤长度小于2大于6的词(长度大于2的词所携带的信息更有意义且完整,词长越长,包含的信息也越大,但一般不超过6字)。
步骤3:采用融合TFIDF和LDA计算每个词素的权重。
在TFIDF模型中,一个词在特定的文档中出现的频率越高, 说明它在区分该文档内容属性方面的能力越强;一个词在文档中出现的范围越广, 说明它区分文档内容的属性越低。为了减少不同类别词频差异的影响,对TFIDF进行归一化处理。计算公式为:
Figure 283698DEST_PATH_IMAGE005
其中,
Figure 417745DEST_PATH_IMAGE006
指特征项
Figure 684779DEST_PATH_IMAGE007
在文档
Figure 883679DEST_PATH_IMAGE008
中出现的次数、
Figure 552558DEST_PATH_IMAGE009
指出现特征项
Figure 608238DEST_PATH_IMAGE010
的文档的倒数、N表示总文档数、
Figure 362568DEST_PATH_IMAGE011
指出现特征项
Figure 99580DEST_PATH_IMAGE012
的文档数。
在LDA模型中,一个文本是由若干个主题以不同的概率生成的,每个主题又是由若干个词以不同的概率生成的,其中文档-主题分布,主题-词分布都符合狄利克雷多项式分布。
模型具体定义如下:文档集
Figure 622965DEST_PATH_IMAGE013
中,
Figure 865858DEST_PATH_IMAGE014
代表文档集的文档数目,单一文档为
Figure 107484DEST_PATH_IMAGE015
Figure 382607DEST_PATH_IMAGE016
代表特征词个数,则文档
Figure 26078DEST_PATH_IMAGE017
中的第
Figure 423562DEST_PATH_IMAGE018
个特征词为
Figure 152483DEST_PATH_IMAGE019
,潜在主题集合
Figure 231298DEST_PATH_IMAGE020
,则LDA模型生成文档时首先计算主题中的特征词分布概率向量
Figure 729275DEST_PATH_IMAGE021
和主题分布概率向量
Figure 812507DEST_PATH_IMAGE022
,接着求解每个特征词
Figure 763145DEST_PATH_IMAGE023
,特征词生成的概率公式为:
Figure 645650DEST_PATH_IMAGE024
其中,
Figure 998134DEST_PATH_IMAGE025
基于上述论断,确定融合TFIDF和LDA的计算公式为:
Figure 2999DEST_PATH_IMAGE026
步骤4:计算词位置的权重w_dest(i),位置权重设置表如表1所示:
表1 位置权重设置表
Figure 440934DEST_PATH_IMAGE027
步骤5:计算词性的权重w_attr(i),词性权重设置表如表2所示:
表2 词性权重设置表
Figure 861551DEST_PATH_IMAGE028
步骤6:计算词长的权重w_len(i),计算方法为:
w_len(i) = len_i / (len_i + 4) 其中,i表示词素,len_i表示词长。
步骤7:计算词跨度的权重w_span(i),计算方法为:
w_span(i) = num_i / total_num 其中,i表示词素,num_i表示i出现的段落数,total_num表示文章总段落数。
步骤8:利用每个句子进行归一化的结果表示文本T。具体的模型表述:一个句子由M个词素组成,一个文本由N个句子组成,即
Figure 334121DEST_PATH_IMAGE029
Figure 447570DEST_PATH_IMAGE030
。其中
Figure 185850DEST_PATH_IMAGE031
表示公式为:
Figure 410158DEST_PATH_IMAGE032
其中,
Figure 471655DEST_PATH_IMAGE033
为各种不同权重的加权系数,本发明取
Figure 756006DEST_PATH_IMAGE034
为1.5,
Figure 230850DEST_PATH_IMAGE035
为 1.1,
Figure 258848DEST_PATH_IMAGE036
为0.8。
利用上述公式计算出每一个句子的权值,从而表示出T。
步骤9:基于MMR算法综合相关性和多样性计算每个句子最终的权值。对MMR原始公式做出简化,将其应用于文本摘要中,公式如下:
Figure 440431DEST_PATH_IMAGE037
其中,weight(i)表示文章第i句的权重,即
Figure 630104DEST_PATH_IMAGE038
表示当前句子i与已经成为候选摘要的句子j的余弦相似度
Figure 841511DEST_PATH_IMAGE039
;为需要调节的参数,用来控制文章摘要的多样性。
步骤10:权值降序排列每个句子,抽取排名靠前的若干句作为最终结果。
附图说明
图1为本发明流程图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。
为了衡量本发明的优劣,采用3个指标作为衡量的标准,分别是准确率、召回率和F1 值 。
数据集为人民网自2021年1至8月的5000篇新闻数据,该数据按照话题划分,并且专家标注了摘要的句子。准确率、召回率和F1值的计算公式如下:
Figure 407622DEST_PATH_IMAGE040
Figure 709290DEST_PATH_IMAGE041
Figure 69864DEST_PATH_IMAGE042
其中,TP为正确摘要句子的个数,NT为新闻总句数,FP为误分类到该类的样本总数,TS为标记的摘要句子总数。
表3为本发明算法与TFIDF、LDA和TextRank实现文本摘要的对比:
表3 对比算法
Figure 519300DEST_PATH_IMAGE043
从表中可知,融合TFIDF和LDA实现抽取式文本摘要方法(命名为RTL)的三个指标均明显优于经典的 TFIDF、LDA和TextRank。RTL准确率、召回率、F1值分别为80.3%、72.4%、76.2%。其中,对比算法之间准确率的极差在60%左右,召回率和F1值的极差在50%左右。从数据看,RTL值得推广应用。但是该方法也有局限的地方:一是仅在具有鲜明主题的文档上的应用效果较好、二是摘要的句子逻辑分散。综上所述,本文方法比较全面地考虑了影响摘要句子提取的各种因素,具有一定的通用性和推广性。

Claims (6)

1.一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征包括如下步骤:
S1:对输入数据进行数据清洗,然后将文档拆分成句子集合;
S2:对每个句子分词,然后过滤停用词、特定词性的词和指定长度的词;
S3:采用融合TFIDF和LDA计算每个词素的权重w_tfidf-lda(i);
S4:计算词位置的权重w_dest(i);
S5:计算词性的权重w_attr(i);
S6:计算词长的权重w_len(i);
S7:计算词跨度的权重w_span(i);
S8:利用每个句子进行归一化的结果表示文本T;
S9:基于MMR算法综合相关性和多样性计算每个句子最终的权值;
S10:权值降序排列每个句子,抽取排名靠前的若干句作为最终结果。
2.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S3的w_tfidf-lda(i) 计算方法为:
首先,TF-IDF进行归一化处理,计算公式为:
Figure 229196DEST_PATH_IMAGE001
其中,
Figure 950027DEST_PATH_IMAGE002
指特征项
Figure 381009DEST_PATH_IMAGE003
在文档
Figure 25748DEST_PATH_IMAGE004
中出现的次数、
Figure 61837DEST_PATH_IMAGE005
指出现特征项
Figure 219149DEST_PATH_IMAGE006
的文档的倒数、N表示总文档数、
Figure 340689DEST_PATH_IMAGE007
指出现特征项
Figure 976069DEST_PATH_IMAGE008
的文档数;
其次,LDA模型具体定义如下:文档集
Figure 132244DEST_PATH_IMAGE009
中,
Figure 709725DEST_PATH_IMAGE010
代表文档集的文档数目,单一文档为
Figure 318561DEST_PATH_IMAGE011
Figure 554370DEST_PATH_IMAGE012
代表特征词个数,则文档
Figure 565051DEST_PATH_IMAGE013
中的第
Figure 798586DEST_PATH_IMAGE014
个特征词为
Figure 894718DEST_PATH_IMAGE015
,潜在主题集合
Figure 888213DEST_PATH_IMAGE016
,则LDA模型生成文档时首先计算主题中的特征词分布概率向量
Figure 18980DEST_PATH_IMAGE017
和主题分布概率向量
Figure 485734DEST_PATH_IMAGE018
,接着求解每个特征词
Figure 803583DEST_PATH_IMAGE019
,特征词生成的概率公式为:
Figure 850036DEST_PATH_IMAGE020
其中,
Figure 835310DEST_PATH_IMAGE021
最后,基于上述论断,确定融合TF-IDF和LDA的计算公式为:
Figure 662845DEST_PATH_IMAGE022
根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S4的
Figure 467990DEST_PATH_IMAGE023
,以及S5的
Figure 52555DEST_PATH_IMAGE024
的设置方式如下表所示:
计算词位置的权重
Figure 220231DEST_PATH_IMAGE023
,位置权重设置表如表1所示:
表1 位置权重设置表
Figure 700891DEST_PATH_IMAGE025
计算词性的权重
Figure 258911DEST_PATH_IMAGE024
,词性权重设置表如表2所示:
表2 词性权重设置表
Figure 132320DEST_PATH_IMAGE026
3.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S6的w_len(i)计算方法为:
w_len(i) = len_i / (len_i + 4)其中,i表示词素,len_i表示词长。
4.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S7的w_span(i)计算方法为:
w_span(i) = num_i / total_num其中i表示词素,num_i表示i出现的段落数,total_num表示文章总段落数。
5.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S8的T的表示方法为:具体的模型表述为:一个句子由M个词素组成,一个文本由N个句子组成,即
Figure 92186DEST_PATH_IMAGE027
Figure 9327DEST_PATH_IMAGE028
,其中
Figure 116960DEST_PATH_IMAGE029
表示公式为:
Figure 512169DEST_PATH_IMAGE030
其中,
Figure 106967DEST_PATH_IMAGE031
为各种不同权重的加权系数,本发明取
Figure 929430DEST_PATH_IMAGE032
为1.5,
Figure 462042DEST_PATH_IMAGE033
为 1.1,
Figure 660943DEST_PATH_IMAGE034
为0.8;利用上述公式计算出每一个句子的权值,从而表示出T。
6.根据权力要求1所述的一种融合TFIDF和LDA实现抽取式文本摘要方法,其特征在于,所述步骤S9中MMR的简化为:
Figure 860980DEST_PATH_IMAGE035
其中,weight(i)表示文章第i句的权重,即
Figure 854344DEST_PATH_IMAGE036
表示当前句子i与已经成为候选摘要的句子j的余弦相似度
Figure 687301DEST_PATH_IMAGE037
;为需要调节的参数,用来控制文章摘要的多样性。
CN202111336084.2A 2021-11-12 2021-11-12 一种融合tfidf和lda实现抽取式文本摘要方法 Pending CN113987133A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111336084.2A CN113987133A (zh) 2021-11-12 2021-11-12 一种融合tfidf和lda实现抽取式文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111336084.2A CN113987133A (zh) 2021-11-12 2021-11-12 一种融合tfidf和lda实现抽取式文本摘要方法

Publications (1)

Publication Number Publication Date
CN113987133A true CN113987133A (zh) 2022-01-28

Family

ID=79748036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111336084.2A Pending CN113987133A (zh) 2021-11-12 2021-11-12 一种融合tfidf和lda实现抽取式文本摘要方法

Country Status (1)

Country Link
CN (1) CN113987133A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116339799A (zh) * 2023-04-06 2023-06-27 山景智能(北京)科技有限公司 一种智能化数据接口管理的方法、系统、终端设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116339799A (zh) * 2023-04-06 2023-06-27 山景智能(北京)科技有限公司 一种智能化数据接口管理的方法、系统、终端设备及存储介质
CN116339799B (zh) * 2023-04-06 2023-11-28 山景智能(北京)科技有限公司 一种智能化数据接口管理的方法、系统、终端设备及存储介质

Similar Documents

Publication Publication Date Title
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
WO2018066445A1 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
CN101968819B (zh) 面向广域网的音视频智能编目信息获取方法
CN110059311A (zh) 一种面向司法文本数据的关键词提取方法及系统
CN109960756B (zh) 新闻事件信息归纳方法
Sun et al. The keyword extraction of Chinese medical web page based on WF-TF-IDF algorithm
CN109902289B (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN112256843B (zh) 一种基于tf-idf方法优化的新闻关键词提取方法及系统
CN102411621A (zh) 一种基于云模型的中文面向查询的多文档自动文摘方法
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN116701431A (zh) 一种基于大语言模型的数据检索方法及系统
CN108920599B (zh) 一种基于知识本体库的问答系统答案精准定位和抽取方法
CN101685455A (zh) 数据检索的方法和系统
CN110807326A (zh) 结合gpu-dmm与文本特征的短文本关键词提取方法
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN101968801A (zh) 一种单篇文本关键词的提取方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN111125299B (zh) 一种基于用户行为分析的动态词库更新方法
Vetriselvi et al. RETRACTED ARTICLE: An improved key term weightage algorithm for text summarization using local context information and fuzzy graph sentence score
Lin et al. Enhanced BERT-based ranking models for spoken document retrieval
CN113987133A (zh) 一种融合tfidf和lda实现抽取式文本摘要方法
CN112182332A (zh) 一种基于爬虫采集的情感分类方法及系统
CN112613612A (zh) 一种基于专利库的绿色设计知识库的构建方法及其装置
CN113486155B (zh) 一种融合固定短语信息的中文命名方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication