CN114328865A - 一种改进的TextRank多特征融合教育资源关键词提取方法 - Google Patents

一种改进的TextRank多特征融合教育资源关键词提取方法 Download PDF

Info

Publication number
CN114328865A
CN114328865A CN202111542393.5A CN202111542393A CN114328865A CN 114328865 A CN114328865 A CN 114328865A CN 202111542393 A CN202111542393 A CN 202111542393A CN 114328865 A CN114328865 A CN 114328865A
Authority
CN
China
Prior art keywords
word
weight
speech
idf
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111542393.5A
Other languages
English (en)
Inventor
赵弘扬
谢强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202111542393.5A priority Critical patent/CN114328865A/zh
Publication of CN114328865A publication Critical patent/CN114328865A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种改进的TextRank多特征融合教育资源关键词提取方法,首先利用中文分词、去除停用词等因素对资源进行文本预处理,然后分别进行TF‑IDF、词位置和词性的权重计算,之后为不同权重的TF‑IDF、词位置和词性分配对应参数,最后将之前两步计算的权重值和参数值带入,形成多特征融合计算词语的分值,再对分值进行排序,选取前N个词语作为资源的关键词。实验结果表明该方法能够稳定的从教育资源中提取关键词信息,提高关键词的质量。它的先进性主要有较高的准确性和稳定性,在一定程度上提高了关键词提取的质量,提高了教育资源的利用效率。

Description

一种改进的TextRank多特征融合教育资源关键词提取方法
技术领域
本发明属于数据挖掘技术领域,尤其是一种改进的TextRank多特征融合教育资源关键词提取的方法。
背景技术
随着互联网+教育的快速发展,网络教育资源呈现爆炸式增长,面对如此海量的信息,人们需要花费大量时间和精力对其进行挑选和甄别。教育资源核心内容和主题信息的浓缩可以依靠关键词展现出来,用户可以通过阅读关键词快速明确文章主旨,从海量的资源中获取有用信息。面对这样的挑战,关键词提取(Keyword extraction)技术应运而生,使用关键词提取技术能够从这些海量数据中获取有效的信息。然而,由于数据的爆炸性增长,如何使用数据挖掘技术快速有效地从海量数据中获取有效的信息是目前迫切需要解决的问题。
发明内容
发明目的:本发明的目的在于克服现有技术的不足,提出一种设计合理、准确且稳定的改进的TextRank多特征融合教育资源关键词提取方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种改进的TextRank多特征融合教育资源关键词提取方法,包括如下步骤:
步骤一:获取教育资源数据;
步骤二:将获取到的教育资源数据进行预处理,所述预处理包括中文分词和去除停用词;
步骤三:将预处理后的教育资源数据整理成文本集;
步骤四:分别进行TF-IDF、词位置和词性的权重计算;
步骤五:为步骤4计算的不同权重的TF-IDF、词位置和词性分配对应参数;
步骤六:将之前步骤四计算的权重值和步骤五分配的参数值融合,形成多特征融合计算词语的分值;
步骤七:将词语按照步骤六计算的分值进行排序;
步骤八:选取步骤七排序后的前N个词语作为资源的关键词。
进一步的,所述步骤四中分别计算TF-IDF、词位置和词性的权重方法为:
41)计算TF-IDF的权重:
WT(i)=tfi,j×idfi
其中,WT(i)指单词i在文档j中的重要性,即单词权重;tfi,j表示词频,是指词语i在文档j中的出现的次数占比;idfi即词语i的逆文档频率,反映词语在整体语料库中出现频率;
42)计算词位置的权重:
Figure BDA0003408799950000021
在文档中,假设文档总段数为a,单词i所在段落为b段,则b段所有单词的权重由WL(i)计算得到;文档只有一段的情况下,首尾句的权重大,中间句子所含单词权重小,依然按照WL(i)进行计算;
43)计算词性的权重:
词性按照名词、动词、形容词、副词分别设置权重为5,4,3,2,依据文本中名词、动词、形容词、副词的词性分别赋予对应权重值,得到词性权重值WPos(i)
进一步的,所述步骤六中多特征融合计算词语的分值方法为:
WWeight(i)=αWT(i)+βWL(i)+γWPos(i)
其中,α+β+γ=1,α,β,γ均大于0,分别为TF-IDF算法、词语所在位置以及词性特征所占比例的大小;WT(i)是词语通过TF-IDF计算得到的权重值,WL(i)是词语的位置信息权重值,WPos(i)是词性特征权重值,最终计算出融合后的权重值;
计算节点vj到节点vi边的转移概率值:
Figure BDA0003408799950000022
计算节点vi的权重值:
Figure BDA0003408799950000031
其中,d是一个阻尼系数,一般取值为0.85。
进一步的,所述步骤七中对已计算出的分值进行排序方法为:
依据步骤六计算得出的节点vi的权重值公式,根据节点vi的权重值大小按从大到小的顺序对其进行排列。
有益效果:本发明在文本关键词提取领域中的应用体现了其高效准确性。在海量在线教育资源的环境下,根据中文文本的特点,利用词语在语料库中的重要度、文本的位置信息及词语的属性的影响,对线上资源进行关键词的提取。整个关键词提取的过程加入了多特征融合的,并且在提取的过程中融合了多特征的相关性,使关键词提取结果更加准确。提高了关键词的准确性和稳定性,在教育资源关键词提取方面,有利于教育资源更好的利用和管理。
附图说明
图1为关键词提取方法总体流程图。
具体实施方式
下面结合附图对本发明做更进一步的解释。
本发明环境为python 3.6版本的实验环境中。
一种改进的TextRank多特征融合教育资源关键词提取方法,包括如下步骤:
步骤一:首先,从相关教育资源平台中获取教育资源数据。
步骤二:然后,对所收集的文件集进行预处理,预处理的内容包括:
21)将获取的教育资源数据转换成文本格式;
22)按段进行中文分词处理,按照中文停用词表去除停用词;
步骤三:随后,将预处理后的教育资源数据整理成文本集。
步骤四:之后,分别进行TF-IDF、词位置和词性的权重计算;
41)计算TF-IDF的权重:
WT(i)=tfi,j×idfi
其中,WT(i)指单词i在文档j中的重要性,即单词权重;tfi,j表示词频,是指词语i在文档j中的出现的次数占比;idfi即词语i的逆文档频率,反映词语在整体语料库中出现频率;
42)计算词位置的权重:
Figure BDA0003408799950000041
在文档中,假设文档总段数为a,单词i所在段落为b段,则b段所有单词的权重由WL(i)计算得到;文档只有一段的情况下,首尾句的权重大,中间句子所含单词权重小,依然按照WL(i)进行计算;
43)计算词性的权重:
词性按照名词、动词、形容词、副词分别设置权重为5,4,3,2,依据文本中名词、动词、形容词、副词的词性分别赋予对应权重值,得到词性权重值WPos(i)
步骤五:为步骤4计算的不同权重的TF-IDF、词位置和词性分配对应参数;
步骤六:将之前步骤四计算的权重值和步骤五分配的参数值融合,形成多特征融合计算词语的分值;
多特征融合计算词语的分值方法为:
WWeight(i)=αWT(i)+βWL(i)+γWPos(i)
其中,α+β+γ=1,α,β,γ均大于0,分别为TF-IDF算法、词语所在位置以及词性特征所占比例的大小;WT(i)是词语通过TF-IDF计算得到的权重值,WL(i)是词语的位置信息权重值,WPos(i)是词性特征权重值,最终计算出融合后的权重值;
计算节点vj到节点vi边的转移概率值:
Figure BDA0003408799950000051
计算节点vi的权重值:
Figure BDA0003408799950000052
其中,d是一个阻尼系数,一般取值为0.85。
步骤七:将词语按照步骤六计算的分值进行排序;
依据步骤六计算得出的节点vi的权重值公式,根据节点vi的权重值大小按从大到小的顺序对其进行排列。
步骤八:选取步骤七排序后的前N个词语作为资源的关键词。

Claims (4)

1.一种改进的TextRank多特征融合教育资源关键词提取方法,包括如下步骤:
步骤一:获取教育资源数据;
步骤二:将获取到的教育资源数据进行预处理,所述预处理包括中文分词和去除停用词;
步骤三:将预处理后的教育资源数据整理成文本集;
步骤四:分别进行TF-IDF、词位置和词性的权重计算;
步骤五:为步骤4计算的不同权重的TF-IDF、词位置和词性分配对应参数;
步骤六:将之前步骤四计算的权重值和步骤五分配的参数值融合,形成多特征融合计算词语的分值;
步骤七:将词语按照步骤六计算的分值进行排序;
步骤八:选取步骤七排序后的前N个词语作为资源的关键词。
2.根据权利要求1所述的一种改进的TextRank多特征融合教育资源关键词提取方法,其特征在于,所述步骤四中分别计算TF-IDF、词位置和词性的权重方法为:
41)计算TF-IDF的权重:
WT(i)=tfi,j×idfi
其中,WT(i)指单词i在文档j中的重要性,即单词权重;tfi,j表示词频,是指词语i在文档j中的出现的次数占比;idfi即词语i的逆文档频率,反映词语在整体语料库中出现频率;
42)计算词位置的权重:
Figure FDA0003408799940000011
在文档中,假设文档总段数为a,单词i所在段落为b段,则b段所有单词的权重由WL(i)计算得到;文档只有一段的情况下,首尾句的权重大,中间句子所含单词权重小,依然按照WL(i)进行计算;
43)计算词性的权重:
词性按照名词、动词、形容词、副词分别设置权重为5,4,3,2,依据文本中名词、动词、形容词、副词的词性分别赋予对应权重值,得到词性权重值WPos(i)
3.根据权利要求2所述的一种改进的TextRank多特征融合教育资源关键词提取方法,其特征在于,所述步骤六中多特征融合计算词语的分值方法为:
WWeight(i)=αWT(i)+βWL(i)+γWPos(i)
其中,α+β+γ=1,α,β,γ均大于0,分别为TF-IDF算法、词语所在位置以及词性特征所占比例的大小;WT(i)是词语通过TF-IDF计算得到的权重值,WL(i)是词语的位置信息权重值,WPos(i)是词性特征权重值,最终计算出融合后的权重值;
计算节点vj到节点vi边的转移概率值:
Figure FDA0003408799940000021
计算节点vi的权重值:
Figure FDA0003408799940000022
其中,d是一个阻尼系数,一般取值为0.85。
4.根据权利要求3所述的一种改进的TextRank多特征融合教育资源关键词提取方法,其特征在于,所述步骤七中对已计算出的分值进行排序方法为:
依据步骤六计算得出的节点vi的权重值公式,根据节点vi的权重值大小按从大到小的顺序对其进行排列。
CN202111542393.5A 2021-12-14 2021-12-14 一种改进的TextRank多特征融合教育资源关键词提取方法 Pending CN114328865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111542393.5A CN114328865A (zh) 2021-12-14 2021-12-14 一种改进的TextRank多特征融合教育资源关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111542393.5A CN114328865A (zh) 2021-12-14 2021-12-14 一种改进的TextRank多特征融合教育资源关键词提取方法

Publications (1)

Publication Number Publication Date
CN114328865A true CN114328865A (zh) 2022-04-12

Family

ID=81052228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111542393.5A Pending CN114328865A (zh) 2021-12-14 2021-12-14 一种改进的TextRank多特征融合教育资源关键词提取方法

Country Status (1)

Country Link
CN (1) CN114328865A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859964A (zh) * 2022-11-24 2023-03-28 安徽冠成教育科技有限公司 基于教育云平台的教育资源共享方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859964A (zh) * 2022-11-24 2023-03-28 安徽冠成教育科技有限公司 基于教育云平台的教育资源共享方法及系统
CN115859964B (zh) * 2022-11-24 2023-04-28 安徽冠成教育科技有限公司 基于教育云平台的教育资源共享方法及系统

Similar Documents

Publication Publication Date Title
Seki et al. Overview of multilingual opinion analysis task at NTCIR-7.
Furlan et al. Semantic similarity of short texts in languages with a deficient natural language processing support
CN109582704B (zh) 招聘信息和求职简历匹配的方法
CN108304445B (zh) 一种文本摘要生成方法和装置
CN110083696B (zh) 基于元结构技术的全局引文推荐方法、推荐系统
CN102411621A (zh) 一种基于云模型的中文面向查询的多文档自动文摘方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN107247751B (zh) 基于lda主题模型的内容推荐方法
Al-Kabi et al. Evaluating social context in arabic opinion mining.
US20120078907A1 (en) Keyword presentation apparatus and method
Wu et al. ECNU at SemEval-2017 task 3: Using traditional and deep learning methods to address community question answering task
CN107357777A (zh) 提取标签信息的方法和装置
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
CN110929022A (zh) 一种文本摘要生成方法及系统
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
JP2007047974A (ja) 情報抽出装置および情報抽出方法
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN114328865A (zh) 一种改进的TextRank多特征融合教育资源关键词提取方法
CN111488453A (zh) 资源分级方法、装置、设备及存储介质
CN117521604A (zh) 一种基于大模型的商标生成方法及系统
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
Aliyanto et al. Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level
CN114117309A (zh) 一种网页实体提取方法、装置、计算机设备及存储介质
Agrawal et al. Enrichment and reductionism: Two approaches for web query classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination