CN114328865A

CN114328865A - 一种改进的TextRank多特征融合教育资源关键词提取方法

Info

Publication number: CN114328865A
Application number: CN202111542393.5A
Authority: CN
Inventors: 赵弘扬; 谢强
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-12

Abstract

本发明涉及一种改进的TextRank多特征融合教育资源关键词提取方法，首先利用中文分词、去除停用词等因素对资源进行文本预处理，然后分别进行TF‑IDF、词位置和词性的权重计算，之后为不同权重的TF‑IDF、词位置和词性分配对应参数，最后将之前两步计算的权重值和参数值带入，形成多特征融合计算词语的分值，再对分值进行排序，选取前N个词语作为资源的关键词。实验结果表明该方法能够稳定的从教育资源中提取关键词信息，提高关键词的质量。它的先进性主要有较高的准确性和稳定性，在一定程度上提高了关键词提取的质量，提高了教育资源的利用效率。

Description

一种改进的TextRank多特征融合教育资源关键词提取方法

技术领域

本发明属于数据挖掘技术领域，尤其是一种改进的TextRank多特征融合教育资源关键词提取的方法。

背景技术

随着互联网+教育的快速发展,网络教育资源呈现爆炸式增长，面对如此海量的信息，人们需要花费大量时间和精力对其进行挑选和甄别。教育资源核心内容和主题信息的浓缩可以依靠关键词展现出来，用户可以通过阅读关键词快速明确文章主旨，从海量的资源中获取有用信息。面对这样的挑战，关键词提取(Keyword extraction)技术应运而生，使用关键词提取技术能够从这些海量数据中获取有效的信息。然而，由于数据的爆炸性增长，如何使用数据挖掘技术快速有效地从海量数据中获取有效的信息是目前迫切需要解决的问题。

发明内容

发明目的：本发明的目的在于克服现有技术的不足，提出一种设计合理、准确且稳定的改进的TextRank多特征融合教育资源关键词提取方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种改进的TextRank多特征融合教育资源关键词提取方法，包括如下步骤：

步骤一：获取教育资源数据；

步骤二：将获取到的教育资源数据进行预处理，所述预处理包括中文分词和去除停用词；

步骤三：将预处理后的教育资源数据整理成文本集；

步骤四：分别进行TF-IDF、词位置和词性的权重计算；

步骤五：为步骤4计算的不同权重的TF-IDF、词位置和词性分配对应参数；

步骤六：将之前步骤四计算的权重值和步骤五分配的参数值融合，形成多特征融合计算词语的分值；

步骤七：将词语按照步骤六计算的分值进行排序；

步骤八：选取步骤七排序后的前N个词语作为资源的关键词。

进一步的，所述步骤四中分别计算TF-IDF、词位置和词性的权重方法为：

41)计算TF-IDF的权重：

W_T(i)＝tf_i,j×idf_i

其中，W_T(i)指单词i在文档j中的重要性，即单词权重；tf_i,j表示词频，是指词语i在文档j中的出现的次数占比；idf_i即词语i的逆文档频率，反映词语在整体语料库中出现频率；

42)计算词位置的权重：

在文档中，假设文档总段数为a，单词i所在段落为b段，则b段所有单词的权重由W_L(i)计算得到；文档只有一段的情况下，首尾句的权重大，中间句子所含单词权重小，依然按照W_L(i)进行计算；

43)计算词性的权重：

词性按照名词、动词、形容词、副词分别设置权重为5，4，3，2，依据文本中名词、动词、形容词、副词的词性分别赋予对应权重值，得到词性权重值W_Pos(i)。

进一步的，所述步骤六中多特征融合计算词语的分值方法为：

W_Weight(i)＝αW_T(i)+βW_L(i)+γW_Pos(i)

其中，α+β+γ＝1，α，β，γ均大于0,分别为TF-IDF算法、词语所在位置以及词性特征所占比例的大小；W_T(i)是词语通过TF-IDF计算得到的权重值，W_L(i)是词语的位置信息权重值，W_Pos(i)是词性特征权重值，最终计算出融合后的权重值；

计算节点v_j到节点v_i边的转移概率值：

计算节点v_i的权重值：

其中，d是一个阻尼系数，一般取值为0.85。

进一步的，所述步骤七中对已计算出的分值进行排序方法为：

依据步骤六计算得出的节点v_i的权重值公式，根据节点v_i的权重值大小按从大到小的顺序对其进行排列。

有益效果：本发明在文本关键词提取领域中的应用体现了其高效准确性。在海量在线教育资源的环境下，根据中文文本的特点，利用词语在语料库中的重要度、文本的位置信息及词语的属性的影响，对线上资源进行关键词的提取。整个关键词提取的过程加入了多特征融合的，并且在提取的过程中融合了多特征的相关性，使关键词提取结果更加准确。提高了关键词的准确性和稳定性，在教育资源关键词提取方面，有利于教育资源更好的利用和管理。

附图说明

图1为关键词提取方法总体流程图。

具体实施方式

下面结合附图对本发明做更进一步的解释。

本发明环境为python 3.6版本的实验环境中。

步骤一：首先，从相关教育资源平台中获取教育资源数据。

步骤二：然后，对所收集的文件集进行预处理，预处理的内容包括：

21)将获取的教育资源数据转换成文本格式；

22)按段进行中文分词处理，按照中文停用词表去除停用词；

步骤三：随后，将预处理后的教育资源数据整理成文本集。

步骤四：之后，分别进行TF-IDF、词位置和词性的权重计算；

41)计算TF-IDF的权重：

W_T(i)＝tf_i,j×idf_i

42)计算词位置的权重：

43)计算词性的权重：

多特征融合计算词语的分值方法为：

W_Weight(i)＝αW_T(i)+βW_L(i)+γW_Pos(i)

计算节点v_j到节点v_i边的转移概率值：

计算节点v_i的权重值：

其中，d是一个阻尼系数，一般取值为0.85。

步骤七：将词语按照步骤六计算的分值进行排序；

步骤八：选取步骤七排序后的前N个词语作为资源的关键词。

Claims

1.一种改进的TextRank多特征融合教育资源关键词提取方法，包括如下步骤：

步骤一：获取教育资源数据；

步骤三：将预处理后的教育资源数据整理成文本集；

步骤四：分别进行TF-IDF、词位置和词性的权重计算；

步骤七：将词语按照步骤六计算的分值进行排序；

步骤八：选取步骤七排序后的前N个词语作为资源的关键词。

2.根据权利要求1所述的一种改进的TextRank多特征融合教育资源关键词提取方法，其特征在于，所述步骤四中分别计算TF-IDF、词位置和词性的权重方法为：

41)计算TF-IDF的权重：

W_T(i)＝tf_i,j×idf_i

42)计算词位置的权重：

43)计算词性的权重：

3.根据权利要求2所述的一种改进的TextRank多特征融合教育资源关键词提取方法，其特征在于，所述步骤六中多特征融合计算词语的分值方法为：

W_Weight(i)＝αW_T(i)+βW_L(i)+γW_Pos(i)

计算节点v_j到节点v_i边的转移概率值：

计算节点v_i的权重值：

其中，d是一个阻尼系数，一般取值为0.85。

4.根据权利要求3所述的一种改进的TextRank多特征融合教育资源关键词提取方法，其特征在于，所述步骤七中对已计算出的分值进行排序方法为：