CN108549626B

CN108549626B - 一种慕课的关键词提取方法

Info

Publication number: CN108549626B
Application number: CN201810177736.4A
Authority: CN
Inventors: 马震远; 黄丽霞; 张露娟; 戴玉珠; 林智勇; 刘少鹏
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2020-11-20
Anticipated expiration: 2038-03-02
Also published as: WO2019165678A1; CN108549626A

Abstract

本发明公开了一种慕课的关键词提取方法，该方法包括：先将慕课视频文件的语音转换为文本，并对文本进行中文分词、添加词性标注和语义标注，再根据每个词语的词语位置、词性和语义特征，结合预设的权重设置，计算文本中每个词语的第一综合权重，结合TextRank算法构建的图模型，计算每个词语的第二综合权重，最后按照权重由大到小，迭代输出X个关键词，完成关键词的提取。采用本发明实施例，能提高关键词提取的精确性，满足慕课个性化学习的需求。

Description

一种慕课的关键词提取方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种慕课的关键词提取方法。

背景技术

随着移动互联网的发展，在线学习(E-learning)作为一种新兴的教学模式在世界范围内得到了迅猛的发展。“慕课”英文全称是Massive Open Online Course(大规模在线开放课程)，简称MOOC。实际上是在线教育的新发展，是一种新型的在线开放教育形式，其实质是低成本、精品化、生成式、可广泛共享的在线微课程。与传统在线教育相比，它的一个显著特点是更加关注学生的“学”，学生在很大程度上可以通过MOOC实现自主个性化学习。

现有的慕课主要采用“讲授型”教学方式，主要以视频形式讲授教学内容，辅之以测验、课后练习专题研讨，占课程资源比重达99.01％。由此可见，对慕课视频进行自动关键词提取，以及在海量的慕课资源中快速准确地查找所需资源具有深远的意义与研究价值。现有技术对于关键词自动提取的研究集中在无监督方法方面，即不需要标注训练语料集，主流方法有基于词频统计的TF-IDF模型、基于主题模型和基于词图模型的关键词抽取等。

而基于词图模型关键词抽取的方法，不需要事先对文档集进行学习训练，仅利用单篇文档本身的信息即可进行关键词抽取，简单而有效，应用广泛，以TextRank算法为典型代表。但是现有的TextRank算法在关键词抽取时，仅利用单一文档进行关键词抽取且节点均匀加权的无权边图，而慕课语音文本具有独特的领域特征，除了要求抽取的关键词具有较高的准确率，还应该有较高的领域相关度，即该领域的核心术语。因此，亟需一种从词语性和领域性两个角度出发的关键词抽取方法。

发明内容

本发明实施例提出一种慕课的关键词提取方法，考虑了慕课语音文本的词语性和领域性，提高关键词提取的精确性，满足慕课个性化学习的需求。

本发明实施例提供慕课的关键词提取方法，包括：

获取待提取慕课的视频文件，将所述视频文件的语音转换为文本；

对所述文本进行中文分词，识别每个词语的词性和语义特征，为所述每个词语添加词性标注和语义特征标注；

根据所述每个词语的词语位置、词性和语义特征，结合预设的权重设置，计算所述文本中所述每个词语的第一综合权重；

根据TextRank算法，构建所述文本的图模型，并根据所述图模型和所述每个词语的第一综合权重，计算所述每个词语的第二综合权重；

根据所述每个词语的第二综合权重，按照权重由大到小，迭代输出X个关键词；X≥2；

计算各词语在预设文档集中的平均信息熵，过滤掉所述X个关键词中平均信息熵大于预设阈值的关键词，并输出剩下的关键词。

进一步的，所述预设的权重设置具体为：将预设的评价指标通过序关系法进行权重设置；

所述评价指标包括：词语位置指标Q₁、词性指标Q₂、语义特征指标Q₃、篇首指标Q₁₁、篇尾指标Q₁₂、名词指标Q₂₁、动词指标Q₂₂、形容词指标Q₂₃、副词指标Q₂₄、总结性特征词指标Q₃₁和并列性特征词指标Q₃₂；其中，Q₁、Q₂、Q₃为一级指标；Q₁₁、Q₁₂、Q₂₁、Q₂₂、Q₂₃、Q₂₄、Q₃₁和Q₃₂为二级指标；

根据预设序关系Q₁＞Q₂＞Q₃，得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比，并分别对所述一级指标和二级指标进行权重设置。

进一步的，所述根据预设序关系Q₁＞Q₂＞Q₃，得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比，并分别对所述一级指标和二级指标进行权重设置，具体为：

目标Q_k和相邻目标Q_k-1的重要程度比：

r_k＝w_k-1/w_k，k＝m，m-1，m-2，…3,2；m为评价指标的总个数；

且根据所述序关系Q₁＞Q₂＞Q₃，r_k-1和r_k需满足：

r_k-1＞r_k，k＝m，m-1，m-2，…3,2；

对各重要程度比进行赋值后，通过以下公式计算各一级指标和二级指标的权重系数，并根据所述权重系数进行权重设置：

其中，w_k-1＝r_kw_k,k＝m,m-1,m-2…,3,2。

进一步的，所述计算所述文本中所述每个词语的第一综合权重，具体为：

通过以下公式计算每个词语的第一综合权重：

其中，q₁、q₂和q₃分别为Q₁、Q₂、Q₃的一级指标权重；

和

分别为(Q₁₁、Q₁₂)、(Q₂₁、Q₂₂、Q₂₃、Q₂₄)和(Q₃₁、Q₃₂)的二级指标权重。

进一步的，所述根据TextRank算法，构建所述文本的图模型，并根据所述图模型和所述每个词语的第一综合权重，计算所述每个词语的第二综合权重，具体为：

设G(V,E)为所述文本的词汇构成的图，则根据TextRank算法的图模型的权重迭代公式为：

其中，d为阻尼系数，In(V_i)表示指向节点V_i的所有节点集合；Out(V_j)表示节点V_j指向所有节点的集合；w_ji表示节点V_j到节点V_i的边的权重；

根据所述图模型的权重迭代公式和所述第一综合权重，按照以下公式计算第二综合权重；

进一步的，所述计算所述每个词语在预设文档集中的平均信息熵，具体为：按照以下公式，计算所述每个词语在预设文档集中的平均信息熵；

其中，f_wk表示词语w在文档k中的频率，n_w表示词语w在整个文档集中的频率，N表示文档的总数。

进一步的，在所述将所述视频文件的语音转换为文本之后，还包括：

对所述文本进行预处理，校正所述文本的错别字。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的慕课的关键词提取方法，先将慕课视频文件的语音转换为文本，并对文本进行中文分词、添加词性标注和语义标注，再根据每个词语的词语位置、词性和语义特征，结合预设的权重设置，计算文本中每个词语的第一综合权重，结合TextRank算法构建的图模型，计算每个词语的第二综合权重，最后按照权重由大到小，迭代输出X个关键词，完成关键词的提取。相比于现有技术的节点均匀加权的无权边图，本发明技术方案针对慕课语音文本的非规范性，从词语性的角度进行关键词提取，提高了关键词提取的精确性。

进一步的，本发明技术方案通过平均信息熵衡量词语的领域性，并通过平均信息熵来过滤掉得出的X个关键词，从词语性和领域性两个角度进行关键词提取，进一步提高了关键词提取的精确性，满足慕课个性化学习的需求。

附图说明

图1是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图；

图2是本发明提供的关键词提取影响因素权重指标体系的一种实施例的结构示意图；

图3是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图，该方法步骤101至步骤105，各步骤具体如下：

步骤101：获取待提取慕课的视频文件，将视频文件的语音转换为文本。

在本实施例中，通过语音分析系统将语音转换为文本，该内容为现有技术，在此不在赘述。

作为本实施例的一种举例，在步骤101之后，还包括：对文本进行预处理，校正文本的错别字，以提高关键词提取的准确率。

步骤102：对文本进行中文分词，识别每个词语的词性和语义特征，为每个词语添加词性标注和语义特征标注。

在本实施例中，本发明针对词语性的角度，以词语位置、词性和语义特征三个属性来衡量，设置相应的评价指标。评价指标包括：词语位置指标Q₁、词性指标Q₂、语义特征指标Q₃、篇首指标Q₁₁、篇尾指标Q₁₂、名词指标Q₂₁、动词指标Q₂₂、形容词指标Q₂₃、副词指标Q₂₄、总结性特征词指标Q₃₁和并列性特征词指标Q₃₂；其中，Q₁、Q₂、Q₃为一级指标；Q₁₁、Q₁₂、Q₂₁、Q₂₂、Q₂₃、Q₂₄、Q₃₁和Q₃₂为二级指标。

在本实施例中，慕课语音文本属于非规范文本，结合其文本特点，关键词位置分为篇首、篇尾等两种情况，根据词语所在位置的不同，需要赋予不同的权重。而对于词性，关键词的词性集中于名词、动词和形容词上，根据其词性特征，需要赋予不同的权重。对于语义特征，慕课类语音文本有明显的领域特征词，根据修辞结构理论和关键词出现的规律，慕课中领域特征词分为总结性特征词和并列性特征词。关键词经常出现在这两类特征词的后面，因此根据领域标志性词语的不同，分别赋予其邻近词语不同的权重。详细可参见图2，图2是本发明提供的关键词提取影响因素权重指标体系的一种实施例的结构示意图。图2中N的数值可根据实际需求设置。

步骤103：根据每个词语的词语位置、词性和语义特征，结合预设的权重设置，计算文本中每个词语的第一综合权重。

在本实施例中，预设的权重设置具体为：将预设的评价指标通过序关系法进行权重设置。即根据预设序关系Q₁＞Q₂＞Q₃，得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比，并分别对所述一级指标和二级指标进行权重设置。

在本实施例中，序关系为：若评价指标Q_i相对于评价目标的重要程度大于Q_j时，记作Q_i＞Q_j。若指标Q₁，Q₂，…Q_m相对某评价准则具有关系式：

时，则评价指标Q₁，Q₂，…Q_m之间建立了序关系。其中，

表示

按序关系“＞”进行排序后的第i个评价指标(i＝1，2，…，m)。

而在本实施例中，根据预设序关系Q₁＞Q₂＞Q₃，得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比，并分别对一级指标和二级指标进行权重设置，具体为：

目标Q_k和相邻目标Q_k-1的重要程度比：

r_k＝w_k-1/w_k，k＝m，m-1，m-2，…3,2；m为评价指标的总个数；

且根据所述序关系Q₁＞Q₂＞Q₃，r_k-1和r_k需满足：

r_k-1＞r_k，k＝m，m-1，m-2，…3,2；

其中，w_k-1＝r_kw_k,k＝m,m-1,m-2…,3,2。

在本实施例中，参见表1，表1是r_k赋值参考表，如下表所示，可根据实际情况进行赋值。

r<sub>k</sub>	说明
		1.0	指标Q<sub>k-1</sub>与Q<sub>k</sub>具有同样的重要性
1.2	指标Q<sub>k-1</sub>与Q<sub>k</sub>具有稍微重要
		1.4	指标Q<sub>k-1</sub>与Q<sub>k</sub>具有明显重要
1.6	指标Q<sub>k-1</sub>与Q<sub>k</sub>具有强烈重要
		1.8	指标Q<sub>k-1</sub>与Q<sub>k</sub>具有极端重要
1.1,1.3,1.5,1.7	对应两两相邻指标判断中间情况

表1r_k赋值参考表

在本实施例中，通过计算各级指标的权重系数后，可结合文本得出各级指标的权重值，再通过以下公式计算每个词语的第一综合权重：

其中，q₁、q₂和q₃分别为Q₁、Q₂、Q₃的一级指标权重；

和

为了更好地说明本发明技术方案，下面进行举例说明，如果r₂取值1.6，r₃取值1.2，则根据计算可得出以下权重表，再根据表中的数据计算每个词语的第一综合权重。

表2指标权重表

在本实施例中，除了上述8个重要指标外，其他词语节点权重可以但不限于设置为0.0001。

步骤104：根据TextRank算法，构建所述文本的图模型，并根据图模型和每个词语的第一综合权重，计算每个词语的第二综合权重。

在本实施例中，步骤104具体为：设G(V,E)为文本的词汇构成的图，则根据TextRank算法的图模型的权重迭代公式为：

其中，d为阻尼系数，In(V_i)表示指向节点V_i的所有节点集合；Out(V_j)表示节点V_j指向所有节点的集合；w_ji表示节点V_j到节点V_i的边的权重。阻尼系数d在PageRank中的原始意义表示在任意时刻，用户到达某网页后并继续向后浏览的概率值，一般取值为0.85。

根据图模型的权重迭代公式和第一综合权重，按照以下公式计算第二综合权重；

由上述计算公式可见，本发明将计算得出的第一综合权重结合到图模型的权重迭代公式中，从而克服了现有TextRank模型因未探讨词语的重要性程度不同而影响相邻节点权值转移的问题，提高关键词提取的精确性。

步骤105：根据每个词语的第二综合权重，按照权重由大到小，迭代输出X个关键词；X≥2。

在本实施例中，根据最后计算得出的第二综合权重，按照权重大小，迭代输出X个关键词。X可以根据实际情况进行取值。

作为本发明实施例的一种举例，参见图3，图3是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图。如图所示，该方法还包括：计算每个词语在预设文档集中的平均信息熵，过滤掉X个关键词中平均信息熵大于预设阈值的关键词，并输出剩余的关键词。其中2≤X≤10。

在本举例中，按照以下公式，计算每个词语在预设文档集中的平均信息熵；

其中，f_wk表示词语w在文档k中的频率，n_w表示词语w在整个文档集中的频率，N表示文档的总数。如果词语在各类别文档中出现的频率相当，则其H(w)值接近最大值1，表示该词语对其所在文档主题的表现力较弱。反之，如果H(w)值接近最小值0，则表明该词语对其所在文档主题表现力较强。

在本举例中，通过平均信息熵来衡量词语领域性，平均信息熵接近于1，说明没有领域区分度，而接近于0的说明有很好的领域区分度。本举例的预设阈值可以但不限于为0.3，以此过滤掉平均信息熵上大于0.3的词语，再输出剩余的关键词，或者，根据用户需要输出若干个关键词。譬如，在步骤105中输出前50个关键词，通过本举例的过滤后，输出前10个关键词，提高提取关键词的精确性。

由上可见，本发明实施例提供的慕课的关键词提取方法，先将慕课视频文件的语音转换为文本，并对文本进行中文分词、添加词性标注和语义标注，再根据每个词语的词语位置、词性和语义特征，结合预设的权重设置，计算文本中每个词语的第一综合权重，结合TextRank算法构建的图模型，计算每个词语的第二综合权重，最后按照权重由大到小，迭代输出X个关键词，完成关键词的提取。相比于现有技术的节点均匀加权的无权边图，本发明技术方案针对慕课语音文本的非规范性，从词语性的角度进行关键词提取，提高了关键词提取的精确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。