CN108052630B

CN108052630B - 一种基于中文教育视频提取拓展词的方法

Info

Publication number: CN108052630B
Application number: CN201711377455.5A
Authority: CN
Inventors: 曹妤; 林淑金; 周凡
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2020-12-08
Anticipated expiration: 2037-12-19
Also published as: CN108052630A

Abstract

本发明公开了一种基于中文教育视频提取拓展词的方法，其中，所述方法包括：获取中文教育视频，生成视频内容文本，将其备份标记为文本集1和文本集2；将文本集1去停用词、词性标注，保留名词；并提取关键词和关键短语，获得关键词集1；根据关键词集1中的关键词对文本集1中的文本信息进行分类；根据不同类别信息，爬取相关类别的文章，将该类别的典型文章构建类别语料库；将文本集2进行分词，根据类别语料库提取关键词，获得关键词集2；将其和关键词集1取并集，对其重叠关键词按照视频内容文本长短重新分配权重；根据权重倒序排序，获得对应数量和难度的拓展词。实现本发明实施例，能全面准确的提取出视频中需要进行知识拓展的词条来帮助观看者在理解和学习。

Description

一种基于中文教育视频提取拓展词的方法

技术领域

本发明涉及视频信息提取、自然语言处理技术领域，尤其涉及一种基于中文教育视频提取拓展词的方法。

背景技术

随着互联网的发展，各行各业都逐渐与互联网产生了密切的关联。教育领域更是与互联网密不可分。通过观看视频进行学习也成了一种非常重要的学习手段。而在进行视频学习时，如何提高效率成了我们首要关注的问题。通过提取视频中的词来帮助我们了解视频内容是一种有效的学习方法。目前已有很多针对视频进行关键词提取和分析的技术方案。通过关键词提取来实现视频时间节点的检索、目录抽取等功能。而针对视频中的拓展词的提取方案的研究相对较少。

首先要对视频文本进行处理，提取视频拓展词，中文分词技术在这方面已有很多成熟技术。通过中文分词，可以去停用词，提取特定词性的词或短语。中文分词有基于词典的字符串匹配方法，有基于统计的机器学习方法等。常见的分词器都结合了字典和机器学习，一方面提高了准确率，另一方面增加了领域适应性。通过分词得到一个初步处理的词汇文本，进而抽取视频拓展词。

在提取视频拓展词时，由于知识水平所限，每个人对词语的难度的把控是不同的，这又与常见的关键词提取存在着一定的差异。现有的关键词提取方法常利用关键词的词频、出现位置、主题关联度等特征来进行关键词提取，如TF-IDF、TextRank等。提取出的词语一定程度上与主题有着联系。考虑到一个视频中反复出现的词可能就是视频的主题，通常也是专业术语，需要进行解释。一些出现频率极低可能只出现一次又与视频主题无关的词，也有可能是一个观看视频者想要进行知识拓展的词，我们也必须将这些词进行提取，这也是该项技术的难点之一。另外需要对一些简单级别的词语，如日常用语、不需要进行解释的词语进行筛选。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于中文教育视频提取拓展词的方法，通过综合词频、专有名词、词条长度、词间关联等多个维度特征，能全面准确的提取出视频中需要进行知识拓展的词条来帮助观看者在理解和学习。

为了解决上述技术问题，本发明提供了一种基于中文教育视频提取拓展词的方法，所述方法包括：

获取中文教育视频，生成视频内容文本，并将视频内容文本备份、标记为文本集1和文本集2；

对文本集1进行去停用词处理，并对去停用词处理后的文本集1进行词性标注，获得保留名词的文本集1；

对所述保留名词的文本集1进行提取关键词和关键短语，获得关键词集1；

根据关键词集1中的关键词对文本集1中的文本信息进行分类，获得不同类别信息；

根据不同类别信息，进行爬取相关类别的文章，并将该类别的典型文章构建类别语料库；

获取文本集2，进行分词，根据类别语料库进行提取关键词，获得关键词集2；

获取关键词集1和关键词集2进行取并集，对重叠的关键词按照视频内容文本长短重新分配权重；

根据权重倒序排序，获得对应数量和难度的拓展词。

优选地，所述关键词集1是作为视频内容文本分类的特征对视频内容文本进行分类。

其中，我们定义有向有权图为G＝(V,E)，由点集V和边集E组成，E是V×V的子集。WS(V_i)是节点重要性(PR值)。在该图中任意两点之间边的权重为W_ji，对于一个给定的点V_i，则In(V_i)是指向该点V_i的点集，Out(V_i)则是点V_i指向的点集。d为阻尼系数，通常设置为0.85。In(V_i)是存在指向词节点i的链接的词集。则：

优选地，所述文本集2进行分词后，根据类别语料库，利用分好的词文本，进行计算处理。为了增加长词成为关键词的权重，对提取出的词分配词长权重

其中wordlength是当前词的长度，maxlength是文本中最长词的长度。则TF-IDF＝TF×IDF×W。其中，词频

逆文档频率

其中分母中+1是为了分母避免为0。

在本发明实施例中，通过综合词频、专有名词、词条长度、词间关联等多个维度特征，能全面准确的提取出视频中需要进行知识拓展的词条，能够适应于提取视频文本中的难词生词以及重点词，而不单单局限于提取视频中的主题词、高频词，从而覆盖全面又有深度。通过视频拓展词提取规则，不同长短的视频文本拓展词提取也有了更灵活的适应性。对于计算逆文档频率所依赖的语料库进行了文本分类的构建，提高了提取到文本中低频出现的专业术语的提取几率。同时，兼顾了长词和关键短语的提取，将提取到的词的难度或可解释性大大提高。

附图说明

图1是本发明实施例中的基于中文教育视频提取拓展词的方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例中的基于中文教育视频提取拓展词的方法流程示意图，如图1所示，该方法包括：

S1，获取中文教育视频，通过提取字幕、OCR识别、语音识别处理，生成视频内容文本，并将视频内容文本备份成两份，分别标记为文本集1和文本集2；

S2，对文本集1进行去停用词处理，并对去停用词处理后的文本集1进行词性标注，获得保留名词的文本集1；

S3，对所述保留名词的文本集1进行提取关键词和关键短语，获得关键词集1；

S4，根据关键词集1中的关键词对文本集1中的文本信息进行分类，获得不同类别信息；

S5，根据不同类别信息，进行爬取相关类别的文章，并将该类别的典型文章构建类别语料库；

S6，获取文本集2，进行分词，根据类别语料库进行提取关键词，获得关键词集2；

S7，获取关键词集1和关键词集2进行取并集，对重叠的关键词取按照视频内容文本长短重新分配权重；

S8，根据权重倒序排序，获得对应数量和难度的拓展词。

对S3作进一步说明：

提取所述关键词和所述关键短语是利用TextRank模型进行操作，将所获得的关键词集1作为视频内容文本分类的特征对视频内容文本进行分类。

其中，S6中所述进行分词的处理步骤主要是利用ICTCLA系统进行分词。由于视频文本通常是由字幕或OCR识别产生的，没有明显的段落区分，位置信息无法确定，但可以通过ICTCLA系统中增加命名实体识别方案，识别出通常在视频开头介绍的人名事件词等信息。由此达到一个提取出的拓展词尽可能有难度，趋向于专业术语，可解释强以及覆盖全面的效果。

S6中，当文本集2进行分词后，根据类别语料库，利用分好的词文本，进行计算处理。为了增加长词成为关键词的权重，对提取出的词分配词长权重

其中wordlength是当前词的长度，maxlength是文本中最长词的长度。则我们对TF-IDF算法进行了改进：TF-IDF＝TF×IDF×W

其中，词频

逆文档频率

其中分母中+1是为了分母避免为0。由此得到TF-IDF抽取的关键词。

对S7作进一步说明：

将通过TextRank模型提取到的关键词和利用TF-IDF算法提取到的词进行取并集，重叠的词，按文本长短分配权重，得到新的一组关键词权重。对于重叠词引入权重Value＝p×T+(1-p)×R

其中，p为文本长度系数，对于视频内容文本而言，我们设定小于20分钟的视频文本为短文本，大于20分钟的视频文本为长文本。设视频时间为t,规定t<20min时

t>＝20min时，p＝1。T为通过TF-IDF算法求出的关键词的权重，R为通过TextRank求出的关键词的权重。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于中文教育视频提取拓展词的方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于中文教育视频提取拓展词的方法，其特征在于，所述方法包括：

根据权重倒序排序，获得对应数量和难度的拓展词；

其中：所述对所述保留名词的文本集1进行提取关键词和关键短语，获得关键词集1，具体包括：

提取所述关键词和所述关键短语是利用TextRank模型进行操作；

定义有向有权图为G＝(V,E)，由点集V和边集E组成，E是V×V的子集，WS(V_i)是节点重要性(PR值)，在该图中任意两点之间边的权重为W_ji，对于一个给定的点V_i，则In(V_i)是指向该点V_i的点集，Out(V_i)则是点V_i指向的点集，d为阻尼系数，In(V_i)是存在指向词节点i的链接的词集，则：

其中：所述获取文本集2，进行分词，根据类别语料库进行提取关键词，获得关键词集2，具体包括：

所述进行分词的处理步骤主要是利用ICTCLA系统进行分词；

当文本集2进行分词后，根据类别语料库，利用分好的词文本，进行计算处理，为了增加长词成为关键词的权重，对提取出的词分配词长权重

其中wordlength是当前词的长度，maxlength是文本中最长词的长度，则对TF-IDF算法进行改进：TF-IDF＝TF×IDF×W，其中词频

逆文档频率

其中分母中+1是为了分母避免为0，由此得到TF-IDF抽取的关键词；

其中：所述获取关键词集1和关键词集2进行取并集，对重叠的关键词按照视频内容文本长短重新分配权重，具体包括：

将通过TextRank模型提取到的关键词和利用TF-IDF算法提取到的词进行取并集，重叠的词，按文本长短分配权重，得到新的一组关键词权重，对于重叠词引入权重Value＝p×T+(1-p)×R，其中，p为文本长度系数，对于视频内容文本而言，设定小于20分钟的视频文本为短文本，大于20分钟的视频文本为长文本，设视频时间为t，规定t<20min时

t>＝20min时p＝1，T为通过TF-IDF算法求出的关键词的权重，R为通过TextRank求出的关键词的权重。