CN110175246A

CN110175246A - 一种从视频字幕中提取概念词的方法

Info

Publication number: CN110175246A
Application number: CN201910278094.1A
Authority: CN
Inventors: 赵中英; 杨永浩; 周慧; 李超
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-08-27
Anticipated expiration: 2039-04-09
Also published as: WO2020207179A1; CN110175246B

Abstract

本发明公开了一种从视频字幕中提取概念词的方法，其包括如下步骤：对字幕文本进行分词处理，并删除标点符号；对分词后的字幕文本进行停止词和词性标注；计算目标单词和相邻词的共现特征；计算目标单词和相邻词的语义相似度；对分词后的少量字幕文本进行概念词标记，作为训练集；根据所述训练集对预先建立的基于条件随机场的半监督学习框架进行训练，得到概念词预测模型，并获取所述概念词预测模型输出的字幕文本对应的概念词预测结果。基于本发明提供的提取概念词的方法，减轻了人工标注语料的工作量，提升了在MOOC视频字幕场景中提取概念词的准确性，并满足了实际需求。

Description

一种从视频字幕中提取概念词的方法

技术领域

本发明涉及一种概念词提取方法，尤其涉及一种从视频字幕中提取概念词的方法。

背景技术

大规模开放式在线课程(Massive Open Online Course,简称MOOCs)由于拥有优质课程资源，因而促进了世界范围内的知识分享，为不同学科的教和学创造了大量的机会。对MOOC平台数据进行挖掘与分析的基本步骤之一是对视频字幕中的概念词进行提取。

目前虽然有很多方法可以从文本中提取概念词，如基于支持向量机和神经网络等各种机器学习算法的有监督和无监督方法，然而有监督方法需要大量的人工标记语料，无监督方法虽然不需要人工标注语料，但是很难取得令人满意的性能，并且这些方法都是针对从一般的文本挖掘场景中提取关键词，如果将其直接应用于课程视频字幕文本通常不会取得令人满意的性能，这是因为视频字幕和一般的文本挖掘场景，如学术论文和新闻文本等，都有诸多不同，而通常意义上的关键词和概念词也不能完全划等号。以上几方面都给视频字幕中的概念词提取任务带来了一定的困难，因此需要对现有的关键词提取方法进行改进。

发明内容

本发明的目的在于提出一种从视频字幕中提取概念词的方法，以减轻人工标注语料的工作量，同时提升从视频字幕场景中提取概念词的准确性。

本发明为了实现上述目的，采用如下技术方案：

一种从视频字幕中提取概念词的方法，包括如下步骤：

s1.对字幕文本进行分词处理，并删除标点符号；

s2.对分词后的字幕文本进行处理，获得基于条件随机场的半监督学习框架所需的若干个特征，将各个特征的组合转变成特征向量；

其中，对分词后的字幕文本进行处理的过程如下：

s2.1.对分词后的字幕文本进行停止词和词性标注；

s2.2.根据分词后的字幕文本计算目标单词和相邻词的共现特征；

s2.3.根据分词后的字幕文本计算目标单词和相邻词的语义相似度；

s2.4.对分词后的部分字幕文本进行概念词标记；其中，有概念词标记的字幕文本加入已标记样本集作为训练集，没有概念词标记的字幕文本加入未标记样本集；

s3.根据训练集对基于条件随机场的半监督学习框架进行训练，得到概念词预测模型，并获取概念词预测模型输出的字幕文本对应的概念词预测结果；

其中，基于条件随机场的半监督学习框架进行训练的具体过程如下：

s3.1.使用训练集对条件随机场模型进行训练，得到初始的概念词预测模型；

s3.2.计算未标记样本集中的未标记样本和训练集的相似度；

选取和训练集最相似的一组未标记样本，然后将该组未标记样本通过概念词预测模型转变为已标记样本后，添加到训练集中，作为更新后的训练集；

s3.3.利用更新后的训练集对条件随机场算法进行训练，得到更新后的概念词预测模型；

s3.4.重复执行步骤s3.2和步骤s3.3，对模型进行迭代训练，直到所有字幕文本均被标记，并得到最终的概念词预测模型。

优选地，步骤s1中使用开源的NLTK分词包对字幕文本进行分词处理，并删除标点符号。

优选地，步骤s2.1具体为：

s2.1.1.使用开源的NLTK分词包来指示目标单词是否是停用词，目标单词的前一个词是否是停用词，目标单词的后一个词是否是停用词，作为目标单词的停止词特征；

s2.1.2.使用开源的斯坦福词性标记器来标记每个目标单词的词性，标记目标单词的前一个单词的词性，标记目标单词的后一个单词的词性，作为目标单词的词性特征。

优选地，步骤s2.2具体为：

s2.2.1.计算目标单词与前一个词的共现特征，即目标单词和前一个词的共现频率除以目标单词的频率和前一个词的频率的乘积，并对结果取以10为底的对数；

s2.2.2.计算目标单词与后一个词的共现特征，即目标单词和后一个词的共现频率除以目标单词的频率和后一个词的频率的乘积，并对结果取以10为底的对数；

s2.2.3.计算目标单词与前、后两个词的共现特征，即：

目标单词和前、后两个词的共现频率除以目标单词和前一个词的共现频率以及目标单词和后一个词的共现频率的乘积，并对结果取以10为底的对数。

优选地，步骤s2.3具体为：

s2.3.1.使用预训练的word2vec模型获得目标单词的词向量；

s2.3.2.使用余弦距离根据词向量计算目标单词与前一个单词的语义相似度；

s2.3.3.使用余弦距离根据词向量计算目标单词与后一个单词的语义相似度。

优选地，步骤s2.4具体为：

选取分词后的10％-20％的字幕文本作为训练集，由两位相关领域的专家标注者对训练集中的概念进行标注，只有当两位专家取得一致意见时，一个短语才会被标注成概念。

优选地，步骤s3.2中未标记样本和训练集的相似度计算过程如下：

s3.2.1.使用预训练的word2vec模型获得目标单词的词向量；

s3.2.2.使用超参数a除以a和句子中的目标单词词频估计的和，作为句子中每个单词的词向量的权重；将句子内所有单词的词向量的加权算数平均值作为句子的向量表示；

使用句子向量之间的余弦距离作为未标记样本和训练集的相似度距离，其中，未标记样本和训练集的相似度距离越小，则表明未标记样本与训练集的相似度越高。

本发明具有如下优点：

如上所述，本发明提供了一种从视频字幕中提取概念词的方法，该方法的步骤s2提取了单词的语义信息、上下文信息和结构信息，而条件随机场模型可以有效利用这些信息进行字幕文本的序列标注，从而有效识别由1个或多个单词组成的概念词，该方法的步骤s3依据流形假设的思想，即将高维数据嵌入到低维流形中，当两个样本位于低维流形中的一个小局部邻域内时，它们具有相似的类标签。而步骤s3通过word2vec模型将单词转变为低维的词向量，并通过计算已标记训练集和未标记训练集之间的词向量的相似度，来确定已标记训练集的邻域，而对模型进行迭代训练时，模型依据流形假设会在已标记训练集邻域上具有较高的预测准确性，保证了最终训练的模型具有较好的性能，从而能够减轻人工标注语料的工作量，同时提升在MOOC等视频字幕场景中提取课程概念词的准确性。

附图说明

图1为本发明实施例中从视频字幕中提取概念词的方法的流程示意图。

具体实施方式

名词解释：概念词

概念词是在课程学习中表述知识点的单词或短语。

在形式上，概念词c可以表示为课程语料中的一个k元短语并满足以下两点特征：a)概念词c应该是语义和句法正确的短语；b)概念词c应代表一种科学或技术知识。

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1所示，一种从视频字幕中提取概念词的方法，包括如下步骤：

s1.对字幕文本进行分词处理，并删除标点符号。

本实施例中选用开源的NLTK分词包，对字幕文本进行分词处理并删除标点符号。

s2.对分词后的字幕文本进行处理，获得基于条件随机场的半监督学习框架所需的若干个特征，包括停止词和词性标记特征、共现特征以及语义相似度特征。

s2.1.对分词后的字幕文本进行停止词和词性标注。常见的停止词如a、the、or、“也”、“的”等，而词性则包括动词、名词和形容词等。

对字幕文本进行停止词和词性标注的具体步骤为：

s2.1.1.使用开源的NLTK分词包来指示目标单词是否是停用词，目标单词的前一个词是否是停用词，目标单词的后一个词是否是停用词，作为目标单词的停止词特征。

s2.2.根据分词后的字幕文本计算目标单词和相邻词的共现特征。

其中，上述共现特征包括目标单词与前一个词的共现特征、目标单词与后一个词的共现特征以及目标单词与前、后两个词的共现特征三个方面。

目标单词与前一个词的共现特征的计算过程为：目标单词和前一个词的共现频率除以目标单词的频率和前一个词的频率的乘积，并对结果取以10为底的对数。

目标单词与后一个词的共现特征的计算过程为：目标单词和后一个词的共现频率除以目标单词的频率和后一个词的频率的乘积，并对结果取以10为底的对数。

目标单词与前、后两个词的共现特征的计算过程为：

s2.3.根据分词后的字幕文本计算目标单词和相邻词的语义相似度。

该步骤s2.3具体包括：

使用预训练的word2vec模型获得目标单词的词向量；

使用余弦距离根据词向量计算目标单词与前一个单词的语义相似度；使用余弦距离根据词向量计算目标单词与后一个单词的语义相似度。余弦距离的基本原理为通过计算两个向量之间的夹角的余弦值来衡量两个向量方向上的差异，对于词向量来说，通常情况下方向上的差异越大，单词之间的语义差异就越大(即语义相似度越小)。而目标单词与相邻单词如果同属一个概念词，那么它们之间的语义相似度就越大，此步骤即利用了上述原理。

s2.4.对分词后的部分字幕文本进行概念词标记。本实施例中选取的进行概念词标记的字幕文本数量占总字幕文本数量的10％-20％，例如取15％。

由两位相关领域的专家标注者对训练集中的概念进行标注，只有当两位专家取得一致意见时，一个短语才会被标注成概念。

当目标单词处于概念的开头时，使用‘B’进行标记；当目标单词处于一个多词概念中时，使用“I”进行标记；当目标单词不在概念中时，使用“o”进行标记。

将以上步骤s2.1-步骤s2.4获得的特征组合转变为特征向量。

本实施例将有概念词标记的字幕文本加入已标记样本集作为训练集。将没有概念词标记的字幕文本加入未标记样本集。

步骤s2中各个特征的选取和计算过程，很好保证了下述模型的预测结果精度。

s3.根据训练集对基于条件随机场的半监督学习框架进行训练，得到概念词预测模型，并获取概念词预测模型输出的字幕文本对应的概念词预测结果。

s3.2.计算未标记样本集中的未标记样本和训练集的相似度，选取和训练集最相似的一组未标记样本，该组未标记样本被认为具有较高的标记置信度。将该组未标记样本通过概念词预测模型转变为已标记样本后，添加到训练集中，作为更新后的训练集。

s3.3.利用更新后的训练集对条件随机场算法进行训练，得到更新后的概念词预测模型。

s3.4.重复执行步骤s3.2和步骤s3.3，对模型进行迭代训练，直到所有字幕文本均被标记。

由上述过程看出，本实施例是先计算置信度再对未标注训练集进行预测，最后得到一个经过训练的最终的分类模型，即概念词预测模型。由于上述模型在置信度高的未标记训练集上进行预测时性能会有明显提高，从而保证了每次迭代训练时已标记训练集中不会引入过多的错误标记样本，使得模型的性能在每次迭代训练后保持稳定。

其中，未标记样本和训练集的相似度的具体计算过程为：

s3.2.1.使用预训练的word2vec模型获得目标单词的词向量。

s3.2.2.使用超参数a除以a和句子中的目标单词词频估计的和，作为句子中每个单词的词向量的权重；将句子内所有单词的词向量的加权算数平均值作为句子的向量表示。

经过实验证明，本实施例中的超参数a的取值为1e-3。

使用句子向量之间的余弦距离作为未标记样本和训练集的相似度距离。

其中，未标记样本和训练集的相似度距离越小，则表明未标记样本与训练集的相似度越高，就认为未标记样本具有较高的标记置信度。

选取和训练集最相似的一组未标记样本的数量占所有样本总数的10％-20％。

本发明方法利用训练好的概念词预测模型(即基于条件随机场的半监督学习模型)，提取MOOC视频字幕中的概念词，因构建的概念词预测模型能够结合上下文语义，捕捉到字幕文本的局部相关性，从而使得本方法相较于现有技术能提高概念词提取的准确度。

此外，本发明方法提取的概念词不局限于中文还可以是英文等，因而，本发明方法具有跨语言的特性，因此可以应用到跨语言的视频字幕的概念词提取的场景中。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种从视频字幕中提取概念词的方法，其特征在于，包括如下步骤：

s1.对字幕文本进行分词处理，并删除标点符号；

其中，对分词后的字幕文本进行处理的过程如下：

s2.1.对分词后的字幕文本进行停止词和词性标注；

s3.根据训练集对基于条件随机场的半监督学习框架进行训练，得到概念词预测模型，并获取所述概念词预测模型输出的字幕文本对应的概念词预测结果；

s3.2.计算未标记样本集中的未标记样本和训练集的相似度；

2.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，

所述步骤s1中，使用开源的NLTK分词包对字幕文本进行分词处理，并删除标点符号。

3.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，

所述步骤s2.1具体为：

4.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，

所述步骤s2.2具体为：

s2.2.3.计算目标单词与前、后两个词的共现特征，即：

5.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，

所述步骤s2.3具体为：

s2.3.1.使用预训练的word2vec模型获得目标单词的词向量；

s2.3.2.使用余弦距离根据所述词向量计算目标单词与前一个单词的语义相似度；

s2.3.3.使用余弦距离根据所述词向量计算目标单词与后一个单词的语义相似度。

6.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，

所述步骤s2.4具体为：

7.根据权利要求1所述的从视频字幕中提取概念词的方法，其特征在于，

所述步骤s3.2中，未标记样本和训练集的相似度计算过程如下：

s3.2.1.使用预训练的word2vec模型获得目标单词的词向量；

s3.2.2.使用超参数a除以a和句子中的所述目标单词词频估计的和，作为句子中每个单词的词向量的权重；将句子内所有单词的词向量的加权算数平均值作为句子的向量表示；