CN112989802A

CN112989802A - 一种弹幕关键词提取方法、装置、设备及介质

Info

Publication number: CN112989802A
Application number: CN202110115490.XA
Authority: CN
Inventors: 黄改娟; 张仰森; 何梓源
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-06-18
Anticipated expiration: 2041-01-28
Also published as: CN112989802B

Abstract

本发明提供一种弹幕关键词提取方法、装置、电子设备及存储介质，方法包括：基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为：构建三元组表示词特征；获得词频；获得逆向字符文档频率；TTF‑ICDF模型进行关键词提取。DWTextRank为：利用词性表过滤视频标题中非关键信息，构建并合并文本集；然后，逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算，结果为DW1；DW1降序排列，提取靠前的关键词形成初始语义关键词集合Yu；最后，将Yu集合中的词语通过公式进行运算，提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。

Description

一种弹幕关键词提取方法、装置、设备及介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种弹幕关键词提取方法、装置、设备及介质。

背景技术

互联网技术的发展使得用户获取信息的途径从阅读传统纸质媒体转向了更及时便捷的网络媒体。近些年，网络视频传播的影响力不断增大。其中，广受年轻人欢迎的B站在2019年的平均活跃用户量达到了1.01亿。不同于传统评论，作为可以在视频播放时进行实时评论的弹幕功能在B站也得到了大量使用。为了更好的服务用户，准确的提取弹幕中所表达的与主题相关的信息就变的格外重要。

弹幕文本包含了大量用户对视频的实时反馈，为了使尚未观看视频的用户提前准确把握视频内容，弹幕文本的关键词提取便尤为重要。无监督的关键词提取主要包括3种方法：基于主题模型的关机词提取方法、基于统计特征的关键词提取方法和基于图模型的关键词提取方法。

申请人在研究中发现，现有官方提供的视频关键词范围过大，与用户反馈的关键词存在较大偏差。

发明内容

申请人在研究时，选取了B站十种不同领域的近千部优质视频对其进行分析，发现B站官方提供的视频关键词范围过大与用户反馈的关键词存在较大偏差。本申请基于传统TF-IDF和 TextRank算法，针对在研究中发现的网络视频弹幕信息文本较短、内容稀疏、话题分散、未登陆词较多等问题，提出了一种基于TI-Rank(Term Theme Frequency-InverseCharacter Document Frequency-Distance Wordvector TextRank)的关键词提取模型及方法。该模型及方法能有效过滤弹幕中的干扰词汇，并基于弹幕文本的词频词义提取出更准确且贴近日常用语的文本关键词。

为实现上述目的，本发明提供如下技术方案：

第一方面，本申请提供一种弹幕关键词提取方法，包括：

第一、基于TTF-ICDF模型进行弹幕关键词提取

首先构建三元组<w_i,tit_j,tip_j>表示词特征。

具体的，本申请考虑不同类别视频弹幕的特征以及弹幕与其视频标题及原有标签的关系，构建三元组<w_i,tit_j,tip_j>表示词特征。

其中，所述w_i表示词语i，tit_j为视频标题关键信息，tip_j为tit_j最接近的视频标题延伸词。

本申请通过对多个视频类别的视频标题进行综合分析，建立词性表Tible_tit。过滤视频标题中的非关键信息，并将视频标题关键信息标记为tit_j。

具体的，本申请中，通过对B站中新闻、医疗、军事、科技、美食、明星等十个类别视频的视频标题进行综合分析，最终建立词性表Tible_tit。

进一步找出与视频标题关键信息tit_j最接近的多个视频标题延伸词tip_j。

本申请中，采用word2vec模型对微软亚洲研究院语料库(MSR)进行训练得到字向量，并利用余弦相似度计算公式计算出与tit_j所含词语最接近的三个词，并将其标记为视频标题延伸词 tip_j。

然后获得词频ttf_ij提取模型。具体的，通过tip_j与tit_j综合考虑视频关键信息对词频统计结果的影响，其分段函数(词频提取模型/Term Theme Frequency)为：

其中，w_i表示词语i，γ为视频标题关键信息所占权重，δ为视频标题延伸词所占权重。

∑_kn_k,j为文件d_j中所有词汇的出现次数总和，tit_ij为基于视频标题词性及视频原有标签所构建的数据集中词i在文件d_j中出现的次数，tip_i,j为通过word2vec模型构建的视频标题延伸词(近义词)数据集的词i在文件d_j中出现的次数。

然后，获得逆向字符文档频率ICDF。

具体的，通过下述方法获得逆向字符文档频率ICDF：

其中w为文档中任意词语，w_i,j为第j篇文档中位置为i的词语，∑_j∑_iw_i,j表示语料库中所有词语总和，α_j,i为某词语在文档j中的个数，∑_jα_j,i表示语料库中某个词语的总和，j_s为语料库总文档数，j_v为出现词语w_i,j的文档数。

最后，基于TTF-ICDF模型进行关键词提取，提取出词频维度上的关键词。

具体的，基于TTF-ICDF模型进行关键词提取方法如下：

其中，γ的权重要大于δ的权重，优选的，γ＝3，δ＝2。

j_v值优选的为0.1。

第二基于DWTextRank模型进行关键词提取

首先，利用词性表Tible_tit过滤标题中非关键信息，构建tit_j,tip_j文本集，然后合并tit_j,tip_j文本集生成tit_all文本集。

然后，逐一使用tit_all中的词语与对与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算，将结果标记为DW1₁。

具体的，基于拼音维度进行编辑距离与词向量的相似度计算，方法如下：

本申请基于拼音维度计算编辑距离并通过归一化运算文本相似度关系，通过上文提到的词向量模型(word2vec模型对MSR进行训练得到字向量)，综合计算出文本词语相似度，具体的，

Sim＝Simpin(s_i,s_j)+Vec(a,b)

其中，pin_a,b(i,j)为字符串a,b转化为拼音形式。

Simpin(s_i,s_j)为拼音形式编辑距离计算后归一化的结果。

l_max是s_i与s_j中拼音字符串的最大长度。Vec(a,b)表示词与词之间的相似度。Sim表示词语总相似度。

Max(i，j)为，选取出i,j中最大的。

Min(i，j)为，选取出i,j中最小的。

然后，将DW1降序排列，提取靠前的关键词形成初始语义关键词集合Yu。

优选前50个关键词形成初始语义关键词集合Yu。

最后，将Yu集合中的词语通过下述公式进行运算，提取出弹幕文本中基于相应主题在语义维度上的关键词。

其中，d为阻尼系数(取值为0～1)代表从图中某一特定点指向其他任意点的概率，一般取值为0.85。

本申请使用DWTextRank算法计算各节点得分时，需赋予节点任意初始值并通过递归计算直到收敛，即图中任意一点的误差率小于给定的极限值时则称其为收敛，本申请的极限值取为 0.0001。

优选的，还包括对弹幕文本进行数据预处理的过程。本申请采用HanLP系统对文本进行数据预处理操作。

首先，对文本进行分词并剔除单字词。其次，去除停用词并依据词性对文本内容进行过滤。

通过上述第一和第二，完成弹幕关键词的提取，获得词频和语义维度上的关键词提取。

第二方面，本发明实施例提供了一种弹幕关键词提取装置，包括：TTF-ICDF模型弹幕关键词提取模块，用以基于TTF-ICDF模型进行弹幕关键词提取，获得词频维度的关键词；以及基于 DWTextRank模型关键词提取模块，获得语义维度的关键词。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的弹幕关键词提取方法。

第四方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的弹幕关键词提取方法。

与现有技术相比，本发明所提供的技术方案具有以下优点：

本发明所提供的弹幕关键词提取方法，采用TI-Rank模型在视频平台提取弹幕文本关键词上取得了很好的效果。具体的，提取关键词的F1值达到0.8以上，相较传统TF-IDF和TextRank 算法提高了约20％。因此，本申请的方法相较于常用的TF-IDF和TextRank模型更适合弹幕文本的提取且提取出的内容更贴近于人工反馈的关键词结果，有利于用户快速了解视频内容并方便网站进行视频精准推送。

目前，对于流媒体平台视频标签的提取与类别标注性研究较少，仍然没有一个系统性研究理论。本申请构建了基于词频词义相结合的标签提取模型。并针对弹幕语料构建了基于弹幕的情感词典，提出一种将情感词典与深度学习相结合的情感分析模型。对于视频标签提取的研究具有一定的推动作用。

目前，网络平台的视频标签及视频类型仍停留在依靠发布者发布视频时的主观意愿阶段。标签内容单一，发布人员工作量较大。弹幕文本包含了大量用户对视频的实时反馈，借助自然语言处理技术，本申请构建基于词频词义的弹幕文本信息提取模型，可丰富标签内容且减轻工作人员的工作负荷。

网络平台的视频标签及视频类型在不同的时代背景下对同一个视频会有不同的标签与具有时代意义的内容解读。借助计算机技术的辅助能够更好的保证标签的质量，为尚未观看视频的用户提前准确把握视频内容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为γ与δ的权重选择图；

图2为j_v取不同值的准确率比较；

图3为权重参数对应准确率图；

图4权重参数对应方差图。

具体实施方式

正如背景技术，申请人在研究中发现，现有官方提供的视频关键词范围过大，与用户反馈的关键词存在较大偏差。申请人在研究中选取了B站十种不同领域的近千部优质视频对其进行分析，发现B站官方提供的视频关键词范围过大与用户反馈的关键词存在较大偏差。

基于传统TF-IDF和TextRank算法，针对申请人在研究中发现的网络视频弹幕信息文本较短、内容稀疏、话题分散、未登陆词较多等问题，本发明提供了一种基于TI-Rank(Term Theme Frequency-Inverse Character Document Frequency-DistanceWordvector TextRank)的基于词频词义的弹幕关键词提取方法。

该方法能有效过滤弹幕中的干扰词汇，并基于弹幕文本的词频词义提取出更准确且贴近日常用语的文本关键词。考虑到关键词本身具有降序排列的特点，为了突出排序靠前的关键词对提取准确率的影响，提出了三级梯度评价标准，并对已抽取关键词和人工抽取关键词进行准确率计算，实验表明本申请的关键词提取效果明显优于传统方法的效果。

以上是本发明的核心思想，为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种弹幕关键词提取方法，包括：

第一、基于TTF-ICDF模型进行弹幕关键词提取

首先构建三元组<w_i,tit_j,tip_j>表示词特征。具体的，本申请考虑不同类别视频弹幕的特征以及弹幕与其视频标题及原有标签的关系，构建三元组<w_i,tit_j,tip_j>表示词特征。

本申请中，通过对B站中新闻、医疗、军事、科技、美食、明星等十个类别视频的视频标题进行综合分析，最终建立词性表Tible_tit。在本申请过程中，申请人通过人工筛选所需要的词性，通过多组实验得到。

若计算时出现未登陆词情况则通过编辑距离公式进行词语形似度计算。

然后，获得逆向字符文档频率ICDF。

具体的，通过下述方法获得逆向字符文档频率ICDF：

最后，基于TTF-ICDF模型进行关键词提取，提取出上的关键词。

具体的，基于TTF-ICDF模型进行关键词提取方法如下：本申请采用复旦大学中文语料库 20类文档中的10类文档共1000篇文本构成文本语料训练库，因此TTF-ICDF模型公式可以表示为

其中，γ的权重要大于δ的权重，优选的，γ＝3，δ＝2。

j_v值优选的为0.1。

本申请采用的基于TTF-ICDF模型进行弹幕关键词提取方法，不同于现有技术的TF-IDF模型提取关键词犯法。现有技术的TF-IDF模型可分为TF(词频)与IDF(逆向文件频率)两个部分。TF指的是某词在文章中出现的总次数，该指标通常会被归一化定义为TF＝某词在文档中出现的次数/文档的总词量。IDF指的是逆向文件频率，即包含词语t的文档越少则说明词语t具有较高的类别区分能力且IDF值相应增大

现有技术模型在处理关键词任务时是以词袋的形式获取关键词。它通过一种针对关键词的统计方法，评估某个词对完整文章或相关语料的重要程度，即一个词语的重要程度与它在文章中的出现次数成正比例关系，与语料库文章含有它的文章数频率成反比例关系。

然而，由于弹幕具有无效高频词干扰较重、数据稀疏、内容分散等特点，传统的TF-IDF对当今网络视频平台的弹幕内容进行关键词提取的效果过于单一化。

因此，本申请在传统TF-IDF算法的基础上引入三元组表示词特征并通过分段函数对字数与篇张数进一步划分，最终构建了上述TTF-ICDF关键词提取模型，解决了上述问题。

进一步的，申请人研究发现，弹幕文本是由不同用户对视频内容的看法组成，其内容无先后逻辑顺序。如果仅依靠上述基于TTF-ICDF模型进行关键词提取难以表达文本语义信息，可能会遗失与弹幕主题相关但词频出现次数较少的词语。因此，对弹幕文本关键词提取不能只依靠词频这一个维度。

针对上述问题，本申请还提供一种基于语义信息提取弹幕文本关键词的方法，基于 DWTextRank模型，其利用改进后的词语相似度计算与编辑距离的方法完成语义层面的关键词信息提取。由于弹幕文本无先后逻辑顺序，并且爬取到的弹幕内容总和较多。因此，对任意两个词均进行相似度计算费时费力且得不到理想的效果。为了提高关键词的提取效率，申请利用 DWTextRank模型结合视频标题所蕴含的关键信息对弹幕文本进行语义维度上的关键词提取。

具体的，本申请的弹幕关键词提取方法，还包括：

第二基于DWTextRank模型进行关键词提取

本申请基于拼音维度计算编辑距离并通过归一化运算文本相似度关系，通过上文提到的词向量模型，综合计算出文本词语相似度。

具体的，

Sim＝Simpin(s_i,s_j)+Vec(a,b)

其中，pin_a,b(i,j)为字符串a,b转化为拼音形式。

Simpin(s_i,s_j)为拼音形式编辑距离计算后归一化的结果。

Max(i，j)为，选取出i,j中最大的。

Min(i，j)为，选取出i,j中最小的。

优选前50个关键词形成初始语义关键词集合Yu。

此方法具体可具参见NIU YongJie,JIANG Ning.Research on influencefactors of keyword extraction algorithm TextRank[J].Electronic DesignEngineering.,2020,28(12):1-5(in Chinese).[牛永洁,姜宁.关键词提取算法TextRank影响因素的研究[J].电子设计工程,2020,28(12):1-5.]。

进一步的，申请人通过分析发现，B站弹幕文本数据有以下3个特点：

文本含有大量符号、重复字和未登录词；内容较长且关键信息分散；较多英文、数字等干扰信息。

针对这种特点，本申请进行了弹幕文本数据预处理，预处理策略主要包含分词、停用词过滤和词性标注。

优选的，还包括对弹幕文本进行数据预处理的过程，本申请采用HanLP系统对文本进行数据预处理操作。

第二方面，本发明实施例提供了一种弹幕关键词提取装置，包括：···

进一步的，为了获取真实实验数据，本申请利用网络爬虫技术对B站弹幕进行获取，并使用HanLP系统对弹幕内容进行文本预处理，随后通过实验的方式选择TI-Rank模型参数，最终依据关键词提取结果对TI-Rank模型的算法进行评价。

因B站对每次弹幕爬取的数量存在限制因此无法一次性获取全部弹幕内容，为避免弹幕获取的片面性对分析结果造成误差本申请设计的爬取流程如下：

1、构建头文件数据池。

2、每5分钟更换一次头文件并对弹幕内容进行爬取；

3、若内容重复则舍去，重复步骤2；

4、若内容不重复则追加入数据库；

5、若重复数据重复次数大于4次或已成功爬取5次，则结束爬取。

以标题为“bilibili献给新一代的演讲《后浪》”的视频为例，其部分弹幕文本的原始数据如表 1所示。

表1弹幕文本原始数据格式

通过分析发现，B站弹幕文本数据有以下3个特点：

文本含有大量符号、重复字和未登录词；内容较长且关键信息分散；较多英文、数字等干扰信息，需要进行数据预处理。

然后，按照前述方法，进行以下过程。

对弹幕文本进行数据预处理本申请采用HanLP系统对文本进行数据预处理操作。

然后，按照本发明前述方法进行以下内容：

第一、基于TTF-ICDF模型进行关键词提取。

第二基于DWTextRank模型进行关键词提取。

本实验中，TI-Rank模型参数选择如下：

1、TTF权重γ与δ的选择

权重γ与δ的选择对TTF-ICDF模型中TTF算法抽取弹幕信息的效果有很大影响。因标题关键内容与视频主题的相关程度大于标题关键内容的近义词与视频主题的相关程度，所以γ的权重要大于δ的权重。

为更好的确定γ与δ的值，本申请通过人工筛选出10个tit_j与人工标注的关键词存在较大差别的弹幕文本并通过改变γ与δ的值进行实验。实验发现γ与δ的值设置较大会导致标题中的信息在关键词中过于凸显，造成模型准确率下降。相反，γ与δ的值设置较小会导致标题中的关键信息被忽略。

如附图1所示当γ＝3，δ＝2时，模型提取关键词与人工标注结果最为贴合，因此在后续试验中使用γ＝3，δ＝2进行运算。

2、ICDF中j_v参数的选择

在ICDF算法中选取合适的参数j_v可更好的体现词语的重要程度，本实验分别选取不同的j，＝[0.01，0.05，0.1,0.2,0.3,0.4,0.5,0.6,0.8]值。当j_v取不同值时，计算弹幕文本中关键词提取的准确率如附图2所示。

由附图2可以看出，当j_v为0.1时整个模型准确率达到最高且高于原生TF-IDF模型，因此本申请的j_v值设为0.1。

3三级梯度评价标准参数选择

在计算提取出的关键词准确度时，考虑到视频平台关键词排序应符合优先级递减规律，本申请在使用传统衡量标准的同时，引入三级梯度评价标准对模型抽取结果与人工标注结果进行同级评价。

本申请对每个弹幕文本抽取七个关键词，依据TF-IDF、TextRank与TI-Rank模型对关键词的提取均符合降序排列的特点。其中，七个关键词被分为三级且每级对应一定的权重。

(1)词汇量参数选择

对每个弹幕文本抽取的七个关键词可分为1个二级模型和两个三级模型如表2所示。

表2词汇量参数选择

为更好的体现梯度化效果本文选用三级模型中的第一个，即一级包含一个关键词，二级包含两个关键词，三级包含4个关键词。

(2)评价标准权重参数选择

为更好的凸显关键词排列顺序对结果造成的差异，本申请为分析不同权重分配(数据如表3 所示)对三级梯度评价标准的影响进行了多组实验。

表3三级梯度评价标准的权重分配表

权重评价标准应满足一级关键词权重大于二级关键词权重大于三级关键词权重。从表3中可知测试1不符合要求，因此测试2赋予的权重为本评价标准适用的下限。为了研究不同权重分配对评价的影响，本文对测试2-8随机抽取不同领域的弹幕文本进行关键词准确率计算，随后再通过平方差公式计算模型准确率的稳定性。方差越大说明数据波动越大。平方差公式为

其中，x_N(N＝1,2,3...n)代表第n类视频已被提取的关键词平均准确率，

三级梯度评价标准中不同权重分配所对应的准确率如附图3所示，附图3中，“测试2～8” 曲线表示不同类视频的准确率随着第一、二级权重的提高而增大。“三级无权平均值”直线表示第三级的四个词语在所有七个关键词取平权时所贡献的准确率。“测试2～8-三级带权”曲线表示所有关键词被赋予表3所示权重时第三级的四个词语所贡献的准确率。从中可以看出，平均准确率随着第一、二级权重的提高而变大，同时也会导致第三级关键词的准确率降低从而无法体现第三级关键词的准确性。根据三级梯度评价标准所计算的方差如附图4所示。可以看出，在不同的权重分配下，准确率高的测试样本所对应的方差也高。综合上述情况，后文将以测试2与测试8 的权重分配为例对模型进行评价。

TI-Rank模型算法评价

由于本申请使用无监督模型无法通过直观的评价标准衡量模型的好坏，因此选择对弹幕数据进行人工标注，通过对弹幕的阅读并结合视频内容综合标记出最合适的7个关键词作为正确标签。过平均准确率P，平均召回率R与平均F1值，对弹幕文本提取结果进行计算

其中，x_i表示人工标注标签个数，y_i表示算法获取的标签个数，N为对应领域的弹幕文本总数。

为了验证TI-Rank模型在弹幕关键词提取方面优于TF-IDF与TextRank模型，本申请首先展示实验中不同模型对不同视频提取关键词的效果对比表如表4所示。

其中视频1为“【官方MV】Mojito-周杰伦”。其次分别使用传统评估标准和三级梯度评价标准对每个模型计算其平均F1值如表5所示。

表4不同模型对视频1的关键词提取效果对比表

由表4可知，TI-Rank算法提取效果从准确度和排列顺序两方面均和人工标注结果非常接近。

从表5数据中可以看出，TI-Rank模型在传统评估标准与三级梯度评价标准下平均F1值的计算结果均高于TF-IDF和TextRank模型。

表5平均F1值计算结果

上述结果表明，采用本发明的方法，TI-Rank模型在视频平台提取弹幕文本关键词上取得了很好的效果。因此，本申请相较于常用的TF-IDF和TextRank模型更适合弹幕文本的提取且提取出的内容更贴近于人工反馈的关键词结果，有利于用户快速了解视频内容并方便网站进行视频精准推送。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种弹幕关键词提取方法，其特征在于，包括：

第一、基于TTF-ICDF模型进行弹幕关键词提取；

第二、基于DWTextRank模型进行关键词提取；

其中，基于TTF-ICDF模型进行弹幕关键词提取的方法为：

首先构建三元组<w_i,tit_j,tip_j>表示词特征；

然后获得词频ttf_ij；

然后，获得逆向字符文档频率ICDF；

最后，基于TTF-ICDF模型进行关键词提取，提取出词频维度上的关键词；

其中，所述w_i表示词语i，tit_j为视频标题关键信息，tip_j为tit_j最接近的视频标题延伸词；其中，基于DWTextRank模型进行关键词提取的方法为：

首先，利用词性表Tible_tit过滤标题中非关键信息，构建tit_j,tip_j文本集；

然后合并tit_j,tip_j文本集生成tit_all文本集；

然后，逐一使用tit_all中的词语与对与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算，将结果标记为DW1；

然后，将DW1降序排列，提取靠前的关键词形成初始语义关键词集合Yu；

2.根据权利要求1所述的一种弹幕关键词提取方法，其特征在于：

所述视频关键信息tit_j为，通过对多个视频类别的视频标题进行综合分析，建立词性表Tible_tit；

过滤视频标题中的非关键信息，并将视频标题关键信息标记为tit_j；

所述视频标题延伸词tip_j为，采用word2vec模型对微软亚洲研究院语料库进行训练得到字向量，并利用余弦相似度计算公式计算出与tit_j所含词语最接近的三个词，并将其标记为视频标题延伸词tip_j。

3.根据权利要求2所述的一种弹幕关键词提取方法，其特征在于：获得词频ttf_ij的方法为：

其中，w_i表示词语i，γ为视频标题关键信息所占权重，δ为视频标题延伸词所占权重；

4.根据权利要求3所述的一种弹幕关键词提取方法，其特征在于：获得逆向字符文档频率ICDF的方法为：

其中w为文档中任意词语，w_i,j为第_j篇文档中位置为i的词语，∑_j∑_iw_i,j表示语料库中所有词语总和，α_j,i为某词语在文档j中的个数，∑_jα_j,i表示语料库中某个词语的总和，js为语料库总文档数，j_v为出现词语w_i,j的文档数。

5.根据权利要求4所述的一种弹幕关键词提取方法，其特征在于：

其中，γ的权重要大于δ的权重，其中，γ＝3，δ＝2；

j_v值为0.1。

6.根据权利要求5所述的一种弹幕关键词提取方法，其特征在于：基于拼音维度进行编辑距离与词向量的相似度计算的方法为，

Sim＝Simpin(s_i,s_j)+Vec(a,b)

其中，pin_a,b(i,j)为字符串a,b转化为拼音形式；

Simpin(s_i,s_j)为拼音形式编辑距离计算后归一化的结果；

l_max是s_i与s_j中拼音字符串的最大长度；

Vec(a,b)表示词与词之间的相似度；

Sim表示词语总相似度；

Max(i，j)为，选取出i,j中最大的；

Min(i，j)为，选取出i,j中最小的。

7.根据权利要求6所述的一种弹幕关键词提取方法，其特征在于：

将Yu集合中的词语通过下述公式进行运算，提取出弹幕文本中基于相应主题在语义维度上的关键词，

其中，d为阻尼系数。

8.根据权要求1所述的一种弹幕关键词提取方法，其特征在于：还包括对弹幕文本进行数据预处理的过程。

9.根据权要求8所述的一种弹幕关键词提取方法，其特征在于：对弹幕文本进行数据预处理的方法为：

首先，对文本进行分词并剔除单字词；其次，去除停用词并依据词性对文本内容进行过滤。

10.一种弹幕关键词提取装置，其特征在于：所述装置包括：TTF-ICDF模型弹幕关键词提取模块，用以基于TTF-ICDF模型进行弹幕关键词提取，获得词频维度的关键词；以及基于DWTextRank模型关键词提取模块，获得语义维度的关键词。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1-9中任一项所述的弹幕关键词提取方法。

12.一种包含计算机可执行指令的存储介质，其特征在于：所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-9中任一项所述的弹幕关键词提取方法。