CN112989802A - 一种弹幕关键词提取方法、装置、设备及介质 - Google Patents

一种弹幕关键词提取方法、装置、设备及介质 Download PDF

Info

Publication number
CN112989802A
CN112989802A CN202110115490.XA CN202110115490A CN112989802A CN 112989802 A CN112989802 A CN 112989802A CN 202110115490 A CN202110115490 A CN 202110115490A CN 112989802 A CN112989802 A CN 112989802A
Authority
CN
China
Prior art keywords
word
bullet screen
words
model
keyword extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110115490.XA
Other languages
English (en)
Other versions
CN112989802B (zh
Inventor
黄改娟
张仰森
何梓源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202110115490.XA priority Critical patent/CN112989802B/zh
Publication of CN112989802A publication Critical patent/CN112989802A/zh
Application granted granted Critical
Publication of CN112989802B publication Critical patent/CN112989802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种弹幕关键词提取方法、装置、电子设备及存储介质,方法包括:基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为:构建三元组表示词特征;获得词频;获得逆向字符文档频率;TTF‑ICDF模型进行关键词提取。DWTextRank为:利用词性表过滤视频标题中非关键信息,构建并合并文本集;然后,逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,结果为DW1;DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;最后,将Yu集合中的词语通过公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。

Description

一种弹幕关键词提取方法、装置、设备及介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种弹幕关键词提取方法、装置、设备及介质。
背景技术
互联网技术的发展使得用户获取信息的途径从阅读传统纸质媒体转向了更及时便捷的网络 媒体。近些年,网络视频传播的影响力不断增大。其中,广受年轻人欢迎的B站在2019年的平 均活跃用户量达到了1.01亿。不同于传统评论,作为可以在视频播放时进行实时评论的弹幕功 能在B站也得到了大量使用。为了更好的服务用户,准确的提取弹幕中所表达的与主题相关的 信息就变的格外重要。
弹幕文本包含了大量用户对视频的实时反馈,为了使尚未观看视频的用户提前准确把握视频 内容,弹幕文本的关键词提取便尤为重要。无监督的关键词提取主要包括3种方法:基于主题模 型的关机词提取方法、基于统计特征的关键词提取方法和基于图模型的关键词提取方法。
申请人在研究中发现,现有官方提供的视频关键词范围过大,与用户反馈的关键词存在较大 偏差。
发明内容
申请人在研究时,选取了B站十种不同领域的近千部优质视频对其进行分析,发现B站官 方提供的视频关键词范围过大与用户反馈的关键词存在较大偏差。本申请基于传统TF-IDF和 TextRank算法,针对在研究中发现的网络视频弹幕信息文本较短、内容稀疏、话题分散、未登 陆词较多等问题,提出了一种基于TI-Rank(Term Theme Frequency-InverseCharacter Document Frequency-Distance Wordvector TextRank)的关键词提取模型及方法。该模型及方法能有效过滤弹 幕中的干扰词汇,并基于弹幕文本的词频词义提取出更准确且贴近日常用语的文本关键词。
为实现上述目的,本发明提供如下技术方案:
第一方面,本申请提供一种弹幕关键词提取方法,包括:
第一、基于TTF-ICDF模型进行弹幕关键词提取
首先构建三元组<wi,titj,tipj>表示词特征。
具体的,本申请考虑不同类别视频弹幕的特征以及弹幕与其视频标题及原有标签的关系,构 建三元组<wi,titj,tipj>表示词特征。
其中,所述wi表示词语i,titj为视频标题关键信息,tipj为titj最接近的视频标题延伸词。
本申请通过对多个视频类别的视频标题进行综合分析,建立词性表Tibletit。过滤视频标题中 的非关键信息,并将视频标题关键信息标记为titj
具体的,本申请中,通过对B站中新闻、医疗、军事、科技、美食、明星等十个类别视频 的视频标题进行综合分析,最终建立词性表Tibletit
进一步找出与视频标题关键信息titj最接近的多个视频标题延伸词tipj
本申请中,采用word2vec模型对微软亚洲研究院语料库(MSR)进行训练得到字向量,并 利用余弦相似度计算公式计算出与titj所含词语最接近的三个词,并将其标记为视频标题延伸词 tipj
然后获得词频ttfij提取模型。具体的,通过tipj与titj综合考虑视频关键信息对词频统计结果 的影响,其分段函数(词频提取模型/Term Theme Frequency)为:
Figure BDA0002920280430000022
其中,wi表示词语i,γ为视频标题关键信息所占权重,δ为视频标题延伸词所占权重。
knk,j为文件dj中所有词汇的出现次数总和,titij为基于视频标题词性及视频原有标签所构 建的数据集中词i在文件dj中出现的次数,tipi,j为通过word2vec模型构建的视频标题延伸词(近 义词)数据集的词i在文件dj中出现的次数。
然后,获得逆向字符文档频率ICDF。
具体的,通过下述方法获得逆向字符文档频率ICDF:
Figure BDA0002920280430000021
其中w为文档中任意词语,wi,j为第j篇文档中位置为i的词语,∑jiwi,j表示语料库中所有 词语总和,αj,i为某词语在文档j中的个数,∑jαj,i表示语料库中某个词语的总和,js为语料库 总文档数,jv为出现词语wi,j的文档数。
最后,基于TTF-ICDF模型进行关键词提取,提取出词频维度上的关键词。
具体的,基于TTF-ICDF模型进行关键词提取方法如下:
Figure BDA0002920280430000031
其中,γ的权重要大于δ的权重,优选的,γ=3,δ=2。
jv值优选的为0.1。
第二基于DWTextRank模型进行关键词提取
首先,利用词性表Tibletit过滤标题中非关键信息,构建titj,tipj文本集,然后合并titj,tipj文本 集生成titall文本集。
然后,逐一使用titall中的词语与对与对应弹幕文本中的所有词语基于拼音维度进行编辑距离 与词向量的相似度计算,将结果标记为DW11
具体的,基于拼音维度进行编辑距离与词向量的相似度计算,方法如下:
本申请基于拼音维度计算编辑距离并通过归一化运算文本相似度关系,通过上文提到的词向 量模型(word2vec模型对MSR进行训练得到字向量),综合计算出文本词语相似度,具体的,
Figure BDA0002920280430000032
Figure BDA0002920280430000033
Sim=Simpin(si,sj)+Vec(a,b)
其中,pina,b(i,j)为字符串a,b转化为拼音形式。
Simpin(si,sj)为拼音形式编辑距离计算后归一化的结果。
lmax是si与sj中拼音字符串的最大长度。Vec(a,b)表示词与词之间的相似度。Sim表示词语总 相似度。
Max(i,j)为,选取出i,j中最大的。
Min(i,j)为,选取出i,j中最小的。
然后,将DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu。
优选前50个关键词形成初始语义关键词集合Yu。
最后,将Yu集合中的词语通过下述公式进行运算,提取出弹幕文本中基于相应主题在语义 维度上的关键词。
Figure BDA0002920280430000041
其中,d为阻尼系数(取值为0~1)代表从图中某一特定点指向其他任意点的概率,一 般取值为0.85。
本申请使用DWTextRank算法计算各节点得分时,需赋予节点任意初始值并通过递归计算直 到收敛,即图中任意一点的误差率小于给定的极限值时则称其为收敛,本申请的极限值取为 0.0001。
优选的,还包括对弹幕文本进行数据预处理的过程。本申请采用HanLP系统对文本进行数 据预处理操作。
首先,对文本进行分词并剔除单字词。其次,去除停用词并依据词性对文本内容进行过滤。
通过上述第一和第二,完成弹幕关键词的提取,获得词频和语义维度上的关键词提取。
第二方面,本发明实施例提供了一种弹幕关键词提取装置,包括:TTF-ICDF模型弹幕关键 词提取模块,用以基于TTF-ICDF模型进行弹幕关键词提取,获得词频维度的关键词;以及基于 DWTextRank模型关键词提取模块,获得语义维度的关键词。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可 在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的 弹幕关键词提取方法。
第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行 指令在由计算机处理器执行时实现如上述第一方面所述的弹幕关键词提取方法。
与现有技术相比,本发明所提供的技术方案具有以下优点:
本发明所提供的弹幕关键词提取方法,采用TI-Rank模型在视频平台提取弹幕文本关键词上 取得了很好的效果。具体的,提取关键词的F1值达到0.8以上,相较传统TF-IDF和TextRank 算法提高了约20%。因此,本申请的方法相较于常用的TF-IDF和TextRank模型更适合弹幕文本 的提取且提取出的内容更贴近于人工反馈的关键词结果,有利于用户快速了解视频内容并方便网 站进行视频精准推送。
目前,对于流媒体平台视频标签的提取与类别标注性研究较少,仍然没有一个系统性研究理 论。本申请构建了基于词频词义相结合的标签提取模型。并针对弹幕语料构建了基于弹幕的情感 词典,提出一种将情感词典与深度学习相结合的情感分析模型。对于视频标签提取的研究具有一 定的推动作用。
目前,网络平台的视频标签及视频类型仍停留在依靠发布者发布视频时的主观意愿阶段。标 签内容单一,发布人员工作量较大。弹幕文本包含了大量用户对视频的实时反馈,借助自然语言 处理技术,本申请构建基于词频词义的弹幕文本信息提取模型,可丰富标签内容且减轻工作人员 的工作负荷。
网络平台的视频标签及视频类型在不同的时代背景下对同一个视频会有不同的标签与具有 时代意义的内容解读。借助计算机技术的辅助能够更好的保证标签的质量,为尚未观看视频的用 户提前准确把握视频内容。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对 于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的 附图。
图1为γ与δ的权重选择图;
图2为jv取不同值的准确率比较;
图3为权重参数对应准确率图;
图4权重参数对应方差图。
具体实施方式
正如背景技术,申请人在研究中发现,现有官方提供的视频关键词范围过大,与用户反馈的 关键词存在较大偏差。申请人在研究中选取了B站十种不同领域的近千部优质视频对其进行分 析,发现B站官方提供的视频关键词范围过大与用户反馈的关键词存在较大偏差。
基于传统TF-IDF和TextRank算法,针对申请人在研究中发现的网络视频弹幕信息文本较短、 内容稀疏、话题分散、未登陆词较多等问题,本发明提供了一种基于TI-Rank(Term Theme Frequency-Inverse Character Document Frequency-DistanceWordvector TextRank)的基于词频词义 的弹幕关键词提取方法。
该方法能有效过滤弹幕中的干扰词汇,并基于弹幕文本的词频词义提取出更准确且贴近日常 用语的文本关键词。考虑到关键词本身具有降序排列的特点,为了突出排序靠前的关键词对提取 准确率的影响,提出了三级梯度评价标准,并对已抽取关键词和人工抽取关键词进行准确率计算, 实验表明本申请的关键词提取效果明显优于传统方法的效果。
以上是本发明的核心思想,为使本发明的上述目的、特征和优点能够更加明显易懂,下面将 结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描 述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域 普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范 围。
一种弹幕关键词提取方法,包括:
第一、基于TTF-ICDF模型进行弹幕关键词提取
首先构建三元组<wi,titj,tipj>表示词特征。具体的,本申请考虑不同类别视频弹幕的特征以及 弹幕与其视频标题及原有标签的关系,构建三元组<wi,titj,tipj>表示词特征。
其中,所述wi表示词语i,titj为视频标题关键信息,tipj为titj最接近的视频标题延伸词。
本申请通过对多个视频类别的视频标题进行综合分析,建立词性表Tibletit。过滤视频标题中 的非关键信息,并将视频标题关键信息标记为titj
本申请中,通过对B站中新闻、医疗、军事、科技、美食、明星等十个类别视频的视频标 题进行综合分析,最终建立词性表Tibletit。在本申请过程中,申请人通过人工筛选所需要的词性, 通过多组实验得到。
进一步找出与视频标题关键信息titj最接近的多个视频标题延伸词tipj
本申请中,采用word2vec模型对微软亚洲研究院语料库(MSR)进行训练得到字向量,并 利用余弦相似度计算公式计算出与titj所含词语最接近的三个词,并将其标记为视频标题延伸词 tipj
然后获得词频ttfij提取模型。具体的,通过tipj与titj综合考虑视频关键信息对词频统计结果 的影响,其分段函数(词频提取模型/Term Theme Frequency)为:
Figure BDA0002920280430000071
其中,wi表示词语i,γ为视频标题关键信息所占权重,δ为视频标题延伸词所占权重。
knk,j为文件dj中所有词汇的出现次数总和,titij为基于视频标题词性及视频原有标签所构 建的数据集中词i在文件dj中出现的次数,tipi,j为通过word2vec模型构建的视频标题延伸词(近 义词)数据集的词i在文件dj中出现的次数。
若计算时出现未登陆词情况则通过编辑距离公式进行词语形似度计算。
然后,获得逆向字符文档频率ICDF。
具体的,通过下述方法获得逆向字符文档频率ICDF:
Figure BDA0002920280430000072
其中w为文档中任意词语,wi,j为第j篇文档中位置为i的词语,∑jiwi,j表示语料库中所有 词语总和,αj,i为某词语在文档j中的个数,∑jαj,i表示语料库中某个词语的总和,js为语料库 总文档数,jv为出现词语wi,j的文档数。
最后,基于TTF-ICDF模型进行关键词提取,提取出上的关键词。
具体的,基于TTF-ICDF模型进行关键词提取方法如下:本申请采用复旦大学中文语料库 20类文档中的10类文档共1000篇文本构成文本语料训练库,因此TTF-ICDF模型公式可以表 示为
Figure BDA0002920280430000081
其中,γ的权重要大于δ的权重,优选的,γ=3,δ=2。
jv值优选的为0.1。
本申请采用的基于TTF-ICDF模型进行弹幕关键词提取方法,不同于现有技术的TF-IDF模 型提取关键词犯法。现有技术的TF-IDF模型可分为TF(词频)与IDF(逆向文件频率)两个部 分。TF指的是某词在文章中出现的总次数,该指标通常会被归一化定义为TF=某词在文档中出 现的次数/文档的总词量。IDF指的是逆向文件频率,即包含词语t的文档越少则说明词语t具有 较高的类别区分能力且IDF值相应增大
现有技术模型在处理关键词任务时是以词袋的形式获取关键词。它通过一种针对关键词的统 计方法,评估某个词对完整文章或相关语料的重要程度,即一个词语的重要程度与它在文章中的 出现次数成正比例关系,与语料库文章含有它的文章数频率成反比例关系。
然而,由于弹幕具有无效高频词干扰较重、数据稀疏、内容分散等特点,传统的TF-IDF对 当今网络视频平台的弹幕内容进行关键词提取的效果过于单一化。
因此,本申请在传统TF-IDF算法的基础上引入三元组表示词特征并通过分段函数对字数与 篇张数进一步划分,最终构建了上述TTF-ICDF关键词提取模型,解决了上述问题。
进一步的,申请人研究发现,弹幕文本是由不同用户对视频内容的看法组成,其内容无先后 逻辑顺序。如果仅依靠上述基于TTF-ICDF模型进行关键词提取难以表达文本语义信息,可能会 遗失与弹幕主题相关但词频出现次数较少的词语。因此,对弹幕文本关键词提取不能只依靠词频 这一个维度。
针对上述问题,本申请还提供一种基于语义信息提取弹幕文本关键词的方法,基于 DWTextRank模型,其利用改进后的词语相似度计算与编辑距离的方法完成语义层面的关键词信 息提取。由于弹幕文本无先后逻辑顺序,并且爬取到的弹幕内容总和较多。因此,对任意两个词 均进行相似度计算费时费力且得不到理想的效果。为了提高关键词的提取效率,申请利用 DWTextRank模型结合视频标题所蕴含的关键信息对弹幕文本进行语义维度上的关键词提取。
具体的,本申请的弹幕关键词提取方法,还包括:
第二基于DWTextRank模型进行关键词提取
首先,利用词性表Tibletit过滤标题中非关键信息,构建titj,tipj文本集,然后合并titj,tipj文本 集生成titall文本集。
然后,逐一使用titall中的词语与对与对应弹幕文本中的所有词语基于拼音维度进行编辑距离 与词向量的相似度计算,将结果标记为DW11
具体的,基于拼音维度进行编辑距离与词向量的相似度计算,方法如下:
本申请基于拼音维度计算编辑距离并通过归一化运算文本相似度关系,通过上文提到的词向 量模型,综合计算出文本词语相似度。
具体的,
Figure BDA0002920280430000091
Figure BDA0002920280430000092
Sim=Simpin(si,sj)+Vec(a,b)
其中,pina,b(i,j)为字符串a,b转化为拼音形式。
Simpin(si,sj)为拼音形式编辑距离计算后归一化的结果。
lmax是si与sj中拼音字符串的最大长度。Vec(a,b)表示词与词之间的相似度。Sim表示词语总 相似度。
Max(i,j)为,选取出i,j中最大的。
Min(i,j)为,选取出i,j中最小的。
然后,将DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu。
优选前50个关键词形成初始语义关键词集合Yu。
最后,将Yu集合中的词语通过下述公式进行运算,提取出弹幕文本中基于相应主题在语义 维度上的关键词。
Figure BDA0002920280430000101
其中,d为阻尼系数(取值为0~1)代表从图中某一特定点指向其他任意点的概率,一 般取值为0.85。
此方法具体可具参见NIU YongJie,JIANG Ning.Research on influencefactors of keyword extraction algorithm TextRank[J].Electronic DesignEngineering.,2020,28(12):1-5(in Chinese).[牛永 洁,姜宁.关键词提取算法TextRank影响因素的研究[J].电子设计工程,2020,28(12):1-5.]。
本申请使用DWTextRank算法计算各节点得分时,需赋予节点任意初始值并通过递归计算直 到收敛,即图中任意一点的误差率小于给定的极限值时则称其为收敛,本申请的极限值取为 0.0001。
进一步的,申请人通过分析发现,B站弹幕文本数据有以下3个特点:
文本含有大量符号、重复字和未登录词;内容较长且关键信息分散;较多英文、数字等干扰 信息。
针对这种特点,本申请进行了弹幕文本数据预处理,预处理策略主要包含分词、停用词过滤 和词性标注。
优选的,还包括对弹幕文本进行数据预处理的过程,本申请采用HanLP系统对文本进行数 据预处理操作。
首先,对文本进行分词并剔除单字词。其次,去除停用词并依据词性对文本内容进行过滤。
通过上述第一和第二,完成弹幕关键词的提取,获得词频和语义维度上的关键词提取。
第二方面,本发明实施例提供了一种弹幕关键词提取装置,包括:TTF-ICDF模型弹幕关键 词提取模块,用以基于TTF-ICDF模型进行弹幕关键词提取,获得词频维度的关键词;以及基于 DWTextRank模型关键词提取模块,获得语义维度的关键词。
第二方面,本发明实施例提供了一种弹幕关键词提取装置,包括:···
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可 在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的 弹幕关键词提取方法。
第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行 指令在由计算机处理器执行时实现如上述第一方面所述的弹幕关键词提取方法。
进一步的,为了获取真实实验数据,本申请利用网络爬虫技术对B站弹幕进行获取,并使 用HanLP系统对弹幕内容进行文本预处理,随后通过实验的方式选择TI-Rank模型参数,最终 依据关键词提取结果对TI-Rank模型的算法进行评价。
因B站对每次弹幕爬取的数量存在限制因此无法一次性获取全部弹幕内容,为避免弹幕获 取的片面性对分析结果造成误差本申请设计的爬取流程如下:
1、构建头文件数据池。
2、每5分钟更换一次头文件并对弹幕内容进行爬取;
3、若内容重复则舍去,重复步骤2;
4、若内容不重复则追加入数据库;
5、若重复数据重复次数大于4次或已成功爬取5次,则结束爬取。
以标题为“bilibili献给新一代的演讲《后浪》”的视频为例,其部分弹幕文本的原始数据如表 1所示。
表1弹幕文本原始数据格式
Figure BDA0002920280430000111
通过分析发现,B站弹幕文本数据有以下3个特点:
文本含有大量符号、重复字和未登录词;内容较长且关键信息分散;较多英文、数字等干扰 信息,需要进行数据预处理。
然后,按照前述方法,进行以下过程。
对弹幕文本进行数据预处理本申请采用HanLP系统对文本进行数据预处理操作。
首先,对文本进行分词并剔除单字词。其次,去除停用词并依据词性对文本内容进行过滤。
然后,按照本发明前述方法进行以下内容:
第一、基于TTF-ICDF模型进行关键词提取。
第二基于DWTextRank模型进行关键词提取。
本实验中,TI-Rank模型参数选择如下:
1、TTF权重γ与δ的选择
权重γ与δ的选择对TTF-ICDF模型中TTF算法抽取弹幕信息的效果有很大影响。因标题关 键内容与视频主题的相关程度大于标题关键内容的近义词与视频主题的相关程度,所以γ的权重 要大于δ的权重。
为更好的确定γ与δ的值,本申请通过人工筛选出10个titj与人工标注的关键词存在较大差 别的弹幕文本并通过改变γ与δ的值进行实验。实验发现γ与δ的值设置较大会导致标题中的信息 在关键词中过于凸显,造成模型准确率下降。相反,γ与δ的值设置较小会导致标题中的关键信 息被忽略。
如附图1所示当γ=3,δ=2时,模型提取关键词与人工标注结果最为贴合,因此在后续试验 中使用γ=3,δ=2进行运算。
2、ICDF中jv参数的选择
在ICDF算法中选取合适的参数jv可更好的体现词语的重要程度,本实验分别选取不同的j, =[0.01,0.05,0.1,0.2,0.3,0.4,0.5,0.6,0.8]值。当jv取不同值时,计算弹幕文本中关键词提取的 准确率如附图2所示。
由附图2可以看出,当jv为0.1时整个模型准确率达到最高且高于原生TF-IDF模型,因此 本申请的jv值设为0.1。
3三级梯度评价标准参数选择
在计算提取出的关键词准确度时,考虑到视频平台关键词排序应符合优先级递减规律,本申 请在使用传统衡量标准的同时,引入三级梯度评价标准对模型抽取结果与人工标注结果进行同级 评价。
本申请对每个弹幕文本抽取七个关键词,依据TF-IDF、TextRank与TI-Rank模型对关键词 的提取均符合降序排列的特点。其中,七个关键词被分为三级且每级对应一定的权重。
(1)词汇量参数选择
对每个弹幕文本抽取的七个关键词可分为1个二级模型和两个三级模型如表2所示。
表2词汇量参数选择
Figure BDA0002920280430000121
Figure BDA0002920280430000131
为更好的体现梯度化效果本文选用三级模型中的第一个,即一级包含一个关键词,二级包含 两个关键词,三级包含4个关键词。
(2)评价标准权重参数选择
为更好的凸显关键词排列顺序对结果造成的差异,本申请为分析不同权重分配(数据如表3 所示)对三级梯度评价标准的影响进行了多组实验。
表3三级梯度评价标准的权重分配表
Figure BDA0002920280430000132
权重评价标准应满足一级关键词权重大于二级关键词权重大于三级关键词权重。从表3中可 知测试1不符合要求,因此测试2赋予的权重为本评价标准适用的下限。为了研究不同权重分配 对评价的影响,本文对测试2-8随机抽取不同领域的弹幕文本进行关键词准确率计算,随后再通 过平方差公式计算模型准确率的稳定性。方差越大说明数据波动越大。平方差公式为
Figure BDA0002920280430000133
Figure BDA0002920280430000134
其中,xN(N=1,2,3...n)代表第n类视频已被提取的关键词平均准确率,
Figure BDA0002920280430000135
三级梯度评价标准中不同权重分配所对应的准确率如附图3所示,附图3中,“测试2~8” 曲线表示不同类视频的准确率随着第一、二级权重的提高而增大。“三级无权平均值”直线表示第 三级的四个词语在所有七个关键词取平权时所贡献的准确率。“测试2~8-三级带权”曲线表示所 有关键词被赋予表3所示权重时第三级的四个词语所贡献的准确率。从中可以看出,平均准确率 随着第一、二级权重的提高而变大,同时也会导致第三级关键词的准确率降低从而无法体现第三 级关键词的准确性。根据三级梯度评价标准所计算的方差如附图4所示。可以看出,在不同的权 重分配下,准确率高的测试样本所对应的方差也高。综合上述情况,后文将以测试2与测试8 的权重分配为例对模型进行评价。
TI-Rank模型算法评价
由于本申请使用无监督模型无法通过直观的评价标准衡量模型的好坏,因此选择对弹幕数据 进行人工标注,通过对弹幕的阅读并结合视频内容综合标记出最合适的7个关键词作为正确标签。 过平均准确率P,平均召回率R与平均F1值,对弹幕文本提取结果进行计算
Figure BDA0002920280430000141
Figure BDA0002920280430000142
Figure BDA0002920280430000143
其中,xi表示人工标注标签个数,yi表示算法获取的标签个数,N为对应领域的弹幕文本总 数。
为了验证TI-Rank模型在弹幕关键词提取方面优于TF-IDF与TextRank模型,本申请首先展 示实验中不同模型对不同视频提取关键词的效果对比表如表4所示。
其中视频1为“【官方MV】Mojito-周杰伦”。其次分别使用传统评估标准和三级梯度评价 标准对每个模型计算其平均F1值如表5所示。
表4不同模型对视频1的关键词提取效果对比表
Figure RE-GDA0003030631050000144
由表4可知,TI-Rank算法提取效果从准确度和排列顺序两方面均和人工标注结果非常接近。
从表5数据中可以看出,TI-Rank模型在传统评估标准与三级梯度评价标准下平均F1值的 计算结果均高于TF-IDF和TextRank模型。
表5平均F1值计算结果
Figure BDA0002920280430000152
上述结果表明,采用本发明的方法,TI-Rank模型在视频平台提取弹幕文本关键词上取得了 很好的效果。因此,本申请相较于常用的TF-IDF和TextRank模型更适合弹幕文本的提取且提取 出的内容更贴近于人工反馈的关键词结果,有利于用户快速了解视频内容并方便网站进行视频精 准推送。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不 同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明,使本领域 专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将 是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实 施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的 原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种弹幕关键词提取方法,其特征在于,包括:
第一、基于TTF-ICDF模型进行弹幕关键词提取;
第二、基于DWTextRank模型进行关键词提取;
其中,基于TTF-ICDF模型进行弹幕关键词提取的方法为:
首先构建三元组<wi,titj,tipj>表示词特征;
然后获得词频ttfij
然后,获得逆向字符文档频率ICDF;
最后,基于TTF-ICDF模型进行关键词提取,提取出词频维度上的关键词;
其中,所述wi表示词语i,titj为视频标题关键信息,tipj为titj最接近的视频标题延伸词;其中,基于DWTextRank模型进行关键词提取的方法为:
首先,利用词性表Tibletit过滤标题中非关键信息,构建titj,tipj文本集;
然后合并titj,tipj文本集生成titall文本集;
然后,逐一使用titall中的词语与对与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,将结果标记为DW1;
然后,将DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;
最后,将Yu集合中的词语通过下述公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。
2.根据权利要求1所述的一种弹幕关键词提取方法,其特征在于:
所述视频关键信息titj为,通过对多个视频类别的视频标题进行综合分析,建立词性表Tibletit
过滤视频标题中的非关键信息,并将视频标题关键信息标记为titj
所述视频标题延伸词tipj为,采用word2vec模型对微软亚洲研究院语料库进行训练得到字向量,并利用余弦相似度计算公式计算出与titj所含词语最接近的三个词,并将其标记为视频标题延伸词tipj
3.根据权利要求2所述的一种弹幕关键词提取方法,其特征在于:获得词频ttfij的方法为:
Figure RE-FDA0003030631040000021
其中,wi表示词语i,γ为视频标题关键信息所占权重,δ为视频标题延伸词所占权重;
knk,j为文件dj中所有词汇的出现次数总和,titij为基于视频标题词性及视频原有标签所构建的数据集中词i在文件dj中出现的次数,tipi,j为通过word2vec模型构建的视频标题延伸词(近义词)数据集的词i在文件dj中出现的次数。
4.根据权利要求3所述的一种弹幕关键词提取方法,其特征在于:获得逆向字符文档频率ICDF的方法为:
Figure RE-FDA0003030631040000022
其中w为文档中任意词语,wi,j为第j篇文档中位置为i的词语,∑jiwi,j表示语料库中所有词语总和,αj,i为某词语在文档j中的个数,∑jαj,i表示语料库中某个词语的总和,js为语料库总文档数,jv为出现词语wi,j的文档数。
5.根据权利要求4所述的一种弹幕关键词提取方法,其特征在于:
Figure RE-FDA0003030631040000023
其中,γ的权重要大于δ的权重,其中,γ=3,δ=2;
jv值为0.1。
6.根据权利要求5所述的一种弹幕关键词提取方法,其特征在于:基于拼音维度进行编辑距离与词向量的相似度计算的方法为,
Figure RE-FDA0003030631040000031
Figure RE-FDA0003030631040000032
Sim=Simpin(si,sj)+Vec(a,b)
其中,pina,b(i,j)为字符串a,b转化为拼音形式;
Simpin(si,sj)为拼音形式编辑距离计算后归一化的结果;
lmax是si与sj中拼音字符串的最大长度;
Vec(a,b)表示词与词之间的相似度;
Sim表示词语总相似度;
Max(i,j)为,选取出i,j中最大的;
Min(i,j)为,选取出i,j中最小的。
7.根据权利要求6所述的一种弹幕关键词提取方法,其特征在于:
将Yu集合中的词语通过下述公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词,
Figure RE-FDA0003030631040000033
其中,d为阻尼系数。
8.根据权要求1所述的一种弹幕关键词提取方法,其特征在于:还包括对弹幕文本进行数据预处理的过程。
9.根据权要求8所述的一种弹幕关键词提取方法,其特征在于:对弹幕文本进行数据预处理的方法为:
首先,对文本进行分词并剔除单字词;其次,去除停用词并依据词性对文本内容进行过滤。
10.一种弹幕关键词提取装置,其特征在于:所述装置包括:TTF-ICDF模型弹幕关键词提取模块,用以基于TTF-ICDF模型进行弹幕关键词提取,获得词频维度的关键词;以及基于DWTextRank模型关键词提取模块,获得语义维度的关键词。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-9中任一项所述的弹幕关键词提取方法。
12.一种包含计算机可执行指令的存储介质,其特征在于:所述计算机可执行指令在由计算机处理器执行时实现如权利要求1-9中任一项所述的弹幕关键词提取方法。
CN202110115490.XA 2021-01-28 2021-01-28 一种弹幕关键词提取方法、装置、设备及介质 Active CN112989802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110115490.XA CN112989802B (zh) 2021-01-28 2021-01-28 一种弹幕关键词提取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110115490.XA CN112989802B (zh) 2021-01-28 2021-01-28 一种弹幕关键词提取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112989802A true CN112989802A (zh) 2021-06-18
CN112989802B CN112989802B (zh) 2023-06-20

Family

ID=76345609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110115490.XA Active CN112989802B (zh) 2021-01-28 2021-01-28 一种弹幕关键词提取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112989802B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704398A (zh) * 2021-08-05 2021-11-26 上海万物新生环保科技集团有限公司 一种关键词提取的方法及设备
CN113761902A (zh) * 2021-11-10 2021-12-07 中科雨辰科技有限公司 目标关键词提取系统
CN114302227A (zh) * 2021-12-28 2022-04-08 北京智美互联科技有限公司 基于容器采集的网络视频采集与解析的方法和系统
CN116187307A (zh) * 2023-04-27 2023-05-30 吉奥时空信息技术股份有限公司 一种政务文章标题关键字提取方法、设备及存储设备
CN117151780A (zh) * 2023-10-27 2023-12-01 一站发展(北京)云计算科技有限公司 一种关系数据分析处理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067807A (zh) * 2007-05-24 2007-11-07 上海大学 文本语义的可视化表示与获取方法
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN104281606A (zh) * 2013-07-08 2015-01-14 腾讯科技(北京)有限公司 一种展示微博评论的方法和装置
CN107220343A (zh) * 2017-05-26 2017-09-29 福州大学 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN109145112A (zh) * 2018-08-06 2019-01-04 北京航空航天大学 一种基于全局信息注意力机制的商品评论分类方法
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN111143610A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067807A (zh) * 2007-05-24 2007-11-07 上海大学 文本语义的可视化表示与获取方法
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN104281606A (zh) * 2013-07-08 2015-01-14 腾讯科技(北京)有限公司 一种展示微博评论的方法和装置
CN107220343A (zh) * 2017-05-26 2017-09-29 福州大学 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN109145112A (zh) * 2018-08-06 2019-01-04 北京航空航天大学 一种基于全局信息注意力机制的商品评论分类方法
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN111143610A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 一种内容推荐方法、装置、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI-JIAO LIU 等: "Bullet Screen Short Text Sentiment Analysis Algorithm", 《AEMCSE2020》, pages 562 - 568 *
WENGEN LI 等: "TextRank algorithm by exploiting Wikipedia for short text keywords extraction", 《2016ICISCE》, pages 683 - 686 *
李航 等: "融合多特征的TextRank关键词抽取方法", 《情报杂志》, pages 183 - 187 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704398A (zh) * 2021-08-05 2021-11-26 上海万物新生环保科技集团有限公司 一种关键词提取的方法及设备
CN113761902A (zh) * 2021-11-10 2021-12-07 中科雨辰科技有限公司 目标关键词提取系统
CN113761902B (zh) * 2021-11-10 2022-02-11 中科雨辰科技有限公司 目标关键词提取系统
CN114302227A (zh) * 2021-12-28 2022-04-08 北京智美互联科技有限公司 基于容器采集的网络视频采集与解析的方法和系统
CN114302227B (zh) * 2021-12-28 2024-04-26 北京国瑞数智技术有限公司 基于容器采集的网络视频采集与解析的方法和系统
CN116187307A (zh) * 2023-04-27 2023-05-30 吉奥时空信息技术股份有限公司 一种政务文章标题关键字提取方法、设备及存储设备
CN116187307B (zh) * 2023-04-27 2023-07-14 吉奥时空信息技术股份有限公司 一种政务文章标题关键字提取方法、设备及存储设备
CN117151780A (zh) * 2023-10-27 2023-12-01 一站发展(北京)云计算科技有限公司 一种关系数据分析处理方法及系统
CN117151780B (zh) * 2023-10-27 2024-01-09 一站发展(北京)云计算科技有限公司 一种关系数据分析处理方法及系统

Also Published As

Publication number Publication date
CN112989802B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN108763213A (zh) 主题特征文本关键词提取方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
Astrakhantsev et al. Methods for automatic term recognition in domain-specific text collections: A survey
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
Wang et al. Ptr: Phrase-based topical ranking for automatic keyphrase extraction in scientific publications
CN110543564B (zh) 基于主题模型的领域标签获取方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN112949713B (zh) 一种基于复杂网络的集成学习的文本情感分类方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN113988053A (zh) 一种热词提取方法及装置
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及系统
CN111259156A (zh) 一种面向时间序列的热点聚类方法
Ajallouda et al. Kp-use: an unsupervised approach for key-phrases extraction from documents
Hao et al. The acl fws-rc: A dataset for recognition and classification of sentence about future works
Sharma et al. A trend analysis of significant topics over time in machine learning research
KR101089338B1 (ko) 게시물 원문 평가 방법 및 장치
Ahmad et al. News article summarization: Analysis and experiments on basic extractive algorithms
CN114064855A (zh) 一种基于变压器知识库的信息检索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant