CN112699831B - 基于弹幕情感的视频热点片段检测方法、装置及存储介质 - Google Patents

基于弹幕情感的视频热点片段检测方法、装置及存储介质 Download PDF

Info

Publication number
CN112699831B
CN112699831B CN202110019644.5A CN202110019644A CN112699831B CN 112699831 B CN112699831 B CN 112699831B CN 202110019644 A CN202110019644 A CN 202110019644A CN 112699831 B CN112699831 B CN 112699831B
Authority
CN
China
Prior art keywords
video
barrage
emotion
segments
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110019644.5A
Other languages
English (en)
Other versions
CN112699831A (zh
Inventor
吴渝
张运凯
杨杰
李芊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110019644.5A priority Critical patent/CN112699831B/zh
Publication of CN112699831A publication Critical patent/CN112699831A/zh
Application granted granted Critical
Publication of CN112699831B publication Critical patent/CN112699831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于弹幕情感的视频热点片段检测方法、装置及存储介质,包括对获取到的弹幕视频进行清洗,并对清洗后的弹幕视频进行切分,构造弹幕情感词典,对视频片段中的弹幕进行情感强度计算和整体情感倾向进行判定;计算相邻视频片段的情感强度变化率;使用LDA主题模型进行主题提取,计算相邻视频片段的主题相似度;构造热点视频片段检测模型;将需要检测的弹幕视频输入到模型中,得到热点视频片段。本发明构建的弹幕情感词典提升了弹幕情感强度计算准确度,弹幕情感强度计算方法能够得到更为准确的情感强度计算结果,直接对应弹幕文本的分析满足用户利用情感倾向和关键词检索热点片段的需求,具有较高的检测准确度。

Description

基于弹幕情感的视频热点片段检测方法、装置及存储介质
技术领域
本发明涉及网络舆情领域,具体涉及基于弹幕情感的视频热点片段检测方法、装置及存储介质。
背景技术
近年来,随着网络视频的流行,视频数量爆炸式增长,高效为用户群体推送高质量的符合内容需求和情感倾向的热点视频片段具有重要现实意义。而现有的视频网站检测视频热点片段方法主要有人工筛选剪辑、机器自动识别。对于日益产生的视频数据,人工剪辑方式效果不佳、耗时久、成本高,机器自动识别检测准确度低。
机器自动识别热点视频片段检测主要有两种方法,是基于视频中的弹幕数量与阈值的大小检测,是基于视频片段的情感特征检测。基于视频弹幕数量与阈值大小的检测方法,无法满足用户根据内容和情感倾向选择热点片段。基于视频片段的情感特征检测方法主要分为两类:一类是基于情感词典的方法,一类是基于有监督的机器学习方法。基于情感词典方法主要利用情感词典计算情感强度,但是弹幕文本口语化明显、网络新词多,情感强度计算不准确。基于有监督的机器学习方法需要大量标记语料,且无法量化情感强度。因此需要新的视频热点片段检测方法,可以满足用户利用情感倾向和关键词检索热点片段的需求,提高检测准确度。
发明内容
本发明提供基于弹幕情感的视频热点片段检测方法、装置及存储介质,利用情感倾向和关键词检索热点视频片段,提高热点视频片段检测准确度,本发明中热点视频片段的定义为:观众情感波动大且情感强度高的视频片段,且对于视频片段中出现的内容,讨论的话题集中。
本发明通过下述技术方案实现:
基于弹幕情感的视频热点片段检测方法,具体步骤包括:
步骤S1、对获取到的弹幕视频进行清洗,并对清洗后的弹幕视频进行切分,得到视频片段;
步骤S2、构造弹幕情感词典,使用构造的弹幕情感词典对步骤S2中视频片段中的弹幕进行情感强度计算,得到视频片段的整体情感强度,并根据整体情感强度对视频片段的整体情感倾向进行判定;
步骤S3、根据步骤S2中得到的各视频片段的整体情感强度,计算相邻视频片段的情感强度变化率;
步骤S4、使用LDA主题模型对视频片段进行主题提取,生成视频片段对应的主题-关键词概率分布,计算相邻视频片段的主题相似度;
步骤S5、对步骤S2中的视频片段的整体情感强度、步骤S3的相邻视频片段的情感强度变化率及步骤S4中的相邻视频片段的主题相似度设置阈值,构造热点视频片段检测模型;
步骤S6、将获取到的弹幕视频输入到热点视频片段检测模型中,得到弹幕视频的热点视频片段。
进一步优选,步骤S1的具体步骤包括:
对清洗后的弹幕视频进行切分,得到含有k个视频片段的弹幕视频分段集合V,V={s1,s2,…sk},sk代表弹幕视频分段集合V中第k个视频片段,sk的时间长度为定值Ts,将弹幕c定义为三元组(wc,tc,td),其中wc代表弹幕c中的关键词集合,tc代表弹幕c在弹幕视频中的时间戳,td代表弹幕发布的时间距离弹幕视频上线时间的天数。3、根据权利要求1所述的基于弹幕情感的视频热点片段检测方法,其特征在于,步骤S3中构造弹幕情感词典的步骤包括:
采用大连理工大学情感本体库词典为初始词典,共含有情感词27466个,将情感分为7种:好、乐、哀、怒、惧、恶、惊,其中,乐和好属于正向情感,哀、怒、惧、恶和惊属于负向情感,将每种正向情感的强度分为1、3、5、7、9五档,负向情感分为-1、-3、-5、-7、-9五档;在所述初始词典的基础上扩充弹幕颜表情词典,如“ψ(`')ψ”、“(
Figure BDA0002888040900000021
Figure BDA0002888040900000022
#)”,并确定颜表情权重;扩充语气词典,如弹幕“哈哈”、“唉”等,防止这些语气词当作停用词给过滤掉;扩充否定词典,根据弹幕常用的71个否定副词,将否定副词的权重设为-1;扩充弹幕网络情感新词词典,部分网络词更加简短和口语化,从弹幕视频中和搜狗输入法的词库中整理筛选网络情感新词进行扩充,如“秀”、“打call”等,并定义所述网络情感新词的情感权重。
进一步优选,步骤S2中对视频片段的情感强度计算和情感倾向判定的具体过程为:
步骤S21、根据弹幕特有的时序性特征,计算视频片段中每条弹幕的情感强度,并根据计算的情感强度将弹幕定义为正向情感弹幕或负向情感弹幕,计算情感强度的公式如下:
Figure BDA0002888040900000023
Figure BDA0002888040900000024
其中,td为弹幕c发布的时间距离弹幕视频上线时间的天数,tsum是弹幕视频发布的总天数;
Figure BDA0002888040900000025
表示弹幕中第j个情感词ej前有negj个否定副词和qj个程度副词修饰时的情感强度,Em为弹幕c中颜表情的权重,nm为弹幕c中颜表情的个数;当ei>0时,定义弹幕c为正向情感弹幕,当ei≤0时定义弹幕c为负面情感弹幕;
步骤S22、将步骤S21中计算的每条弹幕的情感强度累加求和得到视频片段sk的整体情感强度
Figure BDA0002888040900000031
Figure BDA0002888040900000032
其中,Sc表示视频片段sk中弹幕的条数;
步骤S23、根据步骤S22的计算结果,定义情感倾向
Figure BDA0002888040900000033
Figure BDA0002888040900000034
时,
Figure BDA0002888040900000035
定义视频片段sk的整体情感倾向为正向;
Figure BDA0002888040900000036
时,
Figure BDA0002888040900000037
定义视频片段sk的整体情感倾向为负向;
Figure BDA0002888040900000038
时,
Figure BDA0002888040900000039
定义视频片段sk的整体情感倾向为中性。
进一步优选,计算相邻视频片段的情感强度变化率的具体过程包括:
对弹幕视频分段集合V中的每一个视频片段进行情感倾向的判定,所有视频片段的情感倾向向量表示为
Figure BDA00028880409000000310
计算弹幕视频分段集合V的片段平均情感强度Avg(Ev),计算公式如下:
Figure BDA00028880409000000311
计算视频片段sk的终止时间te时刻的情感变化率ke,相邻视频片段的时间间隔为Ts,计算两个相邻视频片段的情感强度变化率
Figure BDA00028880409000000312
计算公式如下:
Figure BDA00028880409000000313
其中,
Figure BDA00028880409000000314
为视频片段sk的整体情感强度,
Figure BDA00028880409000000315
为视频片段sk-1的整体情感强度,k=1时,
Figure BDA00028880409000000316
计算弹幕视频分段集合V的相邻片段平均情感强度变化率
Figure BDA00028880409000000317
计算公式如下:
Figure BDA00028880409000000318
进一步优选,步骤S4的具体过程包括:
步骤S41、采用LDA主题模型,对切分后的视频片段进行主题提取,生成视频片段对应的文档-主题、主题关键词概率分布;
步骤S42、根据步骤S41生成的视频片段对应的文档-主题、主题关键词概率分布,提取视频片段每个主题的前m个主题关键词及权重,生成视频片段的主题关键词集合和主题关键词权重集合,其中,主题关键词集合表示为:
Figure BDA0002888040900000041
Figure BDA0002888040900000042
表示主题tK中第m个关键词;
主题关键词权重集合表示为:
Figure BDA0002888040900000043
其中,
Figure BDA0002888040900000044
表示主题tK中第m个关键词的权重;
步骤S43、利用Jaccard相似度计算视频片段主题关键词相似度,利用余弦相似度计算视频片段主题关键词权重的相似度;
步骤S44、结合步骤S43中计算的视频片段主题关键词相似度和视频片段主题关键词权重的相似度计算相邻视频片段之间的主题相似度。
进一步优选,相邻视频片段主题相似度的计算公式如下:
Figure BDA0002888040900000045
其中,su和sv为相邻视频片段,
Figure BDA0002888040900000046
分别表示视频片段su和sv的主题关键词特征集合,
Figure BDA0002888040900000047
分别表示视频片段su和sv主题关键词权重的集合,
Figure BDA0002888040900000048
表示视频片段su和sv的主题关键词相似度,取值范围为(0,1],
Figure BDA0002888040900000049
表示视频片段su和sv的相同主题关键词权重向量的相似度。
进一步优选,构造热点片段检测模型的步骤包括:
步骤S51、按照弹幕视频分段集合V中各视频片段的时间,对各视频片段逐个进行热点片段特征计算,热点片段特征计算包括:计算各视频片段的整体情感强度
Figure BDA00028880409000000410
计算弹幕视频分段集合V的情感倾向向量Vf和片段平均情感强度Avg(Ev),计算两个相邻视频片段的情感强度变化率
Figure BDA00028880409000000411
步骤S52、根据步骤S51的热点片段特征计算结果对弹幕视频分段集合V中的视频片段搜索热点视频片段的起始点,若其中一个视频片段sk与其相邻的视频片段sk-1的情感强度变化率
Figure BDA00028880409000000412
大于相邻片段平均情感强度变化率
Figure BDA00028880409000000413
且该视频片段的整体情感强度
Figure BDA00028880409000000414
大于片段平均情感强度Avg(Ev),则认为该视频片段sk为热点视频片段的起始片段,并更新起始热点视频片段集合D,并合并相邻的视频片段sk和sk-1
步骤S53、根据视频片段主题关键词和主题关键词权重,计算相邻视频片段的主题相似度,判断视频片段的整体情感强度是否大于片段平均情感强度Avg(Ev)且相邻视频片段主题相似度是否大于δ,相邻视频片段主题相似度的取值范围为(0,1],δ表示根据实际视频片段检测需求的取值,初始值取0.5;
步骤S54、若步骤S53中的判断结果为是,则认为该视频片段为热点视频片段,更新热点视频片段窗口W;
步骤S55、按照起始热点视频片段集合D中视频片段的时间顺序,重复步骤S53-S54,依次进行所有视频片段的热点片段检测,直至遍历完起始热点视频片段集合D中所有的起始热点视频片段。
另外,本发明提出基于弹幕情感的视频热点片段检测装置,包括预处理模块、情感计算模块、主题相似度计算模块、边界判定模块、检测模块,其中,
预处理模块用于对获取到的弹幕视频数据进行片段划分和数据清洗,得到视频片段,构造弹幕情感词典;
情感计算模块用于使用预处理模块构建的弹幕情感词典对视频片段进行整体情感强度计算并进行整体情感倾向的判定,对已经完成整体情感强度计算的视频片段进行相邻视频片段情感强度变化率的计算;
主题相似度计算模块用于对视频片段进行主题相似度计算,使用LDA主题模型对视频片段进行主题提取,并计算相邻视频片段的主题相似度;
边界判定模块用于对视频片段的整体情感强度、情感强度变化率及相邻视频片段的主题相似度设置阈值,对热点视频片段的起始时间进行标识,构造热点视频片段检测模型;
检测模块用于将获取的弹幕视频输入到构造的热点视频片段检测模型中,得到弹幕视频的热点视频片段。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时实现上述的基于弹幕情感的视频热点片段检测方法。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明基于弹幕情感的视频热点片段检测方法、装置及存储介质,构建一种弹幕情感词典,核心思想为采用大连理工大学情感本体库词典为初始词典,扩充弹幕颜表情词典、语气词典、否定词典及弹幕网络词典,并人工定义其情感权重。改进后的弹幕情感词典可适用于弹幕文本情景下的情感分析,提升弹幕情感强度计算准确度;
2、本发明基于弹幕情感的视频热点片段检测方法、装置及存储介质,综合考虑颜表情、语气词和网络用语,同时结合弹幕时序性特征,提出了一种新的弹幕情感强度计算方法,能够得到更为准确的情感强度计算结果;
3、本发明基于弹幕情感的视频热点片段检测方法、装置及存储介质,将热点片段检测问题从视频帧的分析转化为对视频片段对应弹幕文本的分析,满足用户利用情感倾向和关键词检索热点片段的需求,具有较高的检测准确度。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1是本发明方法的总体流程图;
图2是本发明提供的情感计算流程图;
图3是本发明提供相邻视频片段主题相似度计算的流程图;
图4是本发明构造热点视频片段检测模型流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的结构、电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
在本发明的描述中,需要理解的是,术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低””内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制。
实施例1
如图1所示,本发明基于弹幕情感的视频热点片段检测方法,总体整体流程图如图1所示,具体包括步骤S1-S7:
步骤S1、对获取到的弹幕视频进行清洗,并对清洗后的弹幕视频进行切分,得到视频片段;
步骤S2、构造弹幕情感词典,使用构造的弹幕情感词典对步骤S2中视频片段中的弹幕进行情感强度计算,得到视频片段的整体情感强度,并根据整体情感强度对视频片段的整体情感倾向进行判定;
步骤S3、根据步骤S2中得到的各视频片段的整体情感强度,计算各视频片段的情感强度变化率;
步骤S4、根据视频片段对应的主题-关键词概率分布,使用LDA主题模型对视频片段进行主题提取,计算相邻视频片段的主题相似度;
步骤S5、对步骤S2中的视频片段的整体情感强度、步骤S3的情感强度变化率及步骤S4中的相邻视频片段的主题相似度设置阈值,构造热点视频片段检测模型;
步骤S6、将获取到的弹幕视频输入到热点视频片段检测模型中,得到弹幕视频的热点视频片段。
在步骤S1中,对视频片段中的弹幕进行清洗即过滤筛选,作为示例,过滤筛选的规则为在相应时长的视频中没有达到相应弹幕数量的视频过滤,具体的对照标准如表1所示:
表1弹幕数量对照标准表
视频时长 弹幕池上限
0–3min 500
3–10min 1000
10–15min 1500
15–35min 3000
35–60min 6000
60min以上 8000
对上述清洗后的弹幕视频进行切分,得到含有k个视频片段的弹幕视频分段集合V,V={s1,s2,…sk},sk代表弹幕视频分段集合V中第k个视频片段,sk的时间长度为定值Ts,将弹幕c定义为三元组(wc,tc,td),其中wc代表弹幕c中的关键词集合,tc代表弹幕c在弹幕视频中的时间戳,td代表弹幕发布的时间距离弹幕视频上线时间的天数。
在步骤S2中,通过采用大连理工大学情感本体库词典为初始词典,通过弹幕对弹幕文本内容的分析,构造适用于弹幕视频的情感词典,初始词典中共含有情感词27466个,并将弹幕情感分为7种:好、乐、哀、怒、惧、恶、惊,其中,乐和好属于正向情感,哀、怒、惧、恶和惊属于负向情感,将每种正向情感的强度分为1、3、5、7、9五档,负向情感分为-1、-3、-5、-7、-9五档;
在上述初始词典的基础上扩充弹幕颜表情词典,颜表情是基于ASCII的符号组成的,如“ψ(`')ψ”、“(
Figure BDA0002888040900000081
Figure BDA0002888040900000082
#)”,本示例中收集了328个常用的表情符号,并根据表情特征人工确定表情权重,部分颜表情词典格式如表2所示:
表2部分颜表情词典
Figure BDA0002888040900000083
扩充语气词典,弹幕中存在很多语气词组成的弹幕,如弹幕“哈哈”、“唉”等,防止这些语气词当作停用词给过滤掉,部分语气词典如表3所示:
表3语气词典
语气词 类别 权重
笑死 5
好气 -1
-5
我的天 1
扩充否定词典,根据弹幕常用的71个否定副词,将否定副词的权重设为-1;扩充弹幕网络情感新词词典,部分网络词更加简短和口语化,从弹幕视频中和搜狗输入法的词库中整理筛选网络情感新词进行扩充,如“秀”、“打call”等,并定义所述网络情感新词的情感权重。
通过上述构造的弹幕情感词典,对弹幕文本进行分词,去除停用词后,根据情感词典的情感词、副词、否定词、颜表情和弹幕的发送时间等指标进行弹幕情感强度的计算、情感倾向的判断具体过程包括如图2所示,具体包括步骤S21-S23:
步骤S21、根据弹幕特有的时序性特征,计算视频片段中每条弹幕的情感强度,并根据计算的情感强度将弹幕定义为正向情感弹幕或负向情感弹幕,计算情感强度的公式如下:
Figure BDA0002888040900000091
Figure BDA0002888040900000092
其中,td为弹幕c发布的时间距离弹幕视频上线时间的天数,tsum是弹幕视频发布的总天数;
Figure BDA0002888040900000093
表示弹幕中第j个情感词ej前有negj个否定副词和qj个程度副词修饰时的情感强度,Em为弹幕c中颜表情的权重,nm为弹幕c中颜表情的个数;当ei>0时,定义弹幕c为正向情感弹幕,当ei≤0时定义弹幕c为负面情感弹幕;
步骤S22、将步骤S21中计算的每条弹幕的情感强度累加求和得到视频片段sk的整体情感强度
Figure BDA0002888040900000094
Figure BDA0002888040900000095
其中,Sc表示视频片段sk中弹幕的条数;
步骤S23、根据步骤S22的计算结果,定义情感倾向Tsk,当
Figure BDA0002888040900000096
时,
Figure BDA0002888040900000097
定义视频片段sk的整体情感倾向为正向;
Figure BDA0002888040900000098
时,
Figure BDA0002888040900000099
定义视频片段sk的整体情感倾向为负向;
Figure BDA00028880409000000910
时,
Figure BDA00028880409000000911
定义视频片段sk的整体情感倾向为中性。
步骤S3中计算相邻视频片段的情感强度变化率的过程包括:
对弹幕视频分段集合V中的每一个视频片段进行情感倾向的判定,所有视频片段的情感倾向向量表示为
Figure BDA00028880409000000912
计算弹幕视频分段集合V的片段平均情感强度Avg(Ev),计算公式如下:
Figure BDA00028880409000000913
计算视频片段sk的终止时间te时刻的情感变化率ke,相邻视频片段的时间间隔为Ts,计算两个相邻视频片段的情感强度变化率
Figure BDA00028880409000000914
计算公式如下:
Figure BDA0002888040900000101
其中,
Figure BDA0002888040900000102
为视频片段sk的整体情感强度,Esk-1为视频片段sk-1的整体情感强度,k=1时,
Figure BDA0002888040900000103
计算弹幕视频分段集合V的相邻片段平均情感强度变化率
Figure BDA0002888040900000104
计算公式如下:
Figure BDA0002888040900000105
如图3所示,步骤S4的具体过程包括步骤S41-S44:
步骤S41、采用LDA主题模型,对切分后的视频片段进行主题提取,生成视频片段对应的文档-主题、主题关键词概率分布;具体的,采用LDA主题模型利用视频中的弹幕文本内容,提取视频片段主题,初始设置K个隐含主题Topici(t1,t2,t3,...tK),使得每个视频片段都能得到一个主题分布,每个关键词都能在视频片段中对应一个主题;
步骤S42、根据步骤S41生成的视频片段对应的文档-主题、主题关键词概率分布,提取视频片段每个主题的前m个主题关键词及主题关键词权重,生成视频片段的主题关键词集合和主题关键词权重集合,其中,主题关键词集合表示为:
Figure BDA0002888040900000106
Figure BDA0002888040900000107
表示主题tK中第m个关键词;
主题关键词权重集合表示为:
Figure BDA0002888040900000108
其中,
Figure BDA0002888040900000109
表示主题tK中第m个关键词的权重;
步骤S43、利用Jaccard相似度计算视频片段主题关键词相似度,利用余弦相似度计算视频片段主题关键词权重的相似度;
步骤S44、结合步骤S43中计算的视频片段主题关键词相似度和视频片段主题关键词权重的相似度计算相邻视频片段之间的主题相似度,相邻视频片段主题相似度的计算公式如下:
Figure BDA00028880409000001010
其中,su和sv为相邻视频片段,
Figure BDA00028880409000001011
分别表示视频片段su和sv的主题关键词特征集合,
Figure BDA00028880409000001012
分别表示视频片段su和sv主题关键词权重的集合,
Figure BDA00028880409000001013
表示视频片段su和sv的主题关键词相似度,取值范围为(0,1],
Figure BDA0002888040900000111
表示视频片段su和sv的相同主题关键词权重向量的相似度。
如图4所示,步骤S5中构造热点片段检测模型的步骤包括S51-S55:
步骤S51、按照弹幕视频分段集合V中各视频片段的时间,对各视频片段逐个进行热点片段特征计算,热点片段特征计算包括:计算各视频片段的整体情感强度
Figure BDA0002888040900000112
计算弹幕视频分段集合V的情感倾向向量Vf和片段平均情感强度Avg(Ev),计算两个相邻视频片段的情感强度变化率
Figure BDA0002888040900000113
步骤S52、根据步骤S51的热点片段特征计算结果对弹幕视频分段集合V中的视频片段搜索热点视频片段的起始点,若其中一个视频片段sk与其相邻的视频片段sk-1的情感强度变化率
Figure BDA0002888040900000114
大于相邻片段平均情感强度变化率
Figure BDA0002888040900000115
且该视频片段的整体情感强度
Figure BDA0002888040900000116
大于片段平均情感强度Avg(Ev),则认为该视频片段sk为热点视频片段的起始片段,并更新起始热点视频片段集合D,并合并相邻的视频片段sk和sk-1
步骤S53、根据视频片段主题关键词和主题关键词权重,计算相邻视频片段的主题相似度,判断视频片段的整体情感强度是否大于片段平均情感强度Avg(Ev)且相邻视频片段的主题相似度是否是否大于δ,相邻视频片段主题相似度的取值范围为(0,1],δ表示根据实际视频片段检测需求的取值,初始值取0.5;
步骤S54、若步骤S53中的判断结果为是,则认为该视频片段为热点视频片段,更新热点视频片段窗口W;
步骤S55、按照起始热点视频片段集合D中视频片段的时间顺序,重复步骤S53-S54,依次进行所有视频片段的热点片段检测,直至遍历完起始热点视频片段集合D中所有的起始热点视频片段。
实施例2
本发明提供基于弹幕情感的视频热点片段检测装置,包括预处理模块、情感计算模块、主题相似度计算模块、边界判定模块、检测模块,其中,
预处理模块用于对获取到的弹幕视频数据进行片段划分和数据清洗,得到视频片段,构造弹幕情感词典;
情感计算模块用于使用预处理模块构建的弹幕情感词典对视频片段进行整体情感强度计算并进行整体情感倾向的判定,对已经完成整体情感强度计算的视频片段进行相邻视频片段情感强度变化率的计算;
主题相似度计算模块用于对视频片段进行主题相似度计算,使用LDA主题模型对视频片段进行主题提取,并计算相邻视频片段的主题相似度;
边界判定模块用于对视频片段的整体情感强度、情感强度变化率及相邻视频片段的主题相似度设置阈值,对热点视频片段的起始时间进行标识,构造热点视频片段检测模型;
检测模块用于将获取的弹幕视频输入到构造的热点视频片段检测模型中,得到弹幕视频的热点视频片段。
使用基于弹幕情感的视频热点片段检测装置时采用实施例1中描述的基于弹幕情感的视频热点片段检测方法,在此就不一一赘述。
实施例3
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时实现实施例1中所述的基于弹幕情感的视频热点片段检测方法。
可以理解的是,本发明综合考虑颜表情、语气词和网络用语,构建了新的弹幕情感词典,提升弹幕情感强度计算准确度;同时结合弹幕时序性特征,提出新的弹幕情感强度计算方法,能够得到更为准确的情感强度计算结果;将热点视频片段检测问题从视频帧的分析转化为对视频片段对应弹幕文本的分析,满足用户利用情感倾向和关键词检索热点片段的需求,具有较高的检测准确度。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于弹幕情感的视频热点片段检测方法,其特征在于,具体步骤包括:
步骤S1、对获取到的弹幕视频进行清洗,并对清洗后的弹幕视频进行切分,得到视频片段;
步骤S2、构造弹幕情感词典,使用构造的弹幕情感词典对步骤S2中视频片段中的弹幕进行情感强度计算,得到视频片段的整体情感强度,并根据整体情感强度对视频片段的整体情感倾向进行判定;
步骤S3、根据步骤S2中得到的各视频片段的整体情感强度,计算相邻视频片段的情感强度变化率;
步骤S4、使用LDA主题模型对视频片段进行主题提取,生成视频片段对应的主题-关键词概率分布,计算相邻视频片段的主题相似度;
步骤S5、对步骤S2中的视频片段的整体情感强度、步骤S3的相邻视频片段的情感强度变化率及步骤S4中的相邻视频片段的主题相似度设置阈值,构造热点视频片段检测模型;
步骤S6、将获取到的弹幕视频输入到热点视频片段检测模型中,得到弹幕视频的热点视频片段。
2.根据权利要求1所述的基于弹幕情感的视频热点片段检测方法,其特征在于,步骤S1的具体步骤包括:
对清洗后的弹幕视频进行切分,得到含有k个视频片段的弹幕视频分段集合V,V={s1,s2,…sk},sk代表弹幕视频分段集合V中第k个视频片段,sk的时间长度为定值Ts,将弹幕c定义为三元组(wc,tc,td),其中wc代表弹幕c中的关键词集合,tc代表弹幕c在弹幕视频中的时间戳,td代表弹幕发布的时间距离弹幕视频上线时间的天数。
3.根据权利要求1所述的基于弹幕情感的视频热点片段检测方法,其特征在于,步骤S2中构造弹幕情感词典的步骤包括:
采用大连理工大学情感本体库词典为初始词典,将情感分为7种:好、乐、哀、怒、惧、恶、惊,其中,乐和好属于正向情感,哀、怒、惧、恶和惊属于负向情感,将每种正向情感的强度分为1、3、5、7、9五档,负向情感分为-1、-3、-5、-7、-9五档;
在所述初始词典的基础上扩充弹幕颜表情词典,并确定颜表情权重;扩充语气词典;扩充否定词典,根据弹幕常用的否定副词,将否定副词的权重设为-1;扩充弹幕网络情感新词词典,从弹幕视频中和搜狗输入法的词库中整理筛选网络情感新词进行扩充,并定义所述网络情感新词的情感权重。
4.根据权利要求2所述的基于弹幕情感的视频热点片段检测方法,其特征在于,步骤S2中对视频片段的情感强度计算和情感倾向判定的具体过程为:
步骤S21、根据弹幕特有的时序性特征,计算视频片段中每条弹幕的情感强度,并根据计算的情感强度将弹幕定义为正向情感弹幕或负向情感弹幕,计算情感强度的公式如下:
Figure FDA0002888040890000021
Figure FDA0002888040890000022
其中,td为弹幕c发布的时间距离弹幕视频上线时间的天数,tsum是弹幕视频发布的总天数;
Figure FDA0002888040890000023
表示弹幕中第j个情感词ej前有negj个否定副词和qj个程度副词修饰时的情感强度,Em为弹幕c中颜表情的权重,nm为弹幕c中颜表情的个数;当ei>0时,定义弹幕c为正向情感弹幕,当ei≤0时定义弹幕c为负面情感弹幕;
步骤S22、将步骤S21中计算的每条弹幕的情感强度累加求和得到视频片段sk的整体情感强度
Figure FDA0002888040890000024
Figure FDA0002888040890000025
其中,Sc表示视频片段sk中弹幕的条数;
步骤S23、根据步骤S22的计算结果,定义情感倾向
Figure FDA0002888040890000026
Figure FDA0002888040890000027
时,
Figure FDA0002888040890000028
定义视频片段sk的整体情感倾向为正向;
Figure FDA0002888040890000029
时,
Figure FDA00028880408900000210
定义视频片段sk的整体情感倾向为负向;
Figure FDA00028880408900000211
时,
Figure FDA00028880408900000212
定义视频片段sk的整体情感倾向为中性。
5.根据权利要求4所述的基于弹幕情感的视频热点片段检测方法,其特征在于,计算相邻视频片段的情感强度变化率的具体过程包括:
对弹幕视频分段集合V中的每一个视频片段进行情感倾向的判定,所有视频片段的情感倾向向量表示为
Figure FDA00028880408900000213
计算弹幕视频分段集合V的片段平均情感强度Avg(Ev),计算公式如下:
Figure FDA00028880408900000214
计算视频片段sk的终止时间te时刻的情感变化率ke,相邻视频片段的时间间隔为Ts,计算两个相邻视频片段的情感强度变化率
Figure FDA00028880408900000215
计算公式如下:
Figure FDA0002888040890000031
其中,
Figure FDA0002888040890000032
为视频片段sk的整体情感强度,
Figure FDA0002888040890000033
为视频片段sk-1的整体情感强度,k=1时,
Figure FDA0002888040890000034
计算弹幕视频分段集合V的相邻片段平均情感强度变化率
Figure FDA0002888040890000035
计算公式如下:
Figure FDA0002888040890000036
6.根据权利要求1所述的基于弹幕情感的视频热点片段检测方法,其特征在于,步骤S4的具体过程包括:
步骤S41、采用LDA主题模型,对切分后的视频片段进行主题提取,生成视频片段对应的文档-主题、主题关键词概率分布;
步骤S42、根据步骤S41生成的视频片段对应的文档-主题、主题关键词概率分布,提取视频片段每个主题的前m个主题关键词及权重,生成视频片段的主题关键词集合和主题关键词权重集合,其中,主题关键词集合表示为:
Figure FDA0002888040890000037
表示主题tK中第m个关键词;
主题关键词权重集合表示为:
Figure FDA0002888040890000038
其中,
Figure FDA0002888040890000039
表示主题tK中第m个关键词的权重;
步骤S43、利用Jaccard相似度计算视频片段主题关键词相似度,利用余弦相似度计算视频片段主题关键词权重的相似度;
步骤S44、结合步骤S43中计算的视频片段主题关键词相似度和视频片段主题关键词权重的相似度计算相邻视频片段之间的主题相似度。
7.根据权利要求6所述的基于弹幕情感的视频热点片段检测方法,其特征在于,相邻视频片段主题相似度的计算公式如下:
Figure FDA00028880408900000310
其中,su和sv为相邻视频片段,
Figure FDA00028880408900000311
分别表示视频片段su和sv的主题关键词特征集合,
Figure FDA00028880408900000312
分别表示视频片段su和sv主题关键词权重的集合,
Figure FDA00028880408900000313
表示视频片段su和sv的主题关键词相似度,取值范围为(0,1],
Figure FDA0002888040890000041
表示视频片段su和sv的相同主题关键词权重向量的余弦相似度。
8.根据权利要求1所述的基于弹幕情感的视频热点片段检测方法,其特征在于,构造热点片段检测模型的步骤包括:
步骤S51、按照弹幕视频分段集合V中各视频片段的时间,对各视频片段逐个进行热点片段特征计算,热点片段特征计算包括:计算各视频片段的整体情感强度
Figure FDA0002888040890000042
计算弹幕视频分段集合V的情感倾向向量Vf和片段平均情感强度Avg(Ev),计算两个相邻视频片段的情感强度变化率
Figure FDA0002888040890000043
步骤S52、根据步骤S51的计算结果对弹幕视频分段集合V中的视频片段搜索热点视频片段的起始点,若其中一个视频片段sk与其相邻的视频片段sk-1的情感强度变化率
Figure FDA0002888040890000044
大于相邻片段平均情感强度变化率
Figure FDA0002888040890000045
且该视频片段的整体情感强度
Figure FDA0002888040890000046
大于片段平均情感强度Avg(Ev),则认为该视频片段sk为热点视频片段的起始片段,并更新起始热点视频片段集合D,并合并相邻的视频片段sk和sk-1
步骤S53、根据视频片段主题关键词和主题关键词权重,计算相邻视频片段的主题相似度,判断视频片段的整体情感强度是否大于片段平均情感强度Avg(Ev)且相邻视频片段主题相似度是否大于δ,相邻视频片段主题相似度的取值范围为(0,1],δ表示根据实际视频片段检测需求的取值,初始值取0.5;
步骤S54、若步骤S53中的判断结果为是,则认为该视频片段为热点视频片段,更新热点视频片段窗口W;
步骤S55、按照起始热点视频片段集合D中视频片段的时间顺序,重复步骤S53-S54,依次进行所有视频片段的热点片段检测,直至遍历完起始热点视频片段集合D中所有的起始热点视频片段。
9.基于弹幕情感的视频热点片段检测装置,其特征在于,包括预处理模块、情感计算模块、主题相似度计算模块、边界判定模块、检测模块,其中,
预处理模块用于对获取到的弹幕视频数据进行片段划分和数据清洗,得到视频片段,构造弹幕情感词典;
情感计算模块用于使用预处理模块构建的弹幕情感词典对视频片段进行整体情感强度计算并进行整体情感倾向的判定,对已经完成整体情感强度计算的视频片段进行相邻视频片段情感强度变化率的计算;
主题相似度计算模块用于对视频片段进行主题相似度计算,使用LDA主题模型对视频片段进行主题提取,并计算相邻视频片段的主题相似度;
边界判定模块用于对视频片段的整体情感强度、情感强度变化率及相邻视频片段的主题相似度设置阈值,对热点视频片段的起始时间进行标识,构造热点视频片段检测模型;
检测模块用于将获取的弹幕视频输入到构造的热点视频片段检测模型中,得到弹幕视频的热点视频片段。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时实现权利要求1-8任一项所述的方法。
CN202110019644.5A 2021-01-07 2021-01-07 基于弹幕情感的视频热点片段检测方法、装置及存储介质 Active CN112699831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110019644.5A CN112699831B (zh) 2021-01-07 2021-01-07 基于弹幕情感的视频热点片段检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110019644.5A CN112699831B (zh) 2021-01-07 2021-01-07 基于弹幕情感的视频热点片段检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112699831A CN112699831A (zh) 2021-04-23
CN112699831B true CN112699831B (zh) 2022-04-01

Family

ID=75515078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110019644.5A Active CN112699831B (zh) 2021-01-07 2021-01-07 基于弹幕情感的视频热点片段检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112699831B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115842946A (zh) * 2022-11-29 2023-03-24 上海哔哩哔哩科技有限公司 基于弹幕的进度条设置方法及装置
CN117235244B (zh) * 2023-11-16 2024-02-20 江西师范大学 一种基于弹幕情感词分类的在线课程学习情感体验评测系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法
CN108694236A (zh) * 2018-05-11 2018-10-23 优视科技有限公司 视频数据处理方法、装置及电子设备
CN111860237A (zh) * 2020-07-07 2020-10-30 中国科学技术大学 一种视频情感片段的识别方法及装置
CN112001184A (zh) * 2020-08-14 2020-11-27 西华大学 面向视频弹幕的用户情感差异区域检测方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法
CN108694236A (zh) * 2018-05-11 2018-10-23 优视科技有限公司 视频数据处理方法、装置及电子设备
CN111860237A (zh) * 2020-07-07 2020-10-30 中国科学技术大学 一种视频情感片段的识别方法及装置
CN112001184A (zh) * 2020-08-14 2020-11-27 西华大学 面向视频弹幕的用户情感差异区域检测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Character-Oriented Video Summarization With Visual and Textual Cues;Peilun Zhou etc.;《 IEEE Transactions on Multimedia》;20191218;全文 *
融合协同过滤和主题模型的弹幕视频推荐算法;高茂庭 等;《计算机应用研究》;20200312;全文 *
面向弹幕文本的情感分析研究;段炼;《中国优秀硕士论文全文数据库信息科技辑》;20200115;全文 *

Also Published As

Publication number Publication date
CN112699831A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN106328147B (zh) 语音识别方法和装置
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN106156204B (zh) 文本标签的提取方法和装置
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
CN104281645B (zh) 一种基于词汇语义和句法依存的情感关键句识别方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN111221962B (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN105551485B (zh) 语音文件检索方法及系统
CN110909116B (zh) 一种面向社交媒体的实体集合扩展方法及系统
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN111368088A (zh) 一种基于深度学习的文本情感分类方法
CN112699831B (zh) 基于弹幕情感的视频热点片段检测方法、装置及存储介质
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN103885924A (zh) 一种领域自适应的公开课字幕自动生成系统及方法
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别系统
CN114091469B (zh) 基于样本扩充的网络舆情分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant