CN110427897A - 视频精彩度的分析方法、装置和服务器 - Google Patents

视频精彩度的分析方法、装置和服务器 Download PDF

Info

Publication number
CN110427897A
CN110427897A CN201910725580.3A CN201910725580A CN110427897A CN 110427897 A CN110427897 A CN 110427897A CN 201910725580 A CN201910725580 A CN 201910725580A CN 110427897 A CN110427897 A CN 110427897A
Authority
CN
China
Prior art keywords
barrage
video
barrage information
information
text feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910725580.3A
Other languages
English (en)
Other versions
CN110427897B (zh
Inventor
单斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910725580.3A priority Critical patent/CN110427897B/zh
Publication of CN110427897A publication Critical patent/CN110427897A/zh
Application granted granted Critical
Publication of CN110427897B publication Critical patent/CN110427897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种视频精彩度的分析方法、装置和服务器,该方法包括:确定视频中待分析的视频区间;获取与视频区间关联的弹幕集合,该弹幕集合包括至少一条弹幕信息;确定弹幕集合中每条弹幕信息具有的文本特征;基于弹幕信息的文本特征,对该至少一条弹幕信息进行聚类,得到至少一个聚类组,并依据该至少一个聚类组各自包含的弹幕信息的数量,确定该弹幕集合中的弹幕信息在该文本特征上的分布特征;在该弹幕集合中的弹幕信息在该文本特征上的分布特征,确定该视频区间的精彩度。本申请的方案能够基于视频相关的弹幕信息确定该视频中各个视频区间的精彩度。

Description

视频精彩度的分析方法、装置和服务器
技术领域
本申请涉及视频分析技术领域,尤其涉及一种视频精彩度的分析方法、装置和服务器。
背景技术
在视频处理过程中,经常需要从视频中提取出精彩视频片段。如,在视频网站中为了吸引用户关注视频,需要提取出视频中精彩片段,并将精彩片段作为视频预览片段。又如,在某些节目回放场景中,可能需要回放节目视频中的一些精彩片段等等。
目前,一般是通过对视频中各帧图像进行分析,来确定出视频中的精彩片段。但是,基于视频中各帧图像来确定视频精彩片段主要是考虑到各帧图像的画面内容,而视频内容是否精彩不仅与视频中各帧图像的画面内容有关,还与用户对视频图像的感受以及理解等因素有关。而视频中的弹幕文本就包含了用户对于视频的感受以及理解等相关信息,因此,如何基于弹幕文本确定视频片断的精彩度是本领域技术人员需要解决的一个技术问题。
发明内容
有鉴于此,本申请提供了一种视频精彩度的分析方法、装置和服务器,能够基于视频相关的弹幕信息确定该视频中各个视频区间的精彩度,从而为基于弹幕信息确定精彩视频片段提供了可能。
为实现上述目的,一方面,本申请提供了一种视频精彩度的分析方法,包括:
确定视频中待分析的视频区间;
获取与所述视频区间关联的弹幕集合,所述弹幕集合包括至少一条弹幕信息;
分别确定所述弹幕集合中每条所述弹幕信息的文本特征;
依据所述弹幕信息的文本特征,对所述弹幕集合中的弹幕信息聚类,得到至少一个聚类组;
依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征;
依据所述分布特征,确定所述视频区间的精彩度评分。
优选的,所述依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征,包括:
依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分;
所述依据所述分布特征,确定所述视频区间的精彩度评分,包括:
依据所述集中度评分,确定所述视频区间的精彩度评分。
优选的,所述依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分,包括:
依据每个所述聚类组包含的弹幕信息的数量,确定所述至少一个聚类组对应的方差以及信息熵;
依据所述方差和信息熵,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分。
优选的,所述分别确定所述弹幕集合中每条所述弹幕信息的文本特征,包括:
分别确定所述弹幕集合中每条所述弹幕信息的多种文本特征;
所述依据所述弹幕信息的文本特征,对所述弹幕集合中的弹幕信息聚类,得到至少一个聚类组,包括:
分别依据所述弹幕信息的每种文本特征,对所述弹幕集合中的弹幕信息聚类,得到所述多种文本特征各自对应的至少一个聚类组;
所述依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征,包括:
对于每种文本特征,依据所述文本特征对应的每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征;
所述依据所述分布特征,确定所述视频区间的精彩度评分,包括:
依据所述弹幕集合中的弹幕信息分别在所述多种文本特征上的分布特征,确定所述视频区间的精彩度评分。
优选的,所述依据所述弹幕集合中的弹幕信息分别在所述多种文本特征上的分布特征,确定所述视频区间的精彩度评分,包括:
分别确定每种所述文本特征对应的权重系数;
依据每种所述文本特征的权重系数以及所述弹幕集合中的弹幕信息分别在多种文本特征上的分布特征,确定所述视频区间的精彩度评分。
优选的,在所述依据所述分布特征,确定所述视频片段的精彩度评分之后,还包括:
从所述视频中提取精彩度评分超过设定阈值的视频区间;
将所述视频中提取出的视频区间拼接为作为精彩视频的视频片段。
又一方面,本申请还提供了一种视频精彩度的分析装置,包括:
区间确定单元,用于确定视频中待分析的视频区间;
弹幕获取单元,用于获取与所述视频区间关联的弹幕集合,所述弹幕集合包括至少一条弹幕信息;
文本特征确定单元,用于分别确定所述弹幕集合中每条所述弹幕信息的文本特征;
弹幕聚类单元,用于依据所述弹幕信息的文本特征,对所述弹幕集合中的弹幕信息聚类,得到至少一个聚类组;
分布特征确定单元,用于依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征;
精彩度确定单元,用于依据所述分布特征,确定所述视频片段的精彩度评分。
优选的,所述分布特征确定单元,包括:
集中度评分单元,用于依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分;
所述精彩度确定单元,具体用于,依据所述集中度评分,确定所述视频区间的精彩度评分。
优选的,所述集中度评分单元,包括:
参数计算子单元,用于依据每个所述聚类组包含的弹幕信息的数量,确定所述至少一个聚类组对应的方差以及信息熵;
集中度评分子单元,用于依据所述方差和信息熵,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分。
又一方面,本申请还提供了一种服务器,包括:
存储器和处理器;
所述存储器用于存储程序;
所述处理器用于运行所述程序,以执行以上任一项所述的视频精彩度的分析方法。
可见,在本申请实施例中,对于视频中待分析的视频区间,会分别确定该视频关联的各条弹幕信息的文本特征,并依据弹幕信息的文本特征对弹幕集合中的弹幕信息聚类,得到至少一个聚类组。在此基础上,依据各个聚类组中包含的弹幕信息的数量,便可以得到该弹幕集合中的弹幕信息在该文本特征上的分布特征,而该种分布特征实际反映的是用户对于视频区间的视频内容所表达出的情绪或者态度的分布情况,这样,基于该分布特征可以反映出用户在多种不同角度上对于该视频区间的感兴趣程度,从而可以反映出该视频区间的视频内容的精彩程度,因此,基于弹幕集合中的弹幕信息在文本特征上的分布特征就可以确定出视频区间的精彩程度,也就实现了基于视频相关的弹幕信息确定该视频中各个视频区间的精彩度,进而有利于准确分析该视频区间是否属于精彩的视频区间,有利于更为细粒度、准确的识别出视频中的精彩片段。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请一种视频处理方法的一种流程示意图;
图2为本申请一种视频处理方法的又一种流程示意图;
图3为本申请一种视频处理装置的一种组成结构示意图;
图4为本申请一种服务器的一种组成结构示意图。
具体实施方式
本申请的方案确定视频中各个视频区间的精彩程度,且不同于目前依据视频中的画面内容来分析视频精彩度的方式,本申请可以结合视频中的弹幕来分析视频区间的精彩度。
本申请的方案适用于任意具有数据处理能力的计算机设备,如笔记本电脑、台式电脑以及服务器等等。
下面结合附图对本申请实施例的方案进行介绍。
如图1,其示出了本申请一种视频精彩度的分析方法的一种流程示意图,本实施例的方法可以包括:
S101,确定视频中待分析的视频区间。
其中,待分析的视频区间可以为视频中一段时长内的视频。在实际应用中,可以根据需要设定待分析的视频区间所对应的时长。
如,可以设定视频分析所采用的时间窗口,该时间窗口的长度可以为15秒(具体时长可以根据需要设定),在此基础上,可以通过该时间窗口将视频划分为多个视频区间。
可以理解的是,在实际应用中,同一时刻可以仅仅分析一个视频区间;也可以并行的分析多个视频区间,但是分析每个视频区间的过程相同,都可以采用本申请的方案。
S102,获取与该视频区间关联的弹幕集合。
该弹幕集合包括至少一条弹幕信息,每条弹幕信息都是一条文本,因此,弹幕信息也称为弹幕文本。其中,弹幕信息是用户观看视频过程中输入的一些评论信息,如,弹幕信息可以是词组、句子或者段落对应的文本。
其中,弹幕集合可以为在该视频区间对应的播放时长内显示出的各条弹幕信息的集合。如,视频区间为视频中第1分20秒到第1分35秒的视频,则该视频区间关联的弹幕集合可以为收集到的多个网站中在该视频的第1分20秒到第1分35秒之间输出的弹幕信息。
可以理解的是,在用户通过网站服务器浏览视频的过程中,用户可以向网站服务器发送文字,并由网站服务器作为弹幕显示在视频图像的上层,因此,每条弹幕对应的输出时间对应了该视频当前播放到的时刻点,从而可以建立视频中输出的各条弹幕与该视频中播放的时刻点之间的对应关系。相应的,通过收集不同网站服务器历史播放该视频以及输出的弹幕的数据,便可以得到该视频中输出的大量弹幕与该视频中播放时刻点之间的对应关系。在此基础上,根据视频中在播放到不同时长时所输出的不同弹幕的数据,可以提取出处于视频中不同播放时长内的视频区间所关联的弹幕信息。
其中,视频区间关联的弹幕集合可以是预先分析并存储的;也可以在需要获取该视频区间关联的弹幕集合时,再从视频所对应的所有弹幕中分析并提取出相应的弹幕集合。
S103,分别确定该弹幕集合中每条该弹幕信息具有的文本特征。
其中,该文本特征为弹幕信息对应的文本所具有的特征,该文本特征可以根据需要设定。如,文本特征可以为弹幕信息的语义特征、情绪特征或者行为特征等等。
可以理解的是,在实际应用中,需要确定的文本特征可以为一种,如为语义特征、情绪特征以及行为特征中的一种。
其中,弹幕信息的语义特征为弹幕信息的文本所表达出的语义的特征。确定弹幕信息的语义特征的方式可以采用任意确定文本语义特征的方式,具体可以根据需要选取。
该情绪特征可以为表征该弹幕信息所表达的情绪所属的情绪类别。情绪特征可以根据需要设定分类,如,情绪特征可以划分为:开心、生气、懊恼、气愤、伤心等等情绪的特征。需要说明的是,情绪特征可以表征弹幕信息的文本所表达的情绪属于设定的多种情绪中的某一种情绪,也可能是表征弹幕信息分别属于不同种情绪的可能性。
其中,确定弹幕信息的情绪特征的方式可以有多种。可选的,可以预置情绪分类模型,并利用该情绪分类模型分别确定每条弹幕信息的情绪特征。其中,该情绪分类模型为利用标注有情绪类别的多个文本样本(如弹幕文本样本)训练得到。
其中,该行为特征为弹幕信息中用于描述动作行为的目标词所表达的特征。如,该目标词可以为弹幕信息中的动词。为了确定弹幕信息的行为特征可以对弹幕信息进行分词,然后分析各个分词的词性,该词性可以表征该分词属于动词、名词还是形容词等等;最后,可以提取弹幕信息中词性为动词的各个词,并依据各个动词所表征的行为特征,确定弹幕信息的行为特征。
可以理解的是,在计算机设备中一般都通过向量来表征各种特征,因此,如上提到的语义特征、情绪特征以及行为特征都可以为特征向量。相应的,可以分别确定每条弹幕信息具有的至少一种文本特征各自的特征向量。
可选的,为了能够更为全面的分析弹幕信息,并有利于更为准确的分析视频精彩度,本申请针对每条弹幕信息可以分别确定弹幕信息的至少两种文本特征。如,确定弹幕信息具有的语义特征、情绪特征以及行为特征等文本特征中的多种。
S104,依据弹幕信息的文本特征,对该弹幕集合中的弹幕信息聚类,得到至少一个聚类组。
其中,每个聚类组包括至少一条弹幕信息。
可以理解的是,在步骤S103中每条弹幕信息确定出多种文本特征的情况下,本申请会针对每种文本特征,依据该弹幕信息的该种文本特征对弹幕集合中的弹幕信息聚类,这样,针对每种文本特征的聚类结果均包括基于该文本特征聚类出的至少一个聚类组。可以理解的是,在文本特征采用特征向量表示的情况下,可以是基于弹幕信息具有的文本特征的特征向量,对弹幕集合中的弹幕信息进行聚类。
S105,依据每个聚类组中包含的弹幕信息的数量,确定该弹幕集合中的弹幕文本在该文本特征上的分布特征。
可以理解的是,基于文本特征对弹幕集合聚类出的该至少一个聚类组可以反映出弹幕信息在该文本特征上的分布情况,如,集中程度以及弹幕信息在各个聚类组的分布状况的特征等。
相应的,该分布特征用于表征视频区间关联的弹幕信息在该文本特征对应的各个聚类组中的分布状况以及弹幕信息的集中程度。其中,确定该分布特征的具体实现方式可以有多种可能。如,作为一种可选方式,可以通过弹幕集合中的弹幕信息在文本特征上的集中度来表征弹幕集合中的弹幕信息在该文本特征上的分布特征。具体的,可以依据每个弹幕组中包含的弹幕信息的数量,确定该弹幕集合中的弹幕信息在该文本特征上的集中度评分。如,集中度评分可以反映该视频区间上的弹幕信息在语义上的主题集中度、情绪强烈程度或者动作行为的激烈程度。
可以理解的是,对于一个视频区间而言,如果针对该文本特征对弹幕信息进行聚类之后,大量的弹幕信息都属于某一个聚类组,则说明在该视频区间内存在大量弹幕信息指向该文本特征下的同一内容,使得该视频区间关联弹幕信息在该文本特征上的呈现集中分布。在该种情况下,也可以说明用户对于该视频区间的内容关注度较为集中体现在同一内容中,且针对该内容的关注度较高,从而可以作为判定该视频区间的精彩度较高的依据。
例如,以文本特征为语义特征为例说明,如果弹幕的主题集中度较高,则弹幕弹出的视频区间的重要程度也相对较高,弹幕的主题集中度可以认为是用户对视频某一内容主题存在强烈的讨论。如,如果在一个视频区间中,大量的弹幕的语义都指向同一个话题,即语义集中到同一个话题上,使得集中的语义相比其他语义的数量有明显变化,则说明该视频区间存在语义集中的情况,在该种情况下,用户对于该视频区间的关注都指向同一话题,从而可以表征大部分用户对该视频区间的感兴趣程度较高。
其中,在弹幕集合聚类出的至少一个聚类组已知的情况下,根据各个弹幕组中包含的弹幕信息的数量,确定弹幕集合中各条弹幕信息的集中度的方式也可以有可能的实现方式。如,在一种可能的情况中,可以通过方差以及信息熵来评价该弹幕集合中的弹幕信息的集中度。如,依据每个聚类组中包含的弹幕信息的数量,确定该至少一个聚类组对应的方差和信息熵;然后,依据该方差和信息熵,确定该弹幕集合中的弹幕信息在该文本特征上的集中度评分。其中,针对每种文本特征,该集中度评分与方差的值成正相关,且与该信息熵的值成负相关。
可以理解的是,对于一种文本特征,该文本特征对应的至少一个聚类组的方差可以表征数据的分散程度,则方差越大,则说明弹幕信息分散到多个聚类组中;同时,信息熵越少,则说明弹幕信息的文本信息指向同一种信息,即出现了弹幕信息在该文本特征的某一内容上的集中。
其中,依据计算出的方差和信息熵计算该集中度评分的方式可以根据需要设定。如,集中度评分可以为信息熵和方差的和,或者是,在分别设定信息熵和方差各自的权重的情况下,集中度评分可以为信息熵和方差的加权和。
其中,信息熵以及方差的计算可以采用任意计算这两种参数的公式或者算法,本申请对于不加限制。
S106,依据该分布特征,确定该视频区间的精彩度评分。
如,可以设定不同分布特征与精彩度评分的映射规则,从而得到该分布特征对应的精彩度评分。需要说明的是,本申请是提供了一种新的确定视频区间的精彩度评分的方式,即基于弹幕信息的分布特征确定视频区间的精彩度评分,但是对于具体分布特征与精彩度评分之间的映射规则如何设定,可以根据需要设定,本申请对此不加限制。
可选的,在采用集中度评分来表示弹幕信息在文本特征上的分布特征的情况下,可以依据该弹幕集合中弹幕信息在文本特征上的集中度评分,确定该视频区间的精彩度评分。
如,弹幕信息在文本特征上的集中度评分越高,该视频区间对于用户的感兴趣程度越高,用户对于该视频的精彩程度认可也越高,因此,该视频区间的精彩度评分也会越高。
特别的,在文本特征有多种的情况下,可以分别针对每种文本特征,分别对弹幕集合中的弹幕文本进行聚类,并得到弹幕集合中弹幕文本分别在每种文本特征上的分布特征。在该种情况下,可以结合各种文本特征对应的分布特征,确定该视频区间的精彩度评分。
如,分别确定每种文本特征的权重系数,其中,权重系数可以表征该种文本特征在分析视频区间的精彩度的重要程度。相应的,可以依据每种文本特征的权重系数以及该弹幕集合中的弹幕信息分别在多种文本特征上的分布特征,确定该视频区间的精彩度评分。
其中,可以根据需要设定不同文本特征对应的权重系数,如,可以依据用户表达对于视频感兴趣程度的特征明显度,来设置权重系数,例如,语义特征是用户最直观表达对于视频感兴趣程度的特征,可以将语义特征对应的权重系数设置的相对较高;类似的,可以将行为特征的权重系数设置的最低等。
例如,分布特征采用向量形式表示的情况下,可以依据每种文本特征的加权系数,对各种分布特征对应的向量进行加权求和,并依据加权求和的结果确定视频区间的精彩度评分。
特别的,在通过集中度评分表征分布特征的情况下,在获取到多种文本特征各自对应的集中度评分之后,可以依据每种文本特征的权重系数,对各个文本特征对应的集中度评分进行加权求和,得到加权求和后的集中度评分,然后,依据加权求和后的集中度评分确定该视频区间的视频精彩度评分。如,将加权求和后所得到的集中度评分确定为该视频区间的精彩度评分。
可以理解的是,视频中的弹幕为用户维度的评论信息,其具有时效性;且能够在更细粒度上反映用户对于剧情的概括和评论,更好反映用户对视频的态度。相应的,弹幕评论的主题集中度、情绪强度以及动作行为激烈度,均可以反映出视频区间的重要性,因此,结合弹幕文本来分析视频区间的精彩度不仅仅是从视频本身的图像视觉角度分析视频精彩程度,还考虑到用户对于视频的观看感受,有利于从用户角度分析视频区间的精彩程度,从而有利于基于各个视频区间的精彩程度,确定出视频中用户感兴趣度较高的精彩片段。
可以理解的是,在分析出视频中各个视频区间的精彩度评分之后,为了最终能够得到视频的精彩片段,本申请还可以从该视频中提取出精彩度评分超过设定阈值的视频区间,然后将该视频中提取出的视频区间拼接为作为精彩视频的视频片段。也就是说,将精彩度评分相对较高的多个视频区间拼接为视频的精彩片段。
其中,拼接出的精彩片段可以用于作为该视频的预览视频或者作为吸引用户或者宣传视频的片段等。
由以上可知,在本申请实施例中,对于视频中待分析的视频区间,会分别确定该视频关联的各条弹幕信息的文本特征,并依据弹幕信息的文本特征对弹幕集合中的弹幕信息聚类,得到至少一个聚类组。在此基础上,依据各个聚类组中包含的弹幕信息的数量,便可以得到该弹幕集合中的弹幕信息在该文本特征上的分布特征,而该种分布特征实际反映的是用户对于视频区间的视频内容所表达出的情绪或者态度的分布情况,因此,基于该分布特征可以反映出用户在多种不同角度上对于该视频区间的感兴趣程度,从而可以反映出该视频区间的视频内容的精彩程度,也就实现了基于视频相关的弹幕信息确定该视频中各个视频区间的精彩度,进而有利于准确分析该视频区间是否属于精彩的视频区间,有利于更为细粒度、准确的识别出视频中的精彩片段。
为了便于理解本申请的方案,下面以确定出的弹幕信息的文本特征为多种文本特征的情况为例说明,为了便于描述,以多种文本特征包括:语义特征、情绪特征以及行为特征这三种文本特征为例说明。
如,参见图2,其示出了本申请一种视频处理方法又一个实施例的流程示意图,本实施例的方法可以包括:
S201,确定视频中待分析的视频区间。
S202,获取该视频区间关联的弹幕集合。
该弹幕集合包括至少一条弹幕信息。
以上步骤S201和S202可以参见前面实施例的相关介绍,在此不再赘述。
S203,分别确定弹幕集合中每条弹幕信息具有的语义特征。
其中,语义特征可以通过语义向量的形式表现。
其中,确定弹幕信息的语义特征的方式可以有多种,本实施例对此不加限制。
S204,依据弹幕信息具有的语义特征,对弹幕集合中的弹幕信息进行聚类,得到基于语义特征聚类出的至少一个第一聚类组。
其中,为了便于区分,将基于语义特征聚类出的每个聚类组称为第一聚类组。每个第一聚类组中包括语义特征相似的至少一条弹幕信息。
S205,依据至少一个第一聚类组中各自包含的弹幕信息的数量,确定该至少一个第一聚类组对应的方差以及信息熵。
其中,在每个第一聚类组中包含的弹幕信息的数量确定的情况下,可以计算出该至少一个第一聚类组整体的方差以及信息熵,该方差可以反映出视频区间中的弹幕信息在语义上的分布状况,而信息熵可以反映出该视频区间中弹幕信息所表达的语义的信息量的分布状况,因此,基于该方差和信息熵有利于后续分析该视频区间的弹幕信息在语义上的集中情况。
S206,依据该至少一个第一聚类组对应的方差和信息熵,确定该弹幕集合中的弹幕信息在语义特征上的集中度评分。
如,该语义特征对应的集中度评分与该语义特征对应方差的值成正相关,且与该语义特征对应的信息熵的值成负相关。
该集中度评分的具体实现方式可以参见前面的相关介绍,在此不再赘述。
可以理解的是,语义特征上的集中度评分越高,该视频区间中的弹幕信息的语义集中度越高。
S207,利用预置的情绪分类模型,分别确定弹幕集合中每条弹幕信息的情绪特征。
如,通过情绪向量表征弹幕信息的情绪特征。
该情绪分类模型为利用标注有情绪类别的多个文本样本训练得到。如,该情绪分类模型可以为利用标注有情绪列表的多个文本样本训练出的分类器。其中,该文本样本可以为情绪类别已知的弹幕信息的文本或者其他类型的文本。
S208,依据弹幕信息具有的情绪特征,对弹幕集合中的弹幕信息进行聚类,得到基于情绪特征聚类出的多个第二聚类组。
与前面相似,将基于情绪特征聚类出的各个聚类组均称为第二聚类组。
S209,依据至少一个第二聚类组中各自包含的弹幕信息的数量,确定该至少一个第二聚类组对应的方差以及信息熵。
S210,依据该至少一个第二聚类组对应的方差和信息熵,确定该弹幕集合中的弹幕信息在情绪特征上的集中度评分。
其中,该情绪特征对应的集中度评分与该情绪特征对应方差的值成正相关,且与该情绪特征对应的信息熵的值成负相关。
该步骤S209和S210与前面步骤S205和S206相似,在此不再赘述。
S211,针对每条弹幕信息,提取该弹幕信息中用于描述动作行为的至少一个目标词,并确定该至少一个目标词所对应的词向量,基于该至少一个目标词所对应的词向量构建出该弹幕信息的行为特征。
其中,该行为特征为基于至少一个目标词的词向量构建出的行为特征向量,该行为特征向量表征了该弹幕信息的行为特征。
其中,该目标词可以为弹幕信息中词性为动词的词。
确定目标词对应的词向量可以通过训练词向量模型过程中,得到的词与词向量的映射关系,并基于该映射关系,将目标词映射为词向量。
其中,该行为特征向量为该至少一个目标词的词向量构成的矩阵。
S212,依据弹幕信息具有的行为特征,对弹幕集合中的弹幕信息进行聚类,得到基于行为特征聚类出的至少一个第三聚类组。
为了便于区分,将基于行为特征聚类出的各个聚类组称为第三聚类组。
S213,依据至少一个第三聚类组中各自包含的弹幕信息的数量,确定该至少一个第三聚类组对应的方差以及信息熵。
S214,依据该至少一个第三聚类组对应的方差和信息熵,确定该弹幕集合中的弹幕信息在行为特征上的集中度评分。
其中,该情绪特征对应的集中度评分与该情绪特征对应方差的值成正相关,且与该情绪特征对应的信息熵的值成负相关。
S215,确定语义特征对应的第一权重系数、情绪特征对应的第二权重系数以及行为特征对应的第三权重系数。
S216,依据语义特征对应的第一权重系数、情绪特征对应的第二权重系数以及行为特征对应的第三权重系数,对弹幕信息分别在语义特征、情绪特征以及行为特征上的集中度评分进行加权和,将加权求和所得到的值确定为该视频区间的精彩度评分。
如,该视频区间的精彩度评分的过程为:计算第一权重系数与语义特征对应的集中度评分的第一乘积,第二权重系数与情绪特征对应的集中度的第二乘积,以及第三权重系数与情绪特征对应的集中度的第三乘积,然后,将第一乘积、第二乘积和第三乘积相加,则相加所得到的和为视频区间的精彩度评分。
S217,在该视频区间的精彩度评分超过设定阈值的情况下,从视频中提取出该视频区间。
S218,将从视频中提取出的视频区间拼接为作为精彩视频的视频片段。
对应本申请的一种视频精彩度的分析方法,本申请还提供了一种视频精彩度的分析装置。
如图3,其示出了本申请一种视频精彩度的分析装置的一种组成结构示意图,本实施例的装置可以:
区间确定单元301,用于确定视频中待分析的视频区间;
弹幕获取单元302,用于获取与所述视频区间关联的弹幕集合,所述弹幕集合包括至少一条弹幕信息;
文本特征确定单元303,用于分别确定所述弹幕集合中每条所述弹幕信息的文本特征;
弹幕聚类单元304,用于依据所述弹幕信息的文本特征,对所述弹幕集合中的弹幕信息聚类,得到至少一个聚类组;
分布特征确定单元305,用于依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征;
精彩度确定单元306,用于依据所述分布特征,确定所述视频片段的精彩度评分。
在一种可能的实现方式中,所述分布特征确定单元,包括:
集中度评分单元,用于依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分;
所述精彩度确定单元,具体用于,依据所述集中度评分,确定所述视频区间的精彩度评分。
可选的,所述集中度评分单元,包括:
参数计算子单元,用于依据每个所述聚类组包含的弹幕信息的数量,确定所述至少一个聚类组对应的方差以及信息熵;
集中度评分子单元,用于依据所述方差和信息熵,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分。
在一种可能的实现方式中,所述文本特征确定单元,具体用于,分别确定所述弹幕集合中每条所述弹幕信息的多种文本特征;
所述弹幕聚类单元,具体用于,分别依据所述弹幕信息的每种文本特征,对所述弹幕集合中的弹幕信息聚类,得到所述多种文本特征各自对应的至少一个聚类组;
所述分布特征确定单元,具体用于,对于每种文本特征,依据所述文本特征对应的每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征;
所述精彩度确定单元,具体用于依据所述弹幕集合中的弹幕信息分别在所述多种文本特征上的分布特征,确定所述视频区间的精彩度评分。
可选的,所述精彩度确定单元,包括:
权重确定子单元,用于分别确定每种所述文本特征对应的权重系数;
精彩度确定子单元,用于依据每种所述文本特征的权重系数以及所述弹幕集合中的弹幕信息分别在多种文本特征上的分布特征,确定所述视频区间的精彩度评分。
在以上装置的实施例中,该装置还可以包括:
区间提取单元,用于在所述精彩度确定单元或者精彩度确定子单元确定所述视频区间的精彩度评分之后,从所述视频中提取精彩度评分超过设定阈值的视频区间;
精彩片段拼接单元,用于将所述视频中提取出的视频区间拼接为作为精彩视频的视频片段。
又一方面,本申请还提供了一种服务器,如图4所示,其示出了本申请中服务器的一种组成结构示意图。
由图4可以看出,该服务器至少包括:存储器401和处理器402,其中,存储器和处理器;
所述存储器401用于存储程序;
所述处理器402用于运行存储器存储的程序,以执行以上任意一个实施例所述的视频精彩度的分析方法。
当然,该服务器还可以包括:通信接口、显示单元和输入单元等部件,对此本申请不加限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种视频精彩度的分析方法,其特征在于,包括:
确定视频中待分析的视频区间;
获取与所述视频区间关联的弹幕集合,所述弹幕集合包括至少一条弹幕信息;
分别确定所述弹幕集合中每条所述弹幕信息的文本特征;
依据所述弹幕信息的文本特征,对所述弹幕集合中的弹幕信息聚类,得到至少一个聚类组;
依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征;
依据所述分布特征,确定所述视频区间的精彩度评分。
2.根据权利要求1所述的方法,其特征在于,所述依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征,包括:
依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分;
所述依据所述分布特征,确定所述视频区间的精彩度评分,包括:
依据所述集中度评分,确定所述视频区间的精彩度评分。
3.根据权利要求2所述的方法,其特征在于,所述依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分,包括:
依据每个所述聚类组包含的弹幕信息的数量,确定所述至少一个聚类组对应的方差以及信息熵;
依据所述方差和信息熵,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分。
4.根据权利要求1所述的方法,其特征在于,所述分别确定所述弹幕集合中每条所述弹幕信息的文本特征,包括:
分别确定所述弹幕集合中每条所述弹幕信息的多种文本特征;
所述依据所述弹幕信息的文本特征,对所述弹幕集合中的弹幕信息聚类,得到至少一个聚类组,包括:
分别依据所述弹幕信息的每种文本特征,对所述弹幕集合中的弹幕信息聚类,得到所述多种文本特征各自对应的至少一个聚类组;
所述依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征,包括:
对于每种文本特征,依据所述文本特征对应的每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征;
所述依据所述分布特征,确定所述视频区间的精彩度评分,包括:
依据所述弹幕集合中的弹幕信息分别在所述多种文本特征上的分布特征,确定所述视频区间的精彩度评分。
5.根据权利要求4所述的方法,其特征在于,所述依据所述弹幕集合中的弹幕信息分别在所述多种文本特征上的分布特征,确定所述视频区间的精彩度评分,包括:
分别确定每种所述文本特征对应的权重系数;
依据每种所述文本特征的权重系数以及所述弹幕集合中的弹幕信息分别在多种文本特征上的分布特征,确定所述视频区间的精彩度评分。
6.根据权利要求1至5任一项所述的方法,其特征在于,在所述依据所述分布特征,确定所述视频片段的精彩度评分之后,还包括:
从所述视频中提取精彩度评分超过设定阈值的视频区间;
将所述视频中提取出的视频区间拼接为作为精彩视频的视频片段。
7.一种视频精彩度的分析装置,其特征在于,包括:
区间确定单元,用于确定视频中待分析的视频区间;
弹幕获取单元,用于获取与所述视频区间关联的弹幕集合,所述弹幕集合包括至少一条弹幕信息;
文本特征确定单元,用于分别确定所述弹幕集合中每条所述弹幕信息的文本特征;
弹幕聚类单元,用于依据所述弹幕信息的文本特征,对所述弹幕集合中的弹幕信息聚类,得到至少一个聚类组;
分布特征确定单元,用于依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的分布特征;
精彩度确定单元,用于依据所述分布特征,确定所述视频片段的精彩度评分。
8.根据权利要求7所述的装置,其特征在于,所述分布特征确定单元,包括:
集中度评分单元,用于依据每个所述聚类组中包含的弹幕信息的数量,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分;
所述精彩度确定单元,具体用于,依据所述集中度评分,确定所述视频区间的精彩度评分。
9.根据权利要求8所述的装置,其特征在于,所述集中度评分单元,包括:
参数计算子单元,用于依据每个所述聚类组包含的弹幕信息的数量,确定所述至少一个聚类组对应的方差以及信息熵;
集中度评分子单元,用于依据所述方差和信息熵,确定所述弹幕集合中的弹幕信息在所述文本特征上的集中度评分。
10.一种服务器,其特征在于,包括:
存储器和处理器;
所述存储器用于存储程序;
所述处理器用于运行所述程序,以执行权利要求1-6任一项所述的视频精彩度的分析方法。
CN201910725580.3A 2019-08-07 2019-08-07 视频精彩度的分析方法、装置和服务器 Active CN110427897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910725580.3A CN110427897B (zh) 2019-08-07 2019-08-07 视频精彩度的分析方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910725580.3A CN110427897B (zh) 2019-08-07 2019-08-07 视频精彩度的分析方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN110427897A true CN110427897A (zh) 2019-11-08
CN110427897B CN110427897B (zh) 2022-03-08

Family

ID=68414565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910725580.3A Active CN110427897B (zh) 2019-08-07 2019-08-07 视频精彩度的分析方法、装置和服务器

Country Status (1)

Country Link
CN (1) CN110427897B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111711839A (zh) * 2020-05-27 2020-09-25 杭州云端文化创意有限公司 一种基于用户互动数值的影片精选展示方法
CN111770357A (zh) * 2020-07-27 2020-10-13 深圳大学 一种基于弹幕的视频高光片段识别方法、终端及存储介质
CN112887761A (zh) * 2021-01-19 2021-06-01 深圳聚果科技有限公司 视频播放方法、装置、服务器及存储介质
CN112911326A (zh) * 2021-01-29 2021-06-04 平安科技(深圳)有限公司 弹幕信息处理方法、装置、电子设备和存储介质
CN112995719A (zh) * 2021-04-21 2021-06-18 平安科技(深圳)有限公司 基于弹幕文本的问题集获取方法、装置及计算机设备
CN113055741A (zh) * 2020-12-31 2021-06-29 科大讯飞股份有限公司 视频摘要的生成方法、电子设备及计算机可读存储介质
CN113254704A (zh) * 2021-06-25 2021-08-13 北京视连通科技有限公司 结合弹幕理解和视频内容理解的精彩片段提取方法及系统
CN115209210A (zh) * 2022-07-19 2022-10-18 抖音视界有限公司 基于弹幕生成信息的方法和装置
CN115767204A (zh) * 2022-11-10 2023-03-07 北京奇艺世纪科技有限公司 一种视频处理方法、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104469508A (zh) * 2013-09-13 2015-03-25 中国电信股份有限公司 基于弹幕信息内容进行视频定位的方法、服务器和系统
CN104994425A (zh) * 2015-06-30 2015-10-21 北京奇艺世纪科技有限公司 一种视频标识方法和装置
CN106921891A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种视频特征信息的展示方法和装置
CN107071587A (zh) * 2017-04-25 2017-08-18 腾讯科技(深圳)有限公司 视频片段的获取方法及装置
CN107197368A (zh) * 2017-05-05 2017-09-22 中广热点云科技有限公司 确定用户对多媒体播放内容关注程度的方法和系统
CN108307230A (zh) * 2018-02-07 2018-07-20 北京奇艺世纪科技有限公司 一种视频精彩片段的提取方法及装置
CN108537139A (zh) * 2018-03-20 2018-09-14 校宝在线(杭州)科技股份有限公司 一种基于弹幕信息的在线视频精彩片段分析方法
CN109286850A (zh) * 2017-07-21 2019-01-29 Tcl集团股份有限公司 一种基于弹幕的视频标注方法及终端
CN109729435A (zh) * 2017-10-27 2019-05-07 优酷网络技术(北京)有限公司 视频片段的提取方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104469508A (zh) * 2013-09-13 2015-03-25 中国电信股份有限公司 基于弹幕信息内容进行视频定位的方法、服务器和系统
CN104994425A (zh) * 2015-06-30 2015-10-21 北京奇艺世纪科技有限公司 一种视频标识方法和装置
CN106921891A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种视频特征信息的展示方法和装置
CN107071587A (zh) * 2017-04-25 2017-08-18 腾讯科技(深圳)有限公司 视频片段的获取方法及装置
CN107197368A (zh) * 2017-05-05 2017-09-22 中广热点云科技有限公司 确定用户对多媒体播放内容关注程度的方法和系统
CN109286850A (zh) * 2017-07-21 2019-01-29 Tcl集团股份有限公司 一种基于弹幕的视频标注方法及终端
CN109729435A (zh) * 2017-10-27 2019-05-07 优酷网络技术(北京)有限公司 视频片段的提取方法及装置
CN108307230A (zh) * 2018-02-07 2018-07-20 北京奇艺世纪科技有限公司 一种视频精彩片段的提取方法及装置
CN108537139A (zh) * 2018-03-20 2018-09-14 校宝在线(杭州)科技股份有限公司 一种基于弹幕信息的在线视频精彩片段分析方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111711839A (zh) * 2020-05-27 2020-09-25 杭州云端文化创意有限公司 一种基于用户互动数值的影片精选展示方法
CN111770357A (zh) * 2020-07-27 2020-10-13 深圳大学 一种基于弹幕的视频高光片段识别方法、终端及存储介质
CN111770357B (zh) * 2020-07-27 2021-06-01 深圳大学 一种基于弹幕的视频高光片段识别方法、终端及存储介质
WO2022021304A1 (zh) * 2020-07-27 2022-02-03 深圳大学 一种基于弹幕的视频高光片段识别方法、终端及存储介质
CN113055741A (zh) * 2020-12-31 2021-06-29 科大讯飞股份有限公司 视频摘要的生成方法、电子设备及计算机可读存储介质
CN112887761A (zh) * 2021-01-19 2021-06-01 深圳聚果科技有限公司 视频播放方法、装置、服务器及存储介质
CN112911326A (zh) * 2021-01-29 2021-06-04 平安科技(深圳)有限公司 弹幕信息处理方法、装置、电子设备和存储介质
CN112995719A (zh) * 2021-04-21 2021-06-18 平安科技(深圳)有限公司 基于弹幕文本的问题集获取方法、装置及计算机设备
CN112995719B (zh) * 2021-04-21 2021-07-27 平安科技(深圳)有限公司 基于弹幕文本的问题集获取方法、装置及计算机设备
CN113254704A (zh) * 2021-06-25 2021-08-13 北京视连通科技有限公司 结合弹幕理解和视频内容理解的精彩片段提取方法及系统
CN115209210A (zh) * 2022-07-19 2022-10-18 抖音视界有限公司 基于弹幕生成信息的方法和装置
CN115767204A (zh) * 2022-11-10 2023-03-07 北京奇艺世纪科技有限公司 一种视频处理方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN110427897B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN110427897A (zh) 视频精彩度的分析方法、装置和服务器
CN111143610B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN104486649B (zh) 视频内容评级方法及装置
CN106354818B (zh) 基于社交媒体的动态用户属性提取方法
Stein et al. Plagiarism analysis, authorship identification, and near-duplicate detection PAN'07
CN109933782B (zh) 用户情绪预测方法和装置
CN109308487A (zh) 一种基于弹幕数据分析的广告投放机制
CN102436483A (zh) 一种基于显式共享子空间的视频广告检测方法
CN112287175B (zh) 一种视频高亮片段预测方法和系统
CN109299277A (zh) 舆情分析方法、服务器及计算机可读存储介质
CN111460221A (zh) 评论信息处理方法、装置及电子设备
CN107180087B (zh) 一种搜索方法及装置
CN108985813A (zh) 广告编入装置和广告编入方法
KR20190063352A (ko) 클립 간 유사도 분석에 의한 영상 콘텐츠의 클립 연결 장치 및 방법
CN111931073B (zh) 内容推送方法、装置、电子设备及计算机可读介质
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN109493146A (zh) 广告投放方法及装置
EP3340073A1 (en) Systems and methods for processing of user content interaction
CN109062905B (zh) 一种弹幕文本价值评价方法、装置、设备及介质
KR102093790B1 (ko) 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말
Yao et al. Online deception detection refueled by real world data collection
Sihag et al. A data-driven approach for finding requirements relevant feedback from tiktok and youtube
Kutuzov et al. Cross-Lingual Trends Detection for Named Entities in News Texts with Dynamic Neural Embedding Models.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant