CN108108353A

CN108108353A - 一种基于弹幕的视频语义标注方法、装置及电子设备

Info

Publication number: CN108108353A
Application number: CN201711378169.0A
Authority: CN
Inventors: 王瑞东; 田野; 马建; 王文东; 阙喜戎; 龚向阳
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-06-01
Anticipated expiration: 2037-12-19
Also published as: CN108108353B

Abstract

本发明实施例提供了一种基于弹幕的视频语义标注方法，包括：获得目标视频弹幕中的所有词语及对应的时间戳；将目标视频平均划分为预设数量个时间片；根据预设的词语与主题及情节的概率对应关系，生成包含每个时间片对应的主题的初始主题集合及包含每个时间片对应的情节的初始情节集合；生成字典词汇集合及词汇分布矩阵；计算所述字典词汇集合的时间先验信息；使用预设的弹幕词汇的全概率公式，计算每个字典词汇对应各个主题和情节的概率；生成所述时间片的情节‑主题分布矩阵；将相邻的相似时间片合并为一个时间片；确定各个时间片对应的情节；对目标视频进行标注。应用本发明实施例提供的方案进行视频语义标注，使得对视频语义的标注更加准确。

Description

一种基于弹幕的视频语义标注方法、装置及电子设备

技术领域

本发明涉及视频标注技术领域，特别是涉及一种基于弹幕的视频语义标注方法、装置及电子设备。

背景技术

在线视频在互联网中占据十分庞大的流量，每天都有成百上千的视频上传至全球互联网视频平台，因此对在线视频的管理是十分重要的。而对视频的标注可以提高网络流量资源利用率和在线视频管理效率，是在线视频管理的关键环节。

近年来兴起的视频网站增加了“弹幕”功能，能够实现用户对当前观看的情节片段的实时评论。基于此，可以利用弹幕中丰富的评论数据，根据弹幕出现的密集程度对弹幕进行聚类，再根据每一类中时间最早和最晚的弹幕得到这一类弹幕的时间片范围，每个聚类结果对应一个情节，从而对视频进行标注。

但是，目前已有的利用弹幕对视频进行语义标注的方法，仅仅根据弹幕在时间上的分布来确定情节的时间边界，忽略了对弹幕交互特性的考虑，没有考虑到当前时间出现的弹幕所讨论的内容可能是与相邻时间对应的情节相关联的，而与当前时间对应的情节无关，因此导致对情节的划分不够准确，从而使得对视频语义的标注不够准确。

发明内容

本发明实施例的目的在于提供一种基于弹幕的视频语义标注方法，以实现对视频语义的准确标注。

为达到上述目的，本发明实施例公开了一种基于弹幕的视频语义标注方法，所述方法包括：

对目标视频的所有弹幕进行分词处理，获得弹幕中的所有词语；

对弹幕中的所有词语进行去停用词处理，得到不重复的字典词汇，生成字典词汇集合，及由每个字典词汇在每个时间片的数量构成的词汇分布矩阵；

根据各个弹幕在目标视频中的出现时间，获得每条词语对应的时间戳；

根据所述目标视频的播放时长，将所述目标视频平均划分为预设数量个时间片，并记录所述每个时间片的开始时间和结束时间；

针对每个时间片，将时间戳在该时间片的开始时间和结束时间内的所有词语组成一个文档，生成包含所有时间片对应的文档的文档集合；

针对每个时间片，随机初始化，获得初始主题集合和初始情节集合；

根据所述目标视频的总时长、词汇分布矩阵、每个时间片的结束时间和各个词语的时间戳，计算所述字典词汇集合中每个字典词汇相对于每个时间片的时间先验信息；

针对所述初始主题集合和初始情节集合中的各个主题和情节，使用预设的弹幕词汇的全概率公式及所述时间先验信息，计算所述每个字典词汇对应各个主题和情节的概率；生成所述各个字典词语与各个主题及情节的概率对应关系；

针对每个时间片，根据生成的各个字典词语与主题及情节的概率对应关系，确定该时间片对应的主题及情节，生成所述时间片的情节-主题-词语分布矩阵；

根据所述每个时间片的情节-主题-词语分布矩阵，计算相邻时间片的相似度；

根据所述相邻时间片的相似度，判断所述相邻时间片的情节-主题-词语分布是否相似；

若为是，则将所述相邻时间片合并为一个时间片；

根据所述各个时间片的情节-主题-词语分布，确定各个时间片对应的情节；

根据所述各个时间片对应的情节，对所述目标视频进行标注。

本发明实施例还提供了一种基于弹幕的视频语义标注装置，所述装置包括：

分词模块，用于对目标视频的所有弹幕进行分词处理，获得弹幕中的所有词语；

去停用词模块，用于对弹幕中的所有词语进行去停用词处理，得到不重复的字典词汇，生成字典词汇集合，及由每个字典词汇在每个时间片的数量构成的词汇分布矩阵；

时间戳获取模块，用于根据各个弹幕在目标视频中的出现时间，获得每条词语对应的时间戳；

时间片划分模块，用于根据所述目标视频的播放时长，将所述目标视频平均划分为预设数量个时间片，并记录所述每个时间片的开始时间和结束时间；

文档生成模块，用于针对每个时间片，将时间戳在该时间片的开始时间和结束时间内的所有词语组成一个文档，生成包含所有时间片对应的文档的文档集合；

随机初始模块，用于针对每个时间片，随机初始化，获得初始主题集合和初始情节集合；

时间先验信息计算模块，用于根据所述目标视频的总时长、词汇分布矩阵、每个时间片的结束时间和各个词语的时间戳，计算所述字典词汇集合中每个字典词汇相对于每个时间片的时间先验信息；

概率更新模块，用于针对所述初始主题集合和初始情节集合中的各个主题和情节，使用预设的弹幕词汇的全概率公式及所述时间先验信息，计算所述每个字典词汇对应各个主题和情节的概率；生成所述各个字典词语与各个主题及情节的概率对应关系；

情节-主题-词语分布生成模块，用于针对每个时间片，根据生成的各个字典词语与主题及情节的概率对应关系，确定该时间片对应的主题及情节，生成所述时间片的情节-主题-词语分布矩阵；

相似度计算模块，用于根据所述每个时间片的情节-主题-词语分布矩阵，计算相邻时间片的相似度；

时间片合并模块，用于根据所述相邻时间片的相似度，判断所述相邻时间片的情节-主题-词语分布是否相似；若为是，则将所述相邻时间片合并为一个时间片；

情节生成模块，用于根据所述各个字典词语在每个时间片内与各个主题及情节的概率对应关系，确定各个时间片对应的情节；

标注模块，用于根据所述各个时间片对应的情节，对所述目标视频进行标注。

本发明实施例还提供了一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本发明实施例提供的任一所述基于弹幕的视频语义标注的方法步骤。

本发明实施例提供的基于弹幕的视频语义标注方法，通过对弹幕词语时间先验信息的计算，对弹幕中的词语进行重新分配，得到各个时间片的情节-主题分布，合并相似时间片，最终得到每个时间片的情节标签，从而对视频进行语义标注，可以避免弹幕交互性对语义标注的影响，提高利用弹幕对视频进行语义标注的准确性。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为应用本发明实施例提供的基于弹幕的视频语义标注方法的弹幕系统结构图；

图2为本发明实施例提供的一种基于弹幕的视频语义标注方法的流程示意图；

图3为本发明实施例提供的基于弹幕的视频语义标注方法的另一种流程示意图；

图4为本发明实施例中利用文本分类关键词提取算法获取各个字典词汇对于每个时间片的重要性先验信息的方法流程示意图；

图5为本发明实施例中利用无向图对时间片内的字典词汇进行降噪处理的示意图；

图6为本发明实施例中使用预设的弹幕词汇的全概率公式计算每个字典词汇对应各个主题和情节的概率的算法原理图；

图7为本发明实施例中使用预设的弹幕词汇的全概率公式、时间先验信息及重要性先验信息，计算每个字典词汇对应各个主题和情节的概率的流程示意图；

图8为本发明实施例提供的基于弹幕的视频语义自动标注方法对目标视频进行划分的示意图；

图9为经过本发明实施例提供的基于弹幕的视频语义自动标注方法后，得到的词语与情节之间的关系示意图；

图10为本发明实施例中一种基于弹幕的视频语义标注装置的结构示意图；

图11为本发明实施例中用于实现基于弹幕的视频语义标注方法的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中利用弹幕对视频进行语义标注的方法忽略了对弹幕交互特性的考虑，没有考虑到当前时间出现的弹幕所讨论的内容可能是与相邻时间对应的情节相关联的，而与当前时间对应的情节无关，因此导致对情节的划分不够准确，从而使得对视频语义的标注不够准确的问题，本发明提出了一种基于弹幕的视频语义标注方法。

如图1所示，为应用本发明实施例提供的基于弹幕的视频语义标注方法的系统结构图。用户在浏览视频时，视频管理与推荐服务器会根据用户的喜好向用户推送定制化视频。用户选择观看的视频后，实时对视频进行弹幕评论，这些弹幕评论发送至弹幕服务器。视频管理与推荐服务器从弹幕服务器获取弹幕弹幕数据，对弹幕数据进行分析处理，借助弹幕数据对视频进行情节划分和主题标注，从而使得视频管理与推荐系统推送视频时更具有针对性，质量更高，进而提升了用户的观看体验。

下面先从总体上对本发明实施例提供的基于弹幕的视频语义标注方法进行说明。

一种实现方式中，上述基于弹幕的视频语义标注方法包括：

若为是，则将所述相邻时间片合并为一个时间片；

本发明实施例提供的基于弹幕的视频语义标注方法，通过对弹幕词语时间先验信息的计算，对弹幕中的词语进行重新分配，得到各个时间片的情节-主题分布，合并相似时间片，最终得到每个时间片的情节标签，从而对视频进行语义标注，可以避免弹幕交互性对语义标注的影响，提高利用弹幕对视频进行语义标注的准确性。

下面通过具体实施例，对本发明实施例提供的基于弹幕的视频语义标注方法进行详细说明。

在本发明实施例提供的基于弹幕的视频语义标注方法中，用到的所有符号的含义见下表：

如图2所示，为本发明实施例提供的一种基于弹幕的视频语义标注方法的流程示意图，包括如下步骤：

步骤S201：对目标视频的所有弹幕进行分词处理，获得弹幕中的所有词语。

在本发明实施例中，将目标视频内的所有弹幕作为一个语料库单位，对所有弹幕进行分词处理，得到目标视频的所有弹幕包含的所有词语，方便对弹幕内容的分析，从而对目标视频进行语义标注。

步骤S202：对弹幕中的所有词语进行去停用词处理，得到不重复的字典词汇，生成字典词汇集合，及由每个字典词汇在每个时间片的数量构成的词汇分布矩阵。

将每个字典词汇按照其在时间片中的数量分布形式统计如下：

其中，表示字典词汇w_i在情节e_j中的集合，表示集合包含的词语的数量。

步骤S203：根据各个弹幕在目标视频中的出现时间，获得每条词语对应的时间戳。

具体的，可以将所有词语和每条词语对应的时间戳记为一个二元组序列，二元组的格式为<词语，时间戳>。

步骤S204：根据所述目标视频的播放时长，将所述目标视频平均划分为预设数量个时间片，并记录所述每个时间片的开始时间和结束时间。

步骤S205：针对每个时间片，将时间戳在该时间片的开始时间和结束时间内的所有词语组成一个文档，生成包含所有时间片对应的文档的文档集合。

具体的，目标视频所包含的所有文档集合可以表示为：D＝{d₁,d₂,...,d_D}。

步骤S206：针对每个时间片，随机初始化，获得初始主题集合和初始情节集合。

其中，目标视频的初始主题集合可以表示为K＝{k₁,k₂,…,k_|D|}，初始情节集合可以表示为E＝{ep₁,ep₂,...ep_E}。

步骤S207：根据所述目标视频的总时长、词汇分布矩阵、每个时间片的结束时间和各个词语的时间戳，计算所述字典词汇集合中每个字典词汇相对于每个时间片的时间先验信息。

具体的，时间先验信息是根据每个字典词汇包含的所有词语的时间戳与词语所属时间片的结束时间进行计算得到的，时间先验信息反映了每个字典词汇到各个时间片的时间距离大小。

在一种实现方式中，通过以下表达式对每个字典词汇相对于每个时间片的时间先验信息进行计算：

其中，表示字典词汇w_i相对于时间片j的时间先验信息，n表示所弹幕中的所有词语的数量，表示字典词汇w_i中的第n个词语所对应的时间戳，ep_i表示时间片j的结束时间，VDE表示目标视频的总时长。

则字典词汇w_i的时间先验信息t_i表示为：

所述字典词汇集合的时间先验信息表示为：

λ＝|t₁, t₂ ,…, t_W|^T

步骤S208：针对所述初始主题集合和初始情节集合中的各个主题和情节，使用预设的弹幕词汇的全概率公式及所述时间先验信息，计算所述每个字典词汇对应各个主题和情节的概率；生成所述各个字典词语与各个主题及情节的概率对应关系。

步骤S209：针对每个时间片，根据生成的各个字典词语与主题及情节的概率对应关系，确定该时间片对应的主题及情节，生成所述时间片的情节-主题-词语分布矩阵。

步骤S210：根据所述每个时间片的情节-主题-词语分布矩阵，计算相邻时间片的相似度。根据所述相邻时间片的相似度，判断所述相邻时间片的情节-主题分布是否相似。

在一种实现方式中，对每个时间片及其相邻时间片的情节-主题-词语分布矩阵进行交叉熵计算，当交叉熵的值小于预设的阈值时，判断相邻时间片的主题分布是相似的。

步骤S211：若为是，则将所述相邻时间片合并为一个时间片。

步骤S212：根据所述各个时间片的情节-主题-词语分布，确定各个时间片对应的情节。

在一种实现方式中，根据每个时间片的情节-主题-词语分布，选择第一预设数量个概率最高的主题，在选择出的每个主题中，选择第二预设数量个概率最高的字典词汇，即为每个时间片的主题和情节标签。

步骤S213：根据所述各个时间片对应的情节，对所述目标视频进行标注。

本步骤中就是将获得的各个情节标签与视频中对应的时间片对应保存，就完成了标注。

由以上可见，本发明实施例提供的基于弹幕的视频语义标注方法，通过对弹幕词语时间先验信息的计算，对弹幕中的词语进行重新分配，得到各个时间片的情节-主题分布，合并相似时间片，最终得到每个时间片的情节标签，从而对视频进行语义标注，可以避免弹幕交互性对语义标注的影响，提高利用弹幕对视频进行语义标注的准确性。

如图3所示，为本发明实施例提供的基于弹幕的视频语义标注方法的另一种流程示意图，包括如下步骤：

步骤S301：对目标视频的所有弹幕进行分词处理，获得弹幕中的所有词语。

步骤S302：对弹幕中的所有词语进行去停用词处理，得到不重复的字典词汇，生成字典词汇集合，及由每个字典词汇在每个时间片的数量构成的词汇分布矩阵。

步骤S303：根据各个弹幕在目标视频中的出现时间，获得每条词语对应的时间戳。

步骤S304：根据所述目标视频的播放时长，将所述目标视频平均划分为预设数量个时间片，并记录所述每个时间片的开始时间和结束时间。

步骤S305：针对每个时间片，将时间戳在该时间片的开始时间和结束时间内的所有词语组成一个文档，生成包含所有时间片对应的文档的文档集合。

步骤S306：针对每个时间片，随机初始化，获得初始主题集合和初始情节集合。

步骤S307：针对每个时间片，根据所述字典词汇集合、预设的关键词提取算法及预设的原始权重，得到各个字典词汇对于每个时间片的重要性先验信息。

在实际应用中，在包含弹幕的目标视频中，大量的弹幕用于用户的情感表达或与其他用户进行争论，真正反映目标视频内容的弹幕很少。因此，在每个时间片所包含的词语中，有大量的噪声词语，这些噪声词语对目标视频的情节划分而言是无意义的，甚至会影响情节划分的准确性。所以需要对这些噪声词汇赋予较低的权重，从而提升目标视频情节划分的准确性。

如图4所示，为在一种实现方式中，利用文本分类关键词提取算法获取各个字典词汇对于每个时间片的重要性先验信息的方法流程示意图。

S401：针对每个时间片，根据所述时间片内出现的字典词汇，在出现的位置相邻的字典词汇之间构造一条边，得到所述每个时间片对应的无向图。

具体的，在文本分类关键词提取算法中，字典词汇会通过相邻关系将重要性传递出去，频繁与其他字典词汇相邻的字典词汇会降低自身的重要性。

S402：根据所述每个时间片对应的无向图，计算得到所述字典词汇集合中每个字典词汇相对于每个时间片的重要性。

S403：针对每个时间片，根据所述每个字典词汇的重要性对所述字典词汇进行排名，将所述重要性排名低于预设名次的所述字典词汇判断为噪声词汇，排名高于预设名次的所述字典词汇判断为非噪声词汇。

S404：对所述噪声词汇和所述非噪声词汇按照预设的规则分配权重，得到所述每个字典词汇对于每个时间片的原始权重。

在本步骤中，根据预设的规则分配权重，对噪声词汇和非噪声词汇赋予相应的原始权重。噪声词汇的原始权重较低，非噪声词汇的原始权重较高，字典词汇的原始权重可以体现出对应的字典词汇在每个时间片内的重要程度。

举例而言，如图5所示为利用无向图对时间片内的字典词汇进行降噪处理的示意图，其中，浅色节点表示噪声词汇，深色节点表示非噪声词汇。噪声词汇被赋予较低且相等的原始权重，非噪声词汇被赋予较高且相等的原始权重。

S405：对所述每个字典词汇对于每个时间片的原始权重进行归一化处理，得到每个字典词汇对于每个时间片的重要性先验信息。

在一种实现方式中，对每个字典词汇对于每个时间片的原始权重进行归一化处理具体可以通过以下表达式进行计算：

其中，σ_ij表示字典词汇w_i对于时间片j的重要性先验信息，gamma为平滑因子，r_j表示字典词汇w_i对于时间片j的原始权重。

为了避免出现0重要性的情况出现，提高本发明实施例提供的基于弹幕的视频语义标注方法的稳定性和准确性，在进行归一化处理时加入了平滑因子gamma，其取值为[0,1]。

步骤S308：根据所述目标视频的总时长、词汇分布矩阵、每个时间片的结束时间和各个词语的时间戳，计算所述字典词汇集合中每个字典词汇相对于每个时间片的时间先验信息。

步骤S309：针对所述初始主题集合和初始情节集合中的各个主题和情节，使用预设的弹幕词汇的全概率公式、所述时间先验信息及所述重要性先验信息，计算所述每个字典词汇对应各个主题和情节的概率；生成所述各个字典词语与各个主题及情节的概率对应关系。

在一种实现方式中，计算每个字典词汇对应各个主题和情节的概率用到的全概率公式，可以表示为：

其中，α表示所述第一狄利克雷超参数，β表示所述第三狄利克雷超参数，γ表示所述第二狄利克雷超参数，表示所述目标词语属于所述目标主题和所述目标情节的概率，表示所述目标词语属于所述目标情节的概率，表示所述目标词语属于所述目标主题的概率。

由于上述全概率公式右侧的三项的超参数相互独立，所以可以单独进行处理。

对于上述全概率公式右边第一项，通过对进行积分，可以得到：

其中，N_e,k,w表示情节为e且主题为k的词语的数量，N_e,k＝∑_wN_e,k,w，这一部分表示词语属于情节e和主题k的概率。

对上述全概率公式右边第二项，通过对θ进行积分，可以得到：

其中，N_d,e,k表示在文档d中，情节为e且主题为k的词语的数量，而且N_d,e＝∑_kN_d,e,k，这一部分表示在文档d中的词语属于情节e和主题k的概率。

对上述全概率公式右边第三项，对π进行积分，可以得到：

其中，D表示文档的个数，N_d,e表示在文档d中，情节为e的词语的个数，N_d＝∑_eN_d,e，这一部分表示在文档d中的词语属于情节e的概率。

上述全概率公式中包含三个狄利克雷超参数，分别为：第一狄利克雷超参数、第二狄利克雷超参数和第三狄利克雷超参数。其中，第三狄利克雷超参数根据时间先验信息和重要性先验信息进行设置。

其中，第一狄利克雷超参数通过以下表达式进行计算：

α＝(0.05×avgDocLength/|E|×|K|

其中，α表示第一狄利克雷超参数，avgDocLength表示文档集合中文档的平均长度，|E|表示初始情节集合中包含的所有情节的数量，|K|表示初始主题集合中包含的所有主题的数量。

第二狄利克雷超参数通过以下表达式进行计算：

γ＝1/|E|

其中，γ表示第二狄利克雷超参数。

第三狄利克雷超参数根据时间先验信息和重要性先验信息进行设置，需要为时间先验信息预设一个先验权重，可以表示为：

β＝A×λ+(1-A)×σ

其中，β表示第三狄利克雷超参数，A表示预设的先验权重，取值范围为[0,1]，λ表示时间先验信息，σ表示重要性先验信息。

如图6所示，为本步骤中使用预设的弹幕词汇的全概率公式计算每个字典词汇对应各个主题和情节的概率的算法原理图。通过第一狄利克雷超参数α，确定文档的情节-主题分布θ，从文档的情节-主题分布θ中抽取一个主题z；通过第二狄利克雷超参数γ，确定文档中所有词语对应的情节的分布π，从文档中所有词语对应的情节的分布π中抽取一个情节e；通过第三狄利克雷超参数β，确定情节e和主题z对应的词语分布从情节e和主题z对应的词语分布中抽取一个词语w；将上述过程重复N次，最终得到了对词语重新分配后的文档。

上述算法描述为：

遍历文档集合d＝1,...,D|

生成文档时间先验分布π_d～Dir(γ)

生成文档主题先验分布θ_e,d～Dir(α)

遍历故事情节集合e＝1,...,E|

遍历主题集合z＝1,...,K

生成主题词分布

针对文档d中出现的每个词w

多项分布生成一个情节标号e～Mult(π_d)

多项分布生成主题标号z～Mult(θ_d，e)

多项分布生成词语标号

步骤S310：针对每个时间片，根据生成的各个字典词语与主题及情节的概率对应关系，确定该时间片对应的主题及情节，生成所述时间片的情节-主题-词语分布矩阵。

步骤S311：根据所述每个时间片的情节-主题-词语分布矩阵，计算相邻时间片的相似度。根据所述相邻时间片的相似度，判断所述相邻时间片的情节-主题分布是否相似。

步骤S312：若为是，则将所述相邻时间片合并为一个时间片。

步骤S313：根据所述各个时间片的情节-主题-词语分布，确定各个时间片对应的情节。

步骤S314：根据所述各个时间片对应的情节，对所述目标视频进行标注。

步骤S301至步骤S306与图2所示发明实施例的步骤S201至步骤S206相同，步骤S310至步骤S314与图2所示发明实施例的步骤S209至步骤S213相同，这里不再一一赘述。

由以上可见，在本实施例提供的另一种基于弹幕的视频语义标注方法中，针对每个时间片，利用无向图传递每个字典词汇之间的重要性，进而得到了每个字典词汇的重要性先验信息，通过在对视频进行语义标注时，参考每个字典词汇在不同时间片的重要性先验信息，进一步提高了利用弹幕对视频进行语义标注的准确性。

如图7所示，为本发明实施例提供的基于弹幕的视频语义标注方法的一种实现方式中，使用预设的弹幕词汇的全概率公式、时间先验信息及重要性先验信息，计算每个字典词汇对应各个主题和情节的概率的流程示意图，包括如下步骤：

步骤S701：从所述初始主题集合中随机选择一个目标主题，从所述初始情节集合中随机选择一个目标情节，从所述字典词汇集合中随机选择一个字典词汇，作为目标词汇。

步骤S702：利用预设的全概率公式计算所述目标词汇同时属于所述目标主题和所述目标情节的概率。

步骤S703：重复选择目标主题、目标情节和目标词汇，计算所述目标词汇对应各个主题和情节的概率，直至达到预设的选择次数。

在本发明实施例中，采用的方法为吉布斯采样。吉布斯采样的联合分布如下：

采样的迭代公式为：

实现上述步骤S701至步骤S703的算法伪代码为：

由以上可见，本发明实施例提供的基于弹幕的视频语义标注方法，通过吉布斯采样算法，对每个时间片内的所有字典词汇对应主题和情节的概率进行更新，重新分配了每个弹幕所属的故事情节，从而避免弹幕交互性对语义标注的影响，提高利用弹幕对视频进行语义标注的准确性。

举例而言，如图8所示，为本发明实施例提供的基于弹幕的视频语义自动标注方法对目标视频进行划分的示意图。

如图8所示，图中目标视频的总时长为42min，将视频分成s个时间片(图8中s＝4)，每个时间片包含起始时间和结束时间，用每个时间片的结束时间作为该时间片的时间属性值。每个时间片同时产生一个文档，文档由当前时间片的所有词语组成。在每个文档中，通过计算获得词语对于每个时间片的重要性先验信息后，再通过对弹幕出现的时间和各个时间片的结束时间作差，可算出弹幕中的词语在时间上到各个时间片的距离，即词语的时间先验信息。每个时间片产生的第三个属性是故事情节属性，用整数(e＝1,2...,|E|)标记不同的情节。文档集中词语对应的情节，与它所出现的时间片的情节不需要保持一致。

经过本发明实施例提供的基于弹幕的视频语义自动标注方法，对弹幕中的所有词语所属的时间片进行重新分配，并对相邻的相似时间片进行合并后，得到的词语与情节之间的关系如图9所示。

图9中，最上面矩形框的灰度代表不同的情节，圆圈表示词语。圆圈的灰度表示他们属于哪个情节，包裹圆圈的大矩形框表示文档，圆圈所在的位置表明它所属的文档。可以看出，经过对弹幕中所有词语的重新分配，使得每条词语以较大的概率参与到对应的主题和情节上，从而避免了弹幕之间交互性对情节划分的影响，使得对目标视频的语义标注更加准确。

与上述基于弹幕的视频语义标注方法相对应，本申请实施例还提供了一种基于弹幕的视频语义标注装置。

如图10所示，为本发明实施例中一种基于弹幕的视频语义标注装置的结构示意图，该装置包括：

分词模块1001，用于对目标视频的所有弹幕进行分词处理，获得弹幕中的所有词语。

去停用词模块1002，用于对弹幕中的所有词语进行去停用词处理，得到不重复的字典词汇，生成字典词汇集合，及由每个字典词汇在每个时间片的数量构成的词汇分布矩阵。

时间戳获取模块1003，用于根据各个弹幕在目标视频中的出现时间，获得每条词语对应的时间戳。

时间片划分模块1004，用于根据所述目标视频的播放时长，将所述目标视频平均划分为预设数量个时间片，并记录所述每个时间片的开始时间和结束时间。

文档生成模块1005，用于针对每个时间片，将时间戳在该时间片的开始时间和结束时间内的所有词语组成一个文档，生成包含所有时间片对应的文档的文档集合。

随机初始模块1006，用于针对每个时间片，随机初始化，获得初始主题集合和初始情节集合。

时间先验信息计算模块1007，用于根据所述目标视频的总时长、词汇分布矩阵、每个时间片的结束时间和各个词语的时间戳，计算所述字典词汇集合中每个字典词汇相对于每个时间片的时间先验信息。

概率更新模块1008，用于针对所述初始主题集合和初始情节集合中的各个主题和情节，使用预设的弹幕词汇的全概率公式及所述时间先验信息，计算所述每个字典词汇对应各个主题和情节的概率；生成所述各个字典词语与各个主题及情节的概率对应关系。

情节-主题-词语分布生成模块1009，用于针对每个时间片，根据生成的各个字典词语与主题及情节的概率对应关系，确定该时间片对应的主题及情节，生成所述时间片的情节-主题-词语分布矩阵。

相似度计算模块1010，用于根据所述每个时间片的情节-主题-词语分布矩阵，计算相邻时间片的相似度。

时间片合并模块1011，用于根据所述相邻时间片的相似度，判断所述相邻时间片的情节-主题-词语分布是否相似；若为是，则将所述相邻时间片合并为一个时间片。

情节生成模块1012，用于根据所述各个字典词语在每个时间片内与各个主题及情节的概率对应关系，确定各个时间片对应的情节。

标注模块1013，用于根据所述各个时间片对应的情节，对所述目标视频进行标注。

由以上可见，本发明实施例提供的基于弹幕的视频语义标注装置，通过对弹幕词语时间先验信息的计算，对弹幕中的词语进行重新分配，得到各个时间片的情节-主题分布，合并相似时间片，最终得到每个时间片的情节标签，从而对视频进行语义标注，可以避免弹幕交互性对语义标注的影响，提高利用弹幕对视频进行语义标注的准确性。

本发明实施例还提供了一种电子设备，如图11所示，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

处理器111，用于执行存储器113上所存放的程序时，实现如下步骤：

若为是，则将所述相邻时间片合并为一个时间片；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于弹幕的视频语义标注方法，其特征在于，所述方法包括：

针对每个时间片，随机初始化，获得初始主题集合和初始情节集合；根据所述目标视频的总时长、词汇分布矩阵、每个时间片的结束时间和各个词语的时间戳，计算所述字典词汇集合中每个字典词汇相对于每个时间片的时间先验信息；

若为是，则将所述相邻时间片合并为一个时间片；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频的总时长、词汇分布矩阵、每个时间片的结束时间和各个词语的时间戳，计算所述字典词汇集合中每个字典词汇相对于每个时间片的时间先验信息，包括：

通过以下表达式进行计算：

<mrow> <msubsup> <mi>t</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <msup> <mi>e</mi> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mi>n</mi> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </msubsup> <mo>|</mo> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>n</mi> </mrow> <mi>t</mi> </msubsup> <mo>-</mo> <msub> <mi>ep</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>-</mo> <mi>V</mi> <mi>D</mi> <mi>E</mi> </mrow> </mfrac> </msup> </mrow>

<mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>=</mo> <mrow> <mo>{</mo> <mrow> <msup> <mi>e</mi> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mi>n</mi> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </munderover> <mo>|</mo> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>n</mi> </mrow> <mi>t</mi> </msubsup> <mo>-</mo> <msub> <mi>ep</mi> <mn>1</mn> </msub> <mo>|</mo> </mrow> <mrow> <mo>-</mo> <mi>V</mi> <mi>D</mi> <mi>E</mi> </mrow> </mfrac> </msup> <mo>,</mo> <msup> <mi>e</mi> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mi>n</mi> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </munderover> <mo>|</mo> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>n</mi> </mrow> <mi>t</mi> </msubsup> <mo>-</mo> <msub> <mi>ep</mi> <mn>2</mn> </msub> <mo>|</mo> </mrow> <mrow> <mo>-</mo> <mi>V</mi> <mi>D</mi> <mi>E</mi> </mrow> </mfrac> </msup> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msup> <mi>e</mi> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mi>n</mi> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </munderover> <mo>|</mo> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>n</mi> </mrow> <mi>t</mi> </msubsup> <mo>-</mo> <msub> <mi>ep</mi> <mrow> <mo>|</mo> <mi>E</mi> <mo>|</mo> </mrow> </msub> <mo>|</mo> </mrow> <mrow> <mo>-</mo> <mi>V</mi> <mi>D</mi> <mi>E</mi> </mrow> </mfrac> </msup> </mrow> <mo>}</mo> </mrow> </mrow>

λ＝|t₁,t₂,…,t_W|^T

其中，表示字典词汇w_i相对于时间片j的时间先验信息，n表示所弹幕中的所有词语的数量，表示字典词汇w_i中的第n个词语所对应的时间戳，ep_j表示时间片j的结束时间，VDE表示目标视频的总时长；t_i表示字典词汇w_i的时间先验信息；λ表示所述字典词汇集合的时间先验信息。

3.根据权利要求1所述的方法，其特征在于，在对弹幕中的所有词语进行去停用词处理，得到不重复的字典词汇，生成字典词汇集合之后，所述方法还包括：

针对每个时间片，根据所述字典词汇集合、预设的关键词提取算法及预设的原始权重，得到各个字典词汇对于每个时间片的重要性先验信息；

所述针对所述初始主题集合和初始情节集合中的各个主题和情节，使用预设的弹幕词汇的全概率公式及所述时间先验信息，计算所述每个字典词汇对应各个主题和情节的概率；生成所述各个字典词语与各个主题及情节的概率对应关系，包括：

针对所述初始主题集合和初始情节集合中的各个主题和情节，使用预设的弹幕词汇的全概率公式、所述时间先验信息及所述重要性先验信息，计算所述每个字典词汇对应各个主题和情节的概率；生成所述各个字典词语与各个主题及情节的概率对应关系。

4.根据权利要求3所述的方法，其特征在于，所述针对每个时间片，根据所述字典词汇集合、预设的关键词提取算法及预设的原始权重，得到各个字典词汇对于每个时间片的重要性先验信息，包括：

针对每个时间片，根据所述时间片内出现的字典词汇，在出现的位置相邻的字典词汇之间构造一条边，得到所述每个时间片对应的无向图；

根据所述每个时间片对应的无向图，计算得到所述字典词汇集合中每个字典词汇相对于每个时间片的重要性；

针对每个时间片，根据所述每个字典词汇的重要性对所述字典词汇进行排名，将所述重要性排名低于预设名次的所述字典词汇判断为噪声词汇，排名高于预设名次的所述字典词汇判断为非噪声词汇；

对所述噪声词汇和所述非噪声词汇按照预设的规则分配权重，得到所述每个字典词汇对于每个时间片的原始权重；

对所述每个字典词汇对于每个时间片的原始权重进行归一化处理，得到每个字典词汇对于每个时间片的重要性先验信息；

其中，所述对所述每个字典词汇对于每个时间片的原始权重进行归一化处理，通过以下表达式进行计算：

<mrow> <msub> <mi>&sigma;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mi>g</mi> <mi>a</mi> <mi>m</mi> <mi>m</mi> <mi>a</mi> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>d</mi> <mo>&Element;</mo> <mi>D</mi> </mrow> </msub> <msub> <mi>r</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>d</mi> </mrow> </msub> <mo>+</mo> <mo>|</mo> <mi>D</mi> <mo>|</mo> <mo>&times;</mo> <mi>g</mi> <mi>a</mi> <mi>m</mi> <mi>m</mi> <mi>a</mi> </mrow> </mfrac> </mrow>

5.根据权利要求3所述的方法，其特征在于，所述使用预设的弹幕词汇的全概率公式、所述时间先验信息及所述重要性先验信息，计算所述每个字典词汇对应各个主题和情节的概率，包括：

从所述初始主题集合中随机选择一个目标主题，从所述初始情节集合中随机选择一个目标情节，从所述字典词汇集合中随机选择一个字典词汇，作为目标词汇；

利用预设的全概率公式计算所述目标词汇同时属于所述目标主题和所述目标情节的概率；其中，所述全概率公式中包含所述时间先验信息及所述重要性先验信息；

重复选择目标主题、目标情节和目标词汇，计算所述目标词汇对应各个主题和情节的概率，直至达到预设的选择次数。

6.根据权利要求3所述的方法，其特征在于，所述利用预设的全概率公式计算所述目标词汇同时属于所述目标主题和所述目标情节的概率，包括：

通过三个狄利克雷超参数，利用预设的全概率公式计算所述每个字典词汇对应各个主题和情节的概率；其中，所述三个狄利克雷超参数，包括：第一狄利克雷超参数、第二狄利克雷超参数和第三狄利克雷超参数；其中，所述第三狄利克雷超参数根据所述时间先验信息和重要性先验信息进行设置；

其中，所述第一狄利克雷超参数通过以下表达式进行计算：

α＝(0.05×avgDocLength)/|E|×|K|

其中，α表示所述第一狄利克雷超参数，avgDocLength表示所述文档集合中文档的平均长度，|E|表示所述初始情节集合中包含的所有情节的数量，|K|表示所述初始主题集合中包含的所有主题的数量；

所述第二狄利克雷超参数通过以下表达式进行计算：

γ＝1/|E|

其中，γ表示所述第二狄利克雷超参数；

所述第三狄利克雷超参数根据所述时间先验信息和所述重要性先验信息进行设置，包括：

为所述时间先验信息预设一个先验权重；

所述第三狄利克雷超参数表示为：

β＝A×λ+(1-A)×σ

其中，β表示所述第三狄利克雷超参数，A表示所述预设的先验权重取值范围是[0,1]，λ表示所述时间先验信息，σ表示所述重要性先验信息；

所述全概率公式为：

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>e</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mi>&alpha;</mi> <mo>,</mo> <mi>&beta;</mi> <mo>,</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>&beta;</mi> <mo>&RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mover> <mi>z</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mover> <mi>e</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>&alpha;</mi> <mo>&RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mover> <mi>e</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mover> <mi>&gamma;</mi> <mo>&RightArrow;</mo> </mover> <mo>)</mo> </mrow> </mrow>

7.根据权利要求1所述的方法，其特征在于，所述根据所述每个时间片的情节-主题分布矩阵，计算相邻时间片的相似度；根据所述相邻时间片的相似度，判断所述相邻时间片的情节-主题-词语分布是否相似，包括：

对所述每个时间片及其相邻时间片的情节-主题-词语分布矩阵进行交叉熵计算，当交叉熵的值小于预设的阈值时，判断出所述相邻时间片的主题分布相似。

8.根据权利要求1所述的方法，其特征在于，所述根据所述各个时间片的情节-主题-词语分布，确定各个时间片对应的情节，包括：

在所述每个时间片中，根据所述情节-主题-词语分布，选择第一预设数量个概率最高的主题，在所述每个主题中，选择第二预设数量个概率最高的字典词汇，作为所述每个时间片的情节标签。

9.一种基于弹幕的视频语义标注装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。