CN106649713A

CN106649713A - 一种基于内容的电影可视化处理方法及其系统

Info

Publication number: CN106649713A
Application number: CN201611188828.XA
Authority: CN
Inventors: 戚鑫; 林淑金; 赵宝全
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2017-05-10
Anticipated expiration: 2036-12-21
Also published as: CN106649713B

Abstract

本发明实施例公开了一种基于内容的电影可视化处理方法及其系统，其中，该方法包括：提取电影的音视频信息，对所述音视频信息进行结构化处理，获取对应的音视频结构化内容信息；根据所述电影音视频结构化内容信息检测电影语义边界，将电影分割为内容独立的情节，并概括语义主题，归纳电影情节信息；根据所述电影语义边界、归纳的电影情节信息，以及对应的音视频信息构建可视化框架，生成可视化界面。在本发明实施例中，通过视频语义分割和情节概括，多角度、集中地呈现电影内容和整体结构，用户交互友好，有效帮助用户快速抓住电影重要情节，理解电影风格、主题，提高用户筛选电影的效率和使用体验感。

Description

一种基于内容的电影可视化处理方法及其系统

技术领域

本发明涉及数据挖掘、信息可视化技术领域，尤其涉及一种基于内容的电影可视化处理方法及其系统。

背景技术

近年来，随着多媒体技术和互联网技术的迅速发展，电影产量一直保持着快速增长态势，各类电影资源极大丰富。用户要在庞大数量的电影中选出自己喜欢的电影，只能通过文字剧情介绍，电影的海报等进行了解。但是，简单的文字剧情介绍或者海报往往不能让用户对影片有一个整体全面的认识，用户还是不易筛选出自己喜欢的电影。

为了满足信息时代快速有效的获取或筛选信息的需求，越来越多的人开始关注信息可视化，并开始探索可视化在各个领域中的应用，各种创新型可视化案例纷纷涌现，数据信息可视化的理论研究和实践也趋于成熟，可视化已然成为各个领域处理数据信息的一种高效方法。在数据信息爆炸的信息时代中，随着网络技术和多媒体技术的高速发展，视频成为获取信息的重要来源，视频作为承载信息内容最丰富的一种媒介形式，相对于其他的媒介而言，视频传递的信息内容更为生动、直观和有效，因此，用户更加青睐于在视频中获取信息内容。

为了解决这个问题，需要从电影视频中挖掘能充分反映电影主题的信息，并生动形象展示给用户。但是，电影视频数据单元关系不明确，视频数据内容提取困难，存在语义鸿沟等问题，加大了挖掘电影有用信息的难度，使得用户了解电影内容、筛选电影的效率以及用户体验度大大降低。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于内容的电影可视化处理方法及其系统，通过视频语义分割和情节概括，多角度、集中地呈现电影内容和整体结构，提高用户筛选电影的效率和使用体验感。

为了解决上述问题，本发明提出了一种基于内容的电影可视化处理方法，所述方法包括：

提取电影的音视频信息，对所述音视频信息进行结构化处理，获取对应的音视频结构化内容信息；

根据所述电影音视频结构化内容信息检测电影语义边界，将电影分割为内容独立的情节，并概括语义主题，归纳电影情节信息；

根据所述电影语义边界、归纳的电影情节信息，以及对应的音视频信息构建可视化框架，生成可视化界面。

优选地，所述提取电影的音视频信息，对所述音视频信息进行结构化处理，获取对应的音视频结构化内容信息的步骤，包括：

根据用户在电影库检索的视频结果获取电影基本帧序列信息；

对所述电影基本帧序列信息提取对应的视频结构化信息，所述视频结构化信息包括帧率信息、关键帧信息、主题信息、人物信息以及各个信息对应的时间线信息；

根据用户在电影库检索的电影结果分离出电影的音频信息，对所述音频信息进行静音与噪音的过滤，对剩余音频信息进行分类处理，将音频信息分为：纯语音信息，背景音乐信息，其他环境信息；对于纯语音音频信息，根据时间线和视频中的人物信息识别其对应的说话人；对纯语音信息做文字转化处理，获取处理后的语音文本信息；

将所述视频结构化信息和语音文本信息组成音视频结构化内容信息。

优选地，所述根据所述电影音视频结构化内容信息检测电影语义边界，将电影分割为内容独立的情节的步骤，包括：

根据所述语音文本信息进行去停词、提取主干处理，得到视频的词汇表，并根据所述词汇表以及词频构建视频特征向量；

对所述视频结构化信息进行预划分处理，获得若干个长度相当的文本块，根据所述视频特征向量计算相邻文本块间的相似度；

根据所述相邻文本块间的相似度比较相邻文本块的相似度差异，计算每个文本块代表该文本块可能成为语义边界的深度分数，搜索深度分数峰值，确定语义边界时间戳；

根据边界时间戳将电影分割成语义独立的片段，每个片段对应电影一个情节。

优选地，所述概括语义主题，归纳电影情节信息的步骤，包括：

计算各个情节每个关键词的权值，提取各个情节关键词获取关键词信息；

根据所述关键词的权值计算各个情节每个句子权值，提取各个情节关键句，获取关键词信息；

根据所述各个情节关键句概括情节语义主题，归纳电影情节，获取情节主题信息。

优选地，所述根据所述电影语义边界、归纳的电影情节信息，以及对应的音视频信息构建可视化框架，生成可视化界面的步骤，包括：

构建电影可视化框架；

将所述电影的视频、电影语义边界，归纳的电影情节信息，以及对应的关键帧信息、关键词信息填入所述电影可视化框架；

将已填入内容的电影可视化框架进行显示，生成可视化界面。

相应地，本发明还提供一种基于内容的电影可视化处理系统，所述系统包括：

信息提取模块，用于提取电影的音视频信息，对所述音视频信息进行结构化处理，获取对应的音视频结构化内容信息；

情节归纳模块，用于根据所述电影音视频结构化内容信息检测电影语义边界，将电影分割为内容独立的情节，并概括语义主题，归纳电影情节信息；

界面生成模块，用于根据所述电影语义边界、归纳的电影情节信息，以及对应的音视频信息构建可视化框架，生成可视化界面。

优选地，所述提取模块包括：

帧序列信息获取单元，用于根据用户在电影库检索的视频结果获取电影基本帧序列信息；

结构化信息提取单元，用于对所述电影基本帧序列信息提取对应的视频结构化信息，所述视频结构化信息包括帧率信息、关键帧信息、主题信息、人物信息以及各个信息对应的时间线信息；

音频信息处理单元，用于根据用户在电影库检索的电影结果分离出电影的音频信息，对所述音频信息进行静音与噪音的过滤，对剩余音频信息进行分类处理，将音频信息分为：纯语音信息，背景音乐信息，其他环境信息；对于纯语音音频信息，根据时间线和视频中的人物信息识别其对应的说话人；对纯语音信息做文字转化处理，获取处理后的语音文本信息；

生成单元，用于将所述视频结构化信息和语音文本信息组成音视频结构化内容信息。

优选地，所述情节归纳模块包括：

视频特征向量构建单元，用于根据所述语音文本信息进行去停词、提取主干处理，得到视频的词汇表，并根据所述词汇表以及词频构建视频特征向量；

相似度计算单元，用于对所述视频结构化信息进行预划分处理，获得若干个长度相当的文本块，根据所述视频特征向量计算相邻文本块间的相似度；根据所述相邻文本块间的相似度比较相邻文本块的相似度差异，计算每个文本块代表该文本块可能成为语义边界的深度分数，搜索深度分数峰值，确定语义边界时间戳；

情节分割单元，用于根据边界时间戳将电影分割成语义独立的片段，每个片段对应电影一个情节。

优选地，所述情节归纳模块还包括：

权值计算单元，用于计算各个情节每个关键词的权值，提取各个情节关键词获取关键词信息；

关键词获取单元，用于根据所述关键词的权值计算各个情节每个句子权值，提取各个情节关键句，获取关键词信息；

归纳单元，用于根据所述各个情节关键句概括情节语义主题，归纳电影情节，获取情节主题信息。

优选地，所述界面生成模块包括：

构建单元，用于构建电影可视化框架；

填入单元，用于将所述电影的视频、电影语义边界，归纳的电影情节信息，以及对应的关键帧信息、关键词信息填入所述电影可视化框架；

显示单元，用于将已填入内容的电影可视化框架进行显示，生成可视化界面。

在本发明实施例中，通过视频语义分割和情节概括，多角度、集中地呈现电影内容和整体结构，用户交互友好，有效帮助用户快速抓住电影重要情节，理解电影风格、主题，提高用户筛选电影的效率和使用体验感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的基于内容的电影可视化处理方法的流程示意图；

图2是本发明实施例中获取音视频结构化内容信息的过程示意图；

图3是本发明实施例中将电影分割为内容独立的情节的过程示意图；

图4是本发明实施例中构建可视化框架及生成可视化界面的过程示意图；

图5是本发明实施例中可视化界面的示意图；

图6是本发明实施例的基于内容的电影可视化处理系统的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的基于内容的电影可视化处理方法的流程示意图，如图1所示，该方法包括：

S1，提取电影的音视频信息，对音视频信息进行结构化处理，获取对应的音视频结构化内容信息；

S2，根据电影音视频结构化内容信息检测电影语义边界，将电影分割为内容独立的情节，并概括语义主题，归纳电影情节信息；

S3，根据电影语义边界、归纳的电影情节信息，以及对应的音视频信息构建可视化框架，生成可视化界面。

具体地，如图2所示，S1进一步包括：

S11，根据用户在电影库检索的视频结果获取电影基本帧序列信息；

S12，对电影基本帧序列信息提取对应的视频结构化信息，该视频结构化信息包括帧率信息、关键帧信息、主题信息、人物信息以及各个信息对应的时间线信息；具体实施中，提取对应的视频结构化信息的过程包括：镜头分割、关键帧提取、OCR识别、场景检测、人脸识别等；

S13，根据用户在电影库检索的电影结果分离出电影的音频信息，对音频信息进行静音与噪音的过滤，对剩余音频信息进行分类处理，将音频信息分为：纯语音信息，背景音乐信息，其他环境信息；对于纯语音音频信息，根据时间线和视频中的人物信息识别其对应的说话人；对纯语音信息做文字转化处理，获取处理后的语音文本信息；

S14，将视频结构化信息和语音文本信息组成音视频结构化内容信息。

具体地，在S12中，利用基于色彩直方图的镜头分割算法对电影进行镜头分割处理，获取电影镜头信息；通过计算图像之间相似程度的大小对各个镜头内部视频序列进行KNN聚类分组,记录每个分组中最接近类中心的帧信息，对电影进行关键帧检测处理，获取电影关键帧序列；利用基于HMM和BAYes等统计方法的场景检测算法对电影进行场景检测处理，获取电影场景信息；利用基于PCA的人脸识别算法对电影进行人物检测处理，获取电影人物信息；分别记录以上信息对应的时间线信息。

如图3所示，S2进一步包括：

S21，根据语音文本信息进行去停词、提取主干处理，得到视频的词汇表，并根据词汇表以及词频构建视频特征向量；

S22，对视频结构化信息进行预划分处理，获得若干个长度相当的文本块，根据视频特征向量计算相邻文本块间的相似度；

S23，根据相邻文本块间的相似度比较相邻文本块的相似度差异，计算每个文本块代表该文本块可能成为语义边界的深度分数，搜索深度分数峰值，确定语义边界时间戳；

S24，根据边界时间戳将电影分割成语义独立的片段，每个片段对应电影一个情节。

具体实施中，从电影中分离出音频信息，过滤掉静音和噪音；使用音频分类器对剩余音频信息进行分类处理，将音频信息分为：纯语音信息，背景音乐信息，其他环境信息；对于纯语音音频信息，根据时间线和视频中的人物信息识别其对应的说话人，获取音频对应的人物信息；利用ASR语音识别技术对纯语音信息做文字转化处理，获取处理后文本信息。

根据语音转换的文本信息进行去停词，提取主干处理，统计文本信息出现的词，得到视频的词汇表；

将文本信息预分割为文本小块，根据视频词汇表统计每个文本小块在词汇表中出现词的词频，提取每个文本小块bag-of-word特征，该特征每一维度代表词汇表中的一个词，每一维度的值代表文本小块在该维度对应词的词频；对特征进行归一化处理；

根据以下公式计算相邻文本块V₁、V₂特征相似度：

其中n表示bag-of-word特征维度，W_t、v₁、W_t、v₁分别表示V₁、V₂在t维度上的值。文本小块相似度反应了相邻两块间的内容联系的紧密程度；

定义每一个文本块的相似度分数为s(c)＝sim(p)+sim(f)，其中sim(p)表示当前块与其相邻上一块的相似度，sim(f)表示当前块与其相邻下一块的相似度；文本小块相似度分数即为该块与其相邻两块相似度之和，反应了该文本小块与其上下文联系的紧密程度。

根据公式depthscore(c)＝(s(p)-s(c))+(s(f)-s(c))计算每一文本块的深度分数，其中s(p)为上一块相似度分数，s(c)为当前块相似度分数，s(f)为下一块相似度分数；深度分数显示了当前文本块与其相邻块间相似度分数上的差异，如果一个文本块的深度分数相当大，则说明该文本块的相似度分数远小于其相邻块，而相似度分数反应了文本块与其上下文间内容联系的紧密程度，即表明该文本块与其上下文联系的紧密程度远小于其相邻文本块，所以该文本块的位置就是视频语义边界。

由于可能存在过度分割或者分割不足的问题，需要自适应处理来避免以上问题，首先确定深度分数阈值，深度分数大于阈值的位置就是视频语义边界，找到语义边界对应的时间戳，将电影分割成语义独立的片段，每一个片段对应电影的一个情节。

进一步地，概括语义主题，归纳电影情节信息的步骤，包括：

根据关键词的权值计算各个情节每个句子权值，提取各个情节关键句，获取关键词信息；

根据各个情节关键句概括情节语义主题，归纳电影情节，获取情节主题信息。

对各个情节进行去停词，提取主干，根据公式C_W＝a1K+a2T+a3L计算词的权重，其中K是根据TFIDF特征计算的权值，TFIDF表是在当前情节词频高而在其他情节词频低的词为关键词；T代表题名词权值，在标题中出现的词的权值应该被加大；L是根据词位置计算的权值，出现在首句或尾句的词的权值应该被加大；a1、a2、a3是调节参数，实际分别取0.5、0.3、0.2，取CW最大的15个词作为该片段的关键词；

根据以下公式计算片段中各个句子权值：

其中CW_t表示该句第t个词的权值，n为该句子包含词的总数；

权值最大的句子词语平均权值最高，包含的单位信息量最大，能较好的反应该段情节主题，所以选择权值最大的句子概括该段情节。

如图4所示，S3进一步包括：

S31，构建电影可视化框架；

S32，将电影的视频、电影语义边界，归纳的电影情节信息，以及对应的关键帧信息、关键词信息填入电影可视化框架；

S33，将已填入内容的电影可视化框架进行显示，生成可视化界面。

如图5所示，电影可视化框架及可视化界面说明如下：

(1)将电影可视化页面纵向等分成2部分；上半部为：电影播放区域A、关键帧可视化区域B、关键词可视化区域C；下半部为：时间轴及电影语义分割可视化区域D和电影情节归纳可视化区域E；

(2)时间轴及电影语义分割可视化区域D用于展示电影的时间线信息以及电影语义分割信息，时间轴根据电影情节分成若干段，每段对应一个情节，用户可以清楚掌握电影结构；

(3)电影情节归纳可视化区域E在时间轴下方，用于展示该段电影情节的主题信息，用户能对该段电影情节主题有一个清晰的认识；

(4)电影播放区域A用于播放电影视频；

(5)将上半部的右半部分按3:2比例分为两部分，左边为关键帧可视化区域B，用于展示电影各个情节关键帧信息，用户通过浏览关键帧图像信息，能快速捕捉到电影人物、场景、动作等精彩镜头；右边为关键词可视化区域C，用于展示电影各个情节关键词信息，关键词很好地反映了该段情节电影的内容，用户能通过关键词快速对电影情节内容有一个大致的了解。

具体显示过程如下：

(1)将电影视频数据填入电视播放区域A；

(2)将时间轴信息及电影语义边界信息填入时间轴及电影语义分割可视化区域D；将各个情节的主题信息填入电影情节归纳可视化区域E；用户点击时间轴电影播放进度会跳到该段情节起始时间开始播放；用户点击主题信息，相应主题信息会高亮显示；

(3)将第一个情节的关键帧信息填入关键帧可视化区域B，关键帧可视化区域B通过用户点击时间轴不同的分段显示对应情节的关键帧信息；用户鼠标移到相应的关键词对应的关键帧，该关键词对应的关键帧高亮显示；

(4)将第一个情节的关键词信息填入关键词可视化区域C，关键词可视化区域C通过用户点击时间轴不同的分段显示对应情节的关键词信息。

相应地，本发明实施例还提供一种基于内容的电影可视化处理系统，如图6所示，该系统包括：

信息提取模块1，用于提取电影的音视频信息，对音视频信息进行结构化处理，获取对应的音视频结构化内容信息；

情节归纳模块2，用于根据电影音视频结构化内容信息检测电影语义边界，将电影分割为内容独立的情节，并概括语义主题，归纳电影情节信息；

界面生成模块3，用于根据电影语义边界、归纳的电影情节信息，以及对应的音视频信息构建可视化框架，生成可视化界面。

进一步地，提取模块1包括：

结构化信息提取单元，用于对电影基本帧序列信息提取对应的视频结构化信息，该视频结构化信息包括帧率信息、关键帧信息、主题信息、人物信息以及各个信息对应的时间线信息；

音频信息处理单元，用于根据用户在电影库检索的电影结果分离出电影的音频信息，对音频信息进行静音与噪音的过滤，对剩余音频信息进行分类处理，将音频信息分为：纯语音信息，背景音乐信息，其他环境信息；对于纯语音音频信息，根据时间线和视频中的人物信息识别其对应的说话人；对纯语音信息做文字转化处理，获取处理后的语音文本信息；

生成单元，用于将视频结构化信息和语音文本信息组成音视频结构化内容信息。

情节归纳模块2包括：

视频特征向量构建单元，用于根据语音文本信息进行去停词、提取主干处理，得到视频的词汇表，并根据词汇表以及词频构建视频特征向量；

相似度计算单元，用于对视频结构化信息进行预划分处理，获得若干个长度相当的文本块，根据视频特征向量计算相邻文本块间的相似度；根据相邻文本块间的相似度比较相邻文本块的相似度差异，计算每个文本块代表该文本块可能成为语义边界的深度分数，搜索深度分数峰值，确定语义边界时间戳；

情节归纳模块2还包括：

关键词获取单元，用于根据关键词的权值计算各个情节每个句子权值，提取各个情节关键句，获取关键词信息；

归纳单元，用于根据各个情节关键句概括情节语义主题，归纳电影情节，获取情节主题信息。

界面生成模块3包括：

构建单元，用于构建电影可视化框架；

填入单元，用于将电影的视频、电影语义边界，归纳的电影情节信息，以及对应的关键帧信息、关键词信息填入电影可视化框架；

具体地，本发明实施例的系统相关功能模块的工作原理可参见方法实施例的相关描述，这里不再赘述。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的基于内容的电影可视化处理方法及其系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于内容的电影可视化处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于内容的电影可视化处理方法，其特征在于，所述提取电影的音视频信息，对所述音视频信息进行结构化处理，获取对应的音视频结构化内容信息的步骤，包括：

3.如权利要求2所述的基于内容的电影可视化处理方法，其特征在于，所述根据所述电影音视频结构化内容信息检测电影语义边界，将电影分割为内容独立的情节的步骤，包括：

4.如权利要求3所述的基于内容的电影可视化处理方法，其特征在于，所述概括语义主题，归纳电影情节信息的步骤，包括：

5.如权利要求2所述的基于内容的电影可视化处理方法，其特征在于，所述根据所述电影语义边界、归纳的电影情节信息，以及对应的音视频信息构建可视化框架，生成可视化界面的步骤，包括：

构建电影可视化框架；

6.一种基于内容的电影可视化处理系统，其特征在于，所述系统包括：

7.如权利要求6所述的基于内容的电影可视化处理系统，其特征在于，所述提取模块包括：

8.如权利要求7所述的基于内容的电影可视化处理系统，其特征在于，所述情节归纳模块包括：

9.如权利要求8所述的基于内容的电影可视化处理系统，其特征在于，所述情节归纳模块还包括：

10.如权利要求6所述的基于内容的电影可视化处理系统，其特征在于，所述界面生成模块包括：

构建单元，用于构建电影可视化框架；