CN110619284A - 一种视频场景划分方法、装置、设备及介质 - Google Patents
一种视频场景划分方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110619284A CN110619284A CN201910804662.7A CN201910804662A CN110619284A CN 110619284 A CN110619284 A CN 110619284A CN 201910804662 A CN201910804662 A CN 201910804662A CN 110619284 A CN110619284 A CN 110619284A
- Authority
- CN
- China
- Prior art keywords
- scene
- detection unit
- scene detection
- video
- shot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000001514 detection method Methods 0.000 claims abstract description 432
- 230000011218 segmentation Effects 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 19
- 238000000638 solvent extraction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 22
- 238000013473 artificial intelligence Methods 0.000 description 14
- 241000282414 Homo sapiens Species 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本申请公开了一种视频场景划分方法、装置、设备及介质,应用于视频处理技术领域,用以提高视频场景划分的精确度和效率。具体为:对视频进行镜头切分,得到镜头集合;将镜头集合中每相邻的两个镜头划分为一个场景检测单位,得到各个场景检测单位;分别对各个场景检测单位中的两个镜头进行聚类,得到各个场景检测单位各自对应的聚类结果;根据各个场景检测单位各自对应的聚类结果,对镜头集合中属于同一个场景的各个镜头进行合并,得到各个合并镜头;根据各个合并镜头和镜头集合中的各个未合并镜头,得到各个视频场景。这样,通过镜头切分、聚类和合并即可实现对视频场景的划分,操作相对简单,场景划分的效率和准确度较高,而且,通用性较强。
Description
技术领域
本申请涉及视频处理技术领域,尤其涉及一种视频场景划分方法、装置、 设备及介质。
背景技术
近年来,随着网络技术和多媒体技术的不断发展,视频网站已经快速融入 到人们的日常生活,随之而来的是大量视频在互联网中涌现,视频可以说是信 息量最为丰富的重要媒介。
一般而言,根据视频内容粒度由粗到细的顺序,视频可以划分为场景、镜 头和图像三个层次,其中,场景作为有相对完整的故事情节的视频片段,是分 析与理解视频的关键,进而视频场景的划分逐渐成为视频处理技术领域较为热 门的研究方向。
然而,由于视频内容的多样性和复杂性,目前还没有一种通用且有效的视 频场景划分方法,如何提高视频场景划分的精确度和效率是视频处理技术领域 需要解决的一个问题。
发明内容
本申请实施例提供了一种视频场景划分方法、装置、设备及介质,用以提 高视频场景划分的精确度和效率。
本申请实施例提供的技术方案如下:
一方面,本申请实施例提供了一种视频场景划分方法,包括:
对视频进行镜头切分,得到视频对应的镜头集合;
将镜头集合中每相邻的两个镜头划分为一个场景检测单位,得到镜头集合 对应的各个场景检测单位;
分别对各个场景检测单位中的两个镜头进行聚类,得到各个场景检测单位 各自对应的聚类结果,其中,场景检测单位对应的聚类结果表征场景检测单位 中的两个镜头是否属于同一个场景;
根据各个场景检测单位各自对应的聚类结果,对镜头集合中属于同一个场 景的各个镜头进行合并,得到各个合并镜头;
根据各个合并镜头和镜头集合中的各个未合并镜头,得到视频对应的各个 视频场景。
在一种可能的实施方式中,分别对各个场景检测单位中的两个镜头进行聚 类,得到各个场景检测单位各自对应的聚类结果,包括:
针对每一个场景检测单位,获取场景检测单位中的两个镜头各自对应的目 标图像序列,分别对两个镜头各自对应的目标图像序列进行图像特征提取,得 到两个镜头各自对应的图像特征数据,基于两个镜头各自对应的图像特征数据, 利用图像聚类模型,获得场景检测单位对应的图像聚类结果;
和/或;
针对每一个场景检测单位,获取场景检测单位中的两个镜头各自对应的目 标语音信号,分别将两个镜头各自对应的目标语音信号转化为文本向量,基于 两个镜头各自对应的文本向量,并利用文本聚类模型,获得场景检测单位对应 的文本聚类结果;
分别将各个场景检测单位各自对应的图像聚类结果和/或文本聚类结果,确 定为各个场景检测单位各自对应的聚类结果。
在一种可能的实施方式中,获取场景检测单位中的两个镜头各自对应的目 标图像序列,包括:
获取场景检测单位中前一个镜头对应的所有图像,并将所有图像组成的图 像序列确定为前一个镜头对应的目标图像序列;获取场景检测单位中后一个镜 头对应的所有图像,并将所有图像组成的图像序列确定为后一个镜头对应的目 标图像序列;
或者;
获取场景检测单位中前一个镜头对应的所有图像中的后N帧图像,并将后 N帧图像组成的图像序列确定为前一个镜头对应的目标图像序列;获取场景检 测单位中后一个镜头对应的所有图像中的前M帧图像,并将前M帧图像组成 的图像序列确定为后一个镜头对应的目标图像序列,其中,N、M为大于1的 正整数。
在一种可能的实施方式中,获取场景检测单位中的两个镜头各自对应的目 标语音信号,包括:
获取场景检测单位中前一个镜头对应的所有语音信号,并将所有语音信号 确定为前一个镜头对应的目标语音信号;获取场景检测单位中后一个镜头对应 的所有语音信号,并将所有语音信号确定为后一个镜头对应的目标语音信号;
或者;
获取场景检测单位中前一个镜头的后N帧图像对应的语音信号,并将后N 帧图像对应的语音信号确定为前一个镜头对应的目标语音信号;获取场景检测 单位中后一个镜头的前M帧图像对应的语音信号,并将前M帧图像对应的语 音信号确定为后一个镜头对应的目标语音信号,其中,N、M为大于1的正整 数。
在一种可能的实施方式中,根据各个场景检测单位各自对应的聚类结果, 对镜头集合中属于同一个场景的各个镜头进行合并,得到各个合并镜头,包括:
根据各个场景检测单位各自对应的聚类结果,从各个场景检测单位中,筛 选出各个目标场景检测单位,其中,目标场景检测单位是包含的两个镜头属于 同一个场景的场景检测单位;
将相邻的各个目标场景检测单位整合至同一个镜头合并单位,将不相邻的 各个目标场景检测单位分别作为一个镜头合并单位;
分别对各个镜头合并单位中的镜头进行合并,得到各个合并镜头。
在一种可能的实施方式中,将镜头集合中每相邻的两个镜头划分为一个场 景检测单位,得到镜头集合对应的各个场景检测单位之后,还包括:
针对每一个场景检测单位,获取场景检测单位中的两个镜头各自对应的目 标语音信号,分别将两个镜头各自对应的目标语音信号转化为文本信息,并根 据两个镜头各自对应的文本信息,获得两个镜头各自对应的关键词集合,根据 两个镜头各自对应的关键词集合的重合度,检测场景检测单位中的两个镜头是 否属于同一个场景;
根据各个场景检测单位各自对应的检测结果,对镜头集合中属于同一个场 景的各个镜头进行合并,得到视频对应的各个视频场景。
在一种可能的实施方式中,将镜头集合中每相邻的两个镜头划分为一个场 景检测单位,得到镜头集合对应的各个场景检测单位之后,还包括:
获取为视频配置的各个场景检测方式,并从各个场景检测方式中选取至少 一个场景检测方式;
基于至少一个场景检测方式,分别对各个场景检测单位中的两个镜头是否 属于同一个场景进行检测,得到各个场景检测单位各自对应的检测结果;
根据各个场景检测单位各自对应的检测结果,对镜头集合中属于同一个场 景的各个镜头进行合并,得到视频对应的各个视频场景。
另一方面,本申请实施例提供了一种视频场景划分装置,包括:
视频切分单元,用于对视频进行镜头切分,得到视频对应的镜头集合;
镜头划分单元,用于将镜头集合中每相邻的两个镜头划分为一个场景检测 单位,得到镜头集合对应的各个场景检测单位;
聚类处理单元,用于分别对各个场景检测单位中的两个镜头进行聚类,得 到各个场景检测单位各自对应的聚类结果,其中,场景检测单位对应的聚类结 果表征场景检测单位中的两个镜头是否归属于同一个场景;
镜头合并单元,用于根据各个场景检测单位各自对应的聚类结果,对镜头 集合中归属于同一个场景的各个镜头进行合并,得到各个合并镜头;
场景获取单元,用于根据各个合并镜头和镜头集合中的各个未合并镜头, 得到视频对应的各个视频场景。
在一种可能的实施方式中,在分别对各个场景检测单位中的两个镜头进行 聚类,得到各个场景检测单位各自对应的聚类结果时,聚类处理单元用于:
针对每一个场景检测单位,获取场景检测单位中的两个镜头各自对应的目 标图像序列,分别对两个镜头各自对应的目标图像序列进行图像特征提取,得 到两个镜头各自对应的图像特征数据,基于两个镜头各自对应的图像特征数据, 利用图像聚类模型,获得场景检测单位对应的图像聚类结果;
和/或;
针对每一个场景检测单位,获取场景检测单位中的两个镜头各自对应的目 标语音信号,分别将两个镜头各自对应的目标语音信号转化为文本向量,基于 两个镜头各自对应的文本向量,并利用文本聚类模型,获得场景检测单位对应 的文本聚类结果;
分别将各个场景检测单位各自对应的图像聚类结果和/或文本聚类结果,确 定为各个场景检测单位各自对应的聚类结果。
在一种可能的实施方式中,在获取场景检测单位中的两个镜头各自对应的 目标图像序列时,聚类处理单元用于:
获取场景检测单位中前一个镜头对应的所有图像,并将所有图像组成的图 像序列确定为前一个镜头对应的目标图像序列;获取场景检测单位中后一个镜 头对应的所有图像,并将所有图像组成的图像序列确定为后一个镜头对应的目 标图像序列;
或者;
获取场景检测单位中前一个镜头对应的所有图像中的后N帧图像,并将后 N帧图像组成的图像序列确定为前一个镜头对应的目标图像序列;获取场景检 测单位中后一个镜头对应的所有图像中的前M帧图像,并将前M帧图像组成 的图像序列确定为后一个镜头对应的目标图像序列,其中,N、M为大于1的 正整数。
在一种可能的实施方式中,在获取场景检测单位中的两个镜头各自对应的 目标语音信号时,聚类处理单元用于:
获取场景检测单位中前一个镜头对应的所有语音信号,并将所有语音信号 确定为前一个镜头对应的目标语音信号;获取场景检测单位中后一个镜头对应 的所有语音信号,并将所有语音信号确定为后一个镜头对应的目标语音信号;
或者;
获取场景检测单位中前一个镜头的后N帧图像对应的语音信号,并将后N 帧图像对应的语音信号确定为前一个镜头对应的目标语音信号;获取场景检测 单位中后一个镜头的前M帧图像对应的语音信号,并将前M帧图像对应的语 音信号确定为后一个镜头对应的目标语音信号,其中,N、M为大于1的正整 数。
在一种可能的实施方式中,在根据各个场景检测单位各自对应的聚类结果, 对镜头集合中属于同一个场景的各个镜头进行合并,得到各个合并镜头时,镜 头合并单元用于:
根据各个场景检测单位各自对应的聚类结果,从各个场景检测单位中,筛 选出各个目标场景检测单位,其中,目标场景检测单位是包含的两个镜头属于 同一个场景的场景检测单位;
将相邻的各个目标场景检测单位整合至同一个镜头合并单位,将不相邻的 各个目标场景检测单位分别作为一个镜头合并单位;
分别对各个镜头合并单位中的镜头进行合并,得到各个合并镜头。
在一种可能的实施方式中,本申请实施例提供的视频场景划分装置还包括 第一检测单元,其中:
第一检测单元,用于在镜头划分单元将镜头集合中每相邻的两个镜头划分 为一个场景检测单位,得到镜头集合对应的各个场景检测单位之后,针对每一 个场景检测单位,获取场景检测单位中的两个镜头各自对应的目标语音信号, 分别将两个镜头各自对应的目标语音信号转化为文本信息,并根据两个镜头各 自对应的文本信息,获得两个镜头各自对应的关键词集合,根据两个镜头各自 对应的关键词集合的重合度,检测场景检测单位中的两个镜头是否属于同一个 场景;
场景获取单元,用于根据第一检测单元获得的各个场景检测单位各自对应 的检测结果,对镜头集合中属于同一个场景的各个镜头进行合并,得到视频对 应的各个视频场景。
在一种可能的实施方式中,本申请实施例提供的视频场景划分装置还包括 第二检测单元,其中:
第二检测单元,用于在镜头划分单元将镜头集合中每相邻的两个镜头划分 为一个场景检测单位,得到镜头集合对应的各个场景检测单位之后,获取为视 频配置的各个场景检测方式,并从各个场景检测方式中选取至少一个场景检测 方式,以及基于至少一个场景检测方式,分别对各个场景检测单位中的两个镜 头是否属于同一个场景进行检测,得到各个场景检测单位各自对应的检测结果;
场景获取单元,用于根据第二检测单元获得的各个场景检测单位各自对应 的检测结果,对镜头集合中属于同一个场景的各个镜头进行合并,得到视频对 应的各个视频场景。
另一方面,本申请实施例提供了一种视频场景划分设备,包括:存储器、 处理器和存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算 机程序时实现本申请实施例提供的视频场景划分方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读 存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提 供的视频场景划分方法。
本申请实施例的有益效果如下:
本申请实施例中,通过对视频进行镜头切分获得镜头集合,并以镜头集合 中每相邻的两个镜头为一个场景检测单位进行聚类,可以快速地确定出镜头集 合中属于同一个场景的各个镜头,通过将镜头集合中属于同一个场景的各个镜 头进行合并,即可根据各个合并镜头和镜头集合中的各个未合并镜头,获得该 视频对应的各个视频场景,从而提高了视频场景划分的效率和准确度,而且, 通过镜头切分、聚类和合并等操作即可实现对视频场景的划分,操作相对简单, 通用性较强,此外,通过对划分出的各个视频场景进行重组,还可以形成新的 视频片段,实用性较强。
附图说明
图1为本申请实施例中视频的层次划分示意图;
图2为本申请实施例中视频场景划分系统的系统架构示意图;
图3为本申请实施例中视频镜头切分方法的流程示意图;
图4为本申请实施例中一种视频场景划分方法的流程示意图;
图5为本申请实施例中另一种视频场景划分方法的流程示意图;
图6为本申请实施例中另一种视频场景划分方法的流程示意图;
图7为本申请实施例中视频场景划分方法的具体流程示意图;
图8为本申请实施例中视频场景划分模型建立的流程示意图;
图9为本申请实施例中视频场景划分装置的功能结构示意图;
图10为本申请实施例中视频场景划分设备的硬件结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本申请,首先对本申请中提及的技术用 语进行说明。
1、视频,为有声的连环画,是视听序列的集合,包括图像集和音频集两 部分。本申请中,参阅图1所示,视频可划分为图像、镜头和场景三个层次, 其中:
图像,为视频的基本组成单元;
镜头,为摄像机的单操作产生的图像序列;
场景,为语义上相关、时间上相邻的一组镜头,能够表达相对完整的故事 情节或事件等。
本申请中,视频的类型包括但不限于:体育视频,新闻联播视频、影视视 频、短视频等。
2、图像聚类模型,为根据两个镜头各自对应的图像特征数据,对两个镜 头是否属于同一个场景进行检测的深度学习模型。
3、文本聚类模型,为根据两个镜头各自对应的文本向量,对两个镜头是 否属于同一个场景进行检测的深度学习模型。
4、镜头边界预测模型,为根据视频片段对应的图像序列,对视频片段的 镜头类型进行检测的深度学习模型。
5、客户端,本申请中,为可以安装在手机、计算机、个人数字助理(PersonalDigital Assistant,PDA)等终端设备上,能够从视频中划分出多个视频场景的 一种应用程序。
6、服务器,为根据客户端发起的请求,为客户端提供数据库服务、计算 服务等各类服务的后台运行设备。
需要说明的是,本申请中提及的“第一”、“第二”等是用于区别类似的对象, 而不必用于描述特定的顺序或先后次序。应该理解这样的用语在适当情况下可 以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺 序实施。此外,本申请中提及的“和/或”,描述的是关联对象的关联关系,表 示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A 和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或” 的关系。
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下将结合本 申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基 于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获 得的所有其他实施例,都属于本申请保护的范围。
参阅图2所示,本申请实施例提供了一种视频场景划分系统,该视频场景 划分系统200可以包括终端设备201、安装在终端设备201上的客户端202和 服务器203,客户端202可以利用终端设备201并通过互联网与服务器203进 行通信连接。实际应用中,用户可以使用终端设备201向客户端202发起视频 场景划分请求,客户端202接收到视频场景划分请求时,可以对用户请求的视 频进行场景划分,得到该视频的各个视频场景后,将该视频的各个视频场景显 示给用户。当然,客户端202接收到视频场景划分请求时,还可以将视频场景划分请求转发至服务器;服务器203接收到视频场景划分请求时,可以对用户 请求的视频进行场景划分,得到该视频的各个视频场景后,将该视频的各个视 频场景返回至客户端202;客户端202接收到服务器203返回的该视频的各个 视频场景后,将该视频的各个视频场景显示给用户。
应当理解,图2中的终端设备、通信网络和服务器的数目仅仅是示意性的, 根据实际需求可以具有任意数目的终端设备、通信网络和服务器。当用于运行 视频场景划分方法的视频场景划分设备不需要与其他设备进行数据传输时,该 视频场景划分系统可以仅包括用于运行视频场景划分方法的视频场景划分设 备,例如,该视频场景划分系统可以仅包括终端设备或服务器。
实际应用中,客户端202或服务器203在对用户请求的视频进行场景划分 时,可以采用本申请实施例提供的视频场景划分方法进行场景划分,即对视频 进行镜头切分,得到该视频对应的镜头集合,并将该镜头集合中每相邻的两个 镜头划分为一个场景检测单位,得到各个场景检测单位;分别对各个场景检测 单位中的两个镜头进行聚类,得到各个场景检测单位各自对应的聚类结果,其 中,场景检测单位对应的聚类结果表征该场景检测单位中的两个镜头是否属于 同一个场景;根据各个场景检测单位各自对应的聚类结果,对镜头集合中属于 同一个场景的各个镜头进行合并,得到各个合并镜头;根据各个合并镜头和镜头集合中的各个未合并镜头,得到该视频对应的各个视频场景。这样,通过镜 头切分、聚类和合并等操作即可实现对视频场景的划分,操作相对简单,通用 性较强,而且,视频场景的划分效率和准确度较高,此外,通过对划分出的各 个视频场景进行重组,还可以形成新的视频片段,实用性较强。
在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例 提供的技术方案进行说明。
首先,对本申请中提及的镜头切分进行说明,本申请实施例提供了一种视 频镜头切分方法,实际应用中,该视频镜头切分方法可以由终端设备执行,也 可以由服务器执行。具体的,参阅图3所示,本申请实施例提供的视频镜头切 分方法的流程如下:
步骤301:按照时间顺序,将视频划分为各个视频片段。
例如:假设视频共有160帧图像,则可以将该视频划分为10个视频片段, 一个视频片段具有16帧图像。
步骤302:通过镜头边界预测模型,获取各个视频片段各自对应的镜头类 型,其中,镜头类型为第一镜头类型或者第二镜头类型,第一镜头类型表征具 有变化的镜头,第二镜头类型表征不具有变化的镜头。
步骤303:针对镜头类型为第一镜头类型的各个视频片段,获取该视频片 段的图像方差。
具体的,在获取视频片段的图像方差时,可以采用但不限于以下方式:
首先,从视频片段中获取第一图像、第二图像和第三图像,并获取第一图 像对应的第一色彩模型、第二图像对应的第二色彩模型和第三图像对应的第三 色彩模型,其中,第一图像为第二图像相邻的前一帧图像,第二图像为第三图 像相邻的前一帧图像;第一色彩模型包括第一色调参数、第一饱和度参数和第 一明度参数,第二色彩模型包括第二色调参数、第二饱和度参数和第二明度参 数,第三色彩模型包括第三色调参数、第三饱和度参数和第三明度参数。
然后,根据第一色调参数和第二色调参数获得第一色调差值,根据第一饱 和度参数和第二饱和度参数获得第一饱和度差值,根据第一明度参数和第二明 度参数获得第一明度差值,并根据第一色调差值、第一饱和度差值和第一明度 差值,获得第一平均差值。
其次,根据第二色调参数和第三色调参数获得第二色调差值,根据第二饱 和度参数和第三饱和度参数获得第二饱和度差值,根据第二明度参数和第三明 度参数获得第二明度差值,并根据第二色调差值、第二饱和度差值和第二明度 差值,获得第二平均差值。
最后,根据第一平均差值和第二平均差值,获得该视频片段的图像方差。
例如:假设视频对应的10个视频片段中有3个视频片段的镜头类型为第 一镜头类型,则可以针对该3个视频片段分别执行以下操作:
首先,从该视频片段中获取三帧图像,即第一红绿蓝(Red Green Blue, RGB)图像、第二RGB图像和第三RGB图像,并分别将该三帧图像转换为色 彩模型(Hue SaturationValue,HSV),其中,HSV中颜色的参数分别是色调、 饱和度和明度。参阅表1所示,为该视频片段中的三帧图像各自对应的色彩模 型一个示意。
表1.
色调(H)通道 | 饱和度(S)通道 | 明度(V)通道 | |
第一图像 | 200 | 250 | 180 |
第二图像 | 100 | 230 | 170 |
第三图像 | 50 | 140 | 120 |
由表1可见,第一图像的第一色调参数为200、第一饱和度参数为250、 第一明度参数为180;第二图像的第二色调参数为100、第二饱和度参数为230、 第二明度参数为170;第三图像的第三色调参数为50、第三饱和度参数为140、 第三明度参数为120。
然后,根据第一色调参数和第二色调参数,获得第一色调差值,即 200-100=100;根据第一饱和度参数和第二饱和度参数,获得第一饱和度差值, 即250-230=20;根据第一明度参数和第二明度参数,获得第一明度差值,即 180-170=10;根据第一色调差值、第一饱和度差值和第一明度差值,获得第一 平均差值,即(100+20+10)/3=43.33。
其次,根据第二色调参数和第三色调参数,获得第二色调差值,即 100-50=50;根据第二饱和度参数和第三饱和度参数,获得第二饱和度差值, 即230-140=90;根据第二明度参数和第三明度参数获得第二明度差值,即 170-120=50;根据第二色调差值、第二饱和度差值和第二明度差值,获得第二 平均差值,即(50+90+50)/3=63.33。
最后,根据第一平均差值和第二平均差值,获得均值,即(43.33+63.33) /2=53.33,并根据均值、第一平均差值和第二平均差值,获得该视频片段的图 像方差,即S2=[(43.33-53.33)2+(63.33-53.33)2]/2=100。
步骤304:针对镜头类型为第一镜头类型的各个视频片段,根据该视频片 段的图像方差,获取该视频的镜头边界信息,其中,镜头边界信息包括镜头变 化位置,镜头变化位置可以是镜头突变情况下的变化切点,也可以是镜头渐变 情况下的变化区域。
具体的,在根据视频片段的图像方差,获取该视频的镜头边界信息时,可 以采用但不限于以下方式:
若该视频片段的图像方差大于或等于第一阈值,则确定该视频片段的镜头 变化类型为镜头突变,此种情况下,若第一平均差值大于第二平均差值,则确 定该视频片段的镜头变化位置为第一图像与第二图像之间,若第二平均差值大 于第一平均差值,则确定该视频片段的镜头变化位置为第二图像与第三图像之 间;
若该视频片段的图像方差小于第一阈值,则确定该视频片段的镜头变化类 型为镜头渐变,此种情况下,若第一平均差值大于第二阈值,则确定镜头变化 位置包括第一图像和第二图像,若第二平均差值大于第二阈值,则确定镜头变 化位置包括第二图像和第三图像,若第一平均差值与第二平均差值均大于第二 阈值,则确定镜头变化位置包括第一图像、第二图像和第三图像。
步骤305:根据镜头类型为第一镜头类型的各个视频片段的镜头边界信息, 将该视频划分为多个镜头,得到该视频对应的镜头集合。
本申请实施例提供的上述视频镜头切分方法中,先利用镜头边界预测模型, 对各个视频片段作初步的镜头类型检测,对于有镜头变化的各个视频片段,再 根据图像方差进一步检测属于镜头突变还是镜头渐变,并根据不同的镜头检测 结果,采用不同的边界获取方式,获取有镜头变化的各个视频片段各自对应的 镜头变化位置,从而根据有镜头变化的各个视频片段的镜头变化位置,可以将 视频划分为多个镜头,这种基于镜头边界预测模型和图像方差的两层边界检测 方式,能够精确地检测出各个镜头变化位置,而且,镜头变化位置的漏检率较 低,从而提高了镜头切分的精确度,因此,本申请实施例提供的上述视频镜头 切分方法可以作为一个较佳的实施例,实际应用中,本申请并不限于采用该视 频镜头切分方法,还可以采用其他镜头切分方法,例如,对视频内容的变化进 行分析,获得图像强度的变化情况,并根据图像强度的变化情况,获得各个镜 头变化位置,以及根据各个镜头变化位置,对视频进行镜头切分。
在介绍了本申请实施例提供的视频镜头切分方法之后,接下来,对本申请 实施例提供的视频场景划分方法进行说明,实际应用中,本申请实施例提供的 视频场景划分方法可以由终端设备执行,也可以由服务器执行,本申请不作 具体限定。
参阅图4所示,本申请实施例提供了一种视频场景划分方法,该视频场景 划分方法的流程如下:
步骤401:对视频进行镜头切分,得到视频对应的镜头集合。
实际应用中,在对视频进行镜头切分时,可以采用本申请实施例提供的上 述视频镜头切分方法进行镜头切分,重复之处不再赘述。
步骤402:将镜头集合中每相邻的两个镜头划分为一个场景检测单位,得 到镜头集合对应的各个场景检测单位。
例如:假设对视频进行镜头切分获得的镜头集合中包含5个镜头,则可以 将每相邻的两个镜头划分为一个场景检测单位,获得4个场景检测单位,即(镜 头1,镜头2)、(镜头2,镜头3)、(镜头3,镜头4)和(镜头4,镜头5)。
步骤403:分别对各个场景检测单位中的两个镜头进行聚类,得到各个场 景检测单位各自对应的聚类结果,其中,场景检测单位对应的聚类结果表征场 景检测单位中的两个镜头是否属于同一个场景。
本申请实施例中,在对各个场景检测单位中的两个镜头进行聚类时,可以 采用但不限于以下三种聚类方式:
第一种聚类方式:图像聚类。
在具体实施时,针对每一个场景检测单位,可以获取该场景检测单位中的 两个镜头各自对应的目标图像序列,并分别对该两个镜头各自对应的目标图像 序列进行图像特征提取,得到该两个镜头各自对应的图像特征数据,以及基于 该两个镜头各自对应的图像特征数据,通过图像聚类模型,获得该场景检测单 位对应的图像聚类结果,并将该场景检测单位对应的图像聚类结果确定为该场 景检测单位对应的聚类结果。
实际应用中,在获取该场景检测单位中的两个镜头各自对应的目标图像序 列时,可以采用但不限于以下两种获取方式:
(1)获取该场景检测单位中前一个镜头对应的所有图像,并将所有图像 组成的图像序列确定为该前一个镜头对应的目标图像序列,以及,获取该场景 检测单位中后一个镜头对应的所有图像,并将所有图像组成的图像序列确定为 该后一个镜头对应的目标图像序列。
(2)获取该场景检测单位中前一个镜头对应的所有图像中的后N帧图像, 并将后N帧图像组成的图像序列确定为该前一个镜头对应的目标图像序列,以 及,获取该场景检测单位中后一个镜头对应的所有图像中的前M帧图像,并 将前M帧图像组成的图像序列确定为该后一个镜头对应的目标图像序列,其 中,N、M为大于1的正整数。
例如:假设场景检测单位为(镜头1,镜头2),其中,镜头1包含10帧 图像,镜头2包含15帧图像,则可以将镜头1包含的10帧图像确定为镜头1 的目标图像序列1,将镜头2包含的15帧图像确定为镜头2的目标图像序列2, 并从目标图像序列1中提取镜头1的图像特征数据1,从目标图像序列2中提 取镜头2的图像特征数据2,以及将图像特征数据1和图像特征数据2输入图 像聚类模型,获得镜头1和镜头2是否属于同一个场景的图像聚类结果。
又如:假设场景检测单位为(镜头1,镜头2),其中,镜头1包含10帧 图像,镜头2包含15帧图像,则可以从镜头1包含的10帧图像中选取后5帧 图像作为镜头1的目标图像序列1,从镜头2包含的15帧图像中选取前5帧图 像作为镜头2的目标图像序列2,并从目标图像序列1中提取镜头1的图像特 征数据1,从目标图像序列2中提取镜头2的图像特征数据2,以及将图像特 征数据1和图像特征数据2输入图像聚类模型,获得镜头1和镜头2是否属于 同一个场景的图像聚类结果。
第二种聚类方式:文本聚类。
在具体实施时,针对每一个场景检测单位,获取该场景检测单位中的两个 镜头各自对应的目标语音信号,并分别将该两个镜头各自对应的目标语音信号 转化为文本向量,基于该两个镜头各自对应的文本向量,并利用文本聚类模型, 获得该场景检测单位对应的文本聚类结果,并将该场景检测单位对应的文本聚 类结果确定为该场景检测单位对应的聚类结果。
实际应用中,在获取该场景检测单位中的两个镜头各自对应的目标语音信 号时,可以采用但不限于以下两种获取方式:
(1)获取该场景检测单位中前一个镜头对应的所有语音信号,并将所有 语音信号确定为该前一个镜头对应的目标语音信号,以及,获取该场景检测单 位中后一个镜头对应的所有语音信号,并将所有语音信号确定为该后一个镜头 对应的目标语音信号。
(2)获取该场景检测单位中前一个镜头的后N帧图像对应的语音信号, 并将后N帧图像对应的语音信号确定为该前一个镜头对应的目标语音信号,以 及,获取该场景检测单位中后一个镜头的前M帧图像对应的语音信号,并将 前M帧图像对应的语音信号确定为该后一个镜头对应的目标语音信号,其中, N、M为大于1的正整数。
例如:假设场景检测单位为(镜头1,镜头2),则可以将镜头1对应的所 有语音信号确定为镜头1的目标语音信号1,将镜头2对应的所有语音信号确 定为镜头2的目标语音信号2,并将目标语音信号1转化为文本向量1,将目 标语音信号2转化为文本向量2,以及将文本向量1和文本向量2输入文本聚 类模型,获得镜头1和镜头2是否属于同一个场景的图像聚类结果。
又如:假设场景检测单位为(镜头1,镜头2),其中,镜头1包含10帧 图像,镜头2包含15帧图像,则可以将镜头1包含的10帧图像中后5帧图像 对应的语音信号确定为镜头1的目标语音信号1,将镜头2包含的15帧图像中 前5帧图像对应的语音信号确定为镜头2的目标语音信号2,并将目标语音信 号1转化为文本向量1,将目标语音信号2转化为文本向量2,以及将文本向 量1和文本向量2输入文本聚类模型,获得镜头1和镜头2是否属于同一个场景的图像聚类结果。
第三种聚类方式:图像聚类结合文本聚类。
在具体实施时,针对每一个场景检测单位,获取该场景检测单位对应的图 像聚类结果和文本聚类结果,并将该场景检测单位对应的图像聚类结果和文本 聚类结果确定为该场景检测单位对应的聚类结果。其中,图像聚类结果的获取 方式可参见上述第一种聚类方式,文本聚类结果的获取方式可参见上述第二种 聚类方式,重复之处不再赘述。
步骤404:根据各个场景检测单位各自对应的聚类结果,对镜头集合中属 于同一个场景的各个镜头进行合并,得到各个合并镜头。
本申请实施例中,在对镜头集合中属于同一个场景的各个镜头进行合并时, 可以采用但不限于以下方式:
首先,根据各个场景检测单位各自对应的聚类结果,从各个场景检测单位 中,筛选出各个目标场景检测单位,其中,目标场景检测单位是包含的两个镜 头属于同一个场景的场景检测单位。
具体的,若聚类结果为图像聚类结果,则针对每一个场景检测单位,若该 场景检测单位的图像聚类结果表征该场景检测单位包含的两个镜头属于同一 个场景,则将该场景检测单位确定为目标场景检测单位,若该场景检测单位的 图像聚类结果表征该场景检测单位包含的两个镜头不属于同一个场景,则将该 场景检测单位确定为非目标场景检测单位;
若聚类结果为文本聚类结果,则针对每一个场景检测单位,若该场景检测 单位的文本聚类结果表征该场景检测单位包含的两个镜头属于同一个场景,则 将该场景检测单位确定为目标场景检测单位,若该场景检测单位的文本聚类结 果表征该场景检测单位包含的两个镜头不属于同一个场景,则将该场景检测单 位确定为非目标场景检测单位;
若聚类结果为图像聚类结果和文本聚类结果,则针对每一个场景检测单位, 若该场景检测单位的图像聚类结果和文本聚类结果中的至少一个表征该场景 检测单位包含的两个镜头属于同一个场景,则将该场景检测单位确定为目标场 景检测单位,若该场景检测单位的图像聚类结果和文本聚类结果均表征该场景 检测单位包含的两个镜头不属于同一个场景,则将该场景检测单位确定为非目 标场景检测单位。
然后,将相邻的各个目标场景检测单位整合至同一个镜头合并单位,将不 相邻的各个目标场景检测单位分别作为一个镜头合并单位。
最后,分别对各个镜头合并单位中的镜头进行合并,得到各个合并镜头。
例如:参阅表2所示,为镜头集合对应的场景检测单位(镜头1,镜头2)、 (镜头2,镜头3)、(镜头3,镜头4)和(镜头4,镜头5)各自的聚类结果 的一个示意,其中,1表征属于同一个场景,0表征不属于同一个场景。
表2.
由表2可见,场景检测单位(镜头1,镜头2)的图像聚类结果表征镜头1 和镜头2属于同一个场景、文本聚类结果表征镜头1和镜头2不属于同一个场 景;场景检测单位(镜头2,镜头3)的图像聚类结果表征镜头2和镜头3不 属于同一个场景、文本聚类结果表征镜头2和镜头3属于同一个场景;场景检 测单位(镜头3,镜头4)的图像聚类结果表征镜头3和镜头4不属于同一个 场景、文本聚类结果表征镜头3和镜头4不属于同一个场景;场景检测单位(镜 头4,镜头5)的图像聚类结果表征镜头4和镜头5属于同一个场景、文本聚 类结果表征镜头4和镜头5属于同一个场景。
本申请实施例中,在对镜头集合中属于同一个场景的各个镜头进行合并时, 可以采用但不限于以下方式:
首先,根据4个场景检测单位各自对应的图像聚类结果和文本聚类结果, 可以筛选出场景检测单位(镜头1,镜头2)、场景检测单位(镜头2,镜头3) 和场景检测单位(镜头4,镜头5)为目标场景检测单位。
然后,将相邻的目标场景检测单位(镜头1,镜头2)和目标场景检测单 位(镜头2,镜头3)整合至同一个镜头合并单位(镜头1,镜头2,镜头3), 将不相邻的目标场景检测单位(镜头4,镜头5)确定为一个镜头合并单位(镜 头4,镜头5)。
最后,对镜头合并单位(镜头1,镜头2,镜头3)中的镜头进行合并,得 到合并镜头1,对镜头合并单位(镜头4,镜头5)中的镜头进行合并,得到合 并镜头2。
步骤405:根据各个合并镜头和镜头集合中的各个未合并镜头,得到视频 对应的各个视频场景。
例如:假设4个场景检测单位(镜头1,镜头2)、(镜头2,镜头3)、(镜 头3,镜头4)和(镜头4,镜头5)中,对场景检测单位(镜头1,镜头2) 和(镜头2,镜头3)进行整合和镜头合并后获得合并镜头1,对场景检测单位 (镜头4,镜头5)进行镜头合并后获得合并镜头2,则可以将合并镜头1和合 并镜头2确定为镜头集合中的各个合并镜头,将场景检测单位(镜头3,镜头 4)中的镜头4确定为镜头集合中的各个未合并镜头,以及,将合并镜头1确 定为视频场景1,将合并镜头2确定为视频场景2,将镜头3确定为视频场景3, 将镜头4确定为视频场景4。
参阅图5所示,本申请实施例还提供了另一种视频场景划分方法,该视频 场景划分方法的流程如下:
步骤501:对视频进行镜头切分,得到视频对应的镜头集合。
步骤502:将镜头集合中每相邻的两个镜头划分为一个场景检测单位,得 到镜头集合对应的各个场景检测单位。
步骤503:针对每一个场景检测单位,获取该场景检测单位中的两个镜头 各自对应的目标语音信号,分别将该两个镜头各自对应的目标语音信号转化为 文本信息,并根据该两个镜头各自对应的文本信息,获得该两个镜头各自对应 的关键词集合,根据该两个镜头各自对应的关键词集合的重合度,检测该场景 检测单位中的两个镜头是否属于同一个场景。
实际应用中,在获取该场景检测单位中的两个镜头各自对应的目标语音信 号时,可以采用但不限于本申请实施例中提及的上述两种获取方式,重复之处 不再赘述。
例如:假设场景检测单位为(镜头1,镜头2),其中,镜头1包含10帧 图像,镜头2包含15帧图像,则步骤503可以包括:
首先,将镜头1包含的10帧图像中后5帧图像对应的语音信号确定为镜 头1的目标语音信号1,将镜头2包含的15帧图像中前5帧图像对应的语音信 号确定为镜头2的目标语音信号2。
然后,将镜头1的目标语音信号1转化为文本信息1,并对文本信息1进 行关键词提取,得到镜头1的关键词集合1,以及,将镜头2的目标语音信号 2转化为文本信息2,并对文本信息2进行关键词提取,得到镜头2的关键词 集合2。
最后,根据关键词集合1和关键词集合2的重合度,检测场景检测单位(镜 头1,镜头2)中的镜头1和镜头2是否属于同一个场景。其中,若检测出重 合度不小于设定阈值,则确定场景检测单位(镜头1,镜头2)中的镜头1和 镜头2属于同一个场景,若检测出重合度小于设定阈值,则确定场景检测单位 (镜头1,镜头2)中的镜头1和镜头2不属于同一个场景。
步骤504:根据各个场景检测单位各自对应的检测结果,对镜头集合中属 于同一个场景的各个镜头进行合并,得到各个合并镜头。
步骤505:根据各个合并镜头和镜头集合中的各个未合并镜头,得到视频 对应的各个视频场景。
其中,步骤501、步骤502、步骤504和步骤505的具体实现方式与上述 描述的具体实现方式类似,重复之处不再赘述。
参阅图6所示,本申请实施例还提供了另一种视频场景划分方法,该视频 场景划分方法的流程如下:
步骤601:对视频进行镜头切分,得到视频对应的镜头集合。
步骤602:将镜头集合中每相邻的两个镜头划分为一个场景检测单位,得 到镜头集合对应的各个场景检测单位。
步骤603:获取为该视频配置的各个场景检测方式,并从各个场景检测方 式中选取至少一个场景检测方式,并基于至少一个场景检测方式,分别对各个 场景检测单位中的两个镜头是否属于同一个场景进行检测,得到各个场景检测 单位各自对应的检测结果。
本申请实施例中,视频的各个场景检测方式是根据该视频的特性配置的用 于检测该视频对应的各个场景检测单位各自包含的两个镜头是否属于同一个 场景。
例如:以资讯视频为例,资讯视频的特性包括但不限于:不同主持人分别 对不同事件进行播报;单个事件在播报时的语音是连续的,不同事件在切换播 报期间具有一定的时间间隔;在播报每个事件时,该事件的标题名称会在标题 位置显示一段时间;握手、事件相关人等场景图像一般在事件开始时显示。基 于此,为资讯视频配置的场景检测方式可以包括但不限于以下4种:
第一种场景检测方式:针对每一个场景检测单位,获取该场景检测单位中 的两个镜头之间的语音停顿时间,并根据该语音停顿时间和设定时间阈值的关 系,确定该场景检测单位中的两个镜头是否属于同一个场景。
具体的,可以通过语音跳变进行语音停顿检测,若检测出语音停顿时间小 于第一设定时间阈值,则确定该场景检测单位中的两个镜头属于同一个场景, 若检测出语音停顿时间大于第二设定时间阈值,则确定该场景检测单位中的两 个镜头不属于同一个场景。
当然,若检测出语音停顿时间在第一设定时间阈值和第二设定时间阈值之 间,则可以采用其他方式作进一步检测。
第二种场景检测方式:针对每一个场景检测单位,获取该场景检测单位中 的两个镜头各自对应的人物特征信息,并根据两个人物特征信息表征的是否是 同一个主持人,确定该场景检测单位中的两个镜头是否属于同一个场景。其中, 人物特征信息可以是但不限于是:图像信息、语音信息等。
具体的,可以通过二分类模型进行人物分类检测,若检测出两个人物特征 信息表征的是同一个主持人,则确定该场景检测单位中的两个镜头属于同一个 场景,若检测出两个人物特征信息表征的不是同一个主持人,则确定该场景检 测单位中的两个镜头不属于同一个场景。
当然,为了提高视频场景划分的准确性,若检测出两个人物特征信息表征 的是同一个主持人,则还可以采用其他方式作进一步检测。
第三种场景检测方式:针对每一个场景检测单位,根据该场景检测单位中 的两个镜头的标题位置是否有标题名称,确定该场景检测单位中的两个镜头是 否属于同一个场景。
具体的,可以通过光学字符识别(Optical Character Recognition,OCR)检 测标题位置是否有标题名称,若检测出该场景检测单位中的前一个镜头的标题 位置有标题名称,或者该场景检测单位中的两个镜头的标题位置均有标题名称, 则确定该场景检测单位中的两个镜头属于同一个场景,若检测出该场景检测单 位中的两个镜头的标题位置均没有标题名称,则确定该场景检测单位中的两个 镜头不属于同一个场景。
当然,为了提高视频场景划分的准确性,若检测出该场景检测单位中的两 个镜头的标题位置均没有标题名称,则还可以采用其他方式作进一步检测。
第四种场景检测方式:针对每一个场景检测单位,根据该场景检测单位中 的两个镜头是否存在设定场景图像,确定该场景检测单位中的两个镜头是否属 于同一个场景,其中,设定场景图像可以是但不限于是:握手图像、事件相关 人图像等。
具体的,可以通过图像识别检测标题位置是否存在设定场景图像,若检测 出该场景检测单位中的前一个镜头存在设定场景图像,或者该场景检测单位中 的两个镜头均存在设定场景图像,则确定该场景检测单位中的两个镜头属于同 一个场景,若检测出该场景检测单位中的两个镜头均不存在设定场景图像,则 确定该场景检测单位中的两个镜头不属于同一个场景。
当然,为了提高视频场景划分的准确性,若检测出该场景检测单位中的两 个镜头均不存在设定场景图像,则还可以采用其他方式作进一步检测。
步骤604:根据各个场景检测单位各自对应的检测结果,对镜头集合中属 于同一个场景的各个镜头进行合并,得到各个合并镜头。
步骤605:根据各个合并镜头和镜头集合中的各个未合并镜头,得到视频 对应的各个视频场景。
其中,步骤601、步骤602、步骤604和步骤605的具体实现方式与上述 描述的具体实现方式类似,重复之处不再赘述。
本申请实施例中,为了提高视频场景划分的准确性,还可以将上述三种视 频场景划分方法进行结合,通过上述三种视频场景划分方法的结合方案,对视 频进行场景划分,下面以“新闻联播”为具体应用场景,对本申请实施例提供 的视频场景划分方法作进一步详细说明。
参阅图7所示,本申请实施例提供的视频场景划分方法的具体流程如下:
步骤701:对新闻联播视频进行镜头切分,得到该新闻联播视频对应的镜 头集合。
实际应用中,在对新闻联播视频进行镜头切分时,可以采用本申请实施例 提供的上述视频镜头切分方法进行镜头切分,重复之处不再赘述。
步骤702:将镜头集合中每相邻的两个镜头划分为一个场景检测单位,得 到该新闻联播视频对应的各个场景检测单位。
步骤703:分别对各个场景检测单位中的两个镜头进行聚类,得到各个场 景检测单位各自对应的聚类结果,其中,场景检测单位对应的聚类结果表征场 景检测单位中的两个镜头是否属于同一个场景。
实际应用中,聚类结果的获取方式可参见本申请实施例中提及的第一种聚 类方式、第二种聚类方式和第三种聚类方式,重复之处不再赘述。
步骤704:根据各个场景检测单位各自对应的聚类结果,从各个场景检测 单位中,筛选出各个目标场景检测单位,其中,目标场景检测单位是包含的两 个镜头属于同一个场景的场景检测单位。
步骤705:针对各个场景检测单位中除目标场景检测单位之外的其他每一 个场景检测单位,获取该场景检测单位中的两个镜头之间的语音停顿时间T, 若语音停顿时间T小于第一设定时间阈值T1,则执行步骤711;若语音停顿时 间T大于第二设定时间阈值T2,则执行步骤712;若语音停顿时间T在第一 设定时间阈值T1和第二设定时间阈值T2之间,则执行步骤706。
步骤706:获取该场景检测单位中的两个镜头各自对应的人物特征信息, 并检测两个人物特征信息表征的是不是同一个主持人,若两个人物特征信息表 征的不是同一个主持人,则执行步骤712;若两个人物特征信息表征的是同一 个主持人,则执行步骤707。
步骤707:检测该场景检测单位中的两个镜头的标题位置是否有标题名称, 若该场景检测单位中的前一个镜头的标题位置有标题名称,或者两个镜头的标 题位置均有标题名称,则执行步骤711;若检测出该场景检测单位中的两个镜 头的标题位置均没有标题名称,则执行步骤708。
步骤708:检测该场景检测单位中的两个镜头是否存在握手图像,若该场 景检测单位中的前一个镜头存在握手图像,或者两个镜头均存在握手图像,则 执行步骤711;若检测出该场景检测单位中的两个镜头均不存在握手图像,则 执行步骤709。
步骤709:检测该场景检测单位中的两个镜头是否存在事件相关人图像, 若该场景检测单位中的前一个镜头存在事件相关人图像,或者两个镜头均存在 事件相关人图像,则执行步骤711;若检测出该场景检测单位中的两个镜头均 不存在事件相关人图像,则执行步骤710。
步骤710:获取该场景检测单位中的两个镜头各自对应的文本信息,根据 该两个镜头各自对应的文本信息,获得该两个镜头各自对应的关键词集合,并 检测两个关键词集合之间的重合度是否不小于设定阈值,若是,则执行步骤711; 若否,则执行步骤712。
步骤711:确定该场景检测单位中的两个镜头属于同一个场景,并将该场 景检测单位确定为目标场景检测单位。
步骤712:确定该场景检测单位中的两个镜头不属于同一个场景。
步骤713:将相邻的各个目标场景检测单位整合至同一个镜头合并单位, 将不相邻的各个目标场景检测单位分别作为一个镜头合并单位。
步骤714:分别对各个镜头合并单位中的镜头进行合并,得到各个合并镜 头。
其中,基于聚类的场景检测方式、基于语音停顿的场景检测方式、基于人 物特征的场景检测方式、基于标题名称的场景检测方式、基于握手图像的场景 检测方式、基于事件相关人图像的场景检测方式和基于关键词的场景检测方式 等各个场景检测方式的使用顺序,可以根据实际应用场景进行相应调节,本申 请不作具体限定,图7为各个场景检测方式的使用顺序的一个示例。
值得说的是,随着人工智能(Artificial Intelligence,AI)技术的进步,AI 技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟 助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医 疗、智能客服等。
具体的,AI是利用数字计算机或者数字计算机控制的机器,模拟、延伸和 扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、 技术及应用系统。换句话说,AI是计算机科学的一个综合技术,企图了解智能 的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人 工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推 理与决策的功能。
AI既有硬件层面的技术,也有软件层面的技术。AI的基础技术一般包括 如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作 /交互系统、机电一体化等技术。AI的软件技术主要包括计算机视觉技术、语 音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向,其中:
计算机视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学, 更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量 等机器视觉,并进一步作图形处理,使电脑处理成为更适合人眼观察或传送给 仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试 图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术 通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识 别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等 技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition,ASR)和语音合成技术(Text To Speech,TTS)以及声纹 识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向, 逐渐成为未来最被看好的人机交互方式之一。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、 统计学、逼近论、凸分析、算法复杂度理论等多门学科,包括人工神经网络、 置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。专门研究计算 机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的 知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机 具有智能的根本途径,其应用遍及人工智能的各个领域。
随着AI技术的发展,AI技术在视频处理技术领域也得到了广泛应用,并 发挥越来越重要的价值。实际应用中,本申请实施例提供的视频场景划分方法 也可以通过AI技术实现,具体通过以下实施例进行说明。
本申请实施例提供了一种视频场景划分模型的建立方法,参阅图8所示, 该视频场景划分模型的建立方法的流程如下:
步骤801:采集待训练视频集合,其中,待训练视频集合包括各个待训练 视频。
步骤802:通过待训练视频场景划分模型,获取待训练视频集合中各个待 训练视频的预测场景划分边界信息,其中,预测场景划分边界信息至少包括待 训练视频的各个预测场景切分点。
步骤803:根据各个待训练视频的预测场景划分边界信息和真实场景划分 边界信息,采用损失函数对待训练视频场景划分模型进行训练,得到各个模型 参数,其中,真实场景划分边界信息为预先对待训练视频的各个真实场景切分 点进行标注后得到的。
步骤804:根据各个模型参数,生成视频场景划分模型。
本申请实施例中,视频场景划分模型建立完成后,即可通过视频场景划分 模型,对视频进行场景划分,即将视频输入视频场景划分模型,即可获得该视 频对应的各个视频场景,操作简单,通用性较强,而且,视频场景的划分效率 和准确度较高,此外,通过对划分出的各个视频场景进行重组,还可以形成新 的视频片段,实用性较强。
基于上述实施例,本申请实施例提供了一种视频场景划分装置,参阅图9 所示,本申请实施例提供的视频场景划分装置900至少包括:
视频切分单元901,用于对视频进行镜头切分,得到视频对应的镜头集合;
镜头划分单元902,用于将镜头集合中每相邻的两个镜头划分为一个场景 检测单位,得到镜头集合对应的各个场景检测单位;
聚类处理单元903,用于分别对各个场景检测单位中的两个镜头进行聚类, 得到各个场景检测单位各自对应的聚类结果,其中,场景检测单位对应的聚类 结果表征场景检测单位中的两个镜头是否归属于同一个场景;
镜头合并单元904,用于根据各个场景检测单位各自对应的聚类结果,对 镜头集合中归属于同一个场景的各个镜头进行合并,得到各个合并镜头;
场景获取单元905,用于根据各个合并镜头和镜头集合中的各个未合并镜 头,得到视频对应的各个视频场景。
在一种可能的实施方式中,在分别对各个场景检测单位中的两个镜头进行 聚类,得到各个场景检测单位各自对应的聚类结果时,聚类处理单元903用于:
针对每一个场景检测单位,获取场景检测单位中的两个镜头各自对应的目 标图像序列,分别对两个镜头各自对应的目标图像序列进行图像特征提取,得 到两个镜头各自对应的图像特征数据,基于两个镜头各自对应的图像特征数据, 利用图像聚类模型,获得场景检测单位对应的图像聚类结果;
和/或;
针对每一个场景检测单位,获取场景检测单位中的两个镜头各自对应的目 标语音信号,分别将两个镜头各自对应的目标语音信号转化为文本向量,基于 两个镜头各自对应的文本向量,并利用文本聚类模型,获得场景检测单位对应 的文本聚类结果;
分别将各个场景检测单位各自对应的图像聚类结果和/或文本聚类结果,确 定为各个场景检测单位各自对应的聚类结果。
在一种可能的实施方式中,在获取场景检测单位中的两个镜头各自对应的 目标图像序列时,聚类处理单元903用于:
获取场景检测单位中前一个镜头对应的所有图像,并将所有图像组成的图 像序列确定为前一个镜头对应的目标图像序列;获取场景检测单位中后一个镜 头对应的所有图像,并将所有图像组成的图像序列确定为后一个镜头对应的目 标图像序列;
或者;
获取场景检测单位中前一个镜头对应的所有图像中的后N帧图像,并将后 N帧图像组成的图像序列确定为前一个镜头对应的目标图像序列;获取场景检 测单位中后一个镜头对应的所有图像中的前M帧图像,并将前M帧图像组成 的图像序列确定为后一个镜头对应的目标图像序列,其中,N、M为大于1的 正整数。
在一种可能的实施方式中,在获取场景检测单位中的两个镜头各自对应的 目标语音信号时,聚类处理单元903用于:
获取场景检测单位中前一个镜头对应的所有语音信号,并将所有语音信号 确定为前一个镜头对应的目标语音信号;获取场景检测单位中后一个镜头对应 的所有语音信号,并将所有语音信号确定为后一个镜头对应的目标语音信号;
或者;
获取场景检测单位中前一个镜头的后N帧图像对应的语音信号,并将后N 帧图像对应的语音信号确定为前一个镜头对应的目标语音信号;获取场景检测 单位中后一个镜头的前M帧图像对应的语音信号,并将前M帧图像对应的语 音信号确定为后一个镜头对应的目标语音信号,其中,N、M为大于1的正整 数。
在一种可能的实施方式中,在根据所述各个场景检测单位各自对应的聚类 结果,对所述镜头集合中属于同一个场景的各个镜头进行合并,得到各个合并 镜头时,镜头合并单元904用于:
根据所述各个场景检测单位各自对应的聚类结果,从所述各个场景检测单 位中,筛选出各个目标场景检测单位,其中,所述目标场景检测单位是包含的 两个镜头属于同一个场景的场景检测单位;
将相邻的各个目标场景检测单位整合至同一个镜头合并单位,将不相邻的 各个目标场景检测单位分别作为一个镜头合并单位;
分别对各个镜头合并单位中的镜头进行合并,得到各个合并镜头。
在一种可能的实施方式中,本申请实施例提供的视频场景划分装置还包括 第一检测单元906,其中:
第一检测单元906,用于在镜头划分单元902将镜头集合中每相邻的两个 镜头划分为一个场景检测单位,得到镜头集合对应的各个场景检测单位之后, 针对每一个场景检测单位,获取场景检测单位中的两个镜头各自对应的目标语 音信号,分别将两个镜头各自对应的目标语音信号转化为文本信息,并根据两 个镜头各自对应的文本信息,获得两个镜头各自对应的关键词集合,根据两个 镜头各自对应的关键词集合的重合度,检测场景检测单位中的两个镜头是否属 于同一个场景;
场景获取单元905,用于根据第一检测单元906获得的各个场景检测单位 各自对应的检测结果,对镜头集合中属于同一个场景的各个镜头进行合并,得 到视频对应的各个视频场景。
在一种可能的实施方式中,本申请实施例提供的视频场景划分装置还包括 第二检测单元907,其中:
第二检测单元907,用于在镜头划分单元902将镜头集合中每相邻的两个 镜头划分为一个场景检测单位,得到镜头集合对应的各个场景检测单位之后, 获取为视频配置的各个场景检测方式,并从各个场景检测方式中选取至少一个 场景检测方式,以及基于至少一个场景检测方式,分别对各个场景检测单位中 的两个镜头是否属于同一个场景进行检测,得到各个场景检测单位各自对应的 检测结果;
场景获取单元905,用于根据第二检测单元907获得的各个场景检测单位 各自对应的检测结果,对镜头集合中属于同一个场景的各个镜头进行合并,得 到视频对应的各个视频场景。
需要说明的是,当本申请实施例提供的视频场景划分方法由服务器执行时, 本申请实施例提供的视频场景划分装置900可以设置于服务器中,当本申请实 施例提供的视频场景划分方法终端设备执行时,本申请实施例提供的视频场景 划分装置900可以设置于终端设备中。
此外,本申请实施例提供的视频场景划分装置900解决技术问题的原理与 本申请实施例提供的视频场景划分方法相似,因此,本申请实施例提供的视频 场景划分装置900的实施可以参见本申请实施例提供的视频场景划分方法的实 施,重复之处不再赘述。
在介绍了本申请实施例提供的视频场景划分系统、方法和装置之后,接下 来,对本申请实施例提供的视频场景划分设备进行简单介绍。
本申请实施例提供的视频场景划分设备100可以是终端设备,也可以是服 务器,参阅图10所示,本申请实施例提供的视频场景划分设备100至少包括: 处理器101、存储器102和存储在存储器102上并可在处理器101上运行的计 算机程序,处理器101执行计算机程序时实现本申请实施例提供的视频场景划 分方法。
需要说明的是,图10所示的视频场景划分设备100仅仅是一个示例,不 应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供的视频场景划分设备100还可以包括连接不同组件(包 括处理器101和存储器102)的总线103。其中,总线103表示几类总线结构 中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器102可以包括易失性存储器形式的可读介质,例如随机存储器 (RandomAccess Memory,RAM)1021和/或高速缓存存储器1022,还可以进 一步包括只读存储器(Read Only Memory,ROM)1023。
存储器102还可以包括具有一组(至少一个)程序模块1024的程序工具 1025,程序模块1024包括但不限于:操作子系统、一个或者多个应用程序、 其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络 环境的实现。
视频场景划分设备100也可以与一个或多个外部设备104(例如键盘、遥 控器等)通信,还可以与一个或者多个使得用户能与视频场景划分设备100交 互的设备通信(例如手机、电脑等),和/或,与使得视频场景划分设备100与 一个或多个其它视频场景划分设备100进行通信的任何设备(例如路由器、调 制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口105 进行。并且,视频场景划分设备100还可以通过网络适配器106与一个或者多 个网络(例如局域网(Local Area Network,LAN),广域网(Wide AreaNetwork, WAN)和/或公共网络,例如因特网)通信。如图10所示,网络适配器106通 过总线103与视频场景划分设备100的其它模块通信。应当理解,尽管图10 中未示出,可以结合视频场景划分设备100使用其它硬件和/或软件模块,包括 但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列 (Redundant Arrays of Independent Disks,RAID)子系统、磁带驱动器以及数 据备份存储子系统等。
下面对本申请实施例提供的计算机可读存储介质进行介绍。本申请实施例 提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令, 计算机指令被处理器执行时实现本申请实施例提供的视频场景划分方法。具体 地,该可执行程序可以内置或者安装在视频场景划分设备100中,这样,视频 场景划分设备100就可以通过执行内置或者安装的可执行程序实现本申请实施 例提供的视频场景划分方法。
此外,本申请实施例提供的视频场景划分方法还可以实现为一种程序产品, 该程序产品包括程序代码,当该程序产品可以在视频场景划分设备100上运行 时,该程序代码用于使视频场景划分设备100执行本申请实施例提供的视频场 景划分方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合, 其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以 是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或 者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表) 包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦 式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、 光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、 光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可 以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申 请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可 以被指令执行系统、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是 这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上 文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文 描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非 要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的 操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤 合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱 离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属 于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和 变型在内。
Claims (10)
1.一种视频场景划分方法,其特征在于,包括:
对视频进行镜头切分,得到所述视频对应的镜头集合;
将所述镜头集合中每相邻的两个镜头划分为一个场景检测单位,得到所述镜头集合对应的各个场景检测单位;
分别对所述各个场景检测单位中的两个镜头进行聚类,得到所述各个场景检测单位各自对应的聚类结果,其中,场景检测单位对应的聚类结果表征所述场景检测单位中的两个镜头是否属于同一个场景;
根据所述各个场景检测单位各自对应的聚类结果,对所述镜头集合中属于同一个场景的各个镜头进行合并,得到各个合并镜头;
根据所述各个合并镜头和所述镜头集合中的各个未合并镜头,得到所述视频对应的各个视频场景。
2.如权利要求1所述的视频场景划分方法,其特征在于,分别对所述各个场景检测单位中的两个镜头进行聚类,得到所述各个场景检测单位各自对应的聚类结果,包括:
针对每一个场景检测单位,获取所述场景检测单位中的两个镜头各自对应的目标图像序列,分别对所述两个镜头各自对应的目标图像序列进行图像特征提取,得到所述两个镜头各自对应的图像特征数据,基于所述两个镜头各自对应的图像特征数据,利用图像聚类模型,获得所述场景检测单位对应的图像聚类结果;和/或,
针对每一个场景检测单位,获取所述场景检测单位中的两个镜头各自对应的目标语音信号,分别将所述两个镜头各自对应的目标语音信号转化为文本向量,基于所述两个镜头各自对应的文本向量,并利用文本聚类模型,获得所述场景检测单位对应的文本聚类结果;
分别将所述各个场景检测单位各自对应的图像聚类结果和/或文本聚类结果,确定为所述各个场景检测单位各自对应的聚类结果。
3.如权利要求2所述的视频场景划分方法,其特征在于,获取所述场景检测单位中的两个镜头各自对应的目标图像序列,包括:
获取所述场景检测单位中前一个镜头对应的所有图像,并将所有图像组成的图像序列确定为所述前一个镜头对应的目标图像序列,以及,获取所述场景检测单位中后一个镜头对应的所有图像,并将所有图像组成的图像序列确定为所述后一个镜头对应的目标图像序列;或者,
获取所述场景检测单位中前一个镜头对应的所有图像中的后N帧图像,并将后N帧图像组成的图像序列确定为所述前一个镜头对应的目标图像序列,以及,获取所述场景检测单位中后一个镜头对应的所有图像中的前M帧图像,并将前M帧图像组成的图像序列确定为所述后一个镜头对应的目标图像序列,其中,N、M为大于1的正整数。
4.如权利要求2所述的视频场景划分方法,其特征在于,获取所述场景检测单位中的两个镜头各自对应的目标语音信号,包括:
获取所述场景检测单位中前一个镜头对应的所有语音信号,并将所有语音信号确定为所述前一个镜头对应的目标语音信号,以及,获取所述场景检测单位中后一个镜头对应的所有语音信号,并将所有语音信号确定为所述后一个镜头对应的目标语音信号;或者,
获取所述场景检测单位中前一个镜头的后N帧图像对应的语音信号,并将后N帧图像对应的语音信号确定为所述前一个镜头对应的目标语音信号,以及,获取所述场景检测单位中后一个镜头的前M帧图像对应的语音信号,并将前M帧图像对应的语音信号确定为所述后一个镜头对应的目标语音信号,其中,N、M为大于1的正整数。
5.如权利要求1所述的视频场景划分方法,其特征在于,根据所述各个场景检测单位各自对应的聚类结果,对所述镜头集合中属于同一个场景的各个镜头进行合并,得到各个合并镜头,包括:
根据所述各个场景检测单位各自对应的聚类结果,从所述各个场景检测单位中,筛选出各个目标场景检测单位,其中,所述目标场景检测单位是包含的两个镜头属于同一个场景的场景检测单位;
将相邻的各个目标场景检测单位整合至同一个镜头合并单位,将不相邻的各个目标场景检测单位分别作为一个镜头合并单位;
分别对各个镜头合并单位中的镜头进行合并,得到所述各个合并镜头。
6.如权利要求1-5任一项所述的视频场景划分方法,其特征在于,将所述镜头集合中每相邻的两个镜头划分为一个场景检测单位,得到所述镜头集合对应的各个场景检测单位之后,还包括:
针对每一个场景检测单位,获取所述场景检测单位中的两个镜头各自对应的目标语音信号,分别将所述两个镜头各自对应的目标语音信号转化为文本信息,并根据所述两个镜头各自对应的文本信息,获得所述两个镜头各自对应的关键词集合,根据所述两个镜头各自对应的关键词集合的重合度,检测所述场景检测单位中的两个镜头是否属于同一个场景;
根据所述各个场景检测单位各自对应的检测结果,对所述镜头集合中属于同一个场景的各个镜头进行合并,得到所述视频对应的各个视频场景。
7.如权利要求1-5任一项所述的视频场景划分方法,其特征在于,将所述镜头集合中每相邻的两个镜头划分为一个场景检测单位,得到所述镜头集合对应的各个场景检测单位之后,还包括:
获取为所述视频配置的各个场景检测方式,并从所述各个场景检测方式中选取至少一个场景检测方式;
基于所述至少一个场景检测方式,分别对所述各个场景检测单位中的两个镜头是否属于同一个场景进行检测,得到所述各个场景检测单位各自对应的检测结果;
根据所述各个场景检测单位各自对应的检测结果,对所述镜头集合中属于同一个场景的各个镜头进行合并,得到所述视频对应的各个视频场景。
8.一种视频场景划分装置,其特征在于,包括:
视频切分单元,用于对视频进行镜头切分,得到所述视频对应的镜头集合;
镜头划分单元,用于将所述镜头集合中每相邻的两个镜头划分为一个场景检测单位,得到所述镜头集合对应的各个场景检测单位;
聚类处理单元,用于分别对所述各个场景检测单位中的两个镜头进行聚类,得到所述各个场景检测单位各自对应的聚类结果,其中,场景检测单位对应的聚类结果表征所述场景检测单位中的两个镜头是否归属于同一个场景;
镜头合并单元,用于根据所述各个场景检测单位各自对应的聚类结果,对所述镜头集合中归属于同一个场景的各个镜头进行合并,得到各个合并镜头;
场景获取单元,用于根据所述各个合并镜头和所述镜头集合中的各个未合并镜头,得到所述视频对应的各个视频场景。
9.一种视频场景划分设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的视频场景划分方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-7任一项所述的视频场景划分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910804662.7A CN110619284B (zh) | 2019-08-28 | 2019-08-28 | 一种视频场景划分方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910804662.7A CN110619284B (zh) | 2019-08-28 | 2019-08-28 | 一种视频场景划分方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619284A true CN110619284A (zh) | 2019-12-27 |
CN110619284B CN110619284B (zh) | 2023-09-05 |
Family
ID=68922042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910804662.7A Active CN110619284B (zh) | 2019-08-28 | 2019-08-28 | 一种视频场景划分方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619284B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417952A (zh) * | 2020-10-10 | 2021-02-26 | 北京理工大学 | 一种车辆碰撞防控系统的环境视频信息可用性测评方法 |
CN113255628A (zh) * | 2021-07-15 | 2021-08-13 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的景别识别方法 |
CN113709584A (zh) * | 2021-03-05 | 2021-11-26 | 腾讯科技(北京)有限公司 | 视频划分方法、装置、服务器、终端及存储介质 |
CN113810782A (zh) * | 2020-06-12 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 视频处理方法及设备、服务器、电子设备 |
CN113810765A (zh) * | 2021-09-17 | 2021-12-17 | 北京百度网讯科技有限公司 | 视频处理方法、装置、设备和介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008005167A (ja) * | 2006-06-21 | 2008-01-10 | Hokkaido Univ | 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体 |
CN101719144A (zh) * | 2009-11-04 | 2010-06-02 | 中国科学院声学研究所 | 一种联合字幕和视频图像信息进行场景分割和索引的方法 |
US20110225196A1 (en) * | 2008-03-19 | 2011-09-15 | National University Corporation Hokkaido University | Moving image search device and moving image search program |
CN103440640A (zh) * | 2013-07-26 | 2013-12-11 | 北京理工大学 | 一种视频场景聚类及浏览方法 |
US20140093164A1 (en) * | 2012-10-01 | 2014-04-03 | Microsoft Corporation | Video scene detection |
CN104243769A (zh) * | 2014-09-12 | 2014-12-24 | 刘鹏 | 基于自适应阈值的视频场景变化检测方法 |
CN106878632A (zh) * | 2017-02-28 | 2017-06-20 | 北京知慧教育科技有限公司 | 一种视频数据的处理方法和装置 |
CN108509917A (zh) * | 2018-03-30 | 2018-09-07 | 北京影谱科技股份有限公司 | 基于镜头类相关性分析的视频场景分割方法和装置 |
CN108810620A (zh) * | 2018-07-18 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 识别视频中的关键时间点的方法、计算机设备及存储介质 |
CN109344780A (zh) * | 2018-10-11 | 2019-02-15 | 上海极链网络科技有限公司 | 一种基于声音和视觉的多模态视频场景分割方法 |
CN109525892A (zh) * | 2018-12-03 | 2019-03-26 | 易视腾科技股份有限公司 | 视频关键场景提取方法及装置 |
-
2019
- 2019-08-28 CN CN201910804662.7A patent/CN110619284B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008005167A (ja) * | 2006-06-21 | 2008-01-10 | Hokkaido Univ | 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体 |
US20110225196A1 (en) * | 2008-03-19 | 2011-09-15 | National University Corporation Hokkaido University | Moving image search device and moving image search program |
CN101719144A (zh) * | 2009-11-04 | 2010-06-02 | 中国科学院声学研究所 | 一种联合字幕和视频图像信息进行场景分割和索引的方法 |
US20140093164A1 (en) * | 2012-10-01 | 2014-04-03 | Microsoft Corporation | Video scene detection |
CN103440640A (zh) * | 2013-07-26 | 2013-12-11 | 北京理工大学 | 一种视频场景聚类及浏览方法 |
CN104243769A (zh) * | 2014-09-12 | 2014-12-24 | 刘鹏 | 基于自适应阈值的视频场景变化检测方法 |
CN106878632A (zh) * | 2017-02-28 | 2017-06-20 | 北京知慧教育科技有限公司 | 一种视频数据的处理方法和装置 |
CN108509917A (zh) * | 2018-03-30 | 2018-09-07 | 北京影谱科技股份有限公司 | 基于镜头类相关性分析的视频场景分割方法和装置 |
CN108810620A (zh) * | 2018-07-18 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 识别视频中的关键时间点的方法、计算机设备及存储介质 |
CN109344780A (zh) * | 2018-10-11 | 2019-02-15 | 上海极链网络科技有限公司 | 一种基于声音和视觉的多模态视频场景分割方法 |
CN109525892A (zh) * | 2018-12-03 | 2019-03-26 | 易视腾科技股份有限公司 | 视频关键场景提取方法及装置 |
Non-Patent Citations (1)
Title |
---|
郭小川;刘明杰;王婧璐;董道国;万乾荣;: "基于频繁镜头集合的视频场景分割方法", 计算机应用与软件, no. 06 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113810782A (zh) * | 2020-06-12 | 2021-12-17 | 阿里巴巴集团控股有限公司 | 视频处理方法及设备、服务器、电子设备 |
CN112417952A (zh) * | 2020-10-10 | 2021-02-26 | 北京理工大学 | 一种车辆碰撞防控系统的环境视频信息可用性测评方法 |
CN113709584A (zh) * | 2021-03-05 | 2021-11-26 | 腾讯科技(北京)有限公司 | 视频划分方法、装置、服务器、终端及存储介质 |
CN113255628A (zh) * | 2021-07-15 | 2021-08-13 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的景别识别方法 |
CN113255628B (zh) * | 2021-07-15 | 2021-10-15 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的景别识别方法 |
CN113810765A (zh) * | 2021-09-17 | 2021-12-17 | 北京百度网讯科技有限公司 | 视频处理方法、装置、设备和介质 |
CN113810765B (zh) * | 2021-09-17 | 2023-08-29 | 北京百度网讯科技有限公司 | 视频处理方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110619284B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12094209B2 (en) | Video data processing method and apparatus, device, and medium | |
CN110619284B (zh) | 一种视频场景划分方法、装置、设备及介质 | |
WO2020177673A1 (zh) | 一种视频序列选择的方法、计算机设备及存储介质 | |
Tiwari et al. | A survey of recent work on video summarization: approaches and techniques | |
CN113395578B (zh) | 一种提取视频主题文本的方法、装置、设备及存储介质 | |
Shroff et al. | Video précis: Highlighting diverse aspects of videos | |
Sreeja et al. | Towards genre-specific frameworks for video summarisation: A survey | |
CN112100438A (zh) | 一种标签抽取方法、设备及计算机可读存储介质 | |
CN109525892B (zh) | 视频关键场景提取方法及装置 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN114283351A (zh) | 视频场景分割方法、装置、设备及计算机可读存储介质 | |
CN114550070A (zh) | 视频片段的识别方法、装置、设备以及存储介质 | |
CN113766299A (zh) | 一种视频数据播放方法、装置、设备以及介质 | |
Tliba et al. | Satsal: A multi-level self-attention based architecture for visual saliency prediction | |
CN114359775A (zh) | 关键帧检测方法、装置、设备及存储介质、程序产品 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN115909374A (zh) | 一种信息识别方法、装置、设备及存储介质、程序产品 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
CN116975349A (zh) | 图像检索方法、装置、电子设备及存储介质 | |
KR20210047467A (ko) | 이미지 다중 캡션 자동 생성 방법 및 시스템 | |
CN114461853A (zh) | 视频场景分类模型的训练样本生成方法、装置及设备 | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
Adly et al. | Issues and challenges for content-based video search engines a survey | |
Feng et al. | Css-net: A consistent segment selection network for audio-visual event localization | |
Hu et al. | MmFilter: Language-guided video analytics at the edge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40018313 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |