CN110197135A - 一种基于多维分割的视频结构化方法 - Google Patents

一种基于多维分割的视频结构化方法 Download PDF

Info

Publication number
CN110197135A
CN110197135A CN201910394330.6A CN201910394330A CN110197135A CN 110197135 A CN110197135 A CN 110197135A CN 201910394330 A CN201910394330 A CN 201910394330A CN 110197135 A CN110197135 A CN 110197135A
Authority
CN
China
Prior art keywords
video
frame
segmentation
audio
key frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910394330.6A
Other languages
English (en)
Other versions
CN110197135B (zh
Inventor
胡燕祝
田雯嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910394330.6A priority Critical patent/CN110197135B/zh
Publication of CN110197135A publication Critical patent/CN110197135A/zh
Application granted granted Critical
Publication of CN110197135B publication Critical patent/CN110197135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明主要提供一种基于多维分割的视频结构化方法,具体内容包括:步骤一:视频解析;步骤二:场景分割中的关键帧提取;步骤三:基于关键帧的场景分割;步骤四,视频的音频分割;步骤五,视频的语义分割;步骤六,信息熵为目标函数的分割规则。本发明对同一段视频在场景、声音、文本三个维度上进行分割后,采用了信息熵的形式对分割规则进行了评价。与其他视频结构化方法相比,本发明结合图像序列中像素在时间域上的变化以及相邻帧之间的相关性以及上一帧与当前帧之间的对应关系对视频在图像维度实现了很好的分割,保留了视频的关键信息,可以提供一种有效的视频结构化方法。

Description

一种基于多维分割的视频结构化方法
技术领域
本发明主要涉及了一种视频结构化方法,特别是涉及一种基于多维分割的视频结构化方法。
背景技术
目前针对视频结构化问题,大多数都是对视频进行图像这一单维要素方面的分割,在基于多维分割的视频结构化方法研究涉及较少。而在实际中,视频中包含的音频信息、文字信息等对视频监控工作也发挥着重要作用。此外,在对视频中的运动物体进行分割提取关键帧时,为了考虑运算效率问题,仅仅是取视频当中的某一帧作为关键帧,往往会忽略视频中包含的重要信息,或者是通过设置阈值的方式对视频帧依次进行视觉特征比对来选取关键帧,以上方法均没有考虑图像序列中像素在时间域上的变化以及相邻帧之间的相关性以及上一帧与当前帧之间的对应关系。同时,在对同一段视频进行场景、声音、文本三个维度上的分割后,得到了不同时间段的视频。在这三个维度上分割得到的视频并不能完全对齐,会产生交叉的情况。因此,需要建立一种基于图像、音频、文本等多维分割的视频结构化方法。
当前在视频结构化方面的应用非常广泛。例如,视频结构化技术在安防行业的应用、公共安全中的视频结构化以及基于视频结构化描述技术的车辆大数据系统等。随着城市视频监控系统的大规模部署,视频监控已深入城市各个角落,在智能交通、政府监管、企业运营等各行各业产生大量的监控视频数据。随着边缘计算、云计算、大数据技术的不断深入,面向大规模实时视频监控数据,要想对视频流数据进行实时的时空信息标注,字符提取、特征提取,目标分类,结构化标注等图像处理工作,并快速传输给中心计算处理,需要构建一种基于多维分割的视频结构化方法,为我国政府及各企业运营提供实时高效的监控手段。
发明内容
针对上述现有技术中存在的问题,本发明主要提供一种基于多维分割的视频结构化方法,其具体流程如图1所示。
技术方案实施步骤如下:
步骤一:视频解析。
视频解析的第一步是数据接收,需要对视频做一个解复用的处理,分解为图像轨道、音频轨道、字幕轨道。
步骤二:场景分割中的关键帧提取。
关键帧提取方法主要分为五类,具体方法如图2所示。
(1)基于边界提取关键帧。该方法把每个镜头第一帧和最后一帧或中间帧直接作为关键帧选取出来。这样运算量小,适合于内容活动性小或保持不变的镜头。
(2)基于视觉特征提取关键帧。该方法首先选择第一帧作为最近的关键帧,然后,后面的帧依次与其比较视觉特征,这些特征包括颜色、运动、边缘、形状和空间关系等。如果当前帧和最近的关键帧之间的差值超过了一个预定的阈值,那么当前帧就被选为关键帧。
(3)基于聚类提取关键帧。这类方法使用了聚类技术,将一个镜头的所有帧进行聚类,然后根据某些准则,比如类别中的帧数,在这些类别中选取关键类别,再在关键类别中选取聚类参数最小的帧作为关键帧。
(4)基于多模式提取关键帧。该类方法主要是模仿人类感知能力进行精简视频内容分析,一般是综合视频、音频、文本等。比如,在电影、体育等视频中的场景切换,视频与音频内容往往同时变化,所以就需要用多模式的提取方法,当镜头边界的音频和视频特征同时变化较大时,该镜头边界为新的场景边界。
(5)基于压缩域提取关键帧。基于压缩域的方法无需对视频流解压或只需部分解压,直接从MPEG压缩视频流上提取关键帧,降低了计算的复杂性。
步骤三:基于关键帧的场景分割。
主要包括如下三个方面:
(1)基于帧间差分检测。帧间差分法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法,它可以很好地适用于存在多个运动目标和摄像机移动的情况。
(2)基于背景差分检测。背景差分法是一种对静止场景进行运动分割的通用方法,它将当前获取的图像帧与背景图像做差分运算,得到目标运动区域的灰度图,对灰度图进行阈值化提取运动区域,而且为避免环境光照变化影响,背景图像根据当前获取图像帧进行更新。具体内容如图3所示。
(3)基于光流法检测。光流法利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,根据上一帧与当前帧之间的对应关系,计算得到相邻帧之间物体的运动信息。
(4)分割后的视频,可以被表示为x1,…,xi,其中x表示被分割的视频的时间段,i表示被分割视频的个数。
步骤四:视频的音频分割。
基于EMD的音频分割方法,具体过程如下:
(1)原音频数据序列X(t),确定所有极大值点,并用三次样条插值函数拟合形成原数据的上包络线。
(2)找出所有的极小值点,并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线。
(3)上包络线和下包络线的均值记作ml,将原数据序列X(t)减去该平均包络ml,得到一个新的音频数据序列hl,如公式所示:
hl=x(t)-ml
(4)对EMD分解后的音频数据进行聚类分割。
(5)分割后的音频,可以被表示为y1,…,yj,其中y表示被分割的音频的时间段,j表示被分割音频的个数。
步骤五:视频的语义分割。
对于段落的语义分割,主要包含如下几个方面:
(1)定义语义块。语义块是指将一个句子分割为若干个相对独立的语义单元,长度基于词义之上句义之下;是一种语法、语义、语用关联的预处理手段。各语义块之间非递归、非嵌套、不重叠。
(2)句义分割。自然语言处理通常需要分析三个方面:语法,语义和上下文,因此首先进行文本分词及词性标的统计处理工作,进行完词分类后,对其进行快速标注工作,随后对于词进行语义重组,最后在根据定义好的语义块,进行句义分割。
(3)分割后的段落,可以被表示为z1,…,zk,其中z表示被分割的音频的时间段,k表示被分割音频的个数。
步骤六:信息熵为目标函数的分割规则。
对于同一段视频,进行上面的场景、声音、段落三个维度上进行分割后,得到了不同时间段的视频,在三个维度分割的视频,并不能完全对齐,会产生交叉的情况,因此本发明采用信息熵的形式,对上述指标进行评价。
∑[p(t|x1),…,p(t|xi)]=∑[p(t|y1),…,p(t|yj)]=∑[p(t|z1),…,p(t|zk)]=1
其中,t表示每一秒的视频,p(t|)是指当前在各个维度分割视频段的出现概率。
根据此公式,信息熵公式如下:
H(t)=-{p(t|x)log[p(t|x)]+p(t|y)log[p(t|y)]+p(t|z)log[p(t|z)]}
其中,H(t)为在视频某时刻的信息熵的数值,而形成的信息熵序列。对H(t)进行一阶、二阶处理,看信息熵序列是否平滑。
本发明比现有技术具有的优点:
(1)本发明结合图像序列中像素在时间域上的变化以及相邻帧之间的相关性以及上一帧与当前帧之间的对应关系对视频在图像维度实现了很好的分割,保留了视频的关键信息。
(2)本发明对同一段视频在场景、声音、文本三个维度上进行分割后,采用了信息熵的形式对分割规则进行了评价。
为了更好地理解本发明,下面结合附图作进一步的说明。
图1是建立基于多维要素的视频分割规则评判方法步骤流程图;
图2是关键帧提取方法示意图;
图3是基于背景差分检测方法的内容示意图;
具体实施方案
下面通过实施案例对本发明作进一步详细说明。
技术方案实施步骤如下:
步骤一:视频解析。
视频解析的第一步是数据接收,需要对视频做一个解复用的处理,分解为图像轨道、音频轨道、字幕轨道。
对北京市某处的交通监控视频进行解复用处理,视频时长1分50秒,将其分解为图像轨道、音频轨道和字幕轨道,分解后的音频轨道、字幕轨道时长为1分50秒。
步骤二:场景分割中的关键帧提取。
关键帧提取方法主要分为五类,具体方法如图2所示。
(1)基于边界提取关键帧。该方法把每个镜头第一帧和最后一帧或中间帧直接作为关键帧选取出来。这样运算量小,适合于内容活动性小或保持不变的镜头。
(2)基于视觉特征提取关键帧。该方法首先选择第一帧作为最近的关键帧,然后,后面的帧依次与其比较视觉特征,这些特征包括颜色、运动、边缘、形状和空间关系等。如果当前帧和最近的关键帧之间的差值超过了一个预定的阈值,那么当前帧就被选为关键帧。
(3)基于聚类提取关键帧。这类方法使用了聚类技术,将一个镜头的所有帧进行聚类,然后根据某些准则,比如类别中的帧数,在这些类别中选取关键类别,再在关键类别中选取聚类参数最小的帧作为关键帧。
(4)基于多模式提取关键帧。该类方法主要是模仿人类感知能力进行精简视频内容分析,一般是综合视频、音频、文本等。比如,在电影、体育等视频中的场景切换,视频与音频内容往往同时变化,所以就需要用多模式的提取方法,当镜头边界的音频和视频特征同时变化较大时,该镜头边界为新的场景边界。
(5)基于压缩域提取关键帧。基于压缩域的方法无需对视频流解压或只需部分解压,直接从MPEG压缩视频流上提取关键帧,降低了计算的复杂性。
本例中,采用聚类提取关键帧的方法对视频进行处理,将关键帧聚类为5大类。
步骤三:基于关键帧的场景分割。
主要包括如下三个方面:
(1)基于帧间差分检测。帧间差分法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法,它可以很好地适用于存在多个运动目标和摄像机移动的情况。
(2)基于背景差分检测。背景差分法是一种对静止场景进行运动分割的通用方法,它将当前获取的图像帧与背景图像做差分运算,得到目标运动区域的灰度图,对灰度图进行阈值化提取运动区域,而且为避免环境光照变化影响,背景图像根据当前获取图像帧进行更新。具体内容如图3所示。
(3)基于光流法检测。光流法利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,根据上一帧与当前帧之间的对应关系,计算得到相邻帧之间物体的运动信息。
(4)分割后的视频,可以被表示为x1,…,xi,其中x表示被分割的视频的时间段,i表示被分割视频的个数。
对视频进行关键帧提取以后,采用光流法检测技术对视频进行分割,分割后的视频共有25段,分别为x1,x2,...,x25
步骤四:视频的音频分割。
基于EMD的音频分割方法,具体过程如下:
(1)原音频数据序列X(t),确定所有极大值点,并用三次样条插值函数拟合形成原数据的上包络线。
(2)找出所有的极小值点,并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线。
(3)上包络线和下包络线的均值记作ml,将原数据序列X(t)减去该平均包络ml,得到一个新的音频数据序列hl,如公式所示:
M=X(t)-ml
(4)对EMD分解后的音频数据进行聚类分割。
(5)分割后的音频,可以被表示为y1,…,yj,其中y表示被分割的音频的时间段,j表示被分割音频的个数。
原音频数据序列X(t)中包含的极大值点分别有2.3,2.1,2,1.9,1.8,1.7,0.9,0.8。极小值分别有-1.9, -2.1,-2.6,-3.0,0,-1.0,-0.5。计算上包络线的均值为1.6875,下包络线的均值为-1.586。分割后的音频个数为25个,分别为y1,y2,...,y25
步骤五:视频的语义分割。
对于段落的语义分割,主要包含如下几个方面:
(1)定义语义块。语义块是指将一个句子分割为若干个相对独立的语义单元,长度基于词义之上句义之下;是一种语法、语义、语用关联的预处理手段。各语义块之间非递归、非嵌套、不重叠。
(2)句义分割。自然语言处理通常需要分析三个方面:语法,语义和上下文,因此首先进行文本分词及词性标的统计处理工作,进行完词分类后,对其进行快速标注工作,随后对于词进行语义重组,最后在根据定义好的语义块,进行句义分割。
(3)分割后的段落,可以被表示为z1,…,zk,其中z表示被分割的文本的时间段,k表示被分割文本的个数。
分割后的文本个数为25个,分别为z1,z2,...,z25,具体内容有“十字路口右转”,“行人止步”,“车辆拥堵现象严重”等。
步骤六:信息熵为目标函数的分割规则。
对于同一段视频,进行上面的场景、声音、段落三个维度上进行分割后,得到了不同时间段的视频,在三个维度分割的视频,并不能完全对齐,会产生交叉的情况,因此本发明采用信息熵的形式,对上述指标进行评价。
∑[p(t|x1),…,p(t|xi)]=∑[p(t|y1),…,p(t|yj)]=∑[p(t|z1),…,p(t|zk)]=1
其中,t表示每一秒的视频,p(t|)是指当前在各个维度分割视频段的出现概率。
根据此公式,信息熵公式如下:
H(t)=-{p(t|x)log[p(t|x)]+p(t|y)log[p(t|y)]+p(t|z)log[p(t|z)]}
其中,H(t)为在视频某时刻的信息熵的数值,而形成的信息熵序列。对H(t)进行一阶、二阶处理,看信息熵序列是否平滑。
本例中,在视频15s-30s时间段内信息熵的数值分别为0.77,0.22,0,0.25,0,0.18,0.82,0.77,0.22, 0,0.25,0.75,0.125,0.18,0.82。

Claims (1)

1.本发明主要提供一种基于多维分割的视频结构化方法,其特征在于:
步骤一:视频解析。
视频解析的第一步是数据接收,需要对视频做一个解复用的处理,分解为图像轨道、音频轨道、字幕轨道。
步骤二:场景分割中的关键帧提取。
关键帧提取方法主要分为五类,具体方法如图2所示。
(1)基于边界提取关键帧。该方法把每个镜头第一帧和最后一帧或中间帧直接作为关键帧选取出来。这样运算量小,适合于内容活动性小或保持不变的镜头。
(2)基于视觉特征提取关键帧。该方法首先选择第一帧作为最近的关键帧,然后,后面的帧依次与其比较视觉特征,这些特征包括颜色、运动、边缘、形状和空间关系等。如果当前帧和最近的关键帧之间的差值超过了一个预定的阈值,那么当前帧就被选为关键帧。
(3)基于聚类提取关键帧。这类方法使用了聚类技术,将一个镜头的所有帧进行聚类,然后根据某些准则,比如类别中的帧数,在这些类别中选取关键类别,再在关键类别中选取聚类参数最小的帧作为关键帧。
(4)基于多模式提取关键帧。该类方法主要是模仿人类感知能力进行精简视频内容分析,一般是综合视频、音频、文本等。比如,在电影、体育等视频中的场景切换,视频与音频内容往往同时变化,所以就需要用多模式的提取方法,当镜头边界的音频和视频特征同时变化较大时,该镜头边界为新的场景边界。
(5)基于压缩域提取关键帧。基于压缩域的方法无需对视频流解压或只需部分解压,直接从MPEG压缩视频流上提取关键帧,降低了计算的复杂性。
步骤三:基于关键帧的场景分割。
主要包括如下三个方面:
(1)基于帧间差分检测。帧间差分法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法,它可以很好地适用于存在多个运动目标和摄像机移动的情况。
(2)基于背景差分检测。背景差分法是一种对静止场景进行运动分割的通用方法,它将当前获取的图像帧与背景图像做差分运算,得到目标运动区域的灰度图,对灰度图进行阈值化提取运动区域,而且为避免环境光照变化影响,背景图像根据当前获取图像帧进行更新。具体内容如图3所示。
(3)基于光流法检测。光流法利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,根据上一帧与当前帧之间的对应关系,计算得到相邻帧之间物体的运动信息。
(4)分割后的视频,可以被表示为x1,…,xi,其中x表示被分割的视频的时间段,i表示被分割视频的个数。
步骤四:视频的音频分割。
基于EMD的音频分割方法,具体过程如下:
(1)原音频数据序列X(t),确定所有极大值点,并用三次样条插值函数拟合形成原数据的上包络线。
(2)找出所有的极小值点,并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线。
(3)上包络线和下包络线的均值记作ml,将原数据序列X(t)减去该平均包络ml,得到一个新的音频数据序列hl,如公式所示:
hl=x(t)-ml
(4)对EMD分解后的音频数据进行聚类分割。
(5)分割后的音频,可以被表示为y1,…,yj,其中y表示被分割的音频的时间段,j表示被分割音频的个数。
步骤五:视频的语义分割。
对于段落的语义分割,主要包含如下几个方面:
(1)定义语义块。语义块是指将一个句子分割为若干个相对独立的语义单元,长度基于词义之上句义之下;是一种语法、语义、语用关联的预处理手段。各语义块之间非递归、非嵌套、不重叠。
(2)句义分割。自然语言处理通常需要分析三个方面:语法,语义和上下文,因此首先进行文本分词及词性标的统计处理工作,进行完词分类后,对其进行快速标注工作,随后对于词进行语义重组,最后在根据定义好的语义块,进行句义分割。
(3)分割后的段落,可以被表示为z1,…,zk,其中z表示被分割的音频的时间段,k表示被分割音频的个数。
步骤六:信息熵为目标函数的分割规则。
对于同一段视频,进行上面的场景、声音、段落三个维度上进行分割后,得到了不同时间段的视频,在三个维度分割的视频,并不能完全对齐,会产生交叉的情况,因此本发明采用信息熵的形式,对上述指标进行评价。
∑[p(t|x1),…,p(t|xi)]=∑[p(t|y1),…,p(t|yj)]=∑[p(t|z1),…,p(t|zk)]=1
其中,t表示每一秒的视频,p(t|)是指当前在各个维度分割视频段的出现概率。
根据此公式,信息熵公式如下:
H(t)=-{p(t|x)log[p(t|x)]+p(t|y)log[p(t|y)]+p(t|z)log[p(t|z)]}
其中,H(t)为在视频某时刻的信息熵的数值,而形成的信息熵序列。对H(t)进行一阶、二阶处理,看信息熵序列是否平滑。
CN201910394330.6A 2019-05-13 2019-05-13 一种基于多维分割的视频结构化方法 Active CN110197135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910394330.6A CN110197135B (zh) 2019-05-13 2019-05-13 一种基于多维分割的视频结构化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910394330.6A CN110197135B (zh) 2019-05-13 2019-05-13 一种基于多维分割的视频结构化方法

Publications (2)

Publication Number Publication Date
CN110197135A true CN110197135A (zh) 2019-09-03
CN110197135B CN110197135B (zh) 2021-01-08

Family

ID=67752709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910394330.6A Active CN110197135B (zh) 2019-05-13 2019-05-13 一种基于多维分割的视频结构化方法

Country Status (1)

Country Link
CN (1) CN110197135B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112004111A (zh) * 2020-09-01 2020-11-27 南京烽火星空通信发展有限公司 一种全域深度学习的新闻视频信息抽提方法
CN112040313A (zh) * 2020-11-04 2020-12-04 中山大学深圳研究院 一种视频内容结构化方法、装置、终端设备及介质
CN112132120A (zh) * 2020-11-24 2020-12-25 北京沃东天骏信息技术有限公司 用于视频结构化的方法及装置
CN112185390A (zh) * 2020-09-27 2021-01-05 中国商用飞机有限责任公司北京民用飞机技术研究中心 机上信息辅助方法及装置
CN112801017A (zh) * 2021-02-09 2021-05-14 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN112883782A (zh) * 2021-01-12 2021-06-01 上海肯汀通讯科技有限公司 投放行为识别方法、装置、设备及存储介质
CN113259761A (zh) * 2020-02-13 2021-08-13 华为技术有限公司 视频处理方法和视频处理的设备、存储介质
CN113542909A (zh) * 2020-04-21 2021-10-22 阿里巴巴集团控股有限公司 视频处理方法、装置、电子设备及计算机存储介质
CN116824463A (zh) * 2023-08-31 2023-09-29 江西啄木蜂科技有限公司 视频的关键帧提取方法、计算机可读存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080310731A1 (en) * 2007-06-18 2008-12-18 Zeitera, Llc Methods and Apparatus for Providing a Scalable Identification of Digital Video Sequences
CN106780503A (zh) * 2016-12-30 2017-05-31 北京师范大学 基于后验概率信息熵的遥感图像最优分割尺度确定方法
CN109344780A (zh) * 2018-10-11 2019-02-15 上海极链网络科技有限公司 一种基于声音和视觉的多模态视频场景分割方法
CN109711379A (zh) * 2019-01-02 2019-05-03 电子科技大学 一种复杂环境交通信号灯候选区域提取及识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080310731A1 (en) * 2007-06-18 2008-12-18 Zeitera, Llc Methods and Apparatus for Providing a Scalable Identification of Digital Video Sequences
CN106780503A (zh) * 2016-12-30 2017-05-31 北京师范大学 基于后验概率信息熵的遥感图像最优分割尺度确定方法
CN109344780A (zh) * 2018-10-11 2019-02-15 上海极链网络科技有限公司 一种基于声音和视觉的多模态视频场景分割方法
CN109711379A (zh) * 2019-01-02 2019-05-03 电子科技大学 一种复杂环境交通信号灯候选区域提取及识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王娟等: "视频摘要技术综述", 《中国图象图形学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113259761B (zh) * 2020-02-13 2022-08-26 华为技术有限公司 视频处理方法和视频处理的设备、存储介质
CN113259761A (zh) * 2020-02-13 2021-08-13 华为技术有限公司 视频处理方法和视频处理的设备、存储介质
CN113542909A (zh) * 2020-04-21 2021-10-22 阿里巴巴集团控股有限公司 视频处理方法、装置、电子设备及计算机存储介质
CN112004111A (zh) * 2020-09-01 2020-11-27 南京烽火星空通信发展有限公司 一种全域深度学习的新闻视频信息抽提方法
CN112004111B (zh) * 2020-09-01 2023-02-24 南京烽火星空通信发展有限公司 一种全域深度学习的新闻视频信息抽提方法
CN112185390B (zh) * 2020-09-27 2023-10-03 中国商用飞机有限责任公司北京民用飞机技术研究中心 机上信息辅助方法及装置
CN112185390A (zh) * 2020-09-27 2021-01-05 中国商用飞机有限责任公司北京民用飞机技术研究中心 机上信息辅助方法及装置
CN112040313A (zh) * 2020-11-04 2020-12-04 中山大学深圳研究院 一种视频内容结构化方法、装置、终端设备及介质
CN112040313B (zh) * 2020-11-04 2021-04-09 中山大学深圳研究院 一种视频内容结构化方法、装置、终端设备及介质
CN112132120B (zh) * 2020-11-24 2021-03-30 北京沃东天骏信息技术有限公司 用于视频结构化的方法及装置
CN112132120A (zh) * 2020-11-24 2020-12-25 北京沃东天骏信息技术有限公司 用于视频结构化的方法及装置
CN112883782A (zh) * 2021-01-12 2021-06-01 上海肯汀通讯科技有限公司 投放行为识别方法、装置、设备及存储介质
CN112883782B (zh) * 2021-01-12 2023-03-24 上海肯汀通讯科技有限公司 投放行为识别方法、装置、设备及存储介质
CN112801017A (zh) * 2021-02-09 2021-05-14 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN112801017B (zh) * 2021-02-09 2023-08-04 成都视海芯图微电子有限公司 一种视觉场景描述方法及系统
CN116824463A (zh) * 2023-08-31 2023-09-29 江西啄木蜂科技有限公司 视频的关键帧提取方法、计算机可读存储介质及电子设备
CN116824463B (zh) * 2023-08-31 2023-12-19 江西啄木蜂科技有限公司 视频的关键帧提取方法、计算机可读存储介质及电子设备

Also Published As

Publication number Publication date
CN110197135B (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN110197135A (zh) 一种基于多维分割的视频结构化方法
CN110097026A (zh) 一种基于多维要素视频分割的段落关联规则评判方法
EP3291558B1 (en) Video coding and decoding methods and apparatus
CN112668559B (zh) 一种多模态信息融合的短视频情感判定装置及方法
CN107358195B (zh) 基于重建误差的非特定异常事件检测及定位方法、计算机
CN102088597B (zh) 动静结合估计视频视觉显著度的方法
CN101971190A (zh) 实时身体分割系统
CN103546667A (zh) 一种面向海量广播电视监管的自动新闻拆条方法
CN108108688B (zh) 一种基于低维时空特征提取与主题建模的肢体冲突行为检测方法
CN103929685A (zh) 一种视频摘要生成及索引方法
CN111738218B (zh) 人体异常行为识别系统及方法
CN102073676A (zh) 一种网络色情视频实时检测方法和系统
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
CN114186069B (zh) 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法
CN110222719A (zh) 一种基于多帧音视频融合网络的人物识别方法及系统
CN109803112A (zh) 基于大数据的视频分析管理方法、装置及系统、存储介质
Zuo et al. Recognition of blue movies by fusion of audio and video
CN111488813A (zh) 视频的情感标注方法、装置、电子设备及存储介质
Nandini et al. Automatic traffic control system using PCA based approach
Madani et al. Isolated dynamic Persian sign language recognition based on camshift algorithm and radon transform
CN112738555A (zh) 视频处理方法及装置
Eickeler et al. A new approach to content-based video indexing using hidden markov models
Zhou et al. A deep learning algorithm for fast motion video sequences based on improved codebook model
CN109977891A (zh) 一种基于神经网络的目标检测与识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant