CN115278298A - 一种视频的自动分段方法 - Google Patents

一种视频的自动分段方法 Download PDF

Info

Publication number
CN115278298A
CN115278298A CN202210857544.4A CN202210857544A CN115278298A CN 115278298 A CN115278298 A CN 115278298A CN 202210857544 A CN202210857544 A CN 202210857544A CN 115278298 A CN115278298 A CN 115278298A
Authority
CN
China
Prior art keywords
image
frame
window
pixel
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210857544.4A
Other languages
English (en)
Inventor
汪于迪
王霄麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Karakal Technology Co ltd
Original Assignee
Beijing Karakal Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Karakal Technology Co ltd filed Critical Beijing Karakal Technology Co ltd
Priority to CN202210857544.4A priority Critical patent/CN115278298A/zh
Publication of CN115278298A publication Critical patent/CN115278298A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种视频的自动分段方法,涉及视频处理技术领域。本发明通过图像突变节点分段步骤和音频静音窗口分段步骤提取视频中的图像突变节点和静音窗口;根据视频的普遍特性,我们可以知道视频分段通常发生在图像突变和音频静音处,因此图像突变节点和静音窗口均是潜在的视频分段节点;当出现既是图像突变节点又在静音窗口内时,便可将其视为视频分段节点;该方法分段准确率高、处理量小,且对待分段视频无类别限制,全程可通过机器学习模型进行视频分段点自动判断,兼顾实用性和普适性。

Description

一种视频的自动分段方法
技术领域
本发明涉及视频处理技术领域,尤其涉及一种视频的自动分段方法。
背景技术
近年来,网络通讯以及数字多媒体等技术获得了高速发展,伴随而来的是网络多媒体数据量的爆炸式增长。多媒体信息中数字音视频具有表现力强、蕴涵信息量大、形象生动等优点,已经成为用户获取信息来源的第一选择。但是,音视频信息尤其是视频信息具有数据量巨大、数据格式非结构化、以及表现内容不透明等缺点,加大了对视频数据管理和分析(如视频数据的浏览、检索)的难度。面对日益膨胀的网络数据量,如何快速准确的管理和组织视频信息数据已经成为多媒体研究领域的一项重要的课题。为了便于管理和组织视频信息数据,可以对视频进行分段,按段进行标注、分类、存储。而视频分段的关键在于确定分段的节点。
现有的视频分段技术是根据预先定义的时间轴进行分段,但预定义时间轴实际上是通过人工浏览浏览视频并人工定义时间轴,这种方式需要人工参与效率不高并且容易出错。无法适应当前爆发式增长的网络视频数据。
此外,有人提出过基于特定类型视频的分段方法,基于特殊的视频节点来进行自动分段(例如新闻类视频,根据主持人出现的图像帧来进行分段),虽然该方法可以实现自动分段,但只适用于有特定图像帧的视频。
因此,有必要提供一种能广泛运用到各类视频的视频自动分段方法来解决上述技术问题。
发明内容
为解决上述之一技术问题,本发明提供的一种视频的自动分段方法,通过图像突变节点分段步骤、音频静音窗口分段步骤和视频分段节点确定步骤对待分段视频进行处理,并得到若干分段子视频。
具体的,所述图像突变节点分段步骤:通过待分段视频中相邻的图像帧进行图像处理,并判断邻帧图像内容是否发生突变,若邻帧图像内容发生突变,则识别标记为图像突变节点;其中,对应子步骤包括获取待分段视频图像帧步骤、获取图像帧像素矩阵步骤、获取邻帧像素点灰度差步骤、获取邻帧像素差步骤和判断图像突变节点步骤。
具体的,所述音频静音窗口分段步骤:提取待分段视频中的音频数据,并通过音频窗口对音频数据进行采样,判断音频窗口是否为静音窗口;其中,对应子步骤包括获取音频滤波采样步骤、获取窗口平均能量步骤和判断静音窗口步骤。
具体的,所述视频分段节点确定步骤:提取图像突变节点和静音窗口,并将处在静音窗口内且为图像突变节点的部分作为视频分段节点,通过视频分段节点完成对待分段视频的分段,得到若干分段子视频。
作为更进一步的解决方案,所述获取待分段视频图像帧步骤通过如下步骤进行:
步骤A1:获取待分段视频数据;
步骤A2:对待分段视频数据进行分帧提取,得到对应图像帧;
步骤A3:逐一完成分帧提取,得到图像帧集合F(M,N):
F(M,N)=[Fn(M,N),n=1,2,3....X]
其中,M,N分别表示图像帧的纵向分辨率和横向分辨率,n表示图像帧的标号;X表示图像帧总数,Fn(M,N)表示第n号图像帧。
作为更进一步的解决方案,所述获取图像帧像素矩阵步骤通过如下步骤进行:
步骤B1:获取图像帧集合F(M,N);
步骤B2:对图像帧集合F(M,N)进行逐帧提取;
步骤B3:获取当前图像帧中各像素点的灰度值;
步骤B4:建立图像帧像素矩阵
Figure BDA0003754845490000021
并将各像素点的灰度值填充值对应位置处:
Figure BDA0003754845490000022
其中,i表示像素点的纵向标号,且i∈[0,1,2,3,...,M-1];j表示像素点的横向标号,且j∈[0,1,2,3,...,N-1];n表示图像帧标号,fn(i,j)表示第n号图像帧,横纵坐标号为i,j的像素点对应的灰度值;
步骤B5:逐帧进行图像帧像素矩阵建立,得到图像帧像素矩阵集合
Figure BDA0003754845490000031
Figure BDA0003754845490000032
其中,n表示图像帧的标号;X表示图像帧总数;
Figure BDA0003754845490000033
表示第n号图像帧对应的图像帧像素矩阵。
作为更进一步的解决方案,所述获取邻帧像素点灰度差步骤通过如下步骤进行:
步骤C1:获取图像帧像素矩阵集合
Figure BDA0003754845490000034
步骤C2:逐点计算图像帧像素矩阵
Figure BDA0003754845490000035
中各像素点的邻帧像素点灰度差dn(i,j):
dn(i,j)=|fn+1(i,j)-fn(i,j)
其中,i表示像素点的纵向标号;j表示像素点的横向标号;n表示当前图像帧标号,n+1表示相邻图像帧标号;fn(i,j)表示第n号图像帧,横纵坐标号为i,j的像素点对应的灰度值;fn+1(i,j)表示第n+1号图像帧,横纵坐标号为i,j的像素点对应的灰度值;
步骤C3:完成对图像帧像素矩阵
Figure BDA0003754845490000036
中各像素点的邻帧像素点灰度差dn(i,j)的计算,得到对应的邻帧灰度差矩阵Dn(M,N):
Figure BDA0003754845490000037
其中,i表示像素点的纵向标号,且i∈[0,1,2,3,...,M-1];j表示像素点的横向标号,且j∈[0,1,2,3,...,N-1];n表示图像帧标号,dn(i,j)表示第n号图像帧,横纵坐标号为i,j的像素点对应的灰度差;
步骤C4:步骤C4:逐帧进行邻帧灰度差矩阵建立,得到邻帧灰度差矩阵集合D(M,N):
D(M,N)=[Dn(M,N),n=1,2,3....X-1]
其中,n表示图像帧的标号;X-1表示邻帧组数;D(M,N)表示第n号图像帧对应的邻帧灰度差矩阵。
作为更进一步的解决方案,所述获取邻帧像素差步骤通过如下步骤进行:
步骤D1:获取邻帧灰度差矩阵集合D(M,N);
步骤D2:对邻帧灰度差矩阵Dn(M,N)进行邻帧像素差计算,得到邻帧像素差G[Dn(M,N)]:
Figure BDA0003754845490000041
其中,M,N分别表示图像帧的纵向分辨率和横向分辨率,n表示图像帧的标号;
Figure BDA0003754845490000042
表示邻帧灰度差矩阵Dn(M,N)各元素求和值;
步骤D3:逐个进行邻帧像素差计算,得到邻帧像素差集合G[D(M,N)];
G[D(M,N)]={G[Dn(M,N)],n=1,2,3,....,X}
其中,n表示图像帧的标号;X表示图像帧总数;G[Dn(M,N)]表示第n号图像帧对应的邻帧像素差。
作为更进一步的解决方案,所述判断图像突变节点步骤通过如下步骤进行:
步骤E1:获取邻帧像素差集合G[D(M,N)];
步骤E2:设置图像突变判断阈值ΔG;
步骤E3:逐一判断邻帧像素差G[Dn(M,N)]是否大于图像突变判断阈值ΔG,若出现邻帧像素差G[Dn(M,N)]大于图像突变判断阈值ΔG,则记录当前邻帧像素差G[Dn(M,N)]所对应的第n个图像帧,并识别标记为图像突变节点;否则不进行记录;
步骤E4:完成对邻帧像素差集合G[D(M,N)]中所有邻帧像素差G[Dn(M,N)]的图像突变判断;得到所有的图像突变节点。
作为更进一步的解决方案,所述获取音频滤波采样步骤通过对音频数据进行采样、滤波、窗口傅里叶变换、音频分段、音频频谱转换,并最终得到音频频谱。
作为更进一步的解决方案,所述获取窗口平均能量步骤通过如下步骤进行:
步骤F1:获取音频频谱;
步骤F2:设置音频窗口范围;
步骤F3:通过音频窗口截取音频频谱,得到音频采样信号;
步骤F4:计算窗口平均能量En
Figure BDA0003754845490000051
其中,n为音频窗口的标号;N为被标号是n的音频窗口截取的音频采样信号的采样点总数;x(i)为被标号是n的音频窗口截取的音频采样信号;i表示采样点的标号;
步骤F5:完成所有窗口平均能量计算,得到窗口平均能量集合E:
E=[En,n=1,2,3....Y]
其中,n为音频窗口的标号;Y表示音频窗口的总数;En表示音频窗口标号为n的窗口平均能量。
作为更进一步的解决方案,所述判断静音窗口步骤通过如下步骤进行:
步骤G1:获取窗口平均能量集合E;
步骤G2:设置静音窗口判断阈值ΔE;
步骤G3:逐一判断窗口平均能量En是否小于静音窗口判断阈值ΔE;若出现窗口平均能量En小于静音窗口判断阈值ΔE,则记录当前音频窗口,并识别标记为静音窗口;否则不进行记录;
步骤G4:完成对窗口平均能量集合E中所有窗口平均能量En的静音窗口判断;得到所有的静音窗口。
作为更进一步的解决方案,还建立视频分段点自动判断模型,所述视频分段点自动判断模型通过机器学习模型进行部署,将邻帧像素差G[Dn(M,N)]、窗口平均能量En、图像突变判断阈值ΔG和静音窗口判断阈值ΔE作为训练集和验证集;将已分段视频视频分段节点处的邻帧像素差G[Dn(M,N)]和窗口平均能量En作为历史数据;通过训练集、验证集和历史数据对机器学习模型进行训练,得到视频分段点自动判断模型。
与相关技术相比较,本发明提供的一种视频的自动分段方法具有如下有益效果:
本发明通过图像突变节点分段步骤和音频静音窗口分段步骤提取视频中的图像突变节点和静音窗口;根据视频的普遍特性,我们可以知道视频分段通常发生在图像突变和音频静音处,因此图像突变节点和静音窗口均是潜在的视频分段节点;当出现既是图像突变节点又在静音窗口内时,便可将其视为视频分段节点;该方法分段准确率高、处理量小,且对待分段视频无类别限制,全程可通过机器学习模型进行视频分段点自动判断,兼顾实用性和普适性。
附图说明
图1为本发明实施例提供的一种视频的自动分段方法的较佳流程示意图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
如图1所示,本实施例提供的一种视频的自动分段方法,通过图像突变节点分段步骤、音频静音窗口分段步骤和视频分段节点确定步骤对待分段视频进行处理,并得到若干分段子视频。
具体的,所述图像突变节点分段步骤:通过待分段视频中相邻的图像帧进行图像处理,并判断邻帧图像内容是否发生突变,若邻帧图像内容发生突变,则识别标记为图像突变节点;其中,对应子步骤包括获取待分段视频图像帧步骤、获取图像帧像素矩阵步骤、获取邻帧像素点灰度差步骤、获取邻帧像素差步骤和判断图像突变节点步骤。
具体的,所述音频静音窗口分段步骤:提取待分段视频中的音频数据,并通过音频窗口对音频数据进行采样,判断音频窗口是否为静音窗口;其中,对应子步骤包括获取音频滤波采样步骤、获取窗口平均能量步骤和判断静音窗口步骤。
具体的,所述视频分段节点确定步骤:提取图像突变节点和静音窗口,并将处在静音窗口内且为图像突变节点的部分作为视频分段节点,通过视频分段节点完成对待分段视频的分段,得到若干分段子视频。
需要说明的是:本实施例通过图像突变节点分段步骤和音频静音窗口分段步骤提取视频中的图像突变节点和静音窗口;根据视频的普遍特性,我们可以知道视频分段通常发生在图像突变和音频静音处,因此图像突变节点和静音窗口均是潜在的视频分段节点;当出现既是图像突变节点又在静音窗口内时,便可将其视为视频分段节点;该方法分段准确率高、处理量小,且对待分段视频无类别限制,全程可通过机器学习模型进行视频分段点自动判断,兼顾实用性和普适性。
作为更进一步的解决方案,所述获取待分段视频图像帧步骤通过如下步骤进行:
步骤A1:获取待分段视频数据;
步骤A2:对待分段视频数据进行分帧提取,得到对应图像帧;
步骤A3:逐一完成分帧提取,得到图像帧集合F(M,N):
F(M,N)=[Fn(M,N),n=1,2,3....X]
其中,M,N分别表示图像帧的纵向分辨率和横向分辨率,n表示图像帧的标号;X表示图像帧总数,Fn(M,N)表示第n号图像帧。
需要说明的是:视频是由一系列的帧图像所组成的一种非结构化的流数据,图像帧是视频的最小组成单位。由一系列逻辑相关、时间连续的帧图像组成,描述一个连续动作的视频分块称为视频镜头,视频由一个个镜头衔接而成。获取视频的图像帧就是获取视频的最小组成单位。
作为更进一步的解决方案,所述获取图像帧像素矩阵步骤通过如下步骤进行:
步骤B1:获取图像帧集合F(M,N);
步骤B2:对图像帧集合F(M,N)进行逐帧提取;
步骤B3:获取当前图像帧中各像素点的灰度值;
步骤B4:建立图像帧像素矩阵
Figure BDA0003754845490000071
并将各像素点的灰度值填充值对应位置处:
Figure BDA0003754845490000081
其中,i表示像素点的纵向标号,且i∈[0,1,2,3,...,M-1];j表示像素点的横向标号,且j∈[0,1,2,3,...,N-1];n表示图像帧标号,fn(i,j)表示第n号图像帧,横纵坐标号为i,j的像素点对应的灰度值;
步骤B5:逐帧进行图像帧像素矩阵建立,得到图像帧像素矩阵集合
Figure BDA0003754845490000082
Figure BDA0003754845490000083
其中,n表示图像帧的标号;X表示图像帧总数;
Figure BDA0003754845490000084
表示第n号图像帧对应的图像帧像素矩阵。
作为更进一步的解决方案,所述获取邻帧像素点灰度差步骤通过如下步骤进行:
步骤C1:获取图像帧像素矩阵集合
Figure BDA0003754845490000085
步骤C2:逐点计算图像帧像素矩阵
Figure BDA0003754845490000086
中各像素点的邻帧像素点灰度差dn(i,j):
dn(i,j)=|fn+1(i,j)-fn(i,j)
其中,i表示像素点的纵向标号;j表示像素点的横向标号;n表示当前图像帧标号,n+1表示相邻图像帧标号;fn(i,j)表示第n号图像帧,横纵坐标号为i,j的像素点对应的灰度值;fn+1(i,j)表示第n+1号图像帧,横纵坐标号为i,j的像素点对应的灰度值;
步骤C3:完成对图像帧像素矩阵
Figure BDA0003754845490000087
中各像素点的邻帧像素点灰度差dn(i,j)的计算,得到对应的邻帧灰度差矩阵Dn(M,N):
Figure BDA0003754845490000091
其中,i表示像素点的纵向标号,且i∈[0,1,2,3,...,M-1];j表示像素点的横向标号,且j∈[0,1,2,3,...,N-1];n表示图像帧标号,dn(i,j)表示第n号图像帧,横纵坐标号为i,j的像素点对应的灰度差;
步骤C4:步骤C4:逐帧进行邻帧灰度差矩阵建立,得到邻帧灰度差矩阵集合D(M,N):
D(M,N)=[Dn(M,N),n=1,2,3....X-1]
其中,n表示图像帧的标号;X-1表示邻帧组数;D(M,N)表示第n号图像帧对应的邻帧灰度差矩阵。
作为更进一步的解决方案,所述获取邻帧像素差步骤通过如下步骤进行:
步骤D1:获取邻帧灰度差矩阵集合D(M,N);
步骤D2:对邻帧灰度差矩阵Dn(M,N)进行邻帧像素差计算,得到邻帧像素差G[Dn(M,N)]:
Figure BDA0003754845490000092
其中,M,N分别表示图像帧的纵向分辨率和横向分辨率,n表示图像帧的标号;
Figure BDA0003754845490000093
表示邻帧灰度差矩阵Dn(M,N)各元素求和值;
步骤D3:逐个进行邻帧像素差计算,得到邻帧像素差集合G[D(M,N)];
G[D(M,N)]={G[Dn(M,N)],n=1,2,3,....,X}
其中,n表示图像帧的标号;X表示图像帧总数;G[Dn(M,N)]表示第n号图像帧对应的邻帧像素差。
作为更进一步的解决方案,所述判断图像突变节点步骤通过如下步骤进行:
步骤E1:获取邻帧像素差集合G[D(M,N)];
步骤E2:设置图像突变判断阈值ΔG;
步骤E3:逐一判断邻帧像素差G[Dn(M,N)]是否大于图像突变判断阈值ΔG,若出现邻帧像素差G[Dn(M,N)]大于图像突变判断阈值ΔG,则记录当前邻帧像素差G[Dn(M,N)]所对应的第n个图像帧,并识别标记为图像突变节点;否则不进行记录;
步骤E4:完成对邻帧像素差集合G[D(M,N)]中所有邻帧像素差G[Dn(M,N)]的图像突变判断;得到所有的图像突变节点。
需要说明的是:当邻帧像素差大于阈值时,认为图像发生了突变。在两个视频镜头的边界,通常相邻的帧图像内容会发生突变。因此,这种图像发生了突变的点,我们认为可以作为可能的视频分段点。
作为更进一步的解决方案,所述获取音频滤波采样步骤通过对音频数据进行采样、滤波、窗口傅里叶变换、音频分段、音频频谱转换,并最终得到音频频谱。
作为更进一步的解决方案,所述获取窗口平均能量步骤通过如下步骤进行:
步骤F1:获取音频频谱;
步骤F2:设置音频窗口范围;
步骤F3:通过音频窗口截取音频频谱,得到音频采样信号;
步骤F4:计算窗口平均能量En
Figure BDA0003754845490000101
其中,n为音频窗口的标号;N为被标号是n的音频窗口截取的音频采样信号的采样点总数;x(i)为被标号是n的音频窗口截取的音频采样信号;i表示采样点的标号;
步骤F5:完成所有窗口平均能量计算,得到窗口平均能量集合E:
E=[En,n=1,2,3....Y]
其中,n为音频窗口的标号;Y表示音频窗口的总数;En表示音频窗口标号为n的窗口平均能量。
作为更进一步的解决方案,所述判断静音窗口步骤通过如下步骤进行:
步骤G1:获取窗口平均能量集合E;
步骤G2:设置静音窗口判断阈值ΔE;
步骤G3:逐一判断窗口平均能量En是否小于静音窗口判断阈值ΔE;若出现窗口平均能量En小于静音窗口判断阈值ΔE,则记录当前音频窗口,并识别标记为静音窗口;否则不进行记录;
步骤G4:完成对窗口平均能量集合E中所有窗口平均能量En的静音窗口判断;得到所有的静音窗口。
需要说明的是:当窗口平均能量小于阈值时,认为该窗口为静音窗口。静音窗口通常出现于不同视频片段的衔接和切换处,所以这种静音窗口能够很好的定位每个视频片段的起始点。因此,这种静音窗口,我们认为可以作为可能的视频分段点。
作为更进一步的解决方案,还建立视频分段点自动判断模型,所述视频分段点自动判断模型通过机器学习模型进行部署,将邻帧像素差G[Dn(M,N)]、窗口平均能量En、图像突变判断阈值ΔG和静音窗口判断阈值ΔE作为训练集和验证集;将已分段视频视频分段节点处的邻帧像素差G[Dn(M,N)]和窗口平均能量En作为历史数据;通过训练集、验证集和历史数据对机器学习模型进行训练,得到视频分段点自动判断模型。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种视频的自动分段方法,其特征在于,通过图像突变节点分段步骤、音频静音窗口分段步骤和视频分段节点确定步骤对待分段视频进行处理,并得到若干分段子视频;
所述图像突变节点分段步骤:通过待分段视频中相邻的图像帧进行图像处理,并判断邻帧图像内容是否发生突变,若邻帧图像内容发生突变,则识别标记为图像突变节点;其中,对应子步骤包括获取待分段视频图像帧步骤、获取图像帧像素矩阵步骤、获取邻帧像素点灰度差步骤、获取邻帧像素差步骤和判断图像突变节点步骤;
所述音频静音窗口分段步骤:提取待分段视频中的音频数据,并通过音频窗口对音频数据进行采样,判断音频窗口是否为静音窗口;其中,对应子步骤包括获取音频滤波采样步骤、获取窗口平均能量步骤和判断静音窗口步骤;
所述视频分段节点确定步骤:提取图像突变节点和静音窗口,并将处在静音窗口内且为图像突变节点的部分作为视频分段节点,通过视频分段节点完成对待分段视频的分段,得到若干分段子视频。
2.根据权利要求1所述的一种视频的自动分段方法,其特征在于,所述获取待分段视频图像帧步骤通过如下步骤进行:
步骤A1:获取待分段视频数据;
步骤A2:对待分段视频数据进行分帧提取,得到对应图像帧;
步骤A3:逐一完成分帧提取,得到图像帧集合F(M,N):
F(M,N)=[Fn(M,N),n=1,2,3....X]
其中,M,N分别表示图像帧的纵向分辨率和横向分辨率,n表示图像帧的标号;X表示图像帧总数,Fn(M,N)表示第n号图像帧。
3.根据权利要求2所述的一种视频的自动分段方法,其特征在于,所述获取图像帧像素矩阵步骤通过如下步骤进行:
步骤B1:获取图像帧集合F(M,N);
步骤B2:对图像帧集合F(M,N)进行逐帧提取;
步骤B3:获取当前图像帧中各像素点的灰度值;
步骤B4:建立图像帧像素矩阵
Figure FDA0003754845480000011
并将各像素点的灰度值填充值对应位置处:
Figure FDA0003754845480000021
其中,i表示像素点的纵向标号,且i∈[0,1,2,3,...,M-1];j表示像素点的横向标号,且j∈[0,1,2,3,...,N-1];n表示图像帧标号,fn(i,j)表示第n号图像帧,横纵坐标号为i,j的像素点对应的灰度值;
步骤B5:逐帧进行图像帧像素矩阵建立,得到图像帧像素矩阵集合
Figure FDA0003754845480000022
Figure FDA0003754845480000023
其中,n表示图像帧的标号;X表示图像帧总数;
Figure FDA0003754845480000024
表示第n号图像帧对应的图像帧像素矩阵。
4.根据权利要求3所述的一种视频的自动分段方法,其特征在于,所述获取邻帧像素点灰度差步骤通过如下步骤进行:
步骤C1:获取图像帧像素矩阵集合
Figure FDA0003754845480000025
步骤C2:逐点计算图像帧像素矩阵
Figure FDA0003754845480000026
中各像素点的邻帧像素点灰度差dn(i,j):
dn(i,j)=|fn+1(i,j)-fn(i,j)|
其中,i表示像素点的纵向标号;j表示像素点的横向标号;n表示当前图像帧标号,n+1表示相邻图像帧标号;fn(i,j)表示第n号图像帧,横纵坐标号为i,j的像素点对应的灰度值;fn+1(i,j)表示第n+1号图像帧,横纵坐标号为i,j的像素点对应的灰度值;
步骤C3:完成对图像帧像素矩阵
Figure FDA0003754845480000027
中各像素点的邻帧像素点灰度差dn(i,j)的计算,得到对应的邻帧灰度差矩阵Dn(M,N):
Figure FDA0003754845480000031
其中,i表示像素点的纵向标号,且i∈[0,1,2,3,...,M-1];j表示像素点的横向标号,且j∈[0,1,2,3,...,N-1];n表示图像帧标号,dn(i,j)表示第n号图像帧,横纵坐标号为i,j的像素点对应的灰度差;
步骤C4:逐帧进行邻帧灰度差矩阵建立,得到邻帧灰度差矩阵集合D(M,N):
D(M,N)=[Dn(M,N),n=1,2,3....X-1]
其中,n表示图像帧的标号;X-1表示邻帧组数;D(M,N)表示第n号图像帧对应的邻帧灰度差矩阵。
5.根据权利要求4所述的一种视频的自动分段方法,其特征在于,所述获取邻帧像素差步骤通过如下步骤进行:
步骤D1:获取邻帧灰度差矩阵集合D(M,N);
步骤D2:对邻帧灰度差矩阵Dn(M,N)进行邻帧像素差计算,得到邻帧像素差G[Dn(M,N)]:
Figure FDA0003754845480000032
其中,M,N分别表示图像帧的纵向分辨率和横向分辨率,n表示图像帧的标号;
Figure FDA0003754845480000033
表示邻帧灰度差矩阵Dn(M,N)各元素求和值;
步骤D3:逐个进行邻帧像素差计算,得到邻帧像素差集合G[D(M,N)];
G[D(M,N)]={G[Dn(M,N)],n=1,2,3,....,X}
其中,n表示图像帧的标号;X表示图像帧总数;G[Dn(M,N)]表示第n号图像帧对应的邻帧像素差。
6.根据权利要求5所述的一种视频的自动分段方法,其特征在于,所述判断图像突变节点步骤通过如下步骤进行:
步骤E1:获取邻帧像素差集合G[D(M,N)];
步骤E2:设置图像突变判断阈值ΔG;
步骤E3:逐一判断邻帧像素差G[Dn(M,N)]是否大于图像突变判断阈值ΔG,若出现邻帧像素差G[Dn(M,N)]大于图像突变判断阈值ΔG,则记录当前邻帧像素差G[Dn(M,N)]所对应的第n个图像帧,并识别标记为图像突变节点;否则不进行记录;
步骤E4:完成对邻帧像素差集合G[D(M,N)]中所有邻帧像素差G[Dn(M,N)]的图像突变判断;得到所有的图像突变节点。
7.根据权利要求1所述的一种视频的自动分段方法,其特征在于,所述获取音频滤波采样步骤通过对音频数据进行采样、滤波、窗口傅里叶变换、音频分段、音频频谱转换,并最终得到音频频谱。
8.根据权利要求7所述的一种视频的自动分段方法,其特征在于,所述获取窗口平均能量步骤通过如下步骤进行:
步骤F1:获取音频频谱;
步骤F2:设置音频窗口范围;
步骤F3:通过音频窗口截取音频频谱,得到音频采样信号;
步骤F4:计算窗口平均能量En
Figure FDA0003754845480000041
其中,n为音频窗口的标号;N为被标号是n的音频窗口截取的音频采样信号的采样点总数;x(i)为被标号是n的音频窗口截取的音频采样信号;i表示采样点的标号;
步骤F5:完成所有窗口平均能量计算,得到窗口平均能量集合E:
E=[En,n=1,2,3....Y]
其中,n为音频窗口的标号;Y表示音频窗口的总数;En表示音频窗口标号为n的窗口平均能量。
9.根据权利要求8所述的一种视频的自动分段方法,其特征在于,所述判断静音窗口步骤通过如下步骤进行:
步骤G1:获取窗口平均能量集合E;
步骤G2:设置静音窗口判断阈值ΔE;
步骤G3:逐一判断窗口平均能量En是否小于静音窗口判断阈值ΔE;若出现窗口平均能量En小于静音窗口判断阈值ΔE,则记录当前音频窗口,并识别标记为静音窗口;否则不进行记录;
步骤G4:完成对窗口平均能量集合E中所有窗口平均能量En的静音窗口判断;得到所有的静音窗口。
10.根据权利要求1至权利要求9任一项所述的一种视频的自动分段方法,其特征在于,还建立视频分段点自动判断模型,所述视频分段点自动判断模型通过机器学习模型进行部署,将邻帧像素差G[Dn(M,N)]、窗口平均能量En、图像突变判断阈值ΔG和静音窗口判断阈值ΔE作为训练集和验证集;将已分段视频视频分段节点处的邻帧像素差G[Dn(M,N)]和窗口平均能量En作为历史数据;通过训练集、验证集和历史数据对机器学习模型进行训练,得到视频分段点自动判断模型。
CN202210857544.4A 2022-07-20 2022-07-20 一种视频的自动分段方法 Pending CN115278298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210857544.4A CN115278298A (zh) 2022-07-20 2022-07-20 一种视频的自动分段方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210857544.4A CN115278298A (zh) 2022-07-20 2022-07-20 一种视频的自动分段方法

Publications (1)

Publication Number Publication Date
CN115278298A true CN115278298A (zh) 2022-11-01

Family

ID=83767824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210857544.4A Pending CN115278298A (zh) 2022-07-20 2022-07-20 一种视频的自动分段方法

Country Status (1)

Country Link
CN (1) CN115278298A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798040A (zh) * 2022-11-23 2023-03-14 广州市锐星信息科技有限公司 一种心肺复苏ai自动分段系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101087413A (zh) * 2006-06-07 2007-12-12 中兴通讯股份有限公司 视频序列中运动物体的分割方法
CN102348049A (zh) * 2011-09-16 2012-02-08 央视国际网络有限公司 检测视频片断切点位置的方法及装置
CN106792005A (zh) * 2017-01-17 2017-05-31 南通同洲电子有限责任公司 一种基于音视频结合的内容检测方法
CN108537157A (zh) * 2018-03-30 2018-09-14 特斯联(北京)科技有限公司 一种基于人工智能分类实现的视频场景判断方法与装置
CN110675371A (zh) * 2019-09-05 2020-01-10 北京达佳互联信息技术有限公司 一种场景切换的检测方法、装置、电子设备及存储介质
CN114285971A (zh) * 2021-12-23 2022-04-05 西安文理学院 一种液体运输综合自动监控系统及其监控方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101087413A (zh) * 2006-06-07 2007-12-12 中兴通讯股份有限公司 视频序列中运动物体的分割方法
CN102348049A (zh) * 2011-09-16 2012-02-08 央视国际网络有限公司 检测视频片断切点位置的方法及装置
CN106792005A (zh) * 2017-01-17 2017-05-31 南通同洲电子有限责任公司 一种基于音视频结合的内容检测方法
CN108537157A (zh) * 2018-03-30 2018-09-14 特斯联(北京)科技有限公司 一种基于人工智能分类实现的视频场景判断方法与装置
CN110675371A (zh) * 2019-09-05 2020-01-10 北京达佳互联信息技术有限公司 一种场景切换的检测方法、装置、电子设备及存储介质
CN114285971A (zh) * 2021-12-23 2022-04-05 西安文理学院 一种液体运输综合自动监控系统及其监控方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798040A (zh) * 2022-11-23 2023-03-14 广州市锐星信息科技有限公司 一种心肺复苏ai自动分段系统
CN115798040B (zh) * 2022-11-23 2023-06-23 广州市锐星信息科技有限公司 一种心肺复苏ai自动分段系统

Similar Documents

Publication Publication Date Title
CN115049936B (zh) 一种面向高分遥感影像的边界增强型语义分割方法
CN109859171B (zh) 一种基于计算机视觉和深度学习的楼面缺陷自动检测方法
CN111242027B (zh) 一种融合语义信息的无监督学习场景特征快速提取方法
CN116030396B (zh) 一种用于视频结构化提取的精确分割方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN112541926B (zh) 一种基于改进FCN和DenseNet的歧义像素优化分割方法
CN112395986B (zh) 一种新场景快速迁移且防遗忘的人脸识别方法
CN115278298A (zh) 一种视频的自动分段方法
CN113313031B (zh) 一种基于深度学习的车道线检测和车辆横向定位方法
CN112102250B (zh) 训练数据为缺失标注的病理图像检测模型建立、检测方法
CN101827224B (zh) 一种新闻视频中主播镜头的检测方法
CN111414938A (zh) 一种板式换热器内气泡的目标检测方法
CN114529894A (zh) 一种融合空洞卷积的快速场景文本检测方法
CN117218094A (zh) 获取病理图像的特征信息的方法、设备及介质
CN110349119B (zh) 基于边缘检测神经网络的路面病害检测方法和装置
CN116580370A (zh) 一种针对道路试验车图像信息的抽帧方法和系统
CN110599460A (zh) 基于混合卷积神经网络的地下管网检测评估云系统
CN116385935A (zh) 一种基于无监督域自适应的异常事件检测算法
CN116091964A (zh) 高位视频场景解析方法以及系统
CN114240958B (zh) 一种应用于病理学组织分割的对比学习方法
CN114170218B (zh) 一种染色体图像实例标签生成方法及系统
CN113343977B (zh) 一种集装箱码头集卡车牌的多路自动识别方法
CN114612782A (zh) 一种基于遥感影像的建筑物检测系统
CN110348305B (zh) 一种基于监控视频的运动目标提取方法
CN112070722A (zh) 一种荧光原位杂交细胞核分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination