CN104320670A - 一种网络视频的摘要信息提取方法及系统 - Google Patents
一种网络视频的摘要信息提取方法及系统 Download PDFInfo
- Publication number
- CN104320670A CN104320670A CN201410652579.XA CN201410652579A CN104320670A CN 104320670 A CN104320670 A CN 104320670A CN 201410652579 A CN201410652579 A CN 201410652579A CN 104320670 A CN104320670 A CN 104320670A
- Authority
- CN
- China
- Prior art keywords
- summarized radio
- video
- radio frame
- unit
- primary importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 239000012634 fragment Substances 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 45
- 239000000284 extract Substances 0.000 claims description 21
- 108010001267 Protein Subunits Proteins 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络视频的摘要信息提取方法及系统。所述方法包括:获取视频文件;确定视频中发生镜头分割的片段在所述时间轴上所处的第一位置;确定所述第一位置之前预设时间段内的第一音频;确定所述第一位置之后预设时间段内的第二音频;判断所述第一音频与所述第二音频是否具有连续性;如果具有连续性,则将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;否则,将所述第一图像与所述第二图像归类为不同场景;对于每一个场景,提取摘要视频帧。采用本发明的方法或系统,可以提高对于网络视频的摘要信息的提取效率,进而使用户可以快速了解视频内容。
Description
技术领域
本发明涉及视频处理领域,特别是涉及一种网络视频的摘要信息提取方法及系统。
背景技术
随着网络技术的发展,越来越多的用户习惯于观看网络视频。所谓网络视频,是指存储在网络中的服务器,并且可以由用户点播进行在线观看的视频。
网络视频的数量日益庞大,通常情况下,用户是无法观看完网络中的全部网络视频的。用户常常需要从大量的网络视频中选择需要观看的视频。
现有技术中,为了便于用户快速了解视频内容,采用摘要信息提取方法对网络视频中的关键帧进行提取,然后提示给用户。该方法主要是根据视频中是否具有镜头切换来实现的。具体的,当视频中发生镜头切换时,则从切换前的内容与切换后的内容中各选取出一些关键帧,作为该视频的摘要信息。
但是,当视频中发生镜头切换时,并不一定意味着前后两部分内容所对应的视频情节发生了较大改变。例如,当两个人物相互交谈时,镜头先对准人物甲,再对准人物乙,就会被确定发送了镜头切换,但此时两部分内容对应的视频情节并未发生较大改变。
综上所述,现有技术中的摘要信息提取方法,由于主要根据镜头是否发生切换来确定网络视频中的关键帧,因此提取效率较低,进而导致用户无法快速了解视频内容。
发明内容
本发明的目的是提供一种网络视频的摘要信息提取方法及系统,能够根据网络视频中的场景变化提取网络视频中的关键帧,提高对于网络视频的摘要信息的提取效率,进而使用户可以快速了解视频内容。
为实现上述目的,本发明提供了如下方案:
一种网络视频的摘要信息提取方法,包括:
获取视频文件;所述视频文件包括图像信息和音频信息,所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系;
确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置;
确定所述第一位置之前预设时间段内的第一音频;
确定所述第一位置之后预设时间段内的第二音频;
判断所述第一音频与所述第二音频是否具有连续性;
如果具有连续性,则将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;
否则,将所述第一图像与所述第二图像归类为不同场景;
对于每一个场景,提取摘要视频帧;其中,对于每一个场景,提取的摘要视频帧的数目小于或等于第一数值,所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时,对每个镜头提取的摘要视频帧的数目的上限值。
可选的,所述确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置,具体包括:
采用分块直方图匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第一判断结果;
当所述第一判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割;
当所述第一判断结果表示相同时,则采用特征点匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第二判断结果;
当所述第二判断结果表示相同时,则确定所述相邻的两帧图像之间未发生镜头分割;
当所述第二判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割。
可选的,所述提取摘要视频帧,具体包括:
识别场景中的关键帧;
确定所述关键帧中包含的特定特征;
根据所述特定特征的预设权重以及所述特定特征在场景中的持续时间,确定所述关键帧包含的信息量;
依据信息量由大到小的顺序,提取前n个关键帧,n为预先设置的自然数。
可选的,所述提取摘要视频帧之后,还包括:
按照所述摘要视频帧在所述时间轴上的时间先后顺序进行排序;
基于排序后的所述摘要视频帧,生成摘要视频;
建立所述摘要视频与所述视频文件之间的关联关系。
可选的,所述建立所述摘要视频与所述视频文件之间的关联关系,具体包括:
将所述摘要视频插入所述视频文件的起始位置。
一种网络视频的摘要信息提取系统,包括:
视频文件获取单元,用于获取视频文件;所述视频文件包括图像信息和音频信息,所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系;
第一位置确定单元,用于确定所述图像信息对应的图像中发生镜头分割的片段在所述时间轴上所处的第一位置;
第一音频确定单元,用于确定所述第一位置之前预设时间段内的第一音频;
第二音频确定单元,用于确定所述第一位置之后预设时间段内的第二音频;
音频连续性判断单元,用于判断所述第一音频与所述第二音频是否具有连续性;
第一归类单元,用于当所述音频连续性判断单元的判断结果为是时,将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;
第二归类单元,用于当所述音频连续性判断单元的判断结果为否时,将所述第一图像与所述第二图像归类为不同场景;
摘要视频帧提取单元,用于对于每一个场景,提取摘要视频帧;其中,对于每一个场景,提取的摘要视频帧的数目小于或等于第一数值,所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时,对每个镜头提取的摘要视频帧的数目的上限值。
可选的,所述第一位置确定单元,具体包括:
第一判断子单元,用于采用分块直方图匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第一判断结果;
第一确定子单元,用于当所述第一判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割;
第二判断子单元,用于当所述第一判断结果表示相同时,则采用特征点匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第二判断结果;
第二确定子单元,用于当所述第二判断结果表示相同时,则确定所述相邻的两帧图像之间未发生镜头分割;
第三确定子单元,用于当所述第二判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割。
可选的,所述摘要视频帧提取单元,具体包括:
关键帧识别子单元,用于识别场景中的关键帧;
特定特征确定子单元,用于确定所述关键帧中包含的特定特征;
信息量确定子单元,用于根据所述特定特征的预设权重以及所述特定特征在场景中的持续时间,确定所述关键帧包含的信息量;
关键帧提取子单元,用于依据信息量由大到小的顺序,提取前n个关键帧,n为预先设置的自然数。
可选的,还包括:
摘要视频帧排序单元,用于在提取摘要视频帧之后,按照所述摘要视频帧在所述时间轴上的时间先后顺序进行排序;
摘要视频生成单元,用于基于排序后的所述摘要视频帧,生成摘要视频;
关联关系建立单元,用于建立所述摘要视频与所述视频文件之间的关联关系。
可选的,所述关联关系建立单元,具体包括:
摘要视频插入子单元,用于将所述摘要视频插入所述视频文件的起始位置。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明实施例中的方法及装置,通过确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置;确定所述第一位置之前预设时间段内的第一音频;确定所述第一位置之后预设时间段内的第二音频;判断所述第一音频与所述第二音频是否具有连续性;如果具有连续性,则将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;否则,将所述第一图像与所述第二图像归类为不同场景;再对于每一个场景,提取摘要视频帧;能够根据网络视频中的场景变化提取网络视频中的关键帧,提高对于网络视频的摘要信息的提取效率,进而使用户可以快速了解视频内容。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的网络视频的摘要信息提取方法实施例1的流程图;
图2为本发明的网络视频的摘要信息提取方法实施例2的流程图;
图3为本发明的网络视频的摘要信息提取系统实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明的网络视频的摘要信息提取方法实施例1的流程图。如图1所示,该方法可以包括:
步骤101:获取视频文件;所述视频文件包括图像信息和音频信息,所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系;
所述视频文件可以是用于在网络中的服务器中存储,供网络用户进行点播的视频文件。例如,所述视频文件的类型可以是电影,电视剧或者用户自行拍摄的视频等等。
需要说明的是,本发明实施例中的视频文件,除了包括图像信息,还包括音频信息。所述音频信息可以是视频文件中的背景音乐,也可以是视频文件中人物之间的谈话,或者可以是视频文件中的其它物体发出的声音。
所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系,是指视频文件中的图像与音频在正常情况下是同步的。例如,在视频文件的第一分钟出现了某种声音,则在后续播放过程中,当该视频文件播放到第一分钟时,都会出现该种声音。
步骤102:确定所述图像信息对应的图像中发生镜头分割的片段在所述时间轴上所处的第一位置;
可以通过对视频文件中的图像进行特征比对,来判断是否发生了镜头分割。通常,镜头分割前后的图像,在特征上具有明显的不同。
当确定出发生镜头分割的图像内容后,可以获取该图像内容在视频文件的时间轴上所处的位置。该位置可以表述发生镜头分割的时间。
步骤103:确定所述第一位置之前预设时间段内的第一音频;
所述预设时间段可以根据实际需要进行设置。例如,可以将所述预设时间段设置为5秒、10秒、20秒等等。
步骤104:确定所述第一位置之后预设时间段内的第二音频;
本步骤中的预设时间段,可以与步骤103中的预设时间段的长度相同,也可以不同。
步骤105:判断所述第一音频与所述第二音频是否具有连续性;如果是,执行步骤106;否则,执行步骤107;
所述连续性是指所述第一音频与所述第二音频在音量大小,音调高低等方面是连续的,或者所述第一音频与所述第二音频都是谈话音,或者所述第一音频与所述第二音频都包含同样的背景音乐等等。如果具有连续性,则通常可以表示所述第一音频与所述第二音频是属于同一段音乐或者同一段对话的。由于视频文件中的图像与音频之间具有对应关系,所以据此也可以确定所述第一音频对应的图像与所述第二音频对应的图像是属于同一场景的。
在视频文件中,一个情节通常在一个场景中展开。本实施例中,以场景为单位对视频文件进行划分,可以使得对于视频文件的划分更为恰当,更能够提取出最能代表该视频的摘要视频帧。
所述判断所述第一音频与所述第二音频是否具有连续性,可以是对所述第一音频与所述第二音频是否具有连续性进行分析时,可以提取所述第一音频与所述第二音频构成的音频段整体,检测所述音频段整体在所述第一位置处是否连续。具体可以采用以下方式:
判断发生镜头分割的所述第一位置是否存在静音段;
如果不存在静音段,则判定所述第一音频与所述第二音频具有连续性;
如果存在静音段,则提取所述第一音频的第一Mel频率倒谱系数(MFCC)特征;
提取所述第二音频的第二Mel频率倒谱系数特征;
将所述第一Mel频率倒谱系数特征与所述第二Mel频率倒谱系数特征进行特征比对,得到比对结果;
当所述比对结果表示所述第一Mel频率倒谱系数特征与所述第二Mel频率倒谱系数特征相同或相近时,确定所述第一音频与所述第二音频具有连续性;
当所述比对结果表示所述第一Mel频率倒谱系数特征与所述第二Mel频率倒谱系数特征不相近时,确定所述第一音频与所述第二音频不具有连续性。
其中,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数特征则是利用它们之间的这种关系,计算得到的Hz频谱特征。
步骤106:将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;
步骤107:将所述第一图像与所述第二图像归类为不同场景;
步骤108:对于每一个场景,提取摘要视频帧;其中,对于每一个场景,提取的摘要视频帧的数目小于或等于第一数值,所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时,对每个镜头提取的摘要视频帧的数目的上限值。
现有技术中,对于摘要视频帧的提取通常是以分割后的镜头为单位进行的。假设以分割后的镜头为单位提取摘要视频帧时,每个镜头内可以提取的视频帧的数目上限为10个,总共划分出100个镜头,则可以提取的视频帧的总数目最大是1000个。而采用本实施例中的方法,可以将100个镜头中的部分镜头划分至同一场景中,假设划分为50个场景,每个场景内可以提取的视频帧的数目上限也为10个,则可以提取的视频帧的总数目最大是500个。可见,采用本实施例的摘要信息提取方法,可以精简需要提取的视频帧的数目。
综上所述,本实施例中,通过确定视频中发生镜头分割的片段在所述时间轴上所处的第一位置;确定所述第一位置之前预设时间段内的第一音频;确定所述第一位置之后预设时间段内的第二音频;判断所述第一音频与所述第二音频是否具有连续性;如果具有连续性,则将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;否则,将所述第一图像与所述第二图像归类为不同场景;再对于每一个场景,提取摘要视频帧;能够根据网络视频中的场景变化提取网络视频中的关键帧,提高对于网络视频的摘要信息的提取效率,进而使用户可以快速了解视频内容。
图2为本发明的网络视频的摘要信息提取方法实施例2的流程图。如图2所示,该方法可以包括:
步骤201:获取视频文件;所述视频文件包括图像信息和音频信息,所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系;
步骤202:采用分块直方图匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第一判断结果;
所述分块直方图匹配算法,是指将待分析的相邻的两帧图像中的每幅图像划分成多个块状区域;对不同图像中相应位置处的块状区域分别进行直方图匹配;根据匹配结果判断两帧图像是否相同。
分块直方图匹配算法,主要是对相邻的两帧图像进行分析,判断相邻的两帧图像是否发生了明显变化,因此适用于对镜头切换产生的镜头分割进行识别。但是,当视频图像中的镜头切换过程采用了渐变效果时,由于渐变过程中,图像的整体灰度、颜色是逐渐发生变化的,相邻两帧图像之间的变化并不明显,采用分块直方图匹配算法时,无法判定发生了镜头分割。为避免上述情况发生,本实施例中,当所述第一判断结果表示相同时,则采用特征点匹配算法判断所述图像信息对应的图像中相邻的两帧图像是否相同。
特征点匹配算法,主要是根据图像中的图形特征进行匹配,因此不会受到渐变镜头中图像的灰度和颜色变化所带来的影响。具体可以采用尺度不变特征转换(Scale-invariant feature transform,SIFT)提取方法提取图像中的特征。当然,还可以采用其他特征点匹配算法,此处不做赘述。
如果经过特征点匹配算法进行匹配后,判定两帧图像存在较大差异,则可以确定相邻的两帧图像发生了镜头分割。上述方式可以提高对于镜头分割的判定准确率。
步骤203:当所述第一判断结果表示相同时,则采用特征点匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第二判断结果;
步骤204:当所述第一判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割;
步骤205:当所述第二判断结果表示相同时,则确定所述相邻的两帧图像之间未发生镜头分割;
步骤206:当所述第二判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割,将所述两部分图像在所述时间轴上的交界位置确定为所述第一位置。
步骤207:确定所述第一位置之前预设时间段内的第一音频;
步骤208:确定所述第一位置之后预设时间段内的第二音频;
步骤209:判断所述第一音频与所述第二音频是否具有连续性;如果是,执行步骤210,否则,执行步骤211;
步骤210:将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;
步骤211:将所述第一图像与所述第二图像归类为不同场景;
步骤212:对于每一个场景,提取摘要视频帧;其中,对于每一个场景,提取的摘要视频帧的数目小于或等于第一数值,所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时,对每个镜头提取的摘要视频帧的数目的上限值。
综上所述,本实施例中,通过采用分块直方图匹配算法和特征点匹配算法相结合的判断方式,可以提高对于镜头分割的判定准确率。
实际应用中,所述提取摘要视频帧,具体可以包括以下步骤:
识别场景中的关键帧;
确定所述关键帧中包含的特定特征;
根据所述特定特征的预设权重以及所述特定特征在场景中的持续时间,确定所述关键帧包含的信息量;
依据信息量由大到小的顺序,提取前n个关键帧,n为预先设置的自然数。
其中,所述特定特征可以是各种类型的特征。例如,所述特定特征可以是特定的人脸,也可以是表示所述关键帧中具有打斗信息的特征。当某个关键帧中包括主要演员的人脸信息时,或者包括打斗信息时,可以认为该关键帧中包含的特定特征具有比较大的权重。某个特定特征在场景中的持续时间越长,可以提升包含该特定特征的关键帧的信息量。最终,可以将包含的特定特征的权重较大的关键帧,以及包含持续时间较长的特定特征的关键帧,判定为具有较多的信息量。
采用上述方式,可以在场景中包含的关键帧较多时,进一步提取出信息量较多的关键帧,从而进一步提高对于网络视频的摘要信息的提取效率。
还需要说明的是,所述提取摘要视频帧之后,还可以包括以下步骤:
按照所述摘要视频帧在所述时间轴上的时间先后顺序进行排序;
基于排序后的所述摘要视频帧,生成摘要视频;
建立所述摘要视频与所述视频文件之间的关联关系。
通过上述步骤,可以生成基于所述摘要视频帧的摘要视频。用户可以通过观看该摘要视频,快速了解对应的视频文件的内容。
其中,所述建立所述摘要视频与所述视频文件之间的关联关系,具体可以包括:
将所述摘要视频插入所述视频文件的起始位置。
将所述摘要视频插入所述视频文件的起始位置后,用户在点播所述视频文件时,可以首先观看到关于所述视频文件的摘要视频,方便用户快速了解对应的视频文件的内容。
本发明还公开了一种网络视频的摘要信息提取系统。
图3为本发明的网络视频的摘要信息提取系统实施例的结构图。如图3所示,该系统可以包括:
视频文件获取单元301,用于获取视频文件;所述视频文件包括图像信息和音频信息,所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系;
第一位置确定单元302,用于确定所述图像信息对应的图像中发生镜头分割的片段在所述时间轴上所处的第一位置;
第一音频确定单元303,用于确定所述第一位置之前预设时间段内的第一音频;
第二音频确定单元304,用于确定所述第一位置之后预设时间段内的第二音频;
音频连续性判断单元305,用于判断所述第一音频与所述第二音频是否具有连续性;
第一归类单元306,用于当所述音频连续性判断单元的判断结果为是时,将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;
第二归类单元307,用于当所述音频连续性判断单元的判断结果为否时,将所述第一图像与所述第二图像归类为不同场景;
摘要视频帧提取单元308,用于对于每一个场景,提取摘要视频帧;其中,对于每一个场景,提取的摘要视频帧的数目小于或等于第一数值,所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时,对每个镜头提取的摘要视频帧的数目的上限值。
综上所述,本实施例中,通过确定视频中发生镜头分割的片段在所述时间轴上所处的第一位置;确定所述第一位置之前预设时间段内的第一音频;确定所述第一位置之后预设时间段内的第二音频;判断所述第一音频与所述第二音频是否具有连续性;如果具有连续性,则将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;否则,将所述第一图像与所述第二图像归类为不同场景;再对于每一个场景,提取摘要视频帧;能够根据网络视频中的场景变化提取网络视频中的关键帧,提高对于网络视频的摘要信息的提取效率,进而使用户可以快速了解视频内容。
实际应用中,所述第一位置确定单元302,具体可以包括:
第一判断子单元,用于采用分块直方图匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第一判断结果;
第一确定子单元,用于当所述第一判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割;
第二判断子单元,用于当所述第一判断结果表示相同时,则采用特征点匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第二判断结果;
第二确定子单元,用于当所述第二判断结果表示相同时,则确定所述相邻的两帧图像之间未发生镜头分割;
第三确定子单元,用于当所述第二判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割。
实际应用中,所述摘要视频帧提取单元308,具体可以包括:
关键帧识别子单元,用于识别场景中的关键帧;
特定特征确定子单元,用于确定所述关键帧中包含的特定特征;
信息量确定子单元,用于根据所述特定特征的预设权重以及所述特定特征在场景中的持续时间,确定所述关键帧包含的信息量;
关键帧提取子单元,用于依据信息量由大到小的顺序,提取前n个关键帧,n为预先设置的自然数。
实际应用中,还可以包括:
摘要视频帧排序单元,用于在提取摘要视频帧之后,按照所述摘要视频帧在所述时间轴上的时间先后顺序进行排序;
摘要视频生成单元,用于基于排序后的所述摘要视频帧,生成摘要视频;
关联关系建立单元,用于建立所述摘要视频与所述视频文件之间的关联关系。
实际应用中,所述关联关系建立单元,具体可以包括:
摘要视频插入子单元,用于将所述摘要视频插入所述视频文件的起始位置。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种网络视频的摘要信息提取方法,其特征在于,包括:
获取视频文件;所述视频文件包括图像信息和音频信息,所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系;
确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置;
确定所述第一位置之前预设时间段内的第一音频;
确定所述第一位置之后预设时间段内的第二音频;
判断所述第一音频与所述第二音频是否具有连续性;
如果具有连续性,则将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;
否则,将所述第一图像与所述第二图像归类为不同场景;
对于每一个场景,提取摘要视频帧;其中,对于每一个场景,提取的摘要视频帧的数目小于或等于第一数值,所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时,对每个镜头提取的摘要视频帧的数目的上限值。
2.根据权利要求1所述的方法,其特征在于,所述确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置,具体包括:
采用分块直方图匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第一判断结果;
当所述第一判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割;
当所述第一判断结果表示相同时,则采用特征点匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第二判断结果;
当所述第二判断结果表示相同时,则确定所述相邻的两帧图像之间未发生镜头分割;
当所述第二判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割。
3.根据权利要求1所述的方法,其特征在于,所述提取摘要视频帧,具体包括:
识别场景中的关键帧;
确定所述关键帧中包含的特定特征;
根据所述特定特征的预设权重以及所述特定特征在场景中的持续时间,确定所述关键帧包含的信息量;
依据信息量由大到小的顺序,提取前n个关键帧,n为预先设置的自然数。
4.根据权利要求1所述的方法,其特征在于,所述提取摘要视频帧之后,还包括:
按照所述摘要视频帧在所述时间轴上的时间先后顺序进行排序;
基于排序后的所述摘要视频帧,生成摘要视频;
建立所述摘要视频与所述视频文件之间的关联关系。
5.根据权利要求4所述的方法,其特征在于,所述建立所述摘要视频与所述视频文件之间的关联关系,具体包括:
将所述摘要视频插入所述视频文件的起始位置。
6.一种网络视频的摘要信息提取系统,其特征在于,包括:
视频文件获取单元,用于获取视频文件;所述视频文件包括图像信息和音频信息,所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系;
第一位置确定单元,用于确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置;
第一音频确定单元,用于确定所述第一位置之前预设时间段内的第一音频;
第二音频确定单元,用于确定所述第一位置之后预设时间段内的第二音频;
音频连续性判断单元,用于判断所述第一音频与所述第二音频是否具有连续性;
第一归类单元,用于当所述音频连续性判断单元的判断结果为是时,将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景;
第二归类单元,用于当所述音频连续性判断单元的判断结果为否时,将所述第一图像与所述第二图像归类为不同场景;
摘要视频帧提取单元,用于对于每一个场景,提取摘要视频帧;其中,对于每一个场景,提取的摘要视频帧的数目小于或等于第一数值,所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时,对每个镜头提取的摘要视频帧的数目的上限值。
7.根据权利要求6所述的系统,其特征在于,所述第一位置确定单元,具体包括:
第一判断子单元,用于采用分块直方图匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第一判断结果;
第一确定子单元,用于当所述第一判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割;
第二判断子单元,用于当所述第一判断结果表示相同时,则采用特征点匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同,得到第二判断结果;
第二确定子单元,用于当所述第二判断结果表示相同时,则确定所述相邻的两帧图像之间未发生镜头分割;
第三确定子单元,用于当所述第二判断结果表示不同时,则确定所述相邻的两帧图像之间发生了镜头分割。
8.根据权利要求6所述的系统,其特征在于,所述摘要视频帧提取单元,具体包括:
关键帧识别子单元,用于识别场景中的关键帧;
特定特征确定子单元,用于确定所述关键帧中包含的特定特征;
信息量确定子单元,用于根据所述特定特征的预设权重以及所述特定特征在场景中的持续时间,确定所述关键帧包含的信息量;
关键帧提取子单元,用于依据信息量由大到小的顺序,提取前n个关键帧,n为预先设置的自然数。
9.根据权利要求6所述的系统,其特征在于,还包括:
摘要视频帧排序单元,用于在提取摘要视频帧之后,按照所述摘要视频帧在所述时间轴上的时间先后顺序进行排序;
摘要视频生成单元,用于基于排序后的所述摘要视频帧,生成摘要视频;
关联关系建立单元,用于建立所述摘要视频与所述视频文件之间的关联关系。
10.根据权利要求9所述的系统,其特征在于,所述关联关系建立单元,具体包括:
摘要视频插入子单元,用于将所述摘要视频插入所述视频文件的起始位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410652579.XA CN104320670A (zh) | 2014-11-17 | 2014-11-17 | 一种网络视频的摘要信息提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410652579.XA CN104320670A (zh) | 2014-11-17 | 2014-11-17 | 一种网络视频的摘要信息提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104320670A true CN104320670A (zh) | 2015-01-28 |
Family
ID=52375827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410652579.XA Pending CN104320670A (zh) | 2014-11-17 | 2014-11-17 | 一种网络视频的摘要信息提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104320670A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104954892A (zh) * | 2015-06-15 | 2015-09-30 | 海信集团有限公司 | 一种展示视频主题内容的方法及装置 |
CN106203244A (zh) * | 2015-05-08 | 2016-12-07 | 无锡天脉聚源传媒科技有限公司 | 一种镜头类型的确定方法及装置 |
CN107948729A (zh) * | 2017-12-13 | 2018-04-20 | 广东欧珀移动通信有限公司 | 富媒体处理方法、装置、存储介质和电子设备 |
CN108012202A (zh) * | 2017-12-15 | 2018-05-08 | 浙江大华技术股份有限公司 | 视频浓缩方法、设备、计算机可读存储介质及计算机装置 |
WO2018133321A1 (zh) * | 2017-01-20 | 2018-07-26 | 华为技术有限公司 | 一种生成镜头信息的方法和装置 |
CN108702551A (zh) * | 2016-02-19 | 2018-10-23 | 三星电子株式会社 | 用于提供视频的概要信息的方法和装置 |
CN111052751A (zh) * | 2017-09-19 | 2020-04-21 | 索尼公司 | 用于媒体内容的观众响应捕获和分析的校准系统 |
CN114222159A (zh) * | 2021-12-01 | 2022-03-22 | 北京奇艺世纪科技有限公司 | 一种视频场景变化点确定和视频片段生成方法及系统 |
CN115206341A (zh) * | 2022-07-18 | 2022-10-18 | 深圳瀚德智能技术有限公司 | 设备异常声音检测方法、装置和巡检机器人 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020061136A1 (en) * | 2000-07-14 | 2002-05-23 | Hiromasa Shibata | AV signal processing apparatus and method as well as recording medium |
CN1938714A (zh) * | 2004-03-23 | 2007-03-28 | 英国电讯有限公司 | 用于对视频序列的场景进行语义分段的方法和系统 |
CN101021904A (zh) * | 2006-10-11 | 2007-08-22 | 鲍东山 | 视频内容分析系统 |
CN102799637A (zh) * | 2012-06-27 | 2012-11-28 | 北京邮电大学 | 一种电视节目内部自动生成主要人物摘要的方法 |
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN103646094A (zh) * | 2013-12-18 | 2014-03-19 | 上海紫竹数字创意港有限公司 | 实现视听类产品内容摘要自动提取生成的系统及方法 |
-
2014
- 2014-11-17 CN CN201410652579.XA patent/CN104320670A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020061136A1 (en) * | 2000-07-14 | 2002-05-23 | Hiromasa Shibata | AV signal processing apparatus and method as well as recording medium |
CN1938714A (zh) * | 2004-03-23 | 2007-03-28 | 英国电讯有限公司 | 用于对视频序列的场景进行语义分段的方法和系统 |
CN101021904A (zh) * | 2006-10-11 | 2007-08-22 | 鲍东山 | 视频内容分析系统 |
CN102799637A (zh) * | 2012-06-27 | 2012-11-28 | 北京邮电大学 | 一种电视节目内部自动生成主要人物摘要的方法 |
CN103200463A (zh) * | 2013-03-27 | 2013-07-10 | 天脉聚源(北京)传媒科技有限公司 | 一种视频摘要生成方法和装置 |
CN103646094A (zh) * | 2013-12-18 | 2014-03-19 | 上海紫竹数字创意港有限公司 | 实现视听类产品内容摘要自动提取生成的系统及方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203244A (zh) * | 2015-05-08 | 2016-12-07 | 无锡天脉聚源传媒科技有限公司 | 一种镜头类型的确定方法及装置 |
CN106203244B (zh) * | 2015-05-08 | 2019-08-27 | 无锡天脉聚源传媒科技有限公司 | 一种镜头类型的确定方法及装置 |
CN104954892B (zh) * | 2015-06-15 | 2018-12-18 | 海信集团有限公司 | 一种展示视频主题内容的方法及装置 |
CN104954892A (zh) * | 2015-06-15 | 2015-09-30 | 海信集团有限公司 | 一种展示视频主题内容的方法及装置 |
CN108702551B (zh) * | 2016-02-19 | 2021-09-21 | 三星电子株式会社 | 用于提供视频的概要信息的方法和装置 |
CN108702551A (zh) * | 2016-02-19 | 2018-10-23 | 三星电子株式会社 | 用于提供视频的概要信息的方法和装置 |
WO2018133321A1 (zh) * | 2017-01-20 | 2018-07-26 | 华为技术有限公司 | 一种生成镜头信息的方法和装置 |
CN111052751A (zh) * | 2017-09-19 | 2020-04-21 | 索尼公司 | 用于媒体内容的观众响应捕获和分析的校准系统 |
US11218771B2 (en) | 2017-09-19 | 2022-01-04 | Sony Corporation | Calibration system for audience response capture and analysis of media content |
CN111052751B (zh) * | 2017-09-19 | 2022-02-01 | 索尼公司 | 用于媒体内容的观众响应捕获和分析的校准系统 |
CN107948729B (zh) * | 2017-12-13 | 2020-03-27 | Oppo广东移动通信有限公司 | 富媒体处理方法、装置、存储介质和电子设备 |
CN107948729A (zh) * | 2017-12-13 | 2018-04-20 | 广东欧珀移动通信有限公司 | 富媒体处理方法、装置、存储介质和电子设备 |
WO2019114835A1 (en) * | 2017-12-15 | 2019-06-20 | Zhejiang Dahua Technology Co., Ltd. | Methods and systems for generating video synopsis |
CN108012202A (zh) * | 2017-12-15 | 2018-05-08 | 浙江大华技术股份有限公司 | 视频浓缩方法、设备、计算机可读存储介质及计算机装置 |
US11076132B2 (en) | 2017-12-15 | 2021-07-27 | Zhejiang Dahua Technology Co., Ltd. | Methods and systems for generating video synopsis |
CN114222159A (zh) * | 2021-12-01 | 2022-03-22 | 北京奇艺世纪科技有限公司 | 一种视频场景变化点确定和视频片段生成方法及系统 |
CN115206341A (zh) * | 2022-07-18 | 2022-10-18 | 深圳瀚德智能技术有限公司 | 设备异常声音检测方法、装置和巡检机器人 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104320670A (zh) | 一种网络视频的摘要信息提取方法及系统 | |
CN106792100B (zh) | 一种视频弹幕显示方法及装置 | |
CN108322788B (zh) | 一种视频直播中的广告展示方法及装置 | |
CN107707931B (zh) | 根据视频数据生成解释数据、数据合成方法及装置、电子设备 | |
CN111988658B (zh) | 视频生成方法及装置 | |
CN107222795B (zh) | 一种多特征融合的视频摘要生成方法 | |
US11438510B2 (en) | System and method for editing video contents automatically technical field | |
CN110996153B (zh) | 基于场景识别的音画品质增强方法、系统和显示器 | |
CN109089154A (zh) | 一种视频提取方法、装置、设备及介质 | |
CN112445935B (zh) | 一种基于内容分析的视频精选合集的自动生成方法 | |
CN109089127A (zh) | 一种视频拼接方法、装置、设备及介质 | |
CN107172482B (zh) | 图像互换格式图片的生成方法及装置 | |
JP2016524875A (ja) | フィンガープリントに基づく広告検出システム及び方法 | |
CN109408672A (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
CN112312142B (zh) | 视频播放控制方法、装置和计算机可读存储介质 | |
CN110996183B (zh) | 视频摘要的生成方法、装置、终端及存储介质 | |
KR20130100994A (ko) | 3d 통신 시스템에서 보조 콘텐츠를 제공하기 위한 방법 및 장치 | |
JP2020127714A (ja) | ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム | |
CN112287771A (zh) | 用于检测视频事件的方法、装置、服务器和介质 | |
CN104581224B (zh) | 切换播放内容的方法、装置及终端 | |
CN115604497A (zh) | 直播对象锐化过度鉴定装置 | |
CN108985244B (zh) | 一种电视节目类型识别方法及装置 | |
Lai et al. | Tennis Video 2.0: A new presentation of sports videos with content separation and rendering | |
CN114339451A (zh) | 视频剪辑方法、装置、计算设备及存储介质 | |
KR20180089977A (ko) | 영상 이벤트 단위 세그멘테이션 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150128 |