CN101364305A - 电子装置、运动向量检测方法和其程序 - Google Patents

电子装置、运动向量检测方法和其程序 Download PDF

Info

Publication number
CN101364305A
CN101364305A CNA200810129814XA CN200810129814A CN101364305A CN 101364305 A CN101364305 A CN 101364305A CN A200810129814X A CNA200810129814X A CN A200810129814XA CN 200810129814 A CN200810129814 A CN 200810129814A CN 101364305 A CN101364305 A CN 101364305A
Authority
CN
China
Prior art keywords
motion vector
field picture
detection
fade
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200810129814XA
Other languages
English (en)
Other versions
CN101364305B (zh
Inventor
村林升
冈本裕成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101364305A publication Critical patent/CN101364305A/zh
Application granted granted Critical
Publication of CN101364305B publication Critical patent/CN101364305B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/55Motion estimation with spatial constraints, e.g. at image or region borders

Abstract

提供了一种电子装置、运动向量检测方法和其程序。该电子装置包括提取单元、检索单元、检测单元和控制单元。提取单元提取从构成视频数据的多个帧图像中的第一帧图像的第一位置处的第一块。检索单元从所述多个帧图像中的第二帧图像内的检索区域检索第二块,其中所述第一块与所述第二块之间具有最小的残差值,所述第二和所述第一帧图像之间具有第一时间长度。检测单元检测在所述第一和所述第二块之间的第一运动向量。控制单元控制所述检测单元,以便当在与对应于所述第一位置的第二帧图像的第二位置距离第一阈值或更多的第三位置处检索到所述第二块时,调节所述第一运动向量的检测。

Description

电子装置、运动向量检测方法和其程序
技术领域
本发明涉及能够从视频内容检测运动向量的电子装置、用于该电子装置的运动向量检测方法,和其程序。
背景技术
近年来,在诸如包括HDD(硬盘驱动器)记录器、DVD(数字通用盘)记录器和BD(蓝光盘)记录器在内的记录/再现装置和PC(个人计算机)的电子装置中,记录介质的容量扩展,且由于内容的多样性等,要被记录和存储的内容量增加。作为允许用户有效地浏览如此大量的内容的一种技术,存在一种检测已经拍摄了视频内容的摄像机的运动特征(以后称为摄像机操作特征)(例如摇动、倾斜和缩放)并基于所检测的特征提取视频内容内的特征部分、以从而再现高亮场景的技术。
可以通过使用块匹配处理检测运动向量来检测这种摄像机操作特征。块匹配处理涉及:例如从视频内容内的基本帧提取基本块,以及在相比于基本帧来说具有预定帧间隔的检索帧(retrieval frame)中的检索范围内移动检索块,以检索相似度变得最大的位置、即匹配差异变得最小的位置。
但是,例如,在快速移动已经拍摄了视频内容的摄像机的情况下,可能在检索范围外检索到对应于基本块的块。在这种情况下,因为难以确定对应于该基本块的块是否处于检索范围内或检索范围外,因此当对应于基本块的块在检索范围外时,可能检测相似度在检索范围内变得最大的位置,而不考虑当前运动位置不在检索范围内的事实。因此,可能错误地检测与实际运动的运动向量不同的运动向量。另外,例如,当在基本帧和检索帧之间发生场景变化时,虽然无疑在两帧之间通常不存在运动向量,但在这种情况下也可能错误地检测到运动向量。
关于上述问题,日本专利申请特开No.2003-299040(图6等)(此后称为专利文献1)公开了如下技术。在该技术中,计算在从当前帧切出的基本块与在作为当前帧之后一帧的参考帧的检索范围内移动的检索块之间的绝对差值总和(absolute differential sum),并检索绝对差值总和变得最小的检索块的像素位置,以如此获得在检索块的像素位置和基本块的像素位置之间的运动向量。在这种情况下,当绝对差值总和变得最小的像素位置在检索范围外时,校正所获得的运动向量的向量(vector)量(amount)以便上述像素位置位于检索范围内。
发明内容
但是,在专利文献1中,通过提供在该检索范围以外的另外扩展该检索范围所达到的扩展的检索范围、并将检索块移动到该扩展的检索范围,来检测已经移出检索范围的检索块。因此,在专利文献1公开的技术中,扩展的检索范围被视为实质的检索范围,且当检索块移出该扩展的检索范围时,可能难以检测实际的运动向量,因此导致错误的检测。
考虑上述环境,需要一种能够防止运动向量的错误检测的电子装置、用于该电子装置的运动向量检测方法和其程序。
根据本发明的实施例,提供一种包括提取部件、检索部件、检测部件和控制部件的电子装置。提取部件提取从构成视频数据的多个帧图像中的第一帧图像的第一位置处的第一块。检索部件从所述多个帧图像中的第二帧图像内的检索区域检索第二块,其中所述第一块与所述第二块之间具有最小的残差值,所述第二帧图像和所述第一帧图像之间具有第一时间长度。检测部件检测在所述第一块和所述第二块之间的第一运动向量。控制部件控制所述检测部件,以便当在与对应于所述第一位置的第二帧图像的第二位置距离第一阈值或更多的第三位置处检索所述第二块时,调节所述第一运动向量的检测。
在此使用的电子装置涉及如下电子设备,诸如包括HDD记录器、DVD记录器和BD记录器、PC、电视装置、游戏机和手机的记录/再现装置。第一时间长度和第二时间长度的例子包括1-帧时间、4-帧时间、10-帧时间、20-帧时间和30-帧时间。另外,在该情况下的阈值是例如分别在X方向(水平方向)和Y方向(垂直方向)上的±8像素,但不局限于此。
用该结构,当在与第二位置距离第一阈值或更多的第三位置处检索到第二块时,因为其检索位置被假设为不准确,因此调节第一运动向量的检测。因此,可以防止运动向量的错误检测,而不考虑第二块是否在第二帧的检索区域外。
在根据本发明的实施例的电子装置中,当在所述第三位置处检索到所述第二块且所述残差值是第二阈值或更多时,所述控制部件可以调节所述第一运动向量的检测。
因此,即使第二块的运动量小于第一阈值,当残差值是第二阈值或更多时,即当检索到不相似于第一块的第二块时,能够调节第一运动向量的检测,因此增强了在检测运动向量中的准确性。
在根据本发明的实施例的电子装置中,所述检索部件可以从第三帧图像内的检索区域检索第三块,其中所述第一块与所述第三块具有最小的残差值,所述第三帧图像和所述第一帧图像之间具有不同于所述第一时间长度的第二时间长度。另外,所述检测部件可以检测在所述第一块和所述第三块之间的第二运动向量,且基于所述第一运动向量和所述第二运动向量来检测所述视频数据内的运动特征。另外,所述控制部件可以控制所述检测部件,以便当调节(regulate)所述第一运动向量的检测时,基于所述第二运动向量来检测所述运动特征。
在此使用的运动特征涉及例如当操作摄像机时导致的、诸如由手的移动导致的摇动、倾斜、缩放和抖动的视频特征。可以通过例如基于每个运动向量使用仿射变换模型进行多重回归分析并计算指示各个运动特征的仿射系数,来检测运动特征。因此,当在基于第一和第二运动向量检测运动特征中确定第二块的运动量和残差值是不准确的时,不检测第一运动向量,并仅基于第二运动向量来检测运动特征,因此增加了在检测运动向量中的精确性。
在根据本发明的实施例的电子装置中,所述检索部件可以从第四帧图像内的检索区域检索第四块,其中所述第一块与所述第四块具有最小的残差值,所述第四帧图像和所述第一帧图像之间具有不同于所述第一时间长度和所述第二时间长度的第三时间长度。另外,所述检测部件可以检测在所述第一块和所述第四块之间的第三运动向量,基于所述第一运动向量、所述第二运动向量和所述第三运动向量来估计第四运动向量,并基于所估计的第四运动向量来检测所述运动特征,其中,所述第四运动向量被假设为在第五帧图像内被检测,所述第一帧图像与所述第五帧图像具有长于所述第一时间长度、所述第二时间长度和所述第三时间长度的任一个的第四时间长度。另外,所述控制部件可以控制所述检测部件,以便当调节所述第一运动向量的检测时,基于所述第二运动向量和所述第三运动向量来估计所述第四运动向量。
因此,由于能够检测在时间长度上不同的多个帧间隔的运动向量,因此基于所检测的运动向量,可以推测在长于在已经检测了各个运动向量的时间长度的时间长度处的运动向量,可以扩展运动向量的动态范围,且相比于仅基于所检测的运动向量来检测运动特征的情况,可以增加数据的分辨率性能,并可以以较高精确性来检测运动特征。而且,同时,当确定第二块的运动量和残差值不准确时,在运动向量估计处理中不使用其检测数据,因此另外地提高了检测运动特征中的精确性。
在这种情况下,在根据本发明的实施例的电子装置中,所述检测部件可以包括用于基于所述第一运动向量和所述第一时间长度来计算第一梯度的部件,用于基于所述第二运动向量和所述第二时间长度来计算第二梯度的部件,用于基于所述第三运动向量和所述第三时间长度来计算第三梯度的部件,用于通过平均化所计算的第一梯度、第二梯度和第三梯度来计算第四梯度的部件,以及用于基于所计算的第四梯度来估计所述第四运动向量的部件。另外,所述控制部件可以控制所述检测部件,以便当调节所述第一运动向量的检测时,通过平均化第二梯度和第三梯度来计算所述第四梯度。
因此,通过基于通过平均化在各个时间长度处的运动向量的梯度而计算的第四梯度来估计第四运动向量,能够准确地估计该第四运动向量。另外,当确定第二块的运动量和残差值不准确时,在平均化梯度中不使用其检测数据,因此另外地增加了在估计第四运动向量中的准确性。
在根据本发明的实施例的电子装置中,所述检测部件可以计算所述第一梯度、所述第二梯度和所述第三梯度,作为通过分别将所述第一时间长度、所述第二时间长度和所述第三时间长度除以所述第一帧图像的时间长度而获得的值分别与所述第一运动向量、所述第二运动向量和所述第三运动向量的比率。
因此,即使当由于视频数据而导致帧图像的帧速率彼此不同时,也可以归一化不同的帧速率。因此,能够准确地估计第四运动向量。
根据本发明的另一实施例,提供一种运动向量检测方法,包括:提取从构成视频数据的多个帧图像中的第一帧图像的第一位置处的第一块;从所述多个帧图像中的第二帧图像内的检索区域检索第二块,其中所述第一块与所述第二块之间具有最小的残差值,所述第二帧图像和所述第一帧图像之间具有第一时间长度;检测在所述第一块和所述第二块之间的第一运动向量;以及控制所述检测,以便当在与对应于所述第一位置的第二帧图像的第二位置距离第一阈值或更多的第三位置处检索所述第二块时,调节所述第一运动向量的检测。
根据本发明的另一实施例,提供一种使得电子装置进行如下步骤的程序:提取从构成视频数据的多个帧图像中的第一帧图像的第一位置处的第一块;从所述多个帧图像中的第二帧图像内的检索区域检索第二块,其中所述第一块与所述第二块之间具有最小的残差值,所述第二帧图像和所述第一帧图像之间具有第一时间长度;检测在所述第一块和所述第二块之间的第一运动向量;以及控制所述检测,以便当在与对应于所述第一位置的第二帧图像的第二位置距离第一阈值或更多的第三位置处检索所述第二块时,调节所述第一运动向量的检测。
根据本发明的另一实施例,提供一种电子装置,包括:提取单元,检索单元、检测单元和控制单元。提取单元被配置用于提取从构成视频数据的多个帧图像中的第一帧图像的第一位置处的第一块。检索单元被配置用于从所述多个帧图像中的第二帧图像内的检索区域检索第二块,其中所述第一块与所述第二块之间具有最小的残差值,所述第二帧图像和所述第一帧图像之间具有第一时间长度。检测单元被配置用于检测在所述第一块和所述第二块之间的第一运动向量。控制单元被配置用于控制所述检测单元,以便当在与对应于所述第一位置的第二帧图像的第二位置距离第一阈值或更多的第三位置处检索所述第二块时,调节所述第一运动向量的检测。
如上所述,根据本发明的实施例,能够防止运动向量的错误检测。
如附图中所示,在以下本实施例的最佳模式的详细模式下,本发明的这些和其他目的、特征和优点将变得更清楚。
附图说明
图1是示出根据本发明的实施例的记录/再现装置的结构的图;
图2A-2B是每个示出根据本发明的实施例的摄像机操作特征的图;
图3A-3B是每个示出根据本发明的实施例的视频编辑特征的图;
图4A-4F是每个示意地示出根据本发明的实施例的摄像机操作特征的图;
图5是示意地示出根据本发明的实施例的在缩放中的图像的变化量的图;
图6是示意地示出根据本发明的实施例的由手振动导致的抖动图像的图;
图7是具体示出根据本发明的实施例的视频特征检测部分的结构的图;
图8是示出根据本发明的实施例的、当记录/再现装置判断视频特征时进行的处理的流程的流程图;
图9是示出根据本发明的实施例的运动向量检测处理的流程的流程图;
图10是具体示出根据本发明的实施例的、以1-帧间隔进行的运动向量检测处理的流程图;
图11是具体示出根据本发明的实施例的以10-帧间隔进行的运动向量检测处理的流程图;
图12是具体示出根据本发明的实施例的以20-帧间隔进行的运动向量检测处理的流程图;
图13是具体示出根据本发明的实施例的以30-帧间隔进行的运动向量检测处理的流程图;
图14是示出根据本发明的实施例的块匹配处理的流程的流程图;
图15是示出根据本发明的实施例的设置参考图像区域和检索区域的状态的图;
图16A-16C是示出根据本发明的实施例的在块匹配处理中基本块设置方法的图;
图17A-17B是示出根据本发明的实施例的块匹配处理的状态的图;
图18是示出根据本发明的实施例的运动向量估计处理的流程的流程图;
图19是示出根据本发明的实施例的运动向量的梯度(gradient)的图;
图20示出根据本发明的实施例的仿射变换模型(affine transformationmodel);
图21图示根据本发明的实施例的多重回归(multiple regression)分析处理;
图22是示出根据本发明的实施例的抖动判断处理的图;
图23是示出根据本发明的实施例的、在考虑包括切换点的情况下、在淡入淡出/切换(fade/cut)评估值的计算结果和帧的流逝之间的关系的图;
图24是示出根据本发明的实施例、在考虑包括淡入淡出的情况下、在淡入淡出/切换评估值的计算结果和帧的流逝之间的关系的图;
图25是示出根据本发明的实施例的场景ID处理部分的结构的图;
图26是示出根据本发明的实施例的、在由ID处理输出的场景ID与帧号之间的关系的图;
图27是根据本发明的实施例的视频特征的判断结果的表;
图28A-28F是每个示出根据本发明的实施例的、构成视频内容的每个视频特征的场景部分的组合的图;
图29是示出在基于图28A所示的情况、由相似图像部分和不相似图像部分构成视频内容的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图;
图30是示出在图28B的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图;
图31是示出在图28C的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图;
图32是示出在图28D的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图;
图33是示出在图28E的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图;
图34是示出在图28F的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图;
图35是示出根据本发明的实施例的使用检测到的缩放特征的高亮场景再现处理的例子的图;
图36是示出根据本发明的实施例的、使用检测到的摇动、倾斜和缩放的摄像机操作特征的高亮场景再现处理的例子的图;以及
图37是示出根据本发明的实施例的、由并行连接帧间存储器部分构造视频特征检测部分的例子的图。
具体实施方式
然后,将参考附图来描述本发明的实施例。
图1是示出根据本发明的实施例的记录/再现装置100的结构的图。
如图所示,记录/再现装置100包括CPU(中央处理单元)1、RAM(随机存取存储器)2、操作输入部分3、视频特征检测部分4、数字调谐器5、IEEE1394接口6、以太网(注册商标)/无线LAN(局域网)接口7、USB(通用串行总线)接口8、存储卡接口9、HDD(硬盘驱动器)10、光盘驱动器11、缓冲器控制器13、选择器14、解复用器15、AV(音频/视频)解码器16、OSD(屏幕上显示)17、视频D/A(数字/模拟)转换器18、以及音频D/A转换器19。
CPU 1当有必要控制记录/再现装置100的全部块时任意地存取RAM 2等。RAM 2被用作CPU 1等的工作区,且暂时地存储OS(操作系统)、程序、处理数据等。
操作输入部分3由例如按钮、开关、键、触摸板或用于接收从远程控制器(未示出)传送的红外线信号的光接收部分构成,并输入由用户的操作进行的各种设置值和指令,并向CPU 1输出这些值和指令。
在CPU 1的控制下,数字调谐器5经由天线(未示出)以数字广播来接收广播节目的广播信号,并收听,且解调制具体频道的广播信号。该广播信号经由选择器14被输出到解复用器15以被再现,经由缓冲器控制器13被记录到HDD 10上,或被记录到被插入光盘驱动器11的光盘12上。
IEEE 1394接口6可连接于诸如数字视频摄像机的外部设备。例如,与在由数字调谐器5接收广播节目的视频内容的情况一样,由数字视频摄像机拍摄和记录的视频内容被再现,或被记录到HDD 10或光盘12上。
以太网(注册商标)/无线LAN接口7被用于例如使用以太网(注册商标)或无线LAN来输入由PC或其他记录/再现装置记录的视频内容。在这种情况下的视频内容也能够被再现或被记录到HDD 10或光盘12上。
USB接口8被用于例如经由USB输入来自诸如数字摄像机和诸如所谓USB存储器的外部存储装置之类的设备的视频内容。在这种情况下的视频内容也能够被再现或被记录到HDD 10或光盘12上。
存储卡接口9被例如连接于具有内置闪存的存储卡,且被用于输入被记录在存储卡中的视频内容。在这种情况下的视频内容也能够被再现或被记录到HDD 10或光盘12上。
除了被接收为广播信号的、或从外部设备输入的各种视频内容以外,HDD10将各种程序、数据等记录到内置硬盘上,并在其再现时从硬盘读出这些程序、数据等,以向缓冲器控制器13输出数据。
光盘驱动器11将视频内容等记录到光盘12上,并在其再现时读出视频内容等,以向缓冲器控制器13输出数据。光盘12是例如DVD(数字通用盘)、BD(蓝光盘)、和CD(紧致盘)。
缓冲器控制器13控制相对于HDD 10或光盘12、从数字调谐器5或各种其他接口连续供应的视频内容的写入时刻和数据量,并间断地将视频内容写入HDD 10或光盘12中。另外,缓冲器控制器12控制被记录到HDD 10或光盘12上的视频内容的读取时刻和数据量,并向解复用器5连续地供应该间断地读出的视频内容。
选择器14基于来自CPU 1的控制信号来选择从数字调谐器5、各种接口、HDD 10和光盘驱动器11中的任何输入的视频内容。
解复用器15将从缓冲器控制器13输入的复用的视频内容分离成视频信号和音频信号,并向AV解码器16供应这些信号。
AV解码器16解码以例如MPEG(运动图像专家组)-2格式或MPEG-4格式编码的视频信号和音频信号,并向OSD 17输出视频信号,向音频D/A转换器19输出音频信号。
OSD 17生成将被显示在显示器(未示出)上的图形等,并对生成的图形等施加视频信号的合成处理或转变(switching)处理。之后,OSD 17向视频D/A转换器18输出处理后的视频信号。视频D/A转换器18将由OSD 17施加图形处理后的视频信号从数字信号转换成模拟信号,以获得NTSC(国家电视标准委员会)信号,并向用于显示的显示器(未示出)输出转换后的信号。
音频D/A转换器19将从AV解码器16输入的音频信号从数字信号转换成模拟信号,并向用于其再现的扬声器(未示出)输出转换后的信号。
视频特征检测部分4从被AV解码器16解码之前的视频信号或从被AV解码器16解码之后的视频信号检测视频特征。图2和3是图示视频特征的图。
图2A示出包含场景S1-到S6、且当从场景S1开始在左或右手方向上移动(摇动)摄像机时拍摄的视频。图2B示出包含场景S1到S6、且当摄像机从场景S1开始放大时拍摄的视频。在该实施例中,由诸如摇动、倾斜(未示出)和缩放的摄像机工作而导致的视频特征被称为摄像机操作特征。
图3A示出其中场景在场景S3和S4之间提供的切换点fa处从场景S3转变到S4的状态。图3B示出其中场景如场景S1到S3顺序呈现的那样逐渐淡出且另一场景如场景S4到S6顺序呈现的那样逐渐淡入的状态。在该实施例中,当编辑诸如包括切换和淡入淡出的视频效果的视频时导致的视频特征、或在通过耦接在多个地点拍摄的场景而导致的场景之间的相似性(未示出)被称为视频编辑特征。
视频特征检测部分4通过将稍后描述的公共信号处理系统检测诸如摄像机操作特征和视频编辑特征,并使用检测到的视频特征来进行诸如高亮场景生成和章节生成的视频内容处理。
图4是每个示意地示出摄像机操作特征的图。
图4A示出向左摇动。在这种情况下,视频中的物体在右手方向上移动。
图4B示出向右摇动。在这种情况下,视频中的物体在左手方向上移动。
图4C示出向下倾斜。在这种情况下,视频中的物体向上移动。
图4D示出向上倾斜。在这种情况下,视频中的物体向下移动。
图4E示出了放大。在这种情况下,视频中的物体被扩大。
图4F示出了缩小。在这种情况下,视频中的物体被收缩。
图5是示意地示出在缩放中的图像的变化量的图。
为了检测在视频内容中的摄像机操作特征,有必要使用块匹配来检测在视频内容中的运动向量。但是,如图4所示,因为缩放后的图像的运动量比摇动后的图像或倾斜后的图像的运动量更小,所以其检测水平也被视为小。因此,当使用现有技术中的单个块的块匹配时,可能没有检测到缩放,因此导致错误的检测。因此,该实施例使用多个块的组合来进行块匹配。
在此,如图5的箭头d所示,在缩放中的图像的变化是在径向方向(斜线方向)上的变化。因此,当在X和Y方向上投影其变化量时,由箭头x和y分别指示的变化量都小于在径向方向上的原始变化量。因此,在块匹配中的错误检测被视为,相比于使用特定块和在X或Y方向上排列的另一块的组合的块匹配中的错误检测,使用特定块和在径向方向上排列的另一块的组合的块匹配中的错误检测被抑制得更多。因此,在该实施例中,视频特征检测部分4使用在径向方向上排列的块的组合来进行块匹配,其具体处理将稍后描述。
顺带提及,近来的家庭视频摄像机通常被装配有所谓抖动校正功能。但是,抖动校正功能的校正量受限制,因此由家庭视频摄像机拍摄的视频内容非常可能或多或少地包含抖动的画面。另外,实际上,本发明的发明人实验性地比较用家庭视频摄像机拍摄的视频与在摄影棚中拍摄的视频、诸如广播节目,且发现在两个视频中的运动向量的颤动量彼此差别很大。
图6是示意地示出基于实验性结果的抖动画面的图。如图所示,由帧单元中的摇动和倾斜而随机地导致抖动的画面。因此,可以通过检测视频内容内的预定部分中的摇动和倾斜的时序行为变化、即运动向量的时序行为变化来检测由手的移动导致的抖动。
因此,通过检测抖动画面的出现或不出现或其发生频率,变得能够区分用广播内容记录的视频内容和用家庭视频摄像机拍摄的视频内容。假设记录/再现装置100在其中存储了各种多媒体内容,因此认为在例如组织视频内容时彼此区分视频内容非常有效。因此,在该实施例中,视频特征检测部分4不仅检测摇动、倾斜和缩放,还检测由手的移动导致的抖动,作为摄像机操作特征,其具体处理将稍后描述。
图7是示意地示出视频特征检测部分4的结构的方块图。
如图所示,视频特征检测部分4包括图像处理部分21、1-帧-间隔存储器部分22、10-帧-间隔存储器部分23、20-帧-间隔存储器部分24、30-帧-间隔存储器部分25、用于各个存储器部分的匹配处理部分26、28、30和32、还被提供给各个存储器部分的淡入淡出/切换处理部分27、29、31和33、运动向量处理部分34、摄像机特征判断部分36、淡入淡出/切换判断部分35和场景ID处理部分37。
图像处理部分21以帧号的次序输入被包含在AV解码器16解码的视频内容中的在基带带宽中的帧的图像数据(具体地,亮度信号Y和色差信号Cb和Cr),并基于图像数据进行各类处理,诸如设置在其上要进行运动向量检测的参考图像区域和作为运动向量检测的基础的位置(此后称为基本位置)、设置运动向量的检索区域和提取作为块匹配处理的基础的块(此后称为基本块),它们的详细处理将稍后描述。
应该注意,在基带带宽中进行处理的原因在于,考虑要在记录/再现装置100中再现的视频内容,可能共存以各种格式的视频内容、诸如除了MPEG格式数据以外的数字记录DV(数字视频)格式数据、模拟记录的VHS(视频家庭系统)格式数据、和8-mm格式数据,因此在尽可能多的公共信号处理系统中进行从这些视频内容中的视频特征提取处理。
1-帧-间隔存储器部分22、10-帧-间隔存储器部分23、20-帧-间隔存储器部分24、和30-帧-间隔存储器部分25存储在如下范围内的图像数据段:该范围从已经提取了基本块的帧(此后称为基本帧)到基本帧具有1帧、10帧、20帧和30帧的间隔的各个帧。当然,帧间隔不局限于此。
匹配处理部分26、28、30和32在从图像处理部分21输入的基本帧与从帧间存储器部分22到25分别输入的帧(以后称为检索帧)的检索区域之间进行块匹配处理,并向运动向量处理部分34输出各个结果。块匹配处理涉及当移动具有与基本帧的基本块相同的形状的检索帧内的块(以后称为检索块)时,检索基本块和检索块之间相似度变得最大的位置。匹配处理部分26、28、30和32向运动向量处理部分34分别输出从基本位置到各个检索的位置的运动向量量(即在X(水平)和Y(垂直)方向上的运动量和运动方向)。另外,匹配处理部分26、28、30和32分别向淡入淡出/切换处理部分27、29、31和33输出在基本块和各个检索块之间的Y、Cb和Cr的残差值。稍后将详细描述上述处理。
基于从匹配处理部分26、28、30和32分别输入的匹配之后差分值,淡入淡出/切换处理部分27、29、31和33分别生成淡入淡出/切换评估值,并向淡入淡出/切换判断部分35输出该值,其详细处理稍后将描述。
应该注意,淡入淡出/切换处理部分27、29、31和33可以分别计算在从图像处理部分21输入的基本块与分别从帧间存储器部分22到25输入的检索块之间获得的、并在块匹配处理中使用的差分值。
基于由于块匹配处理而获得的、且分别从匹配处理部分26、28、30和32输入的运动向量量,运动向量处理部分34估计与基本位置之间具有30帧或更多如40帧的帧间隔的位置处的运动向量量,并向摄像机特征判断部分36输出估计的运动向量量,其详细处理将稍后描述。
基于从运动向量处理部分34输入的估计的运动向量量,摄像机特征判断部分36通过使用稍后描述的仿射变换模型的多重回归分析来判断视频内容内的摇动、倾斜和缩放的摄像机操作特征,并向CPU 1输出判断结果,其详细处理将稍后描述。
基于分别从淡入淡出/切换处理部分27、29、31和33输入的淡入淡出/切换评估值,淡入淡出/切换判断部分35判断在视频内容内的淡入淡出或切换的视频编辑特征,并向CPU 1输出判断结果。
基于从帧间存储器部分22到25分别输入的检索帧的图像数据,场景ID处理部分37进行预定的向量间距离计算处理,以判断帧间相似度,基于判断结果给帧分配各个场景ID,并向CPU 1输出结果,其详细处理将稍后描述。
接下来,将描述如此构造的记录/再现装置100的操作。
图8是示出当记录/再现装置100检测视频特征时进行的处理的流程的流程图。
如图所示,视频特征检测部分4首先进行各个视频特征的检测标记的初始设置(步骤41)。检测标记分别指示摇动、倾斜、缩放和抖动的摄像机操作特征,且已经从视频内容检测淡入淡出和切换的视频编辑特征。分别由Dpan、Dtilt、Dzoom、Dbure、Dfade和Dcut表示视频特征的检测标记,且在初始设置中,其标记值被设置为0。
随后,视频特征检测部分4使用图像处理部分21、帧间存储器部分22到25、匹配处理部分26、28、30和32,以及运动向量处理部分34检测视频内容中的运动向量(步骤42)。
现在,将具体描述运动向量检测处理。图9是示出运动向量检测处理的流程的流程图。
顺带提及,如上所述,在运动向量检测处理中,可以通过在与基本帧具有各个预定帧间隔的检索帧中设置检索区域,并进行在基本帧和各个检索区域之间的块匹配处理,来检测运动向量。但是,当快速移动拍摄了视频内容的摄像机时,例如,太长的帧间隔可能导致在该间隔处在该视频中频繁出现运动,因此降低了检测分辨率性能且禁用(disable)准确的运动向量检测。
另外,当缓慢地移动摄像机时,太短的帧间隔导致在间隔处检测到的运动向量的检测值过度减少,因此在这种情况下也禁用准确的运动向量检测。
在快速移动摄像机的上述情况下,对应于基本块的块可能移出检索区域。但是,在检测期间无法判断对应于基本块的块是否在检索范围内或在检索范围外。
因此,在该实施例中,视频特征检测部分4基于在块匹配中的检测点处的运动量和匹配的残差值来估计检索准确性。当被判断为不准确时,视频特征检测部分4不使用其检测数据,并仅使用准确的检测数据,以及基于在其他帧间隔处的匹配数据来估计在较长帧间隔处的运动向量量。然后,视频特征检测部分4使用估计的运动向量量作为要用于检测视频特征的运动向量量。
如图9所示,视频特征检测部分4首先将指示准确的检测数据段的数量的计数器值m设置为0(步骤91)。稍后将详细描述计数器值m。
随后,视频特征检测部分4使用从图像处理部分21输入的基本帧和分别存储在帧间存储器部分22到25中的检索帧,以分别在1-帧间隔、10-帧间隔、20-帧间隔和30-帧间隔处由匹配处理部分26、28、30和32进行运动向量检测处理(步骤92到95),其详细处理将稍后描述。
接下来,基于在各个帧间隔处检测的运动向量的数据,视频特征检测部分4使用运动向量处理部分34来估计在40-帧间隔处的运动向量(步骤96),并向摄像机特征判断部分36输出关于估计的运动向量的数据作为最后运动向量数据(步骤97),其详细处理稍后将描述。
然后,视频特征检测部分4判断是否已经对构成单个视频内容的所有帧输出了运动向量数据,并重复步骤91到97的处理直到对所有帧检测了运动向量(步骤98)。
图10到13是分别具体示出在运动向量检测处理中在各个帧间隔处在图9中的步骤92到95的处理的流程图。首先,将描述在步骤92中1-帧间隔运动向量检测处理。
如图10所示,首先,图像处理部分21和匹配处理部分26进行在基本帧和与基本帧具有1-帧间隔的检索帧之间的块匹配处理(步骤921)。
现在,将详细描述块匹配处理。图14是示出块匹配处理的流程的流程图。
如图所示,图示处理部分21首先在基本帧中设置参考图像区域和检索区域(步骤101)。图15是示出设置了参考图像区域和检索区域的状态的图。
如图所示,匹配处理部分26设置定义在作为原始图像(S)的基本帧71中的运动向量的检索范围的检索区域72,并设置在检索区域72内部的参考图像区域73作为运动向量的检测目标范围。
然后,匹配处理部分26将参考图像区域73划分为例如8×8=64个区域74,并设置每个区域74的中心点作为运动向量检测目标点Pn(n=0到63)。
应该注意,基本帧71的尺寸是例如720×480(像素),但不局限于此。另外,原始图像(S)可以是基本帧71的收缩(contracted)图像。例如,当基本帧71具有尺寸720×480(像素)时,具有原始图像(S)的尺寸的1/4的图像(在横向和纵向上的长度的一半)、即具有360×240(像素)的尺寸的图像被设置为原始图像(S),且检索区域72和参考图像区域73被设置在图像内部。因此,可以减少在匹配处理部分26、28、30和32上的负荷,而不降低在稍后块匹配处理中的精确度。
返回参考图14,图像处理部分21将运动向量检测目标点Pn的n设置为0,并将基本块设置为关于P0的块匹配处理的基础(步骤102)。图16是示出设置基本块的方法的图。
如图所示,图像处理部分21首先获取检测目标点Pn(在该例中的P0)的坐标(xn,yn),同时基本帧71的中心作为原点0(0,0)(步骤103)。随后,图像处理部分21设置预定值an(步骤104)。例如,该值an是如下设置的基本帧的一侧的长度的1/2。该值an被设置为例如4,但不局限于此。
然后,如图16A所示,根据被设置为在基本帧71上的Fn(x)=knx(kn=yn/xn)的函数,图像处理部分21使用设置值an来计算如下函数的两个坐标(步骤105)。
Pn1(xn-an,Fn(xn-an))
Pn2(xn+an,Fn(xn+an))
随后,图像处理部分21设置坐标点Pn1为中心的基本块Bn1(步骤106),并将基本块Bn1划分为s×s个小块bn1(步骤107)。
然后,图像处理部分21设置坐标点Pn2为中心的基本块Bn2(步骤108),并将基本块Bn2划分为s×s个小块bn2(步骤109)。
如图16B所示,当s=4时,基本块Bn1和Bn2的每个都由小块b0到b15构成。另外,如图16C所示,小块bn1和bn2的每个对应于例如四段像素数据的平均值。
在此,假设四段像素数据分别是dn1、dn2、dn3和dn4,小块bn1和bn2的每个可以被视为3维向量数据Y、Cb和Cr。当分别用后缀_y、_cb和_cr来分配其数据分量时,例如,可以分别由以下表达式来表述小块bn1的数据分量。
bn1_y=(dn1_y+dn2_y+dn3_y+dn4_y)/4
bn1_cb=(dn1_cb+dn2_cb+dn3_cb+dn4_cb)/4
bn1_cr=(dn1_cr+dn2_cr+dn3_cr+dn4_cr)/4
当如上所述完成基本块Bn1和Bn2的设置时,分别由匹配处理部分26、28、30和32开始在1-帧间隔、10-帧间隔、20-帧间隔和30-帧间隔处的块匹配处理。应该理解,此后,将仅描述由匹配处理部分26在1-帧间隔处进行的块匹配处理,而其处理与由匹配处理部分28、30和32在各个帧间隔处进行的一样。
基于基本块Bn1的小块bn1和基本块Bn2的小块bn2,匹配处理部分26进行块匹配处理(步骤110)。图17是示出进行块匹配处理的状态的图。图17A示出在基本帧71中的基本块Bn1和Bn2(此后,两个基本块将被统称为基本块Bn),且图17B示出在检索帧75中的检索块Bm1和Bm2(此后,两个检索块也将统称为检索块Bm)。
如图所示,匹配处理部分26从基本帧71提取两个设置的基本块Bn,并进行样式匹配以检测对应于基本块Bn的块在检索帧75中已经移动到的位置,其中基本帧71与检索帧75之间具有预定帧间隔(该例中1-帧间隔)。具体地,匹配处理部分26从检索帧75的检索区域72内提取具有与基本块Bn相同的形状和尺寸的检索目标块,并当一次一个像素地移动检索目标块时,检测检索块Bm的位置Pm,在此处基本块Bn的每个小块bn的各个数据分量Y、Cb和Cr的向量距离变得最小。检索目标块从基本帧71的坐标点Pn到其检测位置Pm的运动量Vn和运动方向变成运动向量MV。另外,匹配处理部分26还计算在基本块Bn和检索块Bm之间的匹配后残差值,以及运动量。
当完成关于检测目标点Pn的运动向量检测时,匹配处理部分26将n递增1(步骤112),且重复上述处理直到n变成nmax或更多(步骤113)。在该实施例中,nmax是63。
通过上述处理,基本块Bn1和Bn2被设置在从基本帧71的中心的径向方向上。换句话说,基本块Bn1和Bn2被设置以便分别居中于位于从基本帧71的中心开始的一半线(half line)上的点。通过如此在径向方向上设置块,可以如上所述显著地增加在检测在其他摄像机操作特征中特别在缩放中的运动向量中的精确度。另外,通过使用两个块的组合用于块匹配处理,相比于现有技术中的块匹配处理的使用单个块的情况,可以不仅增加检测在缩放中的运动向量的精确度,还可以增加检测在X和Y方向上、即摇动和倾斜中的运动向量的精确度。
匹配处理部分28、30和32以与使用检索帧75的匹配处理部分26相同的方式来进行运动向量检测,其中基本帧71与检索帧75之间分别具有10-帧间隔、20-帧间隔和30-帧间隔。
在此,如上所述,在该实施例中,当判断检测到的运动向量为不准确时,视频特征检测部分4不使用其检测数据,以增加在检测运动向量中的精确度。然后,如处理的描述详细阐述,返回图10将描述步骤922和其后步骤的处理。
如上所述,除了设置用于检索运动向量的检索区域72以外,匹配处理部分26还设置用于增加在检测运动向量中的准确度的另一检索范围。该检索范围是例如在从检测目标点Pn的X和Y两个方向中的±8。另外,匹配处理部分26将预定阈值Eth设置为在基本块Bn和检索块Bm之间的匹配后残差值。具体地,当设置判断标准以便检测位置Pm与检测目标点Pn的距离在+或-方向上不应该比8像素多、且匹配后残差值应该小于预定阈值Eth时,匹配处理部分26不使用不满足判断标准的、作为不准确的数据的检测数据。检索范围的数值当然不局限于8。
在此,1-帧间隔运动向量检测中的X(水平)和Y(垂直)方向上的运动量被分别设置为V1xn和V1yn,且残差值被设置为E1n。
如图10所示,匹配处理部分26检测由块匹配处理在1-帧间隔处检测的运动量V1xn和V1yn和残差值E1n(步骤922)。然后,匹配处理部分26基于判断标准来判断是否满足:
|V1xn|<8,
|V1yn|<8,以及
E1n<Eth(步骤923和924),当这些值满足判断标准时,匹配处理部分26将合适的加权因子K1设置为1,并将指示准确的检测数据段的数量的计数器值m递增1(步骤925)。另一方面,当这些值不满足判断标准时,匹配处理部分26将K1设置为0(步骤926)。然后,匹配处理部分26向运动向量处理部分34输出加权因子K1和计数器值m以及检测到的运动量V1xn和V1yn和残差值E1n。
接下来,将描述在运动向量检测处理10-帧间隔块匹配处理之后进行的处理。在此,10-帧间隔运动向量检测中的X(水平)和Y(垂直)方向上的运动量被分别设置为V10xn和V10yn,且残差值被设置为E10n。
如图11所示,匹配处理部分28检测由块匹配处理在10-帧间隔处检测的运动量V10xn和V10yn以及残差值E10n(步骤932)。然后,匹配处理部分28基于判断标准判断是否满足:
|V10xn|<8,
|V10yn|<8,以及
E10n<Eth(步骤933和934)。当这些值满足判断标准时,匹配处理部分28将合适的加权因子K10设置为1,并将指示准确的检测数据段的数量的计数器值m递增1(步骤935)。另一方面,当这些值不满足判断标准时,匹配处理部分28将K10设置为0(步骤936)。然后,匹配处理部分28向运动向量处理部分34输出加权因子K10和计数器值m以及检测到的运动量V10xn和V10yn和残差值E10n。
接下来,将描述在运动向量检测处理在20-帧间隔块匹配处理之后进行的处理。在此,20-帧间隔运动向量检测中的X(水平)和Y(垂直)方向上的运动量被分别设置为V20xn和V20yn,且残差值被设置为E20n。
如图12所示,匹配处理部分30检测由块匹配处理在20-帧间隔处检测的运动量V20xn和V20yn以及残差值E20n(步骤942)。然后,匹配处理部分30基于判断标准判断是否满足:
|V20xn|<8,
|V20yn|<8,以及
E20n<Eth(步骤943和944)。当这些值满足判断标准时,匹配处理部分30将合适的加权因子K20设置为1,并将指示准确的检测数据段的数量的计数器值m递增1(步骤945)。另一方面,当这些值不满足判断标准时,匹配处理部分30将K20设置为0(步骤946)。然后,匹配处理部分30向运动向量处理部分34输出加权因子K20和计数器值m以及检测到的运动量V20xn和V20yn和残差值E20n。
接下来,将描述在运动向量检测处理在30-帧间隔块匹配处理之后进行的处理。在此,30-帧间隔运动向量检测中的X(水平)和Y(垂直)方向上的运动量被分别设置为V30xn和V30yn,且残差值被设置为E30n。
如图13所示,匹配处理部分32检测由块匹配处理在30-帧间隔处检测的运动量V30xn和V30yn以及残差值E30n(步骤952)。然后,匹配处理部分32基于判断标准判断是否满足:
|V30xn|<8,
|V30yn|<8,以及
E30n<Eth(步骤953和954)。当这些值满足判断标准时,匹配处理部分32将合适的加权因子K30设置为1,并将指示准确的检测数据段的数量的计数器值m递增1(步骤955)。另一方面,当这些值不满足判断标准时,匹配处理部分32将K30设置为0(步骤956)。然后,匹配处理部分32向运动向量处理部分34输出加权因子K30和计数器值m以及检测到的运动量V30xn和V30yn和残差值E30n。
接下来,将描述在由运动向量处理部分34进行的在图9中的步骤96的运动向量估计处理。图18是示出运动向量估计处理的流程的流程图。在此,为了估计在40-帧间隔处的运动向量,基于各个检测帧间隔和运动量,来计算有利的梯度。图19是示出该梯度的图。
如图18所示,运动向量处理部分34首先对分别从匹配处理部分26、28、30和32输入的输入计数器值m求总和,以判断该总和是否等于或大于1(步骤961)。当计数器值的总和等于或大于1(是)时,运动向量处理部分34计算在各个帧间隔处的运动向量的梯度(步骤962)。
现在,将首先描述如下情况:基于间隔L1t(1-帧间隔)和运动量V1xn,计算1-帧间隔运动向量的梯度T1xn。
检测帧间隔L1t是基本帧71的pts(提示时间戳(Presentation TimeStamp)时间间隔p0与作为基本帧71之后1个帧的检索帧75的pts时间间隔p1t的比率。因此,可以使用以下表达式来计算检测帧间隔L1t。
L1t=p1t/p0
这是因为,由于帧速率可能取决于视频内容而彼此不同,因此当计算梯度时归一化1-帧间隔时间。
因此,可以使用以下表达式计算关于在X方向上的运动量的梯度。
T1xn=V1xn/L1t
另外,可以使用以下表达式计算关于在Y方向上的运动量的梯度。
T1yn=V1yn/L1t
类似地,将描述如下情况,基于间隔L10t(10-帧间隔)和运动量V10xn,计算10-帧间隔运动向量的梯度T10xn。
检测帧间隔L10t是基本帧71的pts时间间隔p0与作为基本帧71之后10个帧的检索帧75的pts时间间隔p10t的比率。因此,可以使用以下表达式来计算检测帧间隔L10t。
L10t=p10t/p0
因此,可以使用以下表达式计算关于在X方向上的运动量的梯度。
T10xn=V10xn/L10t
另外,可以使用以下表达式计算关于在Y方向上的运动量的梯度。
T10yn=V10yn/L10t
类似地,将描述如下情况,基于间隔L20t(20-帧间隔)和运动量V20xn,计算20-帧间隔运动向量的梯度T20xn。
检测帧间隔L20t是基本帧71的pts时间间隔p0与作为基本帧71之后20个帧的检索帧75的pts时间间隔p20t的比率。因此,可以使用以下表达式来计算检测帧间隔L20t。
L20t=p20t/p0
因此,可以使用以下表达式计算关于在X方向上的运动量的梯度。
T20xn=V20xn/L20t
另外,可以使用以下表达式计算关于在Y方向上的运动量的梯度。
T20yn=V20yn/L20t
类似地,将描述如下情况,基于间隔L30t(30-帧间隔)和运动量V30xn,计算30-帧间隔运动向量的梯度T30xn。
检测帧间隔L30t是基本帧71的pts时间间隔p0与作为基本帧71之后30个帧的检索帧75的pts时间间隔p30t的比率。因此,可以使用以下表达式来计算检测帧间隔L30t。
L30t=p30t/p0
因此,可以使用以下表达式计算关于在X方向上的运动量的梯度。
T30xn=V30xn/L30t
另外,可以使用以下表达式计算关于在Y方向上的运动量的梯度。
T30yn=V30yn/L30t
因此,当加权因子(K1+K10+K20+K30)的总和大于0时,可以使用下列表达式来分别计算在X方向上的平均梯度Tavex(n)和在Y方向上的Tavey(n)。
Tavex(n)=(K1×T1xn+K10×T10xn+K20×T20xn+K30×T30xn)
/(K1+K10+K20+K30)
Tavey(n)=(K1×T1yn+K10×T10yn+K20×T20yn+K30×T30yn)
/(K1+K10+K20+K30)
另外,当(K1+K10+K20+K30)为0时,可以使用下列表达式来分别计算Tavex(n)和Tavey(n)。
Tavex(n)=0
Tavey(n)=0
接下来,使用所计算的平均梯度,运动向量处理部分34适当地估计在40-帧间隔处的运动向量(步骤963)。具体地,运动向量处理部分34可以将所计算的平均梯度乘以帧间隔来如此计算如图19所示的等同的运动量。换句话说,可以使用如下表达式对于X和Y方向计算在40-帧间隔处的所估计的运动向量(所估计的运动量)。
40×Tavex(n)
40×Tavey(n)
应该注意,在计算梯度时,在所有帧间隔中期望经过如图19所示的原点的直线(y=ax)。因此,各个梯度的计算值只是近似值。
运动向量处理部分34向摄像机特征判断部分36输出所估计的运动向量作为在检测目标点Pn处获得的运动向量(图9的步骤97)。另外,当计数器值m的总和是0(在步骤961中否)时,运动向量处理部分34将运动向量设置为0(步骤964),并向摄像机特征判断部分36输出该值(图9的步骤97)。在稍后描述的多重回归分析处理中使用所输出的运动向量。
如上所述,因为判断标准被设置以便不满足标准的检测数据、即不准确的检测数据不被用于检测运动向量,因此可以增加在检测运动向量中的精确度。另外,通过基于在各个帧间隔处的运动向量的检测数据来估计在比其他检测帧间隔更长的帧间隔处的运动向量,可以扩展检测数据的范围(动态范围),因此相比于仅按比例缩放(scaling)检测数据的情况,提高了数据分辨率性能。
返回参考图8,视频特征检测部分4基于从运动向量处理部分34输出的运动向量数据,进行由摄像机特征判断部分36进行的多重回归分析处理(步骤43),并计算仿射系数(步骤44)。现在,将描述用于在多重回归分析处理中计算仿射系数的仿射变换模型。
图20示出仿射变换模型。该仿射变换模型被用于3维物体的平行运动、扩大/收缩、和旋转的描述,作为使用矩阵的坐标变换处理。由于摇动、倾斜和缩放的摄像机操作特征被视为物体在基本帧71内的平行运动和扩大/收缩,因此,可以使用仿射变换模型来描述摄像机操作特征。
在此,当帧间隔在视频内容中不大时,假设旋转角θ关于旋转特征来说是小的,可以进行下列近似处理:
sinθ≈θ
cosθ≈1
因此,可以如图20所示地变换仿射变换模型。另外,可以通过使用仿射变换模型基于所检测的运动向量计算系数来检测摄像机操作特征。具体地,预定阈值Pth、Tth和Zth可以被分别设置用于摇动、倾斜和缩放,且可以将其与从所检测的运动向量处理的仿射系数相比较,以如此检测各个摄像机操作特征。
图21示出用于通过多重回归分析来计算仿射系数的处理。如图所示,说明性变量为在基本帧71中的检测目标点Pn处的xy坐标(xn,xy)且被说明的变量(目标变量(objective variable))为在检索帧75中的运动向量检测位置Pm处的xy坐标(xm,ym),摄像机特征判断部分36通过进行多重回归分析处理来分别计算摇动、倾斜和缩放的系数Px、Py和Zx(步骤44)。
返回参考图8,摄像机特征判断部分36从所计算的仿射系数中输入摇动系数Px(步骤45)。然后,摄像机特征判断部分36判断Px是否大于阈值Pth(步骤46)。当Px大于Pth(是)时,摄像机特征判断部分36将摇动检测标记Dpan设置为1(步骤47),且当等于或小于Pth(否)时,将摇动检测标记Dpan设置为0(步骤48)。
随后,摄像机特征判断部分36从所计算的仿射系数中输入倾斜系数Py(步骤49)。然后,摄像机特征判断部分36判断Py是否大于阈值Tth(步骤50)。当Py大于Tth(是)时,摄像机特征判断部分36将倾斜检测标记Dtilt设置为1(步骤51),且当等于或小于Tth(否)时,将倾斜检测标记Dtilt设置为0(步骤52)。
接下来,摄像机特征判断部分36从所计算的仿射系数中输入缩放系数Zx和Zy(步骤53)。然后,摄像机特征判断部分36判断Zx或Zy是否大于阈值Zth(步骤54)。当Zx和Zy的至少一个大于Zth(是)时,摄像机特征判断部分36将缩放检测标记Dzoom设置为1(步骤55),且当等于或小于Tth(否)时,将缩放检测标记Dzoom设置为0(步骤56)。
应该注意,关于摇动、倾斜和缩放的摄像机操作特征,摄像机特征判断部分36可以区分地检测向左摇动/向右摇动、向左倾斜/向右倾斜和放大/缩小中的每个。可以通过引用各个仿射系数的正和负记号来容易地进行区分。
随后,摄像机特征判断部分36对摇动系数Px和倾斜系数Py进行时序分析,以对由手的移动导致的抖动进行判断(步骤57)。图22是示出抖动判断处理的图。
如图22所示,摄像机特征判断部分36能够基于对于视频内容内的每个预定部分(t0到t1、t1到t2、t2到t3、和t3到t4)已经从仿射系数计算的摇动系数Px和倾斜系数Py的变化(variance)和Px或Py与每个预定部分中的平均值水平交叉的次数,来判断由手的移动导致的抖动。每个预定部分被设置为例如大约0.5秒到5秒的时间长度。
例如,在图中的部分t0到t1中,Px或Py和平均值水平12交叉次。摄像机特征判断部分36判断交叉次数是否超过阈值Thcr和每个预定部分中的Px或Py的方差是否大于预定阈值Thv(步骤58)。
在此,当由N表示每个预定部分的Px和Py的数据段的数量时,分别由Px(n)和Px(y)来表示数据段,且分别由Pxave和Pyave来表示那些数据段的平均值,且可以使用下列表达式来分别计算Px和Py的方差Pxvari和Pyvari。
Pxvari=(1/N)Σ((Pxave-Px(n))×(Pxave-Px(n)))
Pyvari=(1/N)Σ((Pyave-Py(n))×(Pyave-Py(n)))
当交叉次数和方差中的任一个大于各个阈值(是)时,摄像机特征判断部分36判断预定部分的画面是抖动画面,且将抖动检测标记Dbure设置为1(步骤59)。当交叉次数和方差的至少一个等于或小于对应的阈值(否)时,摄像机特征判断部分36将抖动检测标记Dbure设置为0(步骤60)。
接下来,视频特征检测部分4进行淡入淡出和切换检测处理。
首先,将描述由淡入淡出/切换处理部分27、29、31、和33进行的处理。
淡入淡出/切换处理部分27、29、31、和33分别从匹配处理部分26、28、30和32输入匹配后残差值E1n、E10n、E20n和E30n,并向淡入淡出/切换判断部分35输出基于那些残差值生成的淡入淡出/切换估计值(步骤61)。
在此,当每个由En(n=0到63)来表示残差值时,可以使用以下表达式来计算淡入淡出/切换估计值H。
H = &Sigma; n = 0 63 En
因此,淡入淡出/切换处理部分27、29、31和33分别从匹配处理部分26、28、30和32输入残差值E1n、E10n、E20n和E30n,直到n到达63,即直到输入了对于基本帧71的所有检测目标点P0到P63的残差值,并分别计算其总和。
图23和24是每个示出在淡入淡出/切换评估值的计算结果和对于每个帧间隔的帧的流逝之间的关系的图。图23是包含了切换点的情况的图,且图24是包含了淡入淡出的情况的图。
基于图23和24所示的淡入淡出/切换评估值,淡入淡出/切换判断部分35进行淡入淡出/切换判断(步骤62)。具体地,当在伴随着帧的流逝的在淡入淡出/切换评估值中的改变是陡峭的(在步骤63中为是)时,淡入淡出/切换判断部分35判断该改变作为切换,且将切换检测标记Dcut设置为1(步骤65)。另一方面,当在随着帧的流逝的在淡入淡出/切换评估值中的改变是逐步的(在步骤64中为是)时,淡入淡出/切换判断部分35判断该改变作为淡入淡出,并将淡入淡出检测标记Dfade设置为1(步骤66)。当无法检测到任何一个(在步骤64中为否)时,淡入淡出/切换判断部分35将切换检测标记Dcut和淡入淡出检测标记Dfade设置为0(步骤67)。
具体地,淡入淡出/切换判断部分35分析1-帧间隔淡入淡出/切换评估值中的改变,且当检测到图23的图a所示的峰值特性时,判断其峰值点为切换点。
另外,当没有检测到峰值特性时,如图24所示,淡入淡出/切换判断部分35在预定时间t处计算在1-帧间隔(图a)处的淡入淡出评估值与在10-帧间隔(图b)处的淡入淡出评估值之间获得的差Va、10-帧间隔淡入淡出评估值与在20-帧间隔(图c)处的淡入淡出评估值之间获得的差Vb、和20-帧间隔淡入淡出评估值与在30-帧间隔(图d)处的淡入淡出评估值之间获得的差Vc。
在图24所示的淡入淡出的情况下,因为视频逐步改变,因此淡入淡出/切换评估值的改变量取决于其帧间隔而彼此不同。因此,Va、Vb和Vc的所有值被显著地表述为彼此相对接近的正数值。另一方面,在图23所示的切换的情况下,Va、Vb和Vc可以全部是彼此很大地不同的负值。因此,淡入淡出/切换判断部分35可以通过分析Va、Vb和Vc来检测淡入淡出。
应该注意,除了分别从匹配处理部分26、28、30和32输入匹配后残差值以外,如上所述,淡入淡出/切换处理部分27、29、31和33可以单独地使用从图像处理部分21输入的基本块Bn和分别从帧间存储器部分22到25输入的、且被用于块匹配处理中的检索块Bm,来计算淡入淡出/切换评估值。具体地,淡入淡出/切换处理部分27、29、31和33对于每个检测目标点Pn,对于关于Y、Cb和Cr的每段数据,检测在基本块Bn和检索块Bm之间的差,并分别对于检测目标点P0到P63计算差的总和,作为淡入淡出/切换评估值。通过比较基本块Bn1和Bn2的组合数据和检索块Bm1和Bm2的组合数据来计算在这种情况下的差。
另外,除了使用在块匹配处理中检索后(移动后)的检索块Bm以外,淡入淡出/切换处理部分27、29、31和33可以对于每个检测目标点Pn,计算在基本块Bn和在检索帧中与基本块Bn相同的位置处排列的检索目标块之间的差。但是,使用如上所述的匹配后残差值自然需要在淡入淡出/切换处理部分27、29、31和33上的较小的负荷。
接下来,视频特征检测部分4进行场景ID处理(步骤68),其详细处理将在下面描述。图25是示出场景ID处理部分37的结构的图。
如图所示,场景ID处理部分37包括数据存储器81、向量距离计算部分82、ID生成部分83、和ID存储器84。
数据存储器81顺序地从各个帧间存储器部分22到25输入作为多维向量数据(d0到d63)的、关于基本帧71的基本块Bn的数据和用于块匹配处理的检索帧75的检索块Bm的数据。块号k的块数据dk由块号k的数据分量Y、Cb和Cr构成。
数据存储器81被构造为例如环形缓冲器(ring buffer)。数据存储器81在每次流逝例如1帧时将输入块数据段dk存储到存储区域V0到Vn。在此,n是例如16,但不局限于此。
向量距离计算部分82顺序地进行在单个帧的输入块数据和被分别存储在存储区域V0到Vn中的其他帧的块数据段之间的向量距离计算处理,并判断具有最小向量距离的块数据。换句话说,向量距离计算部分82基于块数据来判断帧的相似度,并确定相似于这一个帧的帧。
基于计算向量距离的结果,ID生成部分83生成用于被分别存储在存储区域V0到Vn中的块数据段的场景ID。ID存储器84分别在存储区域Id0到Idn中顺序地存储所生成的场景ID。
数据存储器81的存储区域V0到Vn和ID存储器84的存储区域Id0到Idn分别彼此对应。例如,在图中,当向量距离计算部分82判断输入的块数据相似于被存储在存储区域V5中的块数据,生成与被存储在存储区域Id5中的ID相同的ID,并给输入的块数据分配所生成的ID。输入的块数据被存储在数据存储器81的存储区域V0中,且所生成的ID被存储在ID存储器84的存储区域Id0中。此时,在生成ID之前已经被存储在存储区域V0中的块数据被移动到存储区域V1,且已经被存储在存储区域V1中的块数据被移动到存储区域V2中。另外,在生成ID之前已经被存储在ID存储器84的存储区域Id0中的ID被移动到存储区域Id1,且已经被存储在存储区域Id1中的ID被移动到存储区域Id2中。如上所述,每次生成ID时,移动在数据存储器81和ID存储器84的各个存储区域中存储的数据段。ID生成部分83向CPU1顺序地输出所生成的ID。
当由向量距离计算处理判断该块数据与被存储在数据存储器81的任何存储区域中的块数据没有相似性时,给其分配新的ID。另外,当数据存储器81和ID存储器84的所有存储区域变满时,从最旧的数据开始顺序地删除所存储的数据段。
应该注意,数据存储器81和ID存储器84可以被提供作为物理分离的存储器设备,或可以被提供作为被划分用作各个存储器的单个存储器设备。
另外,除了进行1-帧间隔处理以外,可以分别使用10-帧-间隔存储器部分23、20-帧-间隔存储器部分24和30-帧-间隔存储器部分25在10-帧间隔、20-帧间隔和30-帧间隔处进行ID处理。因此,能够节省数据存储器81和ID存储器84的存储容量,并减少在向量距离计算部分82和ID生成部分83上的负荷。
图26是示出由ID处理输出的场景ID与帧号之间的关系的图。
如图26的图(a)、(b)和(c)所示,例如,可以看到,给连续帧和之间具有预定帧间隔的帧分配相同的场景ID。被分配了相同的场景ID的帧被视为相似场景,以因此使能例如稍后描述的高亮场景等的再现。
图27是示出由摄像机特征判断部分36和淡入淡出/切换判断部分35获得的各个视频特征的判断结果的表。CPU 1控制以在例如RAM 2或HDD 10中存储等同于该表的数据。
该表示出,关于各个视频特征的检测标记Dpan、Dtilt、Dzoom、Dbure、Dfade和Dcut都被设置为1,以及已经从检测目标视频内容检测了摇动、倾斜、缩放、抖动、淡入淡出和切换的视频特征。CPU 1对于每个视频内容创建判断结果表。
如上所述,视频特征检测部分4能够通过使用公共的信号处理系统来检测摇动、倾斜、缩放和抖动的摄像机操作特征和淡入淡出、切换和类似场景的视频编辑特征。具体地,基于关于由图像处理部分21提取的基本块Bn的数据和关于被分别存储在帧间存储器部分22到25中的检索块Bm的数据,视频特征检测部分4通过由匹配处理部分26、28、30和32进行的块匹配处理来检测在各个帧之间的运动向量,并通过运动向量处理部分34和摄像机特征判断部分36来判断摄像机操作特征。同时,基于在块匹配处理中使用的关于基本块Bn的数据和关于检索块Bm的数据,视频特征检测部分4通过淡入淡出/切换处理部分29来生成淡入淡出/切换评估值,并通过淡入淡出/切换判断部分35来分析该淡入淡出/切换评估值,从而检测淡入淡出和切换的视频编辑特征。另外,基于被分别存储在帧间存储器部分22到25中的基本块Bn和检索块Bm,场景ID处理部分37检测相似的场景。因此,根据该实施例,可以用低成本容易地构造用于检测各种视频特征的系统,且可以改善检测效率。
另外,通过从摄像机操作特征中检测由手的移动导致的抖动,变得能够区分用广播内容所记录的视频内容与由上述家庭视频摄像机拍摄的视频内容。
接下来,将描述如上所述已经从其检测了视频特征的视频内容的视频特征的组合。
图28是示出构成视频内容的每个视频特征的场景部分的组合的图。
视频内容由几个场景部分组成。在一个场景部分和下一场景部分之间发生场景改变。由所检测的淡入淡出或切换来导致场景改变。大体上,视频内容由相似的图像(帧)部分和包括所检测的摄像机操作特征的图像(帧)部分构成。相似的图像部分是由所检测的其ID相同的帧组成的部分。另外,还存在仅由摄像机操作特征部分构成且不包括相似的图像部分的罕见的视频内容。
图28A示出视频内容仅由不相似的图像部分构成的情况。
图28B示出视频内容由相似的图像部分和放大部分构成的情况。
图28C示出视频内容由相似的图像部分和缩小部分构成的情况。
图28D示出视频内容由相似的图像部分和向左摇动部分构成的情况。
图28E示出视频内容由相似的图像部分和向下倾斜部分构成的情况。
图28F示出视频内容由相似的图像部分和包括向左摇动、放大和向下倾斜的部分构成的情况。
图29是示出在基于图28A所示的情况、视频内容由相似的图像部分和不相似的图像部分构成的情况下、各个视频特征的场景ID和各个摄像机操作特征的检测特性的图。
如图所示,部分t0-t1是具有相同场景ID的相似的图像部分。部分t1-t2是包括不同的场景ID的不相似的图像部分,ID的值朝着t2而变大。部分t2-t3是相似的图像部分,但具有与部分t0-t1的图像不同的图像,因此具有不同的场景ID。从t3以及之后的部分是具有与部分t0-t1的图像相似的图像的相似的图像部分,并因此具有与部分t0-t1相同的场景ID。
在这种情况下,对于所有部分没有检测到摄像机操作特征,因此通过分析仿射系数而获得的摇动、倾斜和缩放的各个系数变成0,或其绝对值变成预定阈值或更低。
图30是示出在图28B的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图。
如图所示,部分t0-t1是具有相同场景ID的相似的图像部分。t1以及之后的部分是具有不同的场景ID的放大部分,其中已经检测到放大系数。
图31是示出在图28C的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图。
如图所示,部分t0-t1是具有相同场景ID的相似的图像部分。t1以及之后的部分是具有不同的场景ID的缩小部分,其中已经检测到缩小系数。
图32是示出在图28D的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图。
如图所示,部分t0-t1是具有相同场景ID的相似的图像部分。t1以及之后的部分是具有不同的场景ID的向左摇动部分,其中已经检测到向左摇动系数。
图33是示出在图28E的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图。
如图所示,部分t0-t1是具有相同场景ID的相似的图像部分。t1以及之后的部分是具有不同的场景ID的向下倾斜部分,其中已经检测到向下倾斜系数。
图34是示出在图28F的情况下各个视频特征的场景ID和各个摄像机操作特征的检测特性的图。
如图所示,部分t0-t1是具有相同场景ID的相似的图像部分。t1以及之后的部分是其中已经同时检测到放大、向左摇动和向下倾斜的摄像机操作特征的部分,该部分具有不同的场景ID。已经在该部分中检测到放大、向左摇动、和向下倾斜系数。
如上所述,通过组合由公共信号处理系统检测的视频编辑特征和摄像机操作特征,变得能够组织在视频内容内的场景部分。
接下来,描述使用所检测的视频特征的示例应用。
例如,其中检测了摄像机操作特征的部分可假定为摄影师更重视的拍摄的场景部分。因此,记录/再现装置100能够从视频内容提取已经从其检测了摄像机操作特征的场景作为高亮场景来因此再现该场景。
图35是示出高亮场景再现处理的例子的图。在图中,采用缩放部分作为例子,但对于摇动和倾斜部分同样成立。
如图所示,例如,当从摄像机特征判断部分36输入缩放特征的检测时,CPU 1提取多个所检测到的缩放部分(帧c、d、k和1)和在各个所检测到的部分之前和之后的预定部分(帧b、e、j和m),并将这些部分合成为以“高亮再现模式”的可再现的部分。在此,添加各个缩放部分之前和之后的这些部分的原因在于,因为仅从缩放部分无法掌握如缩放的原因一样的具体场景,因此有必要设置预定的富余(margin)。
例如,关于被记录在HDD 10上的视频内容,CPU 1生成高亮场景作为新的内容。然后,例如,关于响应于用户的请求而显示在显示器上的内容列表中的视频内容,CPU 1执行允许用户经由操作输入部分3来选择例如全部再现模式和高亮再现模式的应用,以因此再现该内容。
另外,替代单独使用摇动、倾斜和缩放的摄像机操作特征的每个,COU 1还能够通过组合多个特征来设置高亮再现模式。图36是示出在这种情况下的高亮场景再现的例子的图。
如图所示,给摇动、倾斜和缩放的各个摄像机操作特征设置优先级,且生成在再现时间中不同的三个高亮场景。
换句话说,CPU 1在高亮再现模式1中仅提取缩放部分作为高亮场景,以便在尽可能1短的时间内给用户提供最低限的高亮场景。
另外,CPU 1在高亮再现模式2中向各个缩放部分添加摇动部分,以便虽然再现时间被略微拉长,但以更详细的形式来提供高亮场景。
然后,CPU 1在高亮再现模式3中向各个缩放部分和摇动部分添加倾斜部分,以便虽然再现时间被额外地拉长,但以更详细的形式来提供高亮场景。
在选择内容列表上的高亮再现模式时,CPU 1使得同时选择各个模式。
通过上述处理,所检测的摇动、倾斜和缩放的摄像机操作特征可以被有效地用于再现高亮场景,因此增强了用户的方便性。
另外,在摄像机操作特征中的抖动特征可以被用于如上所述的彼此区分视频内容。
例如,基于抖动检测标记Dbure是否为1,CPU 1给被记录在HDD 10等上的视频内容分配不同的属性,且将这些视频内容分类为两类。因此,例如,当用户使用操作输入部分3来请求内容列表的显示时,CPU 1可以使得对于每个类来显示内容列表。另外,当用户搜索内容时,CPU 1还可以使得选择该类作为检索询问。因此,因为视频内容的检索范围被缩小,因此可以减轻检索处理的负荷,并可以增加其速度。
另外,在视频编辑特征中的淡入淡出和切换特征可以被用于在视频内容中插入章节。换句话说,例如,当检测到淡入淡出和切换时,CPU 1在被记录在HDD 10等上的视频内容中的切换点处、或在淡入淡出的开始和结束点之间的中点处插入章节。因此,CPU 1可以快速地跳转到用户所期望的场景,并再现该场景。
本发明不局限于上述实施例,且当然可以在不脱离本发明的精神的情况下进行各种修改。
在上述实施例的图7中,通过顺序串联帧间存储器部分22到25来构造视频特征检测部分4。但是,可以通过并联帧间存储器部分22到25来构造视频特征检测部分4。图37是示出在这种情况下的视频特征检测部分4的结构的图。如此构造的视频特征检测部分4执行与串联帧间存储器部分22到25的情况相同的处理,并得到相同的效果。
在上述实施例中,图像处理部分21在径向方向上设置两个基本块Bn1和Bn2,其每个的中心位于由函数Fn(x)=knx表述的半线上、即在从基本帧71的中心开始的半线上。但是,径向设置的基本块Bn的数量不局限于两个,当然可以设置三个或更多基本块Bn。
在上述实施例中,通过使用径向设置的基本块Bn来检测运动向量来进行视频特征的检测。但是,当进行例如MPEG的压缩编码处理时,可以使用径向设置的基本块来检测运动向量。
另外,在上述实施例中,视频特征检测部分4径向地设置多个基本块Bn。但是,例如,即使当不组合径向设置的多个基本块Bn而设置单个基本块时,也可以通过相同的信号处理系统来检测摄像机操作特征和视频编辑特征。还在该情况下,能够对于在块匹配处理中的运动量和残差值设置阈值,且在运动向量估计处理中不使用不准确的检测数据。
在由上述实施例中的视频特征检测部分4进行以检测摄像机操作特征的运动向量检测处理中,设置用于运动量和残差值的阈值,且在运动向量估计处理中不使用不准确的检测数据。但是,例如,在用于检测运动向量的各种处理中,诸如在MPEG的压缩编码处理中,能够使用被分别设置用于运动量和残差值的阈值,来因此增加在检测运动向量中的准确性。
在上述实施例中,视频特征检测部分4基于在各个帧间隔处检测的运动向量来估计在40-帧间隔处的运动向量。但是,要被估计的运动向量当然不局限于在40-帧间隔处的运动向量,只要帧间隔长于已经检测了运动向量的任何帧间隔,则可以在任何帧间隔处估计运动向量。但是,应该注意,当与已经检测了运动向量的帧间隔距离很远的帧间隔处估计运动向量时,可能检测不同于原始运动向量的运动向量。因此,估计运动向量的帧间隔被期望地设置在不太远离已经检测到运动向量的那些帧间隔的范围内。
在上述实施例中,视频特征检测部分4通过使用匹配后残差值作为淡入淡出/切换评估值来频带淡入淡出和切换。但是,除了使用淡入淡出/切换评估值进行判断处理以外,视频特征检测部分4可以使用频率分析来进行判断处理。
具体地,淡入淡出/切换处理部分27、29、31和33通过对从图像处理部分21输入的基本帧71和分别从帧间存储器部分22到25输入的检索帧75进行FFT(快速傅立叶变换)处理、边缘检测处理等,来进行频率分析,并向淡入淡出/切换判断部分35分别输出其结果。淡入淡出/切换部分35使用淡入淡出/切换评估值和频率分析处理的结果来判断淡入淡出和切换。因为在淡入淡出部分中图像变模糊,因此考虑频率分量,具有高频分量的特征变小。因此,该特征可以被用于判断淡入淡出和切换。
例如,当由f1表示基于淡入淡出/切换评估值的判断值,且由f2表示基于频率分析的判断值时,淡入淡出/切换判断部分35通过设置淡入淡出和切换的整体判断值f为f=f1+f2来判断淡入淡出和切换。例如,淡入淡出/切换判断部分35设置用于判断值f的预定阈值,并当判断值f大于阈值时判断为淡入淡出。
因此,可以增加在检测淡入淡出和切换中的可靠性。另外,因为即使当由淡入淡出/切换评估值来判断淡入淡出时,淡入淡出部分的开始和结束点容易变含糊,因此可以通过一起使用频率分析处理来额外地改善可靠性。
在上述实施例中,视频特征检测部分4使用视频内容的各个帧的基带带宽的解码后信号来进行视频特征检测处理。但是,替代基带带宽的解码后的信号,视频特征检测部分4可以使用解码前的编码后数据。例如,当以MPEG格式或DV格式来编码视频内容时,代替信号Y、Cb和Cr以外,视频特征检测部分4可以分析来自DCT(离散余弦变换)系数中的DC(直流)系数,来因此类似地检测视频特征。
在上述实施例中,已经示范了本发明所应用的记录/再现装置100。但是,本发明可以应用于诸如电视装置、PC、手机和游戏机的各种电子装置。

Claims (9)

1.一种电子装置,包括:
提取部件,用于提取构成视频数据的多个帧图像中的第一帧图像的第一位置处的第一块;
检索部件,用于从所述多个帧图像中的第二帧图像内的检索区域检索第二块,其中所述第一块与所述第二块之间具有最小的残差值,所述第二帧图像和所述第一帧图像之间具有第一时间长度;
检测部件,用于检测在所述第一块和所述第二块之间的第一运动向量;以及
控制部件,用于控制所述检测部件,以便当在与对应于所述第一位置的第二帧图像的第二位置距离第一阈值或更多的第三位置处检索到所述第二块时,调节所述第一运动向量的检测。
2.根据权利要求1所述的电子装置,其中,当在所述第三位置处检索到所述第二块且所述残差值是第二阈值或更多时,所述控制部件调节所述第一运动向量的检测。
3.根据权利要求2所述的电子装置,
其中,所述检索部件从第三帧图像内的检索区域检索第三块,其中所述第一块与所述第三块之间具有最小的残差值,所述第三帧图像和所述第一帧图像之间具有不同于所述第一时间长度的第二时间长度,
其中,所述检测部件检测在所述第一块和所述第三块之间的第二运动向量,且基于所述第一运动向量和所述第二运动向量来检测所述视频数据内的运动特征,以及
其中,所述控制部件控制所述检测部件,以便当调节所述第一运动向量的检测时,基于所述第二运动向量来检测所述运动特征。
4.根据权利要求3所述的电子装置,
其中所述检索部件从第四帧图像内的检索区域检索第四块,其中所述第一块与所述第四块之间具有最小的残差值,所述第四帧图像和所述第一帧图像之间具有不同于所述第一时间长度和所述第二时间长度的第三时间长度,
其中,所述检测部件检测在所述第一块和所述第四块之间的第三运动向量,基于所述第一运动向量、所述第二运动向量和所述第三运动向量来估计第四运动向量,并基于所估计的第四运动向量来检测所述运动特征,其中,所述第四运动向量被假设为在第五帧图像内被检测,所述第一帧图像与所述第五帧图像具有长于所述第一时间长度、所述第二时间长度和所述第三时间长度的任一个的第四时间长度,以及
其中,所述控制部件控制所述检测部件,以便当调节所述第一运动向量的检测时,基于所述第二运动向量和所述第三运动向量来估计所述第四运动向量。
5.根据权利要求4所述的电子装置,
其中所述检测部件包括
用于基于所述第一运动向量和所述第一时间长度来计算第一梯度的部件,
用于基于所述第二运动向量和所述第二时间长度来计算第二梯度的部件,
用于基于所述第三运动向量和所述第三时间长度来计算第三梯度的部件,
用于通过平均化所计算的第一梯度、第二梯度和第三梯度来计算第四梯度的部件,以及
用于基于所计算的第四梯度来估计所述第四运动向量的部件,以及
其中,所述控制部件控制所述检测部件,以便当调节所述第一运动向量的检测时,通过平均化所述第二梯度和所述第三梯度来计算所述第四梯度。
6.根据权利要求5所述的电子装置,
其中,所述检测部件计算所述第一梯度、所述第二梯度和所述第三梯度,作为通过分别将所述第一时间长度、所述第二时间长度和所述第三时间长度除以所述第一帧图像的时间长度而获得的值分别与所述第一运动向量、所述第二运动向量和所述第三运动向量的比率。
7.一种运动向量检测方法,包括:
提取从构成视频数据的多个帧图像中的第一帧图像的第一位置处的第一块;
从所述多个帧图像中的第二帧图像内的检索区域检索第二块,其中所述第一块与所述第二块之间具有最小的残差值,所述第二帧图像和所述第一帧图像之间具有第一时间长度;
检测在所述第一块和所述第二块之间的第一运动向量;以及
控制所述检测,以便当在与对应于所述第一位置的第二帧图像的第二位置距离第一阈值或更多的第三位置处检索所述第二块时,调节所述第一运动向量的检测。
8.一种使得电子装置进行如下步骤的程序:
提取从构成视频数据的多个帧图像中的第一帧图像的第一位置处的第一块;
从所述多个帧图像中的第二帧图像内的检索区域检索第二块,其中所述第一块与所述第二块之间具有最小的残差值,所述第二帧图像和所述第一帧图像之间具有第一时间长度;
检测在所述第一块和所述第二块之间的第一运动向量;以及
控制所述检测,以便当在与对应于所述第一位置的第二帧图像的第二位置距离第一阈值或更多的第三位置处检索所述第二块时,调节所述第一运动向量的检测。
9.一种电子装置,包括:
提取单元,被配置用于提取从构成视频数据的多个帧图像中的第一帧图像的第一位置处的第一块;
检索单元,被配置用于从所述多个帧图像中的第二帧图像内的检索区域检索第二块,其中所述第一块与所述第二块之间具有最小的残差值,所述第二帧图像和所述第一帧图像之间具有第一时间长度;
检测单元,被配置用于检测在所述第一块和所述第二块之间的第一运动向量;以及
控制单元,被配置用于控制所述检测单元,以便当在与对应于所述第一位置的第二帧图像的第二位置距离第一阈值或更多的第三位置处检索所述第二块时,调节所述第一运动向量的检测。
CN200810129814XA 2007-08-07 2008-08-07 电子装置、运动向量检测方法和其程序 Expired - Fee Related CN101364305B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007205755A JP4985201B2 (ja) 2007-08-07 2007-08-07 電子機器、動きベクトル検出方法及びプログラム
JP205755/07 2007-08-07

Publications (2)

Publication Number Publication Date
CN101364305A true CN101364305A (zh) 2009-02-11
CN101364305B CN101364305B (zh) 2012-08-15

Family

ID=40346498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810129814XA Expired - Fee Related CN101364305B (zh) 2007-08-07 2008-08-07 电子装置、运动向量检测方法和其程序

Country Status (3)

Country Link
US (1) US8363726B2 (zh)
JP (1) JP4985201B2 (zh)
CN (1) CN101364305B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764026A (zh) * 2018-04-12 2018-11-06 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN113326069A (zh) * 2020-02-28 2021-08-31 广东龙芯中科电子科技有限公司 操作系统启动方法、装置、电子设备及存储介质
CN113438511A (zh) * 2013-03-15 2021-09-24 谷歌有限责任公司 对视频方向的自动调节

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8665326B2 (en) * 2009-01-30 2014-03-04 Olympus Corporation Scene-change detecting device, computer readable storage medium storing scene-change detection program, and scene-change detecting method
JP2010199656A (ja) * 2009-02-23 2010-09-09 Panasonic Corp 動画撮像装置
JP5691374B2 (ja) * 2010-10-14 2015-04-01 富士通株式会社 データ圧縮装置
US20150348587A1 (en) * 2014-05-27 2015-12-03 Thomson Licensing Method and apparatus for weighted media content reduction
WO2017106076A1 (en) * 2015-12-16 2017-06-22 Gopro, Inc. Dynamic synchronization of frame rate to a detected cadence in a time lapse image sequence

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2809656B2 (ja) * 1988-12-09 1998-10-15 松下電器産業株式会社 画像の動きベクトル検出装置及び揺れ補正装置
JPH0944681A (ja) * 1995-08-01 1997-02-14 Matsushita Electric Ind Co Ltd 移動物体領域検出装置
JPH10262258A (ja) * 1997-03-19 1998-09-29 Sony Corp 画像符号化装置及び方法
EP0973336A2 (en) * 1998-07-15 2000-01-19 Sony Corporation Motion vector detecting, picture encoding and recording method and apparatus
TW444507B (en) * 1998-10-22 2001-07-01 Sony Corp Detecting method and device for motion vector
US6304604B1 (en) * 1998-12-24 2001-10-16 Compaq Computer Corporation Method and apparatus for configuring compressed data coefficients to minimize transpose operations
JP4176230B2 (ja) * 1999-03-19 2008-11-05 株式会社ルネサステクノロジ 座標位置制御システム、座標位置制御方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
DE60141961D1 (de) * 2001-09-10 2010-06-10 Texas Instruments Inc Verfahren und Vorrichtung zur Bewegungsvektorenabschätzung
JP2003299040A (ja) 2002-04-03 2003-10-17 Sony Corp 動きベクトル検出装置及び方法
JP4039273B2 (ja) * 2003-02-26 2008-01-30 松下電器産業株式会社 動きベクトル検出装置
US7894526B2 (en) * 2004-02-27 2011-02-22 Panasonic Corporation Motion estimation method and moving picture coding method
CN101641956B (zh) * 2007-03-09 2011-10-12 杜比实验室特许公司 来自压缩视频源的多帧运动外插的方法和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113438511A (zh) * 2013-03-15 2021-09-24 谷歌有限责任公司 对视频方向的自动调节
CN113438511B (zh) * 2013-03-15 2023-09-12 谷歌有限责任公司 用于对视频方向的自动调节的方法、介质以及系统
CN108764026A (zh) * 2018-04-12 2018-11-06 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN108764026B (zh) * 2018-04-12 2021-07-30 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN113326069A (zh) * 2020-02-28 2021-08-31 广东龙芯中科电子科技有限公司 操作系统启动方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20090041126A1 (en) 2009-02-12
CN101364305B (zh) 2012-08-15
JP4985201B2 (ja) 2012-07-25
US8363726B2 (en) 2013-01-29
JP2009042917A (ja) 2009-02-26

Similar Documents

Publication Publication Date Title
CN101364305B (zh) 电子装置、运动向量检测方法和其程序
US8184947B2 (en) Electronic apparatus, content categorizing method, and program therefor
JP4536402B2 (ja) 映像再生装置、映像再生方法及びその方法をコンピュータに実行させるためのプログラム
US7646960B2 (en) Determining chapters based on presentation of a program
JP2009124298A (ja) 符号化映像再生装置及び符号化映像再生方法
KR100794797B1 (ko) 디지털 a/v 데이터의 기록/재생 장치 및 그 제어방법
US7801420B2 (en) Video image recording and reproducing apparatus and video image recording and reproducing method
KR20090089878A (ko) 개요 및 리포트를 이미 포함하는 시청각 도큐먼트의 새로운 개요를 생성하기 위한 방법 및 상기 방법을 구현할 수 있는 수신기
JP4215681B2 (ja) 動画像処理装置及びその方法
US7486873B2 (en) Video reproduction apparatus and intelligent skip method therefor
US8693847B2 (en) Contents processing apparatus and method
JP4667356B2 (ja) 映像表示装置及びその制御方法、プログラム、記録媒体
US7076151B2 (en) Image recording apparatus and method, image playback apparatus and method, and recording medium
JP4467017B1 (ja) 映像コンテンツのフレーム検索用データの作成手段を備えた映像装置、このフレーム検索用データの検索手段を備えた映像装置、及びこのフレーム検索用データ作成方法。
KR20060102639A (ko) 동영상 재생 시스템 및 방법
JP2007288608A (ja) サムネイル作成方法および動画データ再生装置
JP2007097015A (ja) 再生装置、記録再生装置、データ処理方法及びそのプログラム
JP4835540B2 (ja) 電子機器、映像特徴検出方法及びプログラム
JP4893524B2 (ja) 電子機器、映像データ判定方法及びプログラム
JP2009042915A (ja) 電子機器、動きベクトル検出方法及びプログラム
KR100664010B1 (ko) 부가정보를 이용한 영상신호의 재생 장치 및 방법
KR20040102962A (ko) Pvr에서의 하이라이트 스트림 생성 장치 및 그 방법
JP4178400B2 (ja) 番組格納再生システム、番組格納再生方法、プログラム
JP2002185923A (ja) 動画像記録方法および動画像再生方法、並びに動画像記録機器および動画像記録再生機器
JP2007329732A (ja) サムネイル表示方法及び情報記録再生装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120815

Termination date: 20150807

EXPY Termination of patent right or utility model