CN106503112A - 视频检索方法和装置 - Google Patents
视频检索方法和装置 Download PDFInfo
- Publication number
- CN106503112A CN106503112A CN201610906542.4A CN201610906542A CN106503112A CN 106503112 A CN106503112 A CN 106503112A CN 201610906542 A CN201610906542 A CN 201610906542A CN 106503112 A CN106503112 A CN 106503112A
- Authority
- CN
- China
- Prior art keywords
- image
- index
- video
- level
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了视频检索方法和装置。所述方法的一具体实施方式包括:获取用户端发送的检索请求,其中,所述检索请求包括待检索图像;提取所述待检索图像的图像特征;将所述待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配;将所述待检索图像的图像特征与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;将所述预先提取的图像特征序列中匹配成功的三级索引所属的视频反馈给所述用户端。该实施方式实现了更加快速且准确的视频检索。
Description
技术领域
本申请涉及计算机技术领域,具体涉及多媒体技术领域,尤其涉及视频检索方法和装置。
背景技术
随着计算机技术的发展,模式识别和智能视频分析技术可以为海量视频检索提供技术上的支持。
通常,智能视频分析技术中监控视频的检索(图像、视频片段)方法大致可分为三类:一是基于视频中的目标检索;二是基于视频内容的检索;三是基于视频辅助信息的检索。
现有的基于视频内容的检索方法,通常使用多图像特征的组合,而且使用的特征多为简单特征,致使特征维数高或特征表达力不强,所以,一般不能达到既可以检索速度快,又可以准确度高的效果。
发明内容
本申请的目的在于提出一种改进的视频检索方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种视频检索方法,所述方法包括:获取用户端发送的检索请求,其中,所述检索请求包括待检索图像;提取所述待检索图像的图像特征;将所述待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配,其中,所述第一索引序列包括二级索引和三级索引,所述二级索引是对三级索引进行聚类后的每一类的聚类中心,所述三级索引是预先提取的所述视频库中的各个视频的关键帧的图像特征,所述聚类中心包括每一类中的三级索引的均值;将所述待检索图像的图像特征与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;将所述第一索引序列中匹配成功的三级索引所属的视频反馈给所述用户端。
在一些实施例中,所述图像特征包括纹理信息和结构信息。
在一些实施例中,所述提取所述待检索图像的图像特征,包括:对所述待检索图像进行一级小波分解,提取低频子图像;对于所述低频子图像中的每个像素,确定以该像素为中心的3×3个像素的灰度值的中值,并将中值作为该像素的灰度值,再利用插值法,计算以该像素为中心的五角星的五个顶点的灰度值,根据五个顶点的灰度值与中值的大小关系,生成五位二进制数,并将由五位二进制数转换得到的十进制数作为该像素的灰度值,然后根据各个像素的灰度值,得到所述待检索图像的特征图像,其中,所述特征图像的灰度值的取值范围为0-31;将所述特征图像分为大小相等且互不重叠的子块,统计各子块的灰度直方图;将各子块的灰度直方图进行连接,得到所述待检索图像的图像特征。
在一些实施例中,对于所述视频库中的各个视频中的每个视频,所述方法还包括:根据视频的前预设帧数的图像进行背景建模,得到背景图像;提取所述背景图像的图像特征,并将所述背景图像的图像特征作为一级索引;按照视频的播放顺序,对视频进行前景目标检测,将像素数大于像素数阈值的前景目标所在的帧作为目标帧,提取目标帧的图像特征,并将第一个目标帧作为视频的第一个关键帧,其中,所述前景目标包括图像中除去所述背景图像以外的各种物体;若与目标帧的帧间距最小的关键帧的图像特征与目标帧的图像特征的距离大于距离阈值,则将目标帧确定为关键帧,并将关键帧的图像特征作为三级索引,其中,所述距离包括欧氏距离;对三级索引进行聚类,将每一类的聚类中心作为二级索引。
在一些实施例中,所述第一索引序列还包括一级索引。
在一些实施例中,所述将所述待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配,包括:分别计算所述待检索图像的图像特征与所述第一索引序列中的各个二级索引的距离,其中,所述距离包括欧氏距离;若距离小于第一阈值,则确定为匹配成功。
在一些实施例中,所述将所述待检索图像的图像特征与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配,包括:分别计算所述待检索图像的图像特征与所述第一索引序列中匹配成功的二级索引所在类中的各个三级索引的距离,其中,所述距离包括欧氏距离;若距离小于第二阈值,则确定为匹配成功。
在一些实施例中,所述检索请求还包括待检索视频片段;以及所述方法还包括:提取所述待检索视频片段的图像的第二索引序列,其中,所述第二索引序列包括一级索引、二级索引和三级索引;将所述第二索引序列中的一级索引与所述第一索引序列中的一级索引进行匹配;将所述第二索引序列中的二级索引与所述第一索引序列中匹配成功的一级索引所属的视频的二级索引进行匹配;将所述第二索引序列中匹配成功的二级索引所在类中的三级索引与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;将所述第一索引序列中匹配成功的三级索引所属的视频反馈给所述用户端。
在一些实施例中,所述将所述第二索引序列中的一级索引与所述第一索引序列中的一级索引进行匹配,包括:确定所述第二索引序列中的一级索引与所述第一索引序列中的一级索引是否相同;若相同,则确定为匹配成功。
在一些实施例中,所述将所述第二索引序列中的二级索引与所述第一索引序列中匹配成功的一级索引所属的视频的二级索引进行匹配,包括:分别计算所述第二索引序列中的各个二级索引之间的帧间距与所述第一索引序列中匹配成功的一级索引所属的视频的各个二级索引之间的帧间距的差值;根据差值小于差值阈值的帧间距所对应的二级索引,计算所述第二索引序列中的二级索引与所述第一索引序列中的二级索引的距离,其中,所述距离包括欧氏距离;若距离小于第一阈值,则确定为匹配成功。
在一些实施例中,所述将所述第二索引序列中的三级索引与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配,包括:分别计算所述第二索引序列中的各个三级索引与所述第一索引序列中匹配成功的二级索引所在类中的各个三级索引的距离,其中,所述距离包括欧氏距离;若距离小于第二阈值,则确定为匹配成功。
第二方面,本申请提供了一种视频检索装置,所述装置包括:获取单元,配置用于获取用户端发送的检索请求,其中,所述检索请求包括待检索图像;第一提取单元,配置用于提取所述待检索图像的图像特征;第二匹配单元,配置用于将所述待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配,其中,所述第一索引序列包括二级索引和三级索引,所述二级索引是对三级索引进行聚类后的每一类的聚类中心,所述三级索引是预先提取的所述视频库中的各个视频的关键帧的图像特征,所述聚类中心包括每一类中的三级索引的均值;第三匹配单元,配置用于将所述待检索图像的图像特征与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;反馈单元,配置用于将所述第一索引序列中匹配成功的三级索引所属的视频反馈给所述用户端。
在一些实施例中,所述图像特征包括纹理信息和结构信息。
在一些实施例中,对于所述视频库中的各个视频中的每个视频,所述装置进一步配置用于:根据视频的前预设帧数的图像进行背景建模,得到背景图像;提取所述背景图像的图像特征,并将所述背景图像的图像特征作为一级索引;按照视频的播放顺序,对视频进行前景目标检测,将像素数大于像素数阈值的前景目标所在的帧作为目标帧,提取目标帧的图像特征,并将第一个目标帧作为视频的第一个关键帧,其中,所述前景目标包括图像中除去所述背景图像以外的各种物体;若与目标帧的帧间距最小的关键帧的图像特征与目标帧的图像特征的距离大于距离阈值,则将目标帧确定为关键帧,并将关键帧的图像特征作为三级索引,其中,所述距离包括欧氏距离;对三级索引进行聚类,将每一类的聚类中心作为二级索引。
在一些实施例中,所述第一索引序列还包括一级索引。
在一些实施例中,所述检索请求还包括待检索视频片段;以及所述装置还包括:第二提取单元,配置用于提取所述待检索视频片段的图像的第二索引序列,其中,所述第二索引序列包括一级索引、二级索引和三级索引;第一匹配单元,配置用于将所述第二索引序列中的一级索引与所述第一索引序列中的一级索引进行匹配;第二匹配单元,还配置用于将所述第二索引序列中的二级索引与所述第一索引序列中匹配成功的一级索引所属的视频的二级索引进行匹配;第三匹配单元,还配置用于将所述第二索引序列中匹配成功的二级索引所在类中的三级索引与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;反馈单元,还配置用于将所述第一索引序列中匹配成功的三级索引所属的视频反馈给所述用户端。
本申请提供的视频检索方法和装置,通过提取待检索图像的图像特征,并将其与根据视频库中的各个视频的图像所预先提取的第一索引序列进行匹配,最后将匹配成功的三级索引所属的视频反馈给用户端,实现了快速且准确的视频检索。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的视频检索方法的一个实施例的流程图;
图3是根据本申请的视频检索方法的又一个实施例的流程图;
图4是根据本申请的视频检索装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的视频检索方法或视频检索装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送视频片段等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如图片浏览软件、视频播放软件、视频网站应用等。
终端设备101、102、103可以是具有显示屏并且支持视频播放的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上发送的检索请求提供支持的后台服务器。后台服务器可以对接收到的待检索图像等数据进行分析等处理,并将处理结果(例如与待检索图像匹配的视频)反馈给终端设备。
需要说明的是,本申请实施例所提供的视频检索方法一般由服务器105执行,相应地,视频检索装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的视频检索方法的一个实施例的流程200。所述的视频检索方法,包括以下步骤:
步骤201,获取用户端发送的检索请求。
在本实施例中,视频检索方法运行于其上的电子设备(例如图1所示的服务器105)可以通过有线连接方式或者无线连接方式从用户端获取检索请求,其中,上述检索请求可以包括待检索图像。需要指出的是,上述待检索图像可以包括JPEG、TIFF(标签图像文件格式,Tag Image File Format)、RAW,以及其他现在已知或将来开发的图像格式。
步骤202,提取待检索图像的图像特征。
在本实施例中,基于步骤201中得到的待检索图像,上述电子设备(例如图1所示的服务器105)可以通过各种方法对待检索图像提取图像特征,例如:LBP(局部二值化模式,Local Binary Patterns)特征的提取方法,或者HOG(方向梯度直方图,Histograms ofOriented Gradients)特征的提取方法。
在本实施例的一些可选实现方式中,上述图像特征可以包括纹理信息(如:LBP特征)和结构信息(如:HOG特征)。
在本实施例的一些可选实现方式中,提取待检索图像的图像特征可以通过以下方式执行:
首先,对待检索图像可以进行一级小波分解,提取低频子图像。通常可以利用Matlab软件实现。
之后,对于低频子图像中的每个像素,确定以该像素为中心的3×3个像素的灰度值的中值,并将中值可以作为该像素的灰度值。具体地,对于灰度值为90的像素,以该像素为中心的3×3个像素,按照从上到下、从左到右的顺序,这些像素的灰度值分别为100、200、95、80、90、130、160、50和210,将这些灰度值的中值100作为中心像素(第5个像素,即灰度值为90的像素)的灰度值。
然后,利用插值法,可以计算以该像素为中心的五角星的五个顶点的灰度值。根据五个顶点的灰度值与中值的大小关系,可以生成五位二进制数,并可以将由五位二进制数转换得到的十进制数作为该像素的灰度值。然后根据各个像素的灰度值(由五位二进制数转换得到的十进制数),可以得到待检索图像的特征图像,其中,特征图像的灰度值的取值范围为0-31,比如SBP(星形二值化模型,Star Binary Patter)图。作为示例,五角星的五个顶点的灰度值为P1、P2、P3、P4和P5;按照一定顺序(可以是顺时针,可以是逆时针,也可以是其他顺序),将P1、P2、P3、P4和P5与中值比较;若大于中值(也可以是小于中值),则顶点处编码为1,否则为0,于是可以得到一个五位二进制码,并将其转化为十进制数。可以理解的是,在得到五位二进制码之前,还可以为每个顶点处的编码赋予不同的权值。由于五位二进制数可表示的十进制数最大为31,所以,特征图像的灰度值的取值范围为0-31。在计算过程中融入了中值滤波法,故可以有效抑制图像的噪声干扰。而在计算五角星的五个顶点的灰度值时,可以用角度单线性插值法。例如,以中心像素(第5个像素)的上侧像素(第2个像素)为0度且为五角星的第一个顶点,则灰度值为95的第3个像素位于第5个像素的45度处,灰度值为130的第6个像素位于第5个像素的90度处,而五角星的第二个顶点位于第5个像素的72度处,所以,第二个顶点的灰度值为95×0.6+130×0.4=109。
最后,将特征图像可以分为大小相等且互不重叠的子块,统计各子块的灰度直方图;再将各子块的灰度直方图进行连接,可以得到待检索图像的图像特征,比如:MbSBP(基于中值滤波的星形二值化模,Median filter based Star Binary Patter)特征。由于各子块的灰度直方图为32位,因此,待检索图像的图像特征的维数为子块的数量与32的乘积。可以看出,在不损失图像信息的前提下,大大降低了图像特征的维度。需要说明的是,特征图像可以表示待检索图像的局部纹理信息。而将特征图像进行空间分块,并按一定顺序(可以是顺时针,可以是逆时针,也可以是其他顺序)将各子块的灰度直方图进行连接,可以体现待检索图像的结构与形状信息。所以,待检索图像的图像特征可以既包含纹理信息又包含结构信息。
步骤203,将待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配。
在本实施例中,上述电子设备可以将待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配(比如:对待检索图像的图像特征与二级索引进行相似度计算)。其中,第一索引序列可以包括二级索引和三级索引;二级索引可以是对三级索引进行聚类后的每一类的聚类中心;三级索引可以是预先提取的上述视频库中的各个视频的关键帧的图像特征;聚类中心可以包括每一类中的三级索引的均值。可以理解的是,视频库中的各个视频可以是预先存储的。
在本实施例中,各种图像特征的提取方法可以与待检索图像的图像特征的提取法方法相同。可以理解的是,当各种图像特征与待检索图像的图像特征具有相同的提取方法时,可以得到更好的视频检索结果。
在本实施例的一些可选实现方式中,对于上述视频库中的各个视频中的每个视频,上述方法还包括:根据视频的前预设帧数的图像进行背景建模,得到背景图像;提取上述背景图像的图像特征,并将上述背景图像的图像特征作为一级索引;按照视频的播放顺序,对视频进行前景目标检测,将像素数大于像素数阈值(比如:2000)的前景目标所在的帧作为目标帧,提取目标帧的图像特征,并将第一个目标帧作为视频的第一个关键帧,其中,前景目标包括图像中除去背景图像以外的各种物体;若与目标帧的帧间距最小的关键帧的图像特征与目标帧的图像特征的距离大于距离阈值,则将目标帧确定为关键帧,并将关键帧的图像特征作为三级索引,其中,距离包括欧氏距离;对三级索引进行聚类,将每一类的聚类中心作为二级索引。作为示例,通过Meanshift(均值偏移)算法对三级索引进行聚类,每一类中的圆心(Meanshift向量的终点)即为二级索引。
在本实施例的一些可选实现方式中,第一索引序列还可以包括一级索引。
在本实施例的一些可选实现方式中,将待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配,可以包括:分别计算待检索图像的图像特征与第一索引序列中的各个二级索引的距离,其中,上述距离可以包括欧氏距离;若距离小于第一阈值,则可以确定为匹配成功。
可选地,上述距离还可以包括汉明距离或曼哈顿距离等。
步骤204,将待检索图像的图像特征与第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配。
在本实施例中,通过步骤203进行匹配后,上述电子设备还可以将待检索图像的图像特征与第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配。作为示例,可以计算待检索图像的图像特征与三级索引的相似度。
在本实施例的一些可选实现方式中,将待检索图像的图像特征与第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配,可以包括:分别计算待检索图像的图像特征与第一索引序列中匹配成功的二级索引所在类中的各个三级索引的距离,其中,上述距离可以包括欧氏距离;若距离小于第二阈值,则可以确定为匹配成功。
可选地,上述距离还可以包括汉明距离或曼哈顿距离等。
步骤205,将第一索引序列中匹配成功的三级索引所属的视频反馈给用户端。
在本实施例中,基于步骤204中的匹配结果,上述电子设备可以通过有线连接方式或无线连接方式,将第一索引序列中匹配成功的三级索引所属的视频反馈给用户端。
进一步参考图3,其示出了视频检索方法的又一个实施例的流程300。该视频检索方法的流程300,包括以下步骤:
步骤301,获取用户端发送的检索请求。
在本实施例中,视频检索方法运行于其上的电子设备(例如图1所示的服务器105)可以通过有线连接方式或者无线连接方式从用户端获取检索请求,其中,上述检索请求可以包括待检索视频片段。需要指出的是,上述待检索视频片段可以包括MPEG(运动图像专家组,Motion Picture Experts Group)、AVI(音频视频交错,Audio Video Interleaved)和MP4等。
步骤302,提取待检索视频片段的图像的第二索引序列。
在本实施例中,上述电子设备可以按照第一索引序列的提取方法,并根据待检索视频片段的图像来提取第二索引序列。其中,第二索引序列也可以包括一级索引、二级索引和三级索引。
步骤303,将第二索引序列中的一级索引与第一索引序列中的一级索引进行匹配。
在本实施例中,步骤303的具体处理可以参考图2实施例的步骤203,这里不再赘述。
在本实施例的一些可选实现方式中,将第二索引序列中的一级索引与第一索引序列中的一级索引进行匹配,可以包括:确定第二索引序列中的一级索引与第一索引序列中的一级索引是否相同;若相同,则可以确定为匹配成功。
步骤304,将第二索引序列中的二级索引与第一索引序列中匹配成功的一级索引所属的视频的二级索引进行匹配。
在本实施例中,步骤304的具体处理可以参考图2实施例的步骤203,这里不再赘述。
在本实施例的一些可选实现方式中,将第二索引序列中的二级索引与第一索引序列中匹配成功的一级索引所属的视频的二级索引进行匹配,可以包括:分别计算第二索引序列中的各个二级索引之间的帧间距与第一索引序列中匹配成功的一级索引所属的视频的各个二级索引之间的帧间距的差值;可以根据差值小于差值阈值的帧间距所对应的二级索引,计算第二索引序列中的二级索引与第一索引序列中的二级索引的距离,其中,上述距离可以包括欧氏距离;若距离小于第一阈值,则可以确定为匹配成功。作为示例,第二索引序列中的二级索引1和二级索引2的帧间距为A,第一索引序列中的二级索引3和二级索引4的帧间距为B,若A与B的差值小于差值阈值,可以计算二级索引1与二级索引3和/或二级索引4的欧氏距离,还可以计算二级索引2与二级索引3和/或二级索引4的欧氏距离。需要说明的是,上述第二索引序列中的二级索引是第二索引序列中经过步骤303匹配成功的一级索引所属的待检索视频片段的二级索引。
步骤305,将第二索引序列中匹配成功的二级索引所在类中的三级索引与第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配。
在本实施例中,步骤305的具体处理可以参考图2实施例的步骤204,这里不再赘述。
在本实施例的一些可选实现方式中,将第二索引序列中匹配成功的二级索引所在类中的三级索引与第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配,可以包括:分别计算第二索引序列中匹配成功的二级索引所在类中的各个三级索引与第一索引序列中匹配成功的二级索引所在类中的各个三级索引的距离,其中,上述距离可以包括欧氏距离;若距离小于第二阈值,则可以确定为匹配成功。
步骤306,将第一索引序列中匹配成功的三级索引所属的视频反馈给用户端。
在本实施例中,步骤306的具体处理可以参考图2实施例的步骤205,这里不再赘述。
从图3中可以看出,与图2对应的实施例相比,本实施例中的视频检索方法的流程300是基于第一索引序列,对待检索视频片段进行检索。这种视频检索方法既可以实现对视频中的图像的检索,又可以实现对视频片段的检索,方法的通用性较高,从而提高了整体的处理效率。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种视频检索装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种服务器中。
如图4所示,本实施例所述的视频检索装置400包括:获取单元401、第一提取单元402、第二匹配单元403、第三匹配单元404和反馈单元405。其中,获取单元401配置用于获取用户端发送的检索请求,其中,上述检索请求包括待检索图像;第一提取单元402配置用于提取上述待检索图像的图像特征;第二匹配单元403配置用于将上述待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配,其中,上述第一索引序列包括二级索引和三级索引,上述二级索引是对三级索引进行聚类后的每一类的聚类中心,上述三级索引是预先提取的上述视频库中的各个视频的关键帧的图像特征,上述聚类中心包括每一类中的三级索引的均值;第三匹配单元404配置用于将上述待检索图像的图像特征与上述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;反馈单元405配置用于将上述第一索引序列中匹配成功的三级索引所属的视频反馈给上述用户端。
在本实施例中,视频检索装置400的获取单元401、第一提取单元402、第二匹配单元403、第三匹配单元404和反馈单元405的具体处理可以参考图2对应实施例的步骤201、步骤202、步骤203、步骤204和步骤205,这里不再赘述。
在本实施例的一些可选实现方式中,上述图像特征包括纹理信息和结构信息。
在本实施例的一些可选实现方式中,对于上述视频库中的各个视频中的每个视频,上述装置400进一步配置用于:根据视频的前预设帧数的图像进行背景建模,得到背景图像;提取上述背景图像的图像特征,并将上述背景图像的图像特征作为一级索引;按照视频的播放顺序,对视频进行前景目标检测,将像素数大于像素数阈值的前景目标所在的帧作为目标帧,提取目标帧的图像特征,并将第一个目标帧作为视频的第一个关键帧,其中,前景目标包括图像中除去背景图像以外的各种物体;若与目标帧的帧间距最小的关键帧的图像特征与目标帧的图像特征的距离大于距离阈值,则将目标帧确定为关键帧,并将关键帧的图像特征作为三级索引,其中,上述距离包括欧氏距离;对三级索引进行聚类,将每一类的聚类中心作为二级索引。
在本实施例的一些可选实现方式中,上述第一索引序列还包括一级索引。
在本实施例的一些可选实现方式中,上述检索请求还包括待检索视频片段;以及上述装置400还包括:第二提取单元(图中未示出),配置用于提取上述待检索视频片段的图像的第二索引序列,其中,上述第二索引序列包括一级索引、二级索引和三级索引;第一匹配单元(图中未示出),配置用于将上述第二索引序列中的一级索引与上述第一索引序列中的一级索引进行匹配;第二匹配单元,还配置用于将上述第二索引序列中的二级索引与上述第一索引序列中匹配成功的一级索引所属的视频的二级索引进行匹配;第三匹配单元,还配置用于将上述第二索引序列中匹配成功的二级索引所在类中的三级索引与上述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;反馈单元,还配置用于将上述第一索引序列中匹配成功的三级索引所属的视频反馈给上述用户端。
下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、第一提取单元、第二匹配单元、第三匹配单元和反馈单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取用户端发送的检索请求的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取用户端发送的检索请求,其中,上述检索请求包括待检索图像;提取上述待检索图像的图像特征;将上述待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配,其中,上述第一索引序列包括二级索引和三级索引,上述二级索引是对三级索引进行聚类后的每一类的聚类中心,上述三级索引是预先提取的上述视频库中的各个视频的关键帧的图像特征,上述聚类中心包括每一类中的三级索引的均值;将上述待检索图像的图像特征与上述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;将上述第一索引序列中匹配成功的三级索引所属的视频反馈给上述用户端。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (16)
1.一种视频检索方法,其特征在于,所述方法包括:
获取用户端发送的检索请求,其中,所述检索请求包括待检索图像;
提取所述待检索图像的图像特征;
将所述待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配,其中,所述第一索引序列包括二级索引和三级索引,所述二级索引是对三级索引进行聚类后的每一类的聚类中心,所述三级索引是预先提取的所述视频库中的各个视频的关键帧的图像特征,所述聚类中心包括每一类中的三级索引的均值;
将所述待检索图像的图像特征与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;
将所述第一索引序列中匹配成功的三级索引所属的视频反馈给所述用户端。
2.根据权利要求1所述的方法,其特征在于,所述图像特征包括纹理信息和结构信息。
3.根据权利要求1所述的方法,其特征在于,所述提取所述待检索图像的图像特征,包括:
对所述待检索图像进行一级小波分解,提取低频子图像;
对于所述低频子图像中的每个像素,确定以该像素为中心的3×3个像素的灰度值的中值,并将中值作为该像素的灰度值,再利用插值法,计算以该像素为中心的五角星的五个顶点的灰度值,根据五个顶点的灰度值与中值的大小关系,生成五位二进制数,并将由五位二进制数转换得到的十进制数作为该像素的灰度值,然后根据各个像素的灰度值,得到所述待检索图像的特征图像,其中,所述特征图像的灰度值的取值范围为0-31;
将所述特征图像分为大小相等且互不重叠的子块,统计各子块的灰度直方图;
将各子块的灰度直方图进行连接,得到所述待检索图像的图像特征。
4.根据权利要求1所述的方法,其特征在于,对于所述视频库中的各个视频中的每个视频,所述方法还包括:
根据视频的前预设帧数的图像进行背景建模,得到背景图像;
提取所述背景图像的图像特征,并将所述背景图像的图像特征作为一级索引;
按照视频的播放顺序,对视频进行前景目标检测,将像素数大于像素数阈值的前景目标所在的帧作为目标帧,提取目标帧的图像特征,并将第一个目标帧作为视频的第一个关键帧,其中,所述前景目标包括图像中除去所述背景图像以外的各种物体;
若与目标帧的帧间距最小的关键帧的图像特征与目标帧的图像特征的距离大于距离阈值,则将目标帧确定为关键帧,并将关键帧的图像特征作为三级索引,其中,所述距离包括欧氏距离;
对三级索引进行聚类,将每一类的聚类中心作为二级索引。
5.根据权利要求4所述的方法,其特征在于,所述第一索引序列还包括一级索引。
6.根据权利要求1所述的方法,其特征在于,所述将所述待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配,包括:
分别计算所述待检索图像的图像特征与所述第一索引序列中的各个二级索引的距离,其中,所述距离包括欧氏距离;
若距离小于第一阈值,则确定为匹配成功。
7.根据权利要求1所述的方法,其特征在于,所述将所述待检索图像的图像特征与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配,包括:
分别计算所述待检索图像的图像特征与所述第一索引序列中匹配成功的二级索引所在类中的各个三级索引的距离,其中,所述距离包括欧氏距离;
若距离小于第二阈值,则确定为匹配成功。
8.根据权利要求1所述的方法,其特征在于,所述检索请求还包括待检索视频片段;以及所述方法还包括:
提取所述待检索视频片段的图像的第二索引序列,其中,所述第二索引序列包括一级索引、二级索引和三级索引;
将所述第二索引序列中的一级索引与所述第一索引序列中的一级索引进行匹配;
将所述第二索引序列中的二级索引与所述第一索引序列中匹配成功的一级索引所属的视频的二级索引进行匹配;
将所述第二索引序列中匹配成功的二级索引所在类中的三级索引与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;
将所述第一索引序列中匹配成功的三级索引所属的视频反馈给所述用户端。
9.根据权利要求8所述的方法,其特征在于,所述将所述第二索引序列中的一级索引与所述第一索引序列中的一级索引进行匹配,包括:
确定所述第二索引序列中的一级索引与所述第一索引序列中的一级索引是否相同;
若相同,则确定为匹配成功。
10.根据权利要求8所述的方法,其特征在于,所述将所述第二索引序列中的二级索引与所述第一索引序列中匹配成功的一级索引所属的视频的二级索引进行匹配,包括:
分别计算所述第二索引序列中的各个二级索引之间的帧间距与所述第一索引序列中匹配成功的一级索引所属的视频的各个二级索引之间的帧间距的差值;
根据差值小于差值阈值的帧间距所对应的二级索引,计算所述第二索引序列中的二级索引与所述第一索引序列中的二级索引的距离,其中,所述距离包括欧氏距离;
若距离小于第一阈值,则确定为匹配成功。
11.根据权利要求8所述的方法,其特征在于,所述将所述第二索引序列中匹配成功的二级索引所在类中的三级索引与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配,包括:
分别计算所述第二索引序列中匹配成功的二级索引所在类中的各个三级索引与所述第一索引序列中匹配成功的二级索引所在类中的各个三级索引的距离,其中,所述距离包括欧氏距离;
若距离小于第二阈值,则确定为匹配成功。
12.一种视频检索装置,其特征在于,所述装置包括:
获取单元,配置用于获取用户端发送的检索请求,其中,所述检索请求包括待检索图像;
第一提取单元,配置用于提取所述待检索图像的图像特征;
第二匹配单元,配置用于将所述待检索图像的图像特征与根据视频库中的各个视频的图像预先提取的第一索引序列中的二级索引进行匹配,其中,所述第一索引序列包括二级索引和三级索引,所述二级索引是对三级索引进行聚类后的每一类的聚类中心,所述三级索引是预先提取的所述视频库中的各个视频的关键帧的图像特征,所述聚类中心包括每一类中的三级索引的均值;
第三匹配单元,配置用于将所述待检索图像的图像特征与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;
反馈单元,配置用于将所述第一索引序列中匹配成功的三级索引所属的视频反馈给所述用户端。
13.根据权利要求12所述的装置,其特征在于,所述图像特征包括纹理信息和结构信息。
14.根据权利要求12所述的装置,其特征在于,对于所述视频库中的各个视频中的每个视频,所述装置进一步配置用于:
根据视频的前预设帧数的图像进行背景建模,得到背景图像;
提取所述背景图像的图像特征,并将所述背景图像的图像特征作为一级索引;
按照视频的播放顺序,对视频进行前景目标检测,将像素数大于像素数阈值的前景目标所在的帧作为目标帧,提取目标帧的图像特征,并将第一个目标帧作为视频的第一个关键帧,其中,所述前景目标包括图像中除去所述背景图像以外的各种物体;
若与目标帧的帧间距最小的关键帧的图像特征与目标帧的图像特征的距离大于距离阈值,则将目标帧确定为关键帧,并将关键帧的图像特征作为三级索引,其中,所述距离包括欧氏距离;
对三级索引进行聚类,将每一类的聚类中心作为二级索引。
15.根据权利要求14所述的装置,其特征在于,所述第一索引序列还包括一级索引。
16.根据权利要求12所述的装置,其特征在于,所述检索请求还包括待检索视频片段;以及所述装置还包括:
第二提取单元,配置用于提取所述待检索视频片段的图像的第二索引序列,其中,所述第二索引序列包括一级索引、二级索引和三级索引;
第一匹配单元,配置用于将所述第二索引序列中的一级索引与所述第一索引序列中的一级索引进行匹配;
第二匹配单元,还配置用于将所述第二索引序列中的二级索引与所述第一索引序列中匹配成功的一级索引所属的视频的二级索引进行匹配;
第三匹配单元,还配置用于将所述第二索引序列中匹配成功的二级索引所在类中的三级索引与所述第一索引序列中匹配成功的二级索引所在类中的三级索引进行匹配;
反馈单元,还配置用于将所述第一索引序列中匹配成功的三级索引所属的视频反馈给所述用户端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610906542.4A CN106503112B (zh) | 2016-10-18 | 2016-10-18 | 视频检索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610906542.4A CN106503112B (zh) | 2016-10-18 | 2016-10-18 | 视频检索方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106503112A true CN106503112A (zh) | 2017-03-15 |
CN106503112B CN106503112B (zh) | 2020-01-21 |
Family
ID=58295191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610906542.4A Active CN106503112B (zh) | 2016-10-18 | 2016-10-18 | 视频检索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503112B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107404661A (zh) * | 2017-08-23 | 2017-11-28 | 韩城黄河指尖影院有限公司 | 一种微电影视频获取方法及装置 |
CN108416013A (zh) * | 2018-03-02 | 2018-08-17 | 北京奇艺世纪科技有限公司 | 视频匹配、检索、分类和推荐方法、装置及电子设备 |
CN110309795A (zh) * | 2019-07-04 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、电子设备及存储介质 |
CN110633379A (zh) * | 2019-08-29 | 2019-12-31 | 北京睿企信息科技有限公司 | 一种基于gpu并行运算的以图搜图系统及方法 |
CN113569069A (zh) * | 2021-07-13 | 2021-10-29 | 壹药网科技(上海)股份有限公司 | 一种基于主成分光谱角距离的药物检索方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693299A (zh) * | 2012-05-17 | 2012-09-26 | 西安交通大学 | 一种并行视频拷贝检测系统和方法 |
CN103810711A (zh) * | 2014-03-03 | 2014-05-21 | 郑州日兴电子科技有限公司 | 一种用于监控系统视频的关键帧提取方法及其系统 |
CN104239566A (zh) * | 2014-09-28 | 2014-12-24 | 小米科技有限责任公司 | 视频搜索的方法及装置 |
CN105468781A (zh) * | 2015-12-21 | 2016-04-06 | 小米科技有限责任公司 | 视频查询方法和装置 |
-
2016
- 2016-10-18 CN CN201610906542.4A patent/CN106503112B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693299A (zh) * | 2012-05-17 | 2012-09-26 | 西安交通大学 | 一种并行视频拷贝检测系统和方法 |
CN103810711A (zh) * | 2014-03-03 | 2014-05-21 | 郑州日兴电子科技有限公司 | 一种用于监控系统视频的关键帧提取方法及其系统 |
CN104239566A (zh) * | 2014-09-28 | 2014-12-24 | 小米科技有限责任公司 | 视频搜索的方法及装置 |
CN105468781A (zh) * | 2015-12-21 | 2016-04-06 | 小米科技有限责任公司 | 视频查询方法和装置 |
Non-Patent Citations (3)
Title |
---|
李荣 等: "基于视觉信息的图像特征提取算法研究", 《电子设计工程》 * |
蒋海娜: "基于镜头的视频检索方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
许 伟 等: "基于颜色特征的视频数据库检索系统", 《计算机工程与设计》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107404661A (zh) * | 2017-08-23 | 2017-11-28 | 韩城黄河指尖影院有限公司 | 一种微电影视频获取方法及装置 |
CN108416013A (zh) * | 2018-03-02 | 2018-08-17 | 北京奇艺世纪科技有限公司 | 视频匹配、检索、分类和推荐方法、装置及电子设备 |
CN108416013B (zh) * | 2018-03-02 | 2020-12-18 | 北京奇艺世纪科技有限公司 | 视频匹配、检索、分类和推荐方法、装置及电子设备 |
CN110309795A (zh) * | 2019-07-04 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、电子设备及存储介质 |
CN110309795B (zh) * | 2019-07-04 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 视频检测方法、装置、电子设备及存储介质 |
CN110633379A (zh) * | 2019-08-29 | 2019-12-31 | 北京睿企信息科技有限公司 | 一种基于gpu并行运算的以图搜图系统及方法 |
CN110633379B (zh) * | 2019-08-29 | 2023-04-28 | 北京睿企信息科技有限公司 | 一种基于gpu并行运算的以图搜图系统及方法 |
CN113569069A (zh) * | 2021-07-13 | 2021-10-29 | 壹药网科技(上海)股份有限公司 | 一种基于主成分光谱角距离的药物检索方法及系统 |
CN113569069B (zh) * | 2021-07-13 | 2024-05-17 | 壹药网科技(上海)股份有限公司 | 一种基于主成分光谱角距离的药物检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106503112B (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11861816B2 (en) | System and method for detecting image forgery through convolutional neural network and method for providing non-manipulation detection service using the same | |
Wei et al. | Road structure refined CNN for road extraction in aerial image | |
CN106503112A (zh) | 视频检索方法和装置 | |
CN111898696B (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
JP7490141B2 (ja) | 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム | |
CN102737243B (zh) | 获取多幅图像的描述信息的方法及装置与图像匹配方法 | |
JP7026165B2 (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
CN109960980B (zh) | 动态手势识别方法及装置 | |
CN111539290A (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN103353881B (zh) | 一种应用程序搜索方法及装置 | |
Giveki et al. | A new content based image retrieval model based on wavelet transform | |
CN110941978B (zh) | 一种未识别身份人员的人脸聚类方法、装置及存储介质 | |
Xie et al. | Bag-of-words feature representation for blind image quality assessment with local quantized pattern | |
CN104850859A (zh) | 一种基于多尺度分析的图像特征包构建方法 | |
CN110399760A (zh) | 一种批量二维码定位方法、装置、电子设备及存储介质 | |
CN109325480A (zh) | 身份信息的录入方法及终端设备 | |
CN113486881B (zh) | 一种文本识别方法、装置、设备及介质 | |
US8620971B2 (en) | Image processing apparatus, image processing method, and program | |
CN102693231A (zh) | 用于根据来自网络的图像来确定图集的方法、装置和设备 | |
CN115062642A (zh) | 一种信号辐射源识别方法、装置、设备及存储介质 | |
Zhao et al. | Key‐Frame Extraction Based on HSV Histogram and Adaptive Clustering | |
CN111127407B (zh) | 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法 | |
CN108229320B (zh) | 选帧方法和装置、电子设备、程序和介质 | |
CN111797922B (zh) | 文本图像分类方法及装置 | |
US20220318950A1 (en) | Video enhancement method and apparatus, and electronic device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |