CN112749660A - 一种视频内容描述信息的生成方法和设备 - Google Patents
一种视频内容描述信息的生成方法和设备 Download PDFInfo
- Publication number
- CN112749660A CN112749660A CN202110044445.XA CN202110044445A CN112749660A CN 112749660 A CN112749660 A CN 112749660A CN 202110044445 A CN202110044445 A CN 202110044445A CN 112749660 A CN112749660 A CN 112749660A
- Authority
- CN
- China
- Prior art keywords
- image
- frame
- sub
- description information
- image sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 33
- 230000003068 static effect Effects 0.000 claims abstract description 32
- 238000003708 edge detection Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本申请涉及一种视频内容描述信息的生成方法和设备,该方法包括:获取目标视频的图像序列;将图像序列划分为多个子图像序列;多个子图像序列中任意连续两个子图像序列对应不同的场景;针对多个子图像序列中每个子图像序列:根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测,得到对应的静态场景描述信息;根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测,得到对应的动态事件描述信息;根据静态场景描述信息和动态事件描述信息,确定当前子图像序列对应的内容描述信息。如此,不仅可以降低视频理解的难度,还可以减少冗余信息提取,从而可以提高计算效率。
Description
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种视频内容描述信息的生成方法和设备。
背景技术
在互联网、大数据稳定发展的时代背景下,多媒体信息的需求量呈现爆发式增长,传统的信息处理技术已无法应对多媒体数据在标注、描述等任务上的需求。用自然语言对视频、图像等进行描述,对于人类来说非常简单,但对机器来说却是一项很难的任务。
目前使用卷积神经网络处理二维图片数据的研究已经很多了,但是对于视频数据的处理方法还处于有待提高的阶段。
现有的视频理解方法中,基于视频数据帧级别特征序列,提取出自然语言对应的全局词性序列特征,然后生成准确的自然语言描述,但是该方式没有排除同一场景中连续帧间的重复信息,冗余度高;又例如还有的现有技术中,对视频图像序列进行关键帧筛选,再将筛选的关键帧送入至视频帧描述网络中生成描述文本,但是该方法没有考虑同一场景中的连续视频帧之间的关联性,以及跨场景之间的信息差异,不适合对有场景变化的视频进行理解,如非固定摄像头视频、以及类似影视作品等多场景剪辑拼接过的视频等。
发明内容
本申请实施例提供了一种视频内容描述信息的生成方法和设备,不仅可以降低视频理解的难度,还可以减少冗余信息提取,从而可以提高计算效率。
一方面,本申请实施例提供了一种视频内容描述信息的生成方法,包括:
获取目标视频的图像序列;
将图像序列划分为多个子图像序列;多个子图像序列中任意连续两个子图像序列对应不同的场景;
针对多个子图像序列中每个子图像序列:根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测,得到对应的静态场景描述信息;根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测,得到对应的动态事件描述信息;根据静态场景描述信息和动态事件描述信息,确定当前子图像序列对应的内容描述信息。
可选的,将图像序列划分为多个子图像序列,包括:
确定图像序列的每帧图像中前景和/或后景的占比值;
根据每帧图像中前景和/或后景的占比值,确定图像序列中发生场景切换的图像帧;
基于发生场景切换的图像帧,将图像序列划分为多个子图像序列。
可选的,根据每帧图像中前景和/或后景的占比值,确定图像序列中发生场景切换的图像帧,包括:
若当前帧图像中前景和/或后景的占比值大于或者等于第一预设占比值,且当前帧图像的前一帧图像中前景和/或后景的占比值小于第二预设占比值,则将当前帧图像确定为发生场景切换的图像帧;其中,第一预设占比值大于第二预设占比值。
可选的,将图像序列划分为多个子图像序列,包括:
对图像序列中每帧图像进行边缘检测,确定每帧图像对应的特性信息;
根据每帧图像对应的特性信息,确定图像序列中发生场景切换的图像帧;
基于发生场景切换的图像帧,将图像序列划分为多个子图像序列。
可选的,根据每帧图像对应的特性信息,确定图像序列中发生场景切换的图像帧,包括:
若当前帧图像对应的特征信息与前一帧图像对应的特征信息之间的相似程度值小于预设值,且前一帧图像对应的特征信息与前前一帧图像对应的特征信息之间的相似程度值大于等于预设值,则将当前帧图像确定为发生场景切换的图像帧。
可选的,基于发生场景切换的图像帧,将图像序列划分为多个子图像序列,包括:
将发生场景切换的图像帧确定为当前子图像序列的首帧图像;
将前一帧图像确定为前一个子图像序列的尾帧图像。
可选的,已训练的第一检测模型为第一RelDN模型;
根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测,得到对应的静态场景描述信息,包括:
将当前子图像序列的首帧图像作为第一RelDN模型的输入,输出对应的静态场景描述信息;静态场景描述信息包括至少两个对象以及两个对象之间的静态关系。
可选的,已训练的第二检测模型为基于预设数据集训练得到的第二RelDN模型;
根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测,得到对应的动态事件描述信息,包括:
将当前子图像序列中除首帧图像之外的图像作为第二RelDN模型的输入,输出对应的动态事件描述信息;动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。
可选的,已训练的第二检测模型为基于预设数据集训练得到的Motif模型;
根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测,得到对应的动态事件描述信息,包括:
将当前子图像序列中除首帧图像之外的图像作为Motif模型的输入,输出对应的动态事件描述信息;动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。
另一方面,本申请实施例提供了一种设备,设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行上述的视频内容描述信息的生成方法。
本申请实施例提供的一种视频内容描述信息的生成方法和设备具有如下有益效果:
通过获取目标视频的图像序列;将图像序列划分为多个子图像序列;多个子图像序列中任意连续两个子图像序列对应不同的场景;针对多个子图像序列中每个子图像序列:根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测,得到对应的静态场景描述信息;根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测,得到对应的动态事件描述信息;根据静态场景描述信息和动态事件描述信息,确定当前子图像序列对应的内容描述信息。如此,不仅可以降低视频理解的难度,还可以减少冗余信息提取,从而可以提高计算效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种视频内容描述信息的生成方法的流程示意图;
图2~图4是本申请实施例提供的一种检测过程的示意图;
图5是本申请实施例提供的一种视频内容描述信息的生成方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例提出了一种视频内容描述信息的生成方法,可以帮助计算机以结构化的形式更加全面和快捷的理解视频内容,并且可以依据构建的视频描述信息为进一步的推理和决策做铺垫。
以下介绍本申请一种视频内容描述信息的生成方法的具体实施例,图1是本申请实施例提供的一种视频内容描述信息的生成方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,该方法可以包括:
S101:获取目标视频的图像序列。
S103:将图像序列划分为多个子图像序列;多个子图像序列中任意连续两个子图像序列对应不同的场景。
本申请实施例中,先对涉及到的目标视频、图像序列以及场景等概念进行介绍:首先,目标视频为本申请需要对其进行内容描述的对象,在视觉上连续的视频是由一幅幅静止的图像不断地放映到屏幕或者显示器上形成的,目标视频的图像序列便是由这一幅幅静止的图像组成的;一个目标视频可以由多个场景拼接而成,一些简单的视频中也可以只包含一个场景,场景由若干帧时间上连续的图像组成。
本申请实施例中,获取待描述的目标视频的图像序列之后,将该图像序列划分为多个子图像序列,多个子图像序列中每个子图像序列对应一个场景,并保证多个子图像序列中任意连续两个子图像序列对应的是不同的场景;因此,本申请实施例的视频内容描述信息的生成方法不仅适用于简单的单场景的视频理解,也能够适应多场景变化的情况。
一种可选的实施方式中,步骤S103具体可以包括:确定图像序列的每帧图像中前景和/或后景的占比值;根据每帧图像中前景和/或后景的占比值,确定图像序列中发生场景切换的图像帧;基于发生场景切换的图像帧,将图像序列划分为多个子图像序列。
对应的,上述根据每帧图像中前景和/或后景的占比值,确定图像序列中发生场景切换的图像帧,具体可以包括:若当前帧图像中前景和/或后景的占比值大于或者等于第一预设占比值,且当前帧图像的前一帧图像中前景和/或后景的占比值小于第二预设占比值,则将当前帧图像确定为发生场景切换的图像帧;其中,第一预设占比值大于第二预设占比值。
具体的,可以利用opencv中的前/后景分割器(Geometric Multigid,GMG),对每帧图像进行前后景分析,从中分割出前景和/或后景,并确定出每帧图像中前景和/或后景的占比值;以确定每帧图像中前景的占比值为例,假设第一预设占比值为0.8,第二预设占比值为0.6,依次对图像序列中每帧图像进行前景分割,例如,第1帧图像中前景的占比值为0.7,第2帧图像中占比值为0.5,第3帧图像为当前帧图像,当前帧图像中前景的占比值为0.9,由于当前帧(第3帧)图像中前景的占比值大于第一预设占比值0.8,且第2帧图像中前景的占比值小于第二预设占比值0.6,则将当前帧(第3帧)图像确定为发生场景切换的图像帧。
另一种可选的实施方式中,步骤S103具体可以包括:对图像序列中每帧图像进行边缘检测,确定每帧图像对应的特性信息;根据每帧图像对应的特性信息,确定图像序列中发生场景切换的图像帧;基于发生场景切换的图像帧,将图像序列划分为多个子图像序列。
对应的,上述据每帧图像对应的特性信息,确定图像序列中发生场景切换的图像帧,具体可以包括:
若当前帧图像对应的特征信息与前一帧图像对应的特征信息之间的相似程度值小于预设值,且前一帧图像对应的特征信息与前前一帧图像对应的特征信息之间的相似程度值大于等于预设值,则将当前帧图像确定为发生场景切换的图像帧。
具体的,边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点,因此,上述每帧图像对应的特性信息可以指其周围像素灰度急剧变化的像素的集合,一般在同一个场景中,相邻的图像帧是相似的,对应的像素的集合的位置不会发生太大的变化;因而,该可选的实施方式中,可以利用这种特性对每帧图像进行边缘检测,计算相邻图像帧之间的特性信息的相似程度,通过设置调节预设值,即变化率阈值,确定出发生场景切换的图像帧。
一种可选的基于发生场景切换的图像帧,将图像序列划分为多个子图像序列的实施方式中,包括:将发生场景切换的图像帧确定为当前子图像序列的首帧图像;将前一帧图像确定为前一个子图像序列的尾帧图像。例如,上文的例子中,第3帧图像为当前子图像序列的首帧图像,第2帧图像为前一个子图像序列的尾帧图像,第1帧图像与第2帧图像组成前一个子图像序列,即第一个子图像序列。
S1051:针对多个子图像序列中每个子图像序列:根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测,得到对应的静态场景描述信息。
S1052:根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测,得到对应的动态事件描述信息。
S1053:根据静态场景描述信息和动态事件描述信息,确定当前子图像序列对应的内容描述信息。
本申请实施例中,将图像序列划分为多个子图像序列之后,根据已训练的第一检测模型,对多个子图像序列中每个子图像序列的首帧图像进行检测,得到对应的静态场景描述信息,根据已训练的第二检测模型,对每个子图像序列中除首帧图像之外的图像进行检测,得到对应的动态事件描述信息,最后,基于静态场景描述信息和动态事件描述信息,确定每个子图像序列对应的内容描述信息,综合得到目标视频的整体内容描述信息。
一种可选的实施方式中,已训练的第一检测模型为第一RelDN(关系检测网络)模型,用来检测每个子图像序列的首帧图像中的静态场景信息,使用的backbone网络可以是ResNeXt-101-64x4d-FPN;上述步骤S1051具体可以包括:将当前子图像序列的首帧图像作为第一RelDN模型的输入,输出对应的静态场景描述信息;静态场景描述信息包括至少两个对象以及两个对象之间的静态关系。
一种可选的实施方式中,已训练的第二检测模型为基于预设数据集训练得到的第二RelDN模型,用来检测每个子图像序列的非首帧图像中的动态事件;上述步骤S1052具体可以包括:将当前子图像序列中除首帧图像之外的图像作为第二RelDN模型的输入,输出对应的动态事件描述信息;动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。
具体的,上述预设数据集可以以vg150数据集为基础,按照一定的标准筛选数据,做成新的数据集vg-event;具体方法如下:从vg150数据集中的50个谓语词提取16个谓语词,做成数据集vg-event,16个谓语词是"carrying","covered in","covering","eating","flying in","holding","looking at","parked on","playing","riding","says","sitting on","using","walking in","walking on","watching"。在训练第二RelDN模型时,更改RelDN网络类别输入参数从50变成16,使用vg-event数据集,如此获得训练后的第二RelDN模型用来作为动态事件检测。
具体的,如图2所示,使用第一RelDN模型检测当前子图像序列的首帧图像,首先会识别出图像中包括window、building、bike、wheel、tire等对象,最终输出对应的静态场景描述信息包括<building,has,window>、<building,has,window>、<bike,has,wheel>、<bike,has,wheel>、<bike,has,tire>。需要说明的是,展示时没有区分bike的前后wheel,因此结果中包含两个<bike,has,wheel>,building的window同理;图像中能够检测出很多对象,此处不一一赘述,例如还包括road,对应的还能得到bike on the road类似的信息;如图3所示,使用第二RelDN模型检测当前子图像序列的非首帧图像,会识别出图像中包括man、bike等对象,最终输出对应的动态事件描述信息包括<man,riding,bike>。最后,综合静态场景描述信息以及动态事件描述信息可以得到当前子图像序列的内容描述信息为Manriding bike on the road where building has window in the afternoon;其中,inthe afternoon可以根据目标视频的时间戳信息确定。
另一种可选的实施方式中,已训练的第二检测模型为基于预设数据集训练得到的Motif模型;Motif模型可以参考R.Zellers,M.Yatskar,S.Thomson,Y.Choi等人于2018年6月在IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)上发布的论文“Neural Motifs:Scene Graph Parsing with Global Context”中的提出的MOTIFNET-模型;上述步骤S1051具体可以包括:将当前子图像序列中除首帧图像之外的图像作为Motif模型的输入,输出对应的动态事件描述信息;动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。同样的,基于前文做成的新的数据集vg-event重新对网络进行训练,得到新的Motif模型,第一检测模型可以直接采用原数据集进行训练得到,如图4所示,最终综合静态场景描述信息和动态事件描述信息得到的内容描述信息可以是Man riding on a bicycle on the road in the afternoon。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图5是本申请实施例提供的一种视频内容描述信息的生成方法的服务器的硬件结构框图。如图5所示,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)510(处理器510可以包括但不限于微处理器NCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器530,一个或一个以上存储应用程序523或数据522的存储介质520(例如一个或一个以上海量存储设备)。其中,存储器530和存储介质520可以是短暂存储或持久存储。存储在存储介质520的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器510可以设置为与存储介质520通信,在服务器500上执行存储介质520中的一系列指令操作。服务器500还可以包括一个或一个以上电源560,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口540,和/或,一个或一个以上操作系统521,例如Windows,Mac OS,Unix,Linux,FreeBSD等等。
输入输出接口540可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器500的通信供应商提供的无线网络。在一个实例中,输入输出接口540包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口540可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器500还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种视频内容描述信息的生成方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述视频内容描述信息的生成方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的一种视频内容描述信息的生成方法和设备的实施例可见,本申请中通过获取目标视频的图像序列;将图像序列划分为多个子图像序列;多个子图像序列中任意连续两个子图像序列对应不同的场景;针对多个子图像序列中每个子图像序列:根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测,得到对应的静态场景描述信息;根据已训练的第二检测模型对当前子图像序列中除首帧图像之外的图像进行检测,得到对应的动态事件描述信息;根据静态场景描述信息和动态事件描述信息,确定当前子图像序列对应的内容描述信息。如此,不仅可以降低视频理解的难度,还可以减少冗余信息提取,从而可以提高计算效率。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种视频内容描述信息的生成方法,其特征在于,包括:
获取目标视频的图像序列;
将所述图像序列划分为多个子图像序列;所述多个子图像序列中任意连续两个子图像序列对应不同的场景;
针对所述多个子图像序列中每个子图像序列:根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测,得到对应的静态场景描述信息;根据已训练的第二检测模型对所述当前子图像序列中除所述首帧图像之外的图像进行检测,得到对应的动态事件描述信息;根据所述静态场景描述信息和所述动态事件描述信息,确定所述当前子图像序列对应的内容描述信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述图像序列划分为多个子图像序列,包括:
确定所述图像序列的每帧图像中前景和/或后景的占比值;
根据所述每帧图像中前景和/或后景的占比值,确定所述图像序列中发生场景切换的图像帧;
基于所述发生场景切换的图像帧,将所述图像序列划分为多个子图像序列。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每帧图像中前景和/或后景的占比值,确定所述图像序列中发生场景切换的图像帧,包括:
若当前帧图像中前景和/或后景的占比值大于或者等于第一预设占比值,且所述当前帧图像的前一帧图像中前景和/或后景的占比值小于第二预设占比值,则将所述当前帧图像确定为所述发生场景切换的图像帧;其中,所述第一预设占比值大于所述第二预设占比值。
4.根据权利要求1所述的方法,其特征在于,所述将所述图像序列划分为多个子图像序列,包括:
对所述图像序列中每帧图像进行边缘检测,确定所述每帧图像对应的特性信息;
根据所述每帧图像对应的特性信息,确定所述图像序列中发生场景切换的图像帧;
基于所述发生场景切换的图像帧,将所述图像序列划分为多个子图像序列。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每帧图像对应的特性信息,确定所述图像序列中发生场景切换的图像帧,包括:
若当前帧图像对应的特征信息与前一帧图像对应的特征信息之间的相似程度值小于预设值,且所述前一帧图像对应的特征信息与前前一帧图像对应的特征信息之间的相似程度值大于等于所述预设值,则将所述当前帧图像确定为所述发生场景切换的图像帧。
6.根据权利要求3或5所述的方法,其特征在于,所述基于所述发生场景切换的图像帧,将所述图像序列划分为多个子图像序列,包括:
将所述发生场景切换的图像帧确定为当前子图像序列的首帧图像;
将所述前一帧图像确定为前一个子图像序列的尾帧图像。
7.根据权利要求1所述的方法,其特征在于,所述已训练的第一检测模型为第一RelDN模型;
所述根据已训练的第一检测模型对当前子图像序列的首帧图像进行检测,得到对应的静态场景描述信息,包括:
将所述当前子图像序列的首帧图像作为所述第一RelDN模型的输入,输出对应的静态场景描述信息;所述静态场景描述信息包括至少两个对象以及两个对象之间的静态关系。
8.根据权利要求1所述的方法,其特征在于,所述已训练的第二检测模型为基于预设数据集训练得到的第二RelDN模型;
所述根据已训练的第二检测模型对所述当前子图像序列中除所述首帧图像之外的图像进行检测,得到对应的动态事件描述信息,包括:
将所述当前子图像序列中除所述首帧图像之外的图像作为所述第二RelDN模型的输入,输出对应的动态事件描述信息;所述动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。
9.根据权利要求1所述的方法,其特征在于,所述已训练的第二检测模型为基于预设数据集训练得到的Motif模型;
所述根据已训练的第二检测模型对所述当前子图像序列中除所述首帧图像之外的图像进行检测,得到对应的动态事件描述信息,包括:
将所述当前子图像序列中除所述首帧图像之外的图像作为所述Motif模型的输入,输出对应的动态事件描述信息;所述动态事件描述信息包括至少两个对象以及两个对象之间的动态关系。
10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-9任一项所述的视频内容描述信息的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110044445.XA CN112749660B (zh) | 2021-01-13 | 一种视频内容描述信息的生成方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110044445.XA CN112749660B (zh) | 2021-01-13 | 一种视频内容描述信息的生成方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749660A true CN112749660A (zh) | 2021-05-04 |
CN112749660B CN112749660B (zh) | 2024-06-28 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102541008B1 (ko) * | 2022-06-20 | 2023-06-13 | 김두현 | 화면해설 컨텐츠를 제작하는 방법 및 장치 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778237A (zh) * | 2014-01-27 | 2014-05-07 | 北京邮电大学 | 一种基于活动事件时空重组的视频摘要生成方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108009336A (zh) * | 2017-11-28 | 2018-05-08 | 北京航空航天大学 | 一种微桁架结构承载和热防护结构的多目标优化方法 |
CN108537157A (zh) * | 2018-03-30 | 2018-09-14 | 特斯联(北京)科技有限公司 | 一种基于人工智能分类实现的视频场景判断方法与装置 |
CN109523502A (zh) * | 2018-08-28 | 2019-03-26 | 顺丰科技有限公司 | 装卸口状态检测方法、装置、设备及其存储介质 |
CN110147846A (zh) * | 2019-05-23 | 2019-08-20 | 软通智慧科技有限公司 | 视频分割方法、装置、设备及存储介质 |
CN110490845A (zh) * | 2019-07-26 | 2019-11-22 | 北京大米科技有限公司 | 一种图像特征提取方法、装置、存储介质及电子设备 |
CN111241340A (zh) * | 2020-01-17 | 2020-06-05 | Oppo广东移动通信有限公司 | 视频标签确定方法、装置、终端及存储介质 |
CN111400545A (zh) * | 2020-03-01 | 2020-07-10 | 西北工业大学 | 一种基于深度学习的视频标注方法 |
CN111401239A (zh) * | 2020-03-16 | 2020-07-10 | 科大讯飞(苏州)科技有限公司 | 一种视频分析方法、装置、系统、设备及存储介质 |
CN111985269A (zh) * | 2019-05-21 | 2020-11-24 | 顺丰科技有限公司 | 检测模型构建方法、检测方法、装置、服务器及介质 |
US20200380769A1 (en) * | 2018-05-22 | 2020-12-03 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, storage medium, and computer device |
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778237A (zh) * | 2014-01-27 | 2014-05-07 | 北京邮电大学 | 一种基于活动事件时空重组的视频摘要生成方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108009336A (zh) * | 2017-11-28 | 2018-05-08 | 北京航空航天大学 | 一种微桁架结构承载和热防护结构的多目标优化方法 |
CN108537157A (zh) * | 2018-03-30 | 2018-09-14 | 特斯联(北京)科技有限公司 | 一种基于人工智能分类实现的视频场景判断方法与装置 |
US20200380769A1 (en) * | 2018-05-22 | 2020-12-03 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, storage medium, and computer device |
CN109523502A (zh) * | 2018-08-28 | 2019-03-26 | 顺丰科技有限公司 | 装卸口状态检测方法、装置、设备及其存储介质 |
CN111985269A (zh) * | 2019-05-21 | 2020-11-24 | 顺丰科技有限公司 | 检测模型构建方法、检测方法、装置、服务器及介质 |
CN110147846A (zh) * | 2019-05-23 | 2019-08-20 | 软通智慧科技有限公司 | 视频分割方法、装置、设备及存储介质 |
CN110490845A (zh) * | 2019-07-26 | 2019-11-22 | 北京大米科技有限公司 | 一种图像特征提取方法、装置、存储介质及电子设备 |
CN111241340A (zh) * | 2020-01-17 | 2020-06-05 | Oppo广东移动通信有限公司 | 视频标签确定方法、装置、终端及存储介质 |
CN111400545A (zh) * | 2020-03-01 | 2020-07-10 | 西北工业大学 | 一种基于深度学习的视频标注方法 |
CN111401239A (zh) * | 2020-03-16 | 2020-07-10 | 科大讯飞(苏州)科技有限公司 | 一种视频分析方法、装置、系统、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
丁洁等: "基于长时间视频序列的背景建模方法研究", 《自动化学报》, vol. 44, no. 04, 3 January 2017 (2017-01-03), pages 707 - 718 * |
费梦娟: "基于用户兴趣和内容重要性学习的视频摘要技术研究", 《中国优秀博士学位论文全文数据库》, no. 08, 15 August 2019 (2019-08-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102541008B1 (ko) * | 2022-06-20 | 2023-06-13 | 김두현 | 화면해설 컨텐츠를 제작하는 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN111031346B (zh) | 一种增强视频画质的方法和装置 | |
CN110602526A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
US20220172476A1 (en) | Video similarity detection method, apparatus, and device | |
CN109472193A (zh) | 人脸检测方法及装置 | |
CN112257801B (zh) | 图像的增量聚类方法、装置、电子设备及存储介质 | |
CN113496208B (zh) | 视频的场景分类方法及装置、存储介质、终端 | |
CN111182367A (zh) | 一种视频的生成方法、装置及计算机系统 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN113766330A (zh) | 基于视频生成推荐信息的方法和装置 | |
CN112149642A (zh) | 一种文本图像识别方法和装置 | |
CN112084812A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN111741329A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN116994000A (zh) | 零件边缘特征提取方法和装置、电子设备及存储介质 | |
US9699501B2 (en) | Information processing device and method, and program | |
JP2009110526A (ja) | 画像解析方法及び画像解析装置 | |
US11934958B2 (en) | Compressing generative adversarial neural networks | |
CN113297416A (zh) | 视频数据存储方法、装置、电子设备和可读存储介质 | |
US8121437B2 (en) | Method and apparatus of searching for images | |
US20220207864A1 (en) | Dynamic media content categorization method | |
CN112749660B (zh) | 一种视频内容描述信息的生成方法和设备 | |
CN116977260A (zh) | 目标物的缺陷检测方法、装置、电子设备及存储介质 | |
CN112749660A (zh) | 一种视频内容描述信息的生成方法和设备 | |
CN112487943B (zh) | 关键帧去重的方法、装置和电子设备 | |
CN112667831B (zh) | 素材存储方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |