CN108537134B - 一种视频语义场景分割及标注方法 - Google Patents
一种视频语义场景分割及标注方法 Download PDFInfo
- Publication number
- CN108537134B CN108537134B CN201810218659.2A CN201810218659A CN108537134B CN 108537134 B CN108537134 B CN 108537134B CN 201810218659 A CN201810218659 A CN 201810218659A CN 108537134 B CN108537134 B CN 108537134B
- Authority
- CN
- China
- Prior art keywords
- video
- video frame
- scene
- frame
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明所述的视频语义场景分割及标注方法,包括以下步骤:基于有标注场景图像集离线训练深度卷积神经网络构建场景分类器;计算视频序列中相邻视频帧之间的相似度并对视频帧按照相似度分组;自适应调节相似度阈值获得视频帧帧数分布均匀的视频帧分组;合并包含帧数过少的帧分组,分裂包含帧数过多的帧分组以对视频帧分组结果重新调整;为每个视频帧分组选择代表性视频帧;利用场景分类器识别视频帧分组的场景类别;对视频序列进行语义场景分割及标注。本发明为解决视频的检索和管理问题提供了有效手段,并提高用户观看视频的体验和乐趣。
Description
技术领域
本发明涉及计算机视频处理技术领域,尤其涉及一种视频语义场景分割及标注方法。
背景技术
随着数字多媒体以及互联网技术的快速发展,每天都有大量的数字视频数据产生。海量的视频数据对视频的有效检索和管理构成了巨大的挑战。将视频按照语义场景进行分割并进行标注对于解决视频检索和管理问题具有重要的作用。此外,对视频内容按语义场景进行分割及标注可以有效地提高用户观看视频的体验和乐趣。目前,场景识别主要包括静态图像场景识别和视频场景识别。其中,静态图像场景识别是指将静态场景图像归类为对应的语义场景类别。而视频场景识别是指将事先分割好的视频片断归类为对应的语义场景类别。当前的场景识别技术中还没有将包含多种语义场景的视频按照语义进行分割并标注的有效方法。
发明内容
本发明针对现有技术的不足,提出一种视频语义场景分割及标注方法,能够将视频按语义场景进行分割并为分割得到的视频片段进行语义标注,具体的技术方案如下:
本发明提供了一种视频语义场景分割及标注方法,包括以下步骤:
S1:基于有标注场景图像集,离线训练深度卷积神经网络构建多类场景分类器;
S2:计算视频序列中相邻帧之间的相似度,通过将所述相似度与设定阈值作对比得到视频序列的视频帧分组;
S3:调整所述视频帧分组,并根据设定指标从各个所述视频帧分组中选取代表性视频帧;
S4:利用所述多类场景分类器对所述代表性视频帧进行分类;
S5:基于所述多类场景分类器的分类结果对所述视频帧分组进行语义标注以及融合,完成视频语义场景分割及标注。
进一步地,所述S1还包括:
S11:选取有标注场景的图像集,或者构建设定场景的图像集;
S12:基于所述选取或构建的图像集训练深度卷积神经网络,基于深度卷积神经网络构建场景分类器,令所述场景分类器能够预测输入图像属于各个场景类别的概率;
S13:提取所述深度卷积神经网络的多个中间层,利用向量化方法把每个中间层的输出进行向量化,然后基于神经网络层的输出,训练Softmax分类函数构建场景分类器。
进一步地,所述S2还包括:
从视频序列的每幅视频帧中提取能够反映视频帧内容的RGB颜色直方图作为相应视频帧的特征向量,基于所述视频帧的特征向量计算相邻两幅视频帧之间的欧几里得距离,接着将所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间,得到相似度度量;
将相邻两帧之间的相似度与设定阈值进行比较,如果相邻两帧之间的相似度大于设定阈值则将这两帧归入相同的视频帧分组,否则将这两帧归入不同的帧分组。
进一步地,计算相邻两幅视频帧之间的欧几里得距离d为:
其中,vi和vj表示相邻两帧的特征向量,K表示特征向量的维度;
所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间,映射方式为:
其中,d表示相邻帧之间的距离,e表示自然常数。
进一步地,所述S3还包括:
将设定阈值从0到1按设定的步长进行变化,将所述按设定的步长进行变化的阈值根据S2对视频序列进行分组,按照分组中视频帧的数量对视频分组做降序排列,然后用每个视频帧分组中的帧数除以整个视频序列的长度进行归一化处理,接着按照以下方式计算每次视频帧分组的帧数分布均匀度:
Length(Gs1)>Length(Gs2)>···Length(GsL-1)>Length(GsL)
其中,Gsi表示排序后第i个视频帧分组,Length(.)表示视频帧分组的长度,L表示视频帧分组的个数;
选取视频帧分布均匀度最大的一次分组作为视频帧分组的结果,视频帧分布均匀度Da为:
其中,L表示视频帧分组的个数,Gsi表示排序后第i个视频帧分组,Length(.)表示视频帧分组的长度。
进一步地,所述S3还包括:
通过随机方式或者按照设定方式或者通过组内帧聚类的方式选择N幅视频帧作为对应帧分组的代表性视频帧。
进一步地,所述S4还包括:
利用所述场景分类器对每个视频帧分组的每幅代表性帧进行分类,即对应于每幅视频帧得到一个该视频帧属于每个场景类别的概率分布。
进一步地,所述S5还包括:
融合每个帧分组的代表性帧的分类结果,确定对应帧分组的场景类别,并将相邻且具有相同场景类别的帧分组进行合并,完成视频序列的语义场景分割及标注。
由上述本发明提供的技术方案可以看出,本发明能够将视频按照视频所包含的语义场景进行分割,并能够对每个得到的视频片断进行语义标注。通过本发明所提技术方案,可以根据视频所包含的语义场景对视频进行检索、组织及管理。大大提高视频处理的效率和视频观看的体验和乐趣。
本发明附加的方面和优点将在下面的描述部分中给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述视频语义场景分割及标注方法的流程图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本发明提供一种对视频序列进行语义场景分割及标注的方法,分别以下步骤:
S1:基于有标注场景图像集,离线训练深度卷积神经网络构建多类场景分类器;
S2:计算视频序列中相邻帧之间的相似度,通过将所述相似度与设定阈值作对比得到视频序列的视频帧分组;
S3:调整所述视频帧分组,并根据设定指标从各个所述视频帧分组中选取代表性视频帧;
S4:利用所述多类场景分类器对所述代表性视频帧进行分类;
S5:基于所述多类场景分类器的分类结果对所述视频帧分组进行语义标注以及融合,完成视频语义场景分割及标注。
为便于对本发明技术方案的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
本实施例提供一种对视频序列进行语义场景分割及标注的方法,结合图1对该方法进行详细介绍,如图1所示:
步骤201:利用有标注场景图像集训练深度卷积神经网络构建场景分类器,所述场景分类器能够预测输入图像属于各个场景类别的概率;
在本实施例中,有标注场景图像集可以利用现有的图像集如Places和SUN397,也可以自行搜集感兴趣场景的图像构建场景图像集,用于训练场景分类器的有标注场景图像集中的场景类别就是可用于对视频进行场景语义标注的场景类别;
深度卷积神经网络的结构可采用经典的网络结果如VGG-Net或ResNet等,网络结构的最后一层的输出是输入图像属于每个预先定义的场景类别的概率的分布向量,在构建集成分类器的过程中,可以将深度神经网络的若干中间层的输出作为输入图像的特征,训练Softmax分类器;采用批量随机梯度下降法和反向传播算法对深度网络模型进行训练。
步骤202:从视频序列的每幅视频帧中提取能够反映视频帧在红、绿、蓝三个颜色通道上的像素分布情况的RGB颜色直方图作为相应视频帧的特征向量,基于所述视频帧的特征向量计算相邻两幅视频帧之间的欧几里得距离,接着将所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间,得到相似度度量;
将相邻帧之间的相似度与相似度阈值Ts进行比较,如果相邻两帧间的相似度大于Ts则将其归入相同的视频帧分组,否则将其归入不同的帧分组。
在本实施例中,计算相邻两幅视频帧之间的欧几里得距离d为:
其中,vi和vj是相邻两帧的特征向量,K表示特征向量的维度;
在本实施例中,所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间,映射方式为:
其中,d表示相邻帧之间的距离,e表示自然常数。
步骤203:将视频帧分组阈值Ts从0到1按0.1步长进行变化,得到一组Ts的取值为0.1,0.2,...,0.9,对应于每个阈值Ts,分别按照步骤202中所述的方法对视频序列进行分组;对应于每一次分组,按照分组中视频帧的数量对视频分组做降序排列,然后用每个视频帧分组中的帧数除以整个视频序列的长度进行归一化;接着按照以下公式计算视频帧分组的帧数分布均匀度:
其中,Gi表示第i个视频帧分组,Gsi表示排序后第i个视频分组,Length(.)表示视频帧分组的长度,Da表示视频序列分组的均匀程度度量,L表示视频帧分组的个数。
步骤204:对得到的视频帧分组进行检验,每个帧分组包含的视频帧数分别与阈值TL和TG进行比较,如果一个帧分组包含的帧数小于阈值TL,则将该分组并入到与其具有更高相似度的相邻的前向或后向分组中;如果一个帧分组包含的帧数大于阈值TG,则将该分组中的每个视频帧分割成规则的图像块,然后分别为每个得到的图像块生成相应的RGB颜色直方图,并将得到的颜色直方图进行串接,作为对应视频帧的更详细的表示;然后基于视频帧的更详细的表示按照步骤202所述方法对该视频帧分组进行重新分组。
步骤205:从视频序列的每个分组中,选取视频帧分组的首帧,尾帧和中间帧作为对应视频帧分组的代表性视频帧。
代表性视频帧的选择可通过以下过程实现:
a.随机选取;b.从预先指定的位置选取,比如取视频帧分组的首帧,尾帧和中间帧等。c.利用算法进行选取,如计算视频帧组内所有视频帧的特征表示的平均值,选取与平均值距离最小的视频帧等。
步骤206:用集成分类器中的每一个成员分类器分别对每个视频帧分组中的代表性视频帧进行分类,对应于每一幅代表性视频帧的每个分类器得到一个概率分布向量,其中概率分布向量的每一维表示对应视频帧属于相应场景类别的概率;通过向量求和的方式对集成分类器的输出进行融合,从和向量中选取取值最大的一维对应的场景类别作为视频帧分组的场景类别。
步骤207:根据步骤206确定每个视频帧分组的场景语义标注;将连续且具有相同语义标注的视频帧分组合并,得到具有场景语义标注的视频分割。
综上所述,本发明实施例通过自适应方法将视频序列分割成视频片断,并通过集成深度卷积神经网络分类器构建场景分类器,利用场景分类器对视频片断进行标注,实现对视频序列的语义场景分割及标注。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (7)
1.一种视频语义场景分割及标注方法,其特征在于,包括以下步骤:
S1:基于有标注场景图像集,离线训练深度卷积神经网络构建多类场景分类器;
S2:计算视频序列中相邻帧之间的相似度,通过将所述相似度与设定阈值作对比得到视频序列的视频帧分组;
S3:调整所述视频帧分组,并根据设定指标从各个所述视频帧分组中选取代表性视频帧;还包括:
将设定阈值从0到1按设定的步长进行变化,将所述按设定的步长进行变化的阈值根据S2对视频序列进行分组,按照分组中视频帧的数量对视频分组做降序排列,然后用每个视频帧分组中的帧数除以整个视频序列的长度进行归一化处理,接着按照以下方式计算每次视频帧分组的帧数分布均匀度:
Length(Gs1)>Length(Gs2)>…Length(GsL-1)>Length(GsL)
其中,Gsi表示排序后第i个视频帧分组,Length(.)表示视频帧分组的长度,L表示视频帧分组的个数;
选取视频帧分布均匀度最大的一次分组作为视频帧分组的结果,视频帧分布均匀度Da为:
其中,L表示视频帧分组的个数,Gsi表示排序后第i个视频帧分组,Length(.)表示视频帧分组的长度;
S4:利用所述多类场景分类器对所述代表性视频帧进行分类;
S5:基于所述多类场景分类器的分类结果对所述视频帧分组进行语义标注以及融合,完成视频语义场景分割及标注。
2.根据权利要求1所述的视频语义场景分割及标注方法,其特征在于,所述S1还包括:
S11:选取有标注场景的图像集,或者构建设定场景的图像集;
S12:基于所述选取或构建的图像集训练深度卷积神经网络,基于深度卷积神经网络构建场景分类器,令所述场景分类器能够预测输入图像属于各个场景类别的概率;
S13:提取所述深度卷积神经网络的多个中间层,利用向量化方法把每个中间层的输出进行向量化,然后基于神经网络层的输出,训练Softmax分类函数构建场景分类器。
3.根据权利要求1所述的视频语义场景分割及标注方法,其特征在于,所述S2还包括:
从视频序列的每幅视频帧中提取能够反映视频帧内容的RGB颜色直方图作为相应视频帧的特征向量,基于所述视频帧的特征向量计算相邻两幅视频帧之间的欧几里得距离,接着将所述欧几里得距离的倒数通过sigmoid函数映射到(0,1)数值区间,得到相似度度量;
将相邻两帧之间的相似度与设定阈值进行比较,如果相邻两帧之间的相似度大于设定阈值则将这两帧归入相同的视频帧分组,否则将这两帧归入不同的帧分组。
5.根据权利要求1所述的视频语义场景分割及标注方法,其特征在于,所述S3还包括:
通过随机方式或者按照设定方式或者通过组内帧聚类的方式选择N幅视频帧作为对应帧分组的代表性视频帧。
6.根据权利要求1所述的视频语义场景分割及标注方法,其特征在于,所述S4还包括:
利用所述场景分类器对每个视频帧分组的每幅代表性帧进行分类,即对应于每幅视频帧得到一个该视频帧属于每个场景类别的概率分布。
7.根据权利要求1所述的视频语义场景分割及标注方法,其特征在于,所述S5还包括:
融合每个帧分组的代表性帧的分类结果,确定对应帧分组的场景类别,并将相邻且具有相同场景类别的帧分组进行合并,完成视频序列的语义场景分割及标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810218659.2A CN108537134B (zh) | 2018-03-16 | 2018-03-16 | 一种视频语义场景分割及标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810218659.2A CN108537134B (zh) | 2018-03-16 | 2018-03-16 | 一种视频语义场景分割及标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108537134A CN108537134A (zh) | 2018-09-14 |
CN108537134B true CN108537134B (zh) | 2020-06-30 |
Family
ID=63483814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810218659.2A Expired - Fee Related CN108537134B (zh) | 2018-03-16 | 2018-03-16 | 一种视频语义场景分割及标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108537134B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447923A (zh) * | 2018-09-27 | 2019-03-08 | 中国科学院计算技术研究所 | 一种语义场景补全系统与方法 |
CN109640193B (zh) * | 2018-12-07 | 2021-02-26 | 成都东方盛行电子有限责任公司 | 一种基于场景检测的新闻拆条方法 |
CN111327945B (zh) * | 2018-12-14 | 2021-03-30 | 北京沃东天骏信息技术有限公司 | 用于分割视频的方法和装置 |
CN109887005B (zh) * | 2019-02-26 | 2023-05-30 | 天津城建大学 | 基于视觉注意机制的tld目标跟踪方法 |
CN110149531A (zh) * | 2019-06-17 | 2019-08-20 | 北京影谱科技股份有限公司 | 一种识别视频数据中视频场景的方法和装置 |
CN110751646A (zh) * | 2019-10-28 | 2020-02-04 | 支付宝(杭州)信息技术有限公司 | 利用车辆视频中的多个图像帧进行损伤识别的方法及装置 |
CN111008978B (zh) * | 2019-12-06 | 2022-10-14 | 电子科技大学 | 基于深度学习的视频场景分割方法 |
CN111246287A (zh) * | 2020-01-13 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 视频处理方法、发布方法、推送方法及其装置 |
CN111523430B (zh) * | 2020-04-16 | 2023-10-24 | 南京优慧信安科技有限公司 | 基于ucl的可定制交互式视频制作方法与装置 |
CN111950653B (zh) * | 2020-08-24 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 视频处理方法和装置、存储介质及电子设备 |
CN112528071B (zh) * | 2020-10-30 | 2024-07-23 | 百果园技术(新加坡)有限公司 | 一种视频数据的排序方法、装置、计算机设备和存储介质 |
CN113496208B (zh) * | 2021-05-20 | 2022-03-04 | 华院计算技术(上海)股份有限公司 | 视频的场景分类方法及装置、存储介质、终端 |
CN113569704B (zh) * | 2021-07-23 | 2023-12-12 | 上海明略人工智能(集团)有限公司 | 分割点判断方法、系统、存储介质及电子设备 |
CN113569703B (zh) * | 2021-07-23 | 2024-04-16 | 上海明略人工智能(集团)有限公司 | 真实分割点判断方法、系统、存储介质及电子设备 |
CN113627508B (zh) * | 2021-08-03 | 2022-09-02 | 北京百度网讯科技有限公司 | 陈列场景识别方法、装置、设备以及存储介质 |
CN114187558A (zh) * | 2021-12-20 | 2022-03-15 | 深圳万兴软件有限公司 | 一种视频场景识别方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345962B2 (en) * | 2007-11-29 | 2013-01-01 | Nec Laboratories America, Inc. | Transfer learning methods and systems for feed-forward visual recognition systems |
CN105205171A (zh) * | 2015-10-14 | 2015-12-30 | 杭州中威电子股份有限公司 | 基于颜色特征的图像检索方法 |
CN105677735A (zh) * | 2015-12-30 | 2016-06-15 | 腾讯科技(深圳)有限公司 | 一种视频搜索方法及装置 |
CN106612457A (zh) * | 2016-11-09 | 2017-05-03 | 广州视源电子科技股份有限公司 | 视频序列对齐方法和系统 |
CN107087211A (zh) * | 2017-03-30 | 2017-08-22 | 北京奇艺世纪科技有限公司 | 一种主持人镜头检测方法及装置 |
CN107454437A (zh) * | 2016-06-01 | 2017-12-08 | 深圳市维杰乐思科技有限公司 | 一种视频标注方法及其装置、服务器 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
-
2018
- 2018-03-16 CN CN201810218659.2A patent/CN108537134B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345962B2 (en) * | 2007-11-29 | 2013-01-01 | Nec Laboratories America, Inc. | Transfer learning methods and systems for feed-forward visual recognition systems |
CN105205171A (zh) * | 2015-10-14 | 2015-12-30 | 杭州中威电子股份有限公司 | 基于颜色特征的图像检索方法 |
CN105677735A (zh) * | 2015-12-30 | 2016-06-15 | 腾讯科技(深圳)有限公司 | 一种视频搜索方法及装置 |
CN107454437A (zh) * | 2016-06-01 | 2017-12-08 | 深圳市维杰乐思科技有限公司 | 一种视频标注方法及其装置、服务器 |
CN106612457A (zh) * | 2016-11-09 | 2017-05-03 | 广州视源电子科技股份有限公司 | 视频序列对齐方法和系统 |
CN107087211A (zh) * | 2017-03-30 | 2017-08-22 | 北京奇艺世纪科技有限公司 | 一种主持人镜头检测方法及装置 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
Non-Patent Citations (2)
Title |
---|
一种用于电视新闻节目的播音员镜头检测算法;杨娜等;《软件学报》;20020315;第13卷(第8期);第1559-1567页 * |
视频场景分割方法研究;曾强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315(第03期);第I138-670页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108537134A (zh) | 2018-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108537134B (zh) | 一种视频语义场景分割及标注方法 | |
CN108647641B (zh) | 基于双路模型融合的视频行为分割方法和装置 | |
CN111506773B (zh) | 一种基于无监督深度孪生网络的视频去重方法 | |
WO2021129435A1 (zh) | 视频清晰度评估模型训练方法、视频推荐方法及相关装置 | |
US20220172476A1 (en) | Video similarity detection method, apparatus, and device | |
CN109614921B (zh) | 一种基于对抗生成网络的半监督学习的细胞分割方法 | |
CN102334118B (zh) | 基于用户兴趣学习的个性化广告推送方法与系统 | |
US8942469B2 (en) | Method for classification of videos | |
CN110532911B (zh) | 协方差度量驱动小样本gif短视频情感识别方法及系统 | |
CN111104555B (zh) | 基于注意力机制的视频哈希检索方法 | |
CN106575280B (zh) | 用于分析用户关联图像以产生非用户生成标签以及利用该生成标签的系统和方法 | |
CN110381392B (zh) | 一种视频摘要提取方法及其系统、装置、存储介质 | |
CN108009560B (zh) | 商品图像相似类别判定方法及装置 | |
CN108734095A (zh) | 一种基于3d卷积神经网络的动作检测方法 | |
CN110502664A (zh) | 视频标签索引库创建方法、视频标签生成方法及装置 | |
CN110147469A (zh) | 一种数据处理方法、设备及存储介质 | |
JP2017168057A (ja) | 画像分類装置、画像分類システム及び画像分類方法 | |
CN111984824A (zh) | 一种基于多模态的视频推荐方法 | |
CN112801063A (zh) | 神经网络系统和基于神经网络系统的图像人群计数方法 | |
CN111680190A (zh) | 一种融合视觉语义信息的视频缩略图推荐方法 | |
CN109635647B (zh) | 一种基于约束条件下的多图片多人脸的聚类方法 | |
CN107516084B (zh) | 一种基于多特征融合的互联网视频作者身份识别方法 | |
CN111310516A (zh) | 一种行为识别方法和装置 | |
Bianco et al. | Aesthetics assessment of images containing faces | |
CN109472307A (zh) | 一种训练图像分类模型的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200630 |