CN111814922A - 一种基于深度学习的视频片段内容匹配方法 - Google Patents
一种基于深度学习的视频片段内容匹配方法 Download PDFInfo
- Publication number
- CN111814922A CN111814922A CN202010925775.5A CN202010925775A CN111814922A CN 111814922 A CN111814922 A CN 111814922A CN 202010925775 A CN202010925775 A CN 202010925775A CN 111814922 A CN111814922 A CN 111814922A
- Authority
- CN
- China
- Prior art keywords
- video
- matching
- dimensional
- model
- video clip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的视频片段内容匹配方法,包括如下步骤:A、构建具有类别标注的N类视频片段数据集;B、利用三维卷积神经网络构建视频片段内容表示的嵌入模型,并利用所述视频片段数据集训练该嵌入模型;C、构建基于视频片段内容表示的嵌入模型的匹配模型,并利用训练好的嵌入模型在视频片段数据集上进行特征提取得到的三维特征作为训练集来训练该匹配模型;D、利用训练好的嵌入模型和匹配模型对输入的1个查询视频片段和M个被查询视频片段进行匹配,得到匹配结果。能够对相似的视频内容进行高效的匹配,同时具有较好的语义理解能力和泛化能力,为视频编辑和查询提供智能技术支持。
Description
技术领域
本发明涉及计算机视觉技术,尤其是一种基于深度学习的视频片段内容匹配方法。
背景技术
随着融合媒体的快速发展,特别是在广播电视编辑的视频用于互联网视频进行发布时,视频内容匹配和查询是成为非常重要的挑战。例如在赛事转播过程中,多个机位拍摄到的同一种行为的视频片段,在新媒体上发布时需要对这些视频内容进行匹配并归类以满足新媒体运营商在短视频业务上面的部署。同时,在编辑未剪辑的视频片段过程中查询相似内容的视频片段,使得视频编辑者可以快速对视频内容进行整合发布。因此视频内容匹配和查询的方法会提高编辑的工作效率,降低人工成本。
现有的视频片段内容匹配具有以下不足之处:
(1)、现有的视频片段内容匹配都是基于视频帧进行的,因此需要从视频中抽取若干关键帧进行特征提取,从而需要耗费较长的处理时间。
(2)、现有视频内容匹配基于规则特征,例如灰度值或亮度值的变换进行比较,不能较好的理解基于时序的动作行为等高层语义。
(3)、利用手动定义的相似度度量规则,例如欧氏距离、余弦相似性等方法来度量视频片段的内容相似性不能够具有较强的泛化能力,导致视频片段内容匹配的精度不高。
因此,我们需要设计一种基于深度学习的视频片段内容匹配方法来对相似的视频内容进行高效的匹配,同时具有较好的语义理解能力和泛化能力,为视频编辑和查询提供智能技术支持。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于深度学习的视频片段内容匹配方法,通过该方法对相似的视频内容进行高效的匹配,同时具有较好的语义理解能力和泛化能力,为视频编辑和查询提供智能技术支持。
本发明采用的技术方案如下:
一种基于深度学习的视频片段内容匹配方法,包括如下步骤:
A、构建具有类别标注的N类视频片段数据集;
B、利用三维卷积神经网络构建视频片段内容表示的嵌入模型,并利用所述视频片段数据集训练该嵌入模型;
C、构建基于视频片段内容表示的嵌入模型的匹配模型,并利用训练好的嵌入模型在视频片段数据集上进行特征提取得到的三维特征作为训练集来训练该匹配模型;
D、利用训练好的嵌入模型和匹配模型对输入的1个查询视频片段和M个被查询视频片段进行匹配,得到匹配结果。
进一步地,步骤A中,构建具有类别标注的N类视频片段数据集时,采用数据增强手段扩充数据集,并保持类间样本均衡。
进一步地,步骤B中,所述三维卷积神经网络为I3D模型,利用该I3D模型构建的嵌入模型结构按串联顺序包括:一个7×7×7的三维卷积层、一个1×3×3的最大池化层、一个1×1×1的三维卷积层、一个3×3×3的三维卷积层进一步提取视频特征、一个1×3×3的最大池化层、两个Inception模块、一个3×3×3的三维卷积层、五个Inception模块、一个2×1×1的最大池化层、两个Inception模块、一个1×1×1的三维卷积层、以及一个7×7×7的平均池化层。
进一步地,步骤B中,利用所述视频片段数据集训练该嵌入模型时,先使用Kinetics视频数据集进行预训练,然后再在构建的视频片段数据集上进行fine-turning后输入该嵌入模型进行训练。
进一步地,步骤B中,利用所述视频片段数据集训练该嵌入模型的训练方法,包括:将所述嵌入模型中2×1×1的最大池化层的步长修改后2×2×2,以及将7×7×7的平均池化层的步长修改为2×7×7,通过挤压操作使得该2×7×7的平均池化层输出为一维张量;然后再在该2×7×7的平均池化层后接一个softmax分类器并用交叉熵损失函数监督训练过程;训练完成后将修改为2×2×2的最大池化层的步长重新改回2×1×1,以及将修改为2×7×7的平均池化层的步长重新改回7×7×7,由此训练好的嵌入模型在匹配过程中能够输出视频片段的三维特征。
进一步地,步骤C中,所述匹配模型的结构包括两次融合操作和一个全连接层;每次融合操作的过程为:一路以一个3×3×3的三维卷积层对输入其中的视频片段的三维特征进行三维卷积操作得到三维向量;另一路先将三维特征变形为二维张量,再以2×2的卷积层对二维张量进行卷积操作输出二维张量,然后将该二维张量变形为三维向量后,与前述三维卷积操作得到的三维向量进行融合;经过两次融合后,通过一个全连接层输出,得到视频片段匹配概率。
进一步地,在训练该匹配模型时,采用对比损失函数来监督训练过程。
进一步地,步骤D包括如下子步骤:
D1,嵌入模型分别对输入的1个查询视频片段和M个被查询视频片段进行三维特征信息提取,分别得到1个查询视频片段特征和M个被查询视频片段特征;
D2,将1个查询视频片段特征和M个被查询视频片段特征输入匹配模型得到匹配得分,查询视频片段相对于M个被查询视频片段的匹配得分;其中,得分最高的被查询视频片段即为该查询视频片段匹配到的视频片段。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明能够对相似的视频内容进行高效的匹配,同时具有较好的语义理解能力和泛化能力,为视频编辑和查询提供智能技术支持。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的基于深度学习的视频片段内容匹配方法的流程框图。
图2为本发明实施例的嵌入模型的结构示意图。
图3为本发明实施例的匹配模型的结构示意图。
图4为利用嵌入模型和匹配模型进行匹配的过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,本实施例的一种基于深度学习的视频片段内容匹配方法,包括如下步骤:
A、构建具有类别标注的N类视频片段数据集;
其中,构建具有类别标注的N类视频片段数据集时,可以采用数据增强手段(例如裁剪、平移等)扩充数据集,并保持类间样本均衡。
B、利用三维卷积神经网络构建视频片段内容表示的嵌入模型,并利用所述视频片段数据集训练该嵌入模型;
本实施例中,所述三维卷积神经网络为I3D模型,利用该I3D模型构建的嵌入模型结构如图2所示,按串联顺序包括:一个7×7×7的三维卷积层、一个1×3×3的最大池化层、一个1×1×1的三维卷积层、一个3×3×3的三维卷积层进一步提取视频特征、一个1×3×3的最大池化层、两个Inception模块(分别为inc_3a,inc_3b)、一个3×3×3的三维卷积层、五个Inception模块(分别为inc_4a,inc_4b,inc_4c,inc_4d,inc_4e)、一个2×1×1的最大池化层、两个Inception模块(分别为inc_5a,inc_5b)、一个1×1×1的三维卷积层、以及一个7×7×7的平均池化层。该嵌入模型输入为视频片段数据集,输出为视频片段的三维特征。
进一步地,利用所述视频片段数据集训练该嵌入模型时,可以先使用Kinetics视频数据集(也可以是其他较大视频数据集)进行预训练,然后再在构建的视频片段数据集上进行fine-turning后输入该嵌入模型进行训练,以提高该嵌入模型对视频片段内容的表达。
进一步地,由于所述视频片段数据集为具有类别标注的N类视频片段数据集,该嵌入模型训练阶段是对视频片段数据集的类别进行训练,但是图2所示的嵌入模型无法直接进行分类训练,本发明针对该问题提出了利用所述视频片段数据集训练该嵌入模型的训练方法,包括:将所述嵌入模型中2×1×1的最大池化层的步长修改后2×2×2,以及将7×7×7的平均池化层的步长修改为2×7×7,通过挤压(squeeze)操作使得该2×7×7的平均池化层输出为一维张量;然后再在该2×7×7的平均池化层后接一个softmax分类器并用交叉熵损失函数监督训练过程;训练完成后将修改为2×2×2的最大池化层的步长重新改回2×1×1,以及将修改为2×7×7的平均池化层的步长重新改回7×7×7,由此训练好的嵌入模型在匹配过程中能够输出视频片段的三维特征。
C、构建基于视频片段内容表示的嵌入模型的匹配模型,并利用训练好的嵌入模型在视频片段数据集上进行特征提取得到的三维特征作为训练集来训练该匹配模型;
本实施例中,所述匹配模型的结构如图3所示,包括两次融合操作和一个全连接层;每次融合操作的过程为:一路以一个3×3×3的三维卷积层对输入其中的视频片段的三维特征进行三维卷积操作得到三维向量;另一路先将三维特征变形为二维张量,再以2×2的卷积层对二维张量进行卷积操作输出二维张量,然后将该二维张量变形为三维向量后,与前述三维卷积操作得到的三维向量进行融合;经过两次融合后,通过一个全连接层输出,得到视频片段匹配概率。也就是说,该匹配模型利用两次融合操作再通过全连接输出为N个匹配分数值,代表匹配到的视频片段的概率。进一步地,在训练该匹配模型时,采用对比损失函数(contrastive loss)来监督训练过程。
D、利用训练好的嵌入模型和匹配模型对输入的1个查询视频片段和M个被查询视频片段进行匹配,得到匹配结果。
如图4所示,步骤D包括如下子步骤:
D1,嵌入模型分别对输入的1个查询视频片段和M个被查询视频片段进行三维特征信息提取,分别得到1个查询视频片段特征和M个被查询视频片段特征;
D2,将1个查询视频片段特征和M个被查询视频片段特征输入匹配模型得到匹配得分,查询视频片段相对于M个被查询视频片段的匹配得分;其中,得分最高的被查询视频片段即为该查询视频片段匹配到的视频片段。
示例:
本发明利用构建的匹配模型中利用神经网络来拟合匹配关系代替传统相似度度量方法。因传统相似度度量函数为某一确定规则(例如欧式度量只能度量向量上的欧式距离),而在不同的度量任务上可能不能特别合适;相反,利用神经网络的强大表达能力,能够直接从数据中学习这种度量方式进而更好的适用特定的该匹配任务。因此具有较好的语义理解能力和泛化能力,测试结果进一步验证了这种结论:在构建的篮球比赛视频片段数据集上,本发明的匹配精度大大优于其他度量匹配的方法。
(1)相较于利用余弦相似性度量的方法精度提高了17.04%(56.79% vs 73.83%);
(2)相较于欧式距离度量方法的精度提高了20.12%(53.71% vs 73.83%)。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于深度学习的视频片段内容匹配方法,其特征在于,包括如下步骤:
A、构建具有类别标注的N类视频片段数据集;
B、利用三维卷积神经网络构建视频片段内容表示的嵌入模型,并利用所述视频片段数据集训练该嵌入模型;
C、构建基于视频片段内容表示的嵌入模型的匹配模型,并利用训练好的嵌入模型在视频片段数据集上进行特征提取得到的三维特征作为训练集来训练该匹配模型;
D、利用训练好的嵌入模型和匹配模型对输入的1个查询视频片段和M个被查询视频片段进行匹配,得到匹配结果。
2.根据权利要求1所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤A中,构建具有类别标注的N类视频片段数据集时,采用数据增强手段扩充数据集,并保持类间样本均衡。
3.根据权利要求1所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤B中,所述三维卷积神经网络为I3D模型,利用该I3D模型构建的嵌入模型结构按串联顺序包括:一个7×7×7的三维卷积层、一个1×3×3的最大池化层、一个1×1×1的三维卷积层、一个3×3×3的三维卷积层进一步提取视频特征、一个1×3×3的最大池化层、两个Inception模块、一个3×3×3的三维卷积层、五个Inception模块、一个2×1×1的最大池化层、两个Inception模块、一个1×1×1的三维卷积层、以及一个7×7×7的平均池化层。
4.根据权利要求3所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤B中,利用所述视频片段数据集训练该嵌入模型时,先使用Kinetics视频数据集进行预训练,然后再在构建的视频片段数据集上进行fine-turning后输入该嵌入模型进行训练。
5.根据权利要求4所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤B中,利用所述视频片段数据集训练该嵌入模型的训练方法,包括:将所述嵌入模型中2×1×1的最大池化层的步长修改后2×2×2,以及将7×7×7的平均池化层的步长修改为2×7×7,通过挤压操作使得该2×7×7的平均池化层输出为一维张量;然后再在该2×7×7的平均池化层后接一个softmax分类器并用交叉熵损失函数监督训练过程;训练完成后将修改为2×2×2的最大池化层的步长重新改回2×1×1,以及将修改为2×7×7的平均池化层的步长重新改回7×7×7,由此训练好的嵌入模型在匹配过程中能够输出视频片段的三维特征。
6.根据权利要求1所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤C中,所述匹配模型的结构包括两次融合操作和一个全连接层;每次融合操作的过程为:一路以一个3×3×3的三维卷积层对输入其中的视频片段的三维特征进行三维卷积操作得到三维向量;另一路先将三维特征变形为二维张量,再以2×2的卷积层对二维张量进行卷积操作输出二维张量,然后将该二维张量变形为三维向量后,与前述三维卷积操作得到的三维向量进行融合;经过两次融合后,通过一个全连接层输出,得到视频片段匹配概率。
7.根据权利要求6所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤C中,在训练该匹配模型时,采用对比损失函数来监督训练过程。
8.根据权利要求1所述的基于深度学习的视频片段内容匹配方法,其特征在于,步骤D包括如下子步骤:
D1,嵌入模型分别对输入的1个查询视频片段和M个被查询视频片段进行三维特征信息提取,分别得到1个查询视频片段特征和M个被查询视频片段特征;
D2,将1个查询视频片段特征和M个被查询视频片段特征输入匹配模型得到匹配得分,查询视频片段相对于M个被查询视频片段的匹配得分;其中,得分最高的被查询视频片段即为该查询视频片段匹配到的视频片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010925775.5A CN111814922B (zh) | 2020-09-07 | 2020-09-07 | 一种基于深度学习的视频片段内容匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010925775.5A CN111814922B (zh) | 2020-09-07 | 2020-09-07 | 一种基于深度学习的视频片段内容匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814922A true CN111814922A (zh) | 2020-10-23 |
CN111814922B CN111814922B (zh) | 2020-12-25 |
Family
ID=72860035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010925775.5A Active CN111814922B (zh) | 2020-09-07 | 2020-09-07 | 一种基于深度学习的视频片段内容匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814922B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022166258A1 (zh) * | 2021-02-05 | 2022-08-11 | 深圳市优必选科技股份有限公司 | 行为识别方法、装置、终端设备及计算机可读存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222103A (zh) * | 2011-06-22 | 2011-10-19 | 央视国际网络有限公司 | 视频内容的匹配关系的处理方法及装置 |
CN104281853A (zh) * | 2014-09-02 | 2015-01-14 | 电子科技大学 | 一种基于3d卷积神经网络的行为识别方法 |
CN107180056A (zh) * | 2016-03-11 | 2017-09-19 | 阿里巴巴集团控股有限公司 | 视频中片段的匹配方法和装置 |
CN107506712A (zh) * | 2017-08-15 | 2017-12-22 | 成都考拉悠然科技有限公司 | 一种基于3d深度卷积网络的人类行为识别的方法 |
CN109710801A (zh) * | 2018-12-03 | 2019-05-03 | 珠海格力电器股份有限公司 | 一种视频搜索方法、终端设备及计算机存储介质 |
CN109948446A (zh) * | 2019-02-20 | 2019-06-28 | 北京奇艺世纪科技有限公司 | 一种视频片段处理方法、装置及计算机可读存储介质 |
CN109993095A (zh) * | 2019-03-26 | 2019-07-09 | 东北大学 | 一种面向视频目标检测的帧级别特征聚合方法 |
CN110298255A (zh) * | 2019-05-31 | 2019-10-01 | 广州华泓文化发展有限公司 | 一种视频内容的识别匹配方法和系统 |
CN110334589A (zh) * | 2019-05-23 | 2019-10-15 | 中国地质大学(武汉) | 一种基于空洞卷积的高时序3d神经网络的动作识别方法 |
CN110796088A (zh) * | 2019-10-30 | 2020-02-14 | 行吟信息科技(上海)有限公司 | 视频相似性判定方法及装置 |
CN111083477A (zh) * | 2019-12-11 | 2020-04-28 | 北京航空航天大学 | 基于视觉显著性的hevc优化算法 |
CN111368143A (zh) * | 2020-03-13 | 2020-07-03 | 北京奇艺世纪科技有限公司 | 一种视频相似度检索方法、装置、电子设备及存储介质 |
CN111507308A (zh) * | 2020-05-07 | 2020-08-07 | 广东电网有限责任公司 | 一种基于视频识别技术的变电站安全监控系统及方法 |
CN111582230A (zh) * | 2020-05-21 | 2020-08-25 | 电子科技大学 | 基于空时特征的视频行为分类方法 |
CN111612822A (zh) * | 2020-05-21 | 2020-09-01 | 广州海格通信集团股份有限公司 | 对象跟踪方法、装置、计算机设备和存储介质 |
-
2020
- 2020-09-07 CN CN202010925775.5A patent/CN111814922B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222103A (zh) * | 2011-06-22 | 2011-10-19 | 央视国际网络有限公司 | 视频内容的匹配关系的处理方法及装置 |
CN104281853A (zh) * | 2014-09-02 | 2015-01-14 | 电子科技大学 | 一种基于3d卷积神经网络的行为识别方法 |
CN107180056A (zh) * | 2016-03-11 | 2017-09-19 | 阿里巴巴集团控股有限公司 | 视频中片段的匹配方法和装置 |
CN107506712A (zh) * | 2017-08-15 | 2017-12-22 | 成都考拉悠然科技有限公司 | 一种基于3d深度卷积网络的人类行为识别的方法 |
CN109710801A (zh) * | 2018-12-03 | 2019-05-03 | 珠海格力电器股份有限公司 | 一种视频搜索方法、终端设备及计算机存储介质 |
CN109948446A (zh) * | 2019-02-20 | 2019-06-28 | 北京奇艺世纪科技有限公司 | 一种视频片段处理方法、装置及计算机可读存储介质 |
CN109993095A (zh) * | 2019-03-26 | 2019-07-09 | 东北大学 | 一种面向视频目标检测的帧级别特征聚合方法 |
CN110334589A (zh) * | 2019-05-23 | 2019-10-15 | 中国地质大学(武汉) | 一种基于空洞卷积的高时序3d神经网络的动作识别方法 |
CN110298255A (zh) * | 2019-05-31 | 2019-10-01 | 广州华泓文化发展有限公司 | 一种视频内容的识别匹配方法和系统 |
CN110796088A (zh) * | 2019-10-30 | 2020-02-14 | 行吟信息科技(上海)有限公司 | 视频相似性判定方法及装置 |
CN111083477A (zh) * | 2019-12-11 | 2020-04-28 | 北京航空航天大学 | 基于视觉显著性的hevc优化算法 |
CN111368143A (zh) * | 2020-03-13 | 2020-07-03 | 北京奇艺世纪科技有限公司 | 一种视频相似度检索方法、装置、电子设备及存储介质 |
CN111507308A (zh) * | 2020-05-07 | 2020-08-07 | 广东电网有限责任公司 | 一种基于视频识别技术的变电站安全监控系统及方法 |
CN111582230A (zh) * | 2020-05-21 | 2020-08-25 | 电子科技大学 | 基于空时特征的视频行为分类方法 |
CN111612822A (zh) * | 2020-05-21 | 2020-09-01 | 广州海格通信集团股份有限公司 | 对象跟踪方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
JOAO CARREIRA等: "Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset", 《ARXIV:1705.07750V1 [CS.CV]》 * |
宋伟等: "一种基于三维卷积网络的暴力视频检测方法", 《技术研究》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022166258A1 (zh) * | 2021-02-05 | 2022-08-11 | 深圳市优必选科技股份有限公司 | 行为识别方法、装置、终端设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111814922B (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609899B (zh) | 一种基于改进bert模型的特定目标情感分类方法 | |
CN109783635A (zh) | 使用机器学习和模糊匹配自动分层分类文档和标识元数据 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
CN109271521A (zh) | 一种文本分类方法及装置 | |
CN110674305A (zh) | 一种基于深层特征融合模型的商品信息分类方法 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN109583375B (zh) | 一种多特征融合的人脸图像光照识别方法及系统 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN110910175B (zh) | 一种旅游门票产品画像生成方法 | |
CN109948735A (zh) | 一种多标签分类方法、系统、装置及存储介质 | |
CN115982403A (zh) | 一种多模态哈希检索方法及装置 | |
CN110751191A (zh) | 一种图像的分类方法及系统 | |
CN113901289A (zh) | 一种基于无监督学习的推荐方法及系统 | |
CN114283083B (zh) | 一种基于解耦表示的场景生成模型的美学增强方法 | |
Zhang | Content-based e-commerce image classification research | |
CN111814922B (zh) | 一种基于深度学习的视频片段内容匹配方法 | |
CN108428234B (zh) | 基于图像分割结果评价的交互式分割性能优化方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111859925A (zh) | 一种基于概率情感词典的情感分析系统及方法 | |
CN116883740A (zh) | 相似图片识别方法、装置、电子设备和存储介质 | |
CN115033689B (zh) | 一种基于小样本文本分类原型网络欧氏距离计算方法 | |
CN113342982B (zh) | 融合RoBERTa和外部知识库的企业行业分类方法 | |
CN110298228A (zh) | 一种多目标图像检索方法 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |