CN114282059A - 视频检索的方法、装置、设备及存储介质 - Google Patents

视频检索的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114282059A
CN114282059A CN202110973390.0A CN202110973390A CN114282059A CN 114282059 A CN114282059 A CN 114282059A CN 202110973390 A CN202110973390 A CN 202110973390A CN 114282059 A CN114282059 A CN 114282059A
Authority
CN
China
Prior art keywords
video
quantization
texture
candidate
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110973390.0A
Other languages
English (en)
Inventor
郭卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110973390.0A priority Critical patent/CN114282059A/zh
Publication of CN114282059A publication Critical patent/CN114282059A/zh
Priority to PCT/CN2022/105871 priority patent/WO2023024749A1/zh
Priority to EP22860095.3A priority patent/EP4390725A1/en
Priority to US18/136,538 priority patent/US20230297617A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机领域,特别涉及人工智能领域,提供了一种视频检索的方法、装置、设备及存储介质,以解决量化效率低和准确率低的问题。该方法包括:对待检索视频的图像特征进行特征提取,获得第一量化特征,再基于第一量化特征,获得与待检索视频的类别相似度高的第二候选视频,最后将与待检索视频的内容相似度高的第二候选视频,作为目标视频。根据每个训练样本对应的纹理特征损失值调整量化控制参数,以使目标量化处理子模型学习到目标纹理特征子模型的排序能力,确保两个子模型的排序效果趋于一致,而端到端的模型架构,令目标量化处理子模型能够基于图像特征获得对应的量化特征,提高了量化特征的生成准确率和视频检索的召回性能。

Description

视频检索的方法、装置、设备及存储介质
技术领域
本申请涉及计算机领域,特别涉及人工智能领域,提供了一种视频检索的方法、装置、设备及存储介质。
背景技术
在相关技术中,通常使用量化特征作为视频的索引标签,检索获得相应的视频。其中,一般采用以下任意一种方法,获得相应的量化特征:
方法一,基于k均值聚类算法获得相应的量化特征,但针对大规模样本数据聚类时,为了保证索引检索的准确率,需要耗费大量资源,才能获得足够多的量化特征;
方法二,基于乘积量化(Product Quantization,PQ)获得相应的量化特征,但采用这种方法获得的量化特征,会因生成过程中的损失,降低量化特征的生成准确率,进而影响到视频检索的召回性能;
方法三,基于深度学习神经网络获得相应的量化特征,但该神经网络是先提取视频图像的embedding特征,再对embedding特征进行特征提取处理,获得相应的量化特征,会因生成过程中的损失,降低量化特征的生成准确率,进而影响到视频检索的召回性能。
发明内容
本申请实施例提供了一种视频检索的方法、装置、设备及存储介质,以解决量化效率低和准确率低的问题。
第一方面,本申请实施例提供了一种视频检索的方法,包括:
采用已训练的目标视频检索模型的目标图像处理子模型,对待检索视频进行特征提取,获得对应的图像特征;
采用所述目标视频检索模型的目标量化处理子模型,对所述图像特征进行特征提取,获得对应的第一量化特征,并基于所述第一量化特征,从各个第一候选视频中筛选出与所述待检索视频的类别相似度,符合设定类别相似要求的至少一个第二候选视频;其中,所述目标量化处理子模型的量化控制参数,是在训练过程中,基于每个训练样本对应的纹理特征损失值进行调整的,所述纹理特征损失值是基于对待训练的纹理处理子模型进行参数调整过程中,针对所述待训练的纹理处理子模型预设的纹理控制参数确定的;
基于所述待检索视频,与所述至少一个第二候选视频之间的内容相似度,将内容相似度符合设定内容相似要求的第二候选视频,作为对应的目标视频输出。
第二方面,本申请实施例还提供了一种视频检索的装置,包括:
图像处理单元,用于采用已训练的目标视频检索模型的目标图像处理子模型,对待检索视频进行特征提取,获得对应的图像特征;
量化处理单元,用于采用所述目标视频检索模型的目标量化处理子模型,对所述图像特征进行特征提取,获得对应的第一量化特征,并基于所述第一量化特征,从各个第一候选视频中筛选出与所述待检索视频的类别相似度,符合设定类别相似要求的至少一个第二候选视频;其中,所述目标量化处理子模型的量化控制参数,是在训练过程中,基于每个训练样本对应的纹理特征损失值进行调整的,所述纹理特征损失值是基于对待训练的纹理处理子模型进行参数调整过程中,针对所述待训练的纹理处理子模型预设的纹理控制参数确定的;
检索单元,用于基于所述待检索视频,与所述至少一个第二候选视频之间的内容相似度,将内容相似度符合设定内容相似要求的第二候选视频,作为对应的目标视频输出。
可选的,所述装置还包括模型训练单元,所述模型训练单元通过执行以下方式,获得所述已训练的目标视频检索模型:
获得多个样本三元组,每个样本三元组包含样本视频、以及所述样本视频关联的正向标签和负向标签;
将各个样本三元组作为训练数据,依次输入到待训练的图像处理子模型、待处理的纹理处理子模型中,获得对应的第一纹理集合;其中,每获得一个第一纹理集合,基于所述一个第一纹理集合包含的多个第一样本纹理特征,生成对应的图像处理纹理特征损失值,并基于所述图像处理纹理特征损失值,对所述待训练的图像处理子模型、所述待训练的纹理处理子模型进行参数调整,直至所述图像处理纹理特征损失值不高于预设的图像处理纹理特征损失门限值时,获得候选图像处理子模型和候选纹理处理子模型;
将所述将各个样本三元组作为训练数据,依次输入到所述候选图像处理子模型、候选纹理处理子模型和待训练的量化处理子模型中,获得对应的第二纹理集合和量化特征组;其中,每获得一个第二纹理集合,基于所述一个第二纹理集合包含的多个第二样本纹理特征,生成对应的纹理特征损失值,并基于所述纹理特征损失值,对所述候选纹理处理子模型进行参数调整,以及每获得一个量化特征组,基于所述一个量化特征组包含的多个样本量化特征、所述纹理特征损失值,生成对应的量化特征损失值,并基于所述量化特征损失值,对所述候选图像处理子模型和所述待训练的量化处理子模型进行参数调整,直至所述纹理特征损失值、所述量化特征损失值均不高于预设的特征损失门限值时,获得所述目标图像处理子模型、所述目标纹理处理子模型,以及所述目标量化处理子模型。
可选的,所述模型训练单元用于:
基于所述纹理特征损失值,调整所述待训练的量化处理子模型的量化控制参数;
基于所述一个量化特征组包含的多个样本量化特征和所述量化控制参数,分别确定所述待训练的量化处理子模型的训练样本损失值和符号量化损失值;
基于所述待训练的量化处理子模型的训练样本损失值、符号量化损失值,生成对应的量化特征损失值。
可选的,所述模型训练单元用于:
基于所述一个量化特征组包含的多个样本量化特征,分别确定所述待训练的量化处理子模型的训练样本损失值和符号量化损失值;
基于所述待训练的量化处理子模型的训练样本损失值、符号量化损失值和所述纹理特征损失值,生成对应的量化特征损失值。
第三方面,本申请实施例还提供了一种计算机设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种视频检索的方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其包括程序代码,当程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行上述任意一种视频检索的方法的步骤。
本申请有益效果如下:
本申请实施例提供了一种视频检索的方法、装置、设备及存储介质,该方法包括:对待检索视频的图像特征进行特征提取,获得第一量化特征,再基于第一量化特征,获得与待检索视频的类别相似度高的第二候选视频,最后将与待检索视频的内容相似度高的第二候选视频,作为目标视频输出。由于目标量化处理子模型的量化控制参数,会根据每个训练样本对应的纹理特征损失值进行调整,使得目标量化处理子模型学习到目标纹理特征子模型的排序能力,确保两个子模型的排序效果趋于一致,避免因固定的量化控制参数,导致目标量化处理子模型存在随机排序的情况。因端到端的模型架构,使得采用上述方式训练得到的目标量化处理子模型,可基于图像特征获得对应的量化特征,减少了在生成量化特征过程中的损失,提高了量化特征的生成准确率,再加上本申请实施例还优化了目标量化处理子模型的排序能力,又进一步提高了视频检索的召回性能。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1a为本申请实施例中一种应用场景的一个可选的示意图;
图1b为本申请实施例提供的第一种展示界面示意图;
图1c为本申请实施例提供的第二种展示界面示意图;
图1d为本申请实施例提供的目标视频检索模型的架构示意图;
图1e为相关技术中使用的量化处理模型的架构示意图;
图2a为本申请实施例提供的训练目标视频检索模型的流程示意图;
图2b为本申请实施例提供的挖掘多个样本三元组的流程示意图;
图2c为本申请实施例提供的第一种生成量化特征损失值的流程示意图;
图2d为本申请实施例提供的第二种生成量化特征损失值的流程示意图;
图3a为本申请实施例提供的建立索引表、映射表的流程示意图;
图3b为本申请实施例提供的建立索引表、映射表的逻辑示意图;
图4a为本申请实施例提供的视频检索方法的流程示意图;
图4b为本申请实施例提供的应用视频检索方法的具体实施例的逻辑示意图;
图5为本申请实施例提供的一种视频检索的装置的结构示意图;
图6为本申请实施例中提供的一种计算机设备的组成结构示意图;
图7为本申请实施例中的一个计算装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
本申请实施例涉及人工智能(ArtificialIntelligence,AI)领域,是基于机器学习(MachineLearning,ML)和计算机视觉(Computer Vision,CV)技术设计的。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它研究各种机器的设计原理与实现方法,企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,使机器具有感知、推理和决策的功能。
人工智能是一门综合学科,涉及的领域广泛,既有硬件层面的技术,也有软件层面的技术。人工智能的基础技术一般包括传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作交互系统、机电一体化等技术。人工智能的软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术、机器学习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能的发展与进步,人工智能得以在多个领域中展开研究和应用,例如,常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、智能穿戴设备、无人驾驶、自动驾驶、无人机、机器人、智能医疗、车联网、自动驾驶、智慧交通等领域,相信随着未来技术的进一步发展,人工智能将在更多的领域中得到应用,发挥出越来越重要的价值。本申请实施例提供的方案,涉及人工智能的深度学习、增强现实等技术,具体通过如下实施例进一步说明。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机通过模拟人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使计算机不断改善自身的性能。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域;而机器学习的核心则是深度学习,是实现机器学习的一种技术。机器学习通常包括深度学习、强化学习、迁移学习、归纳学习、人工神经网络、式教学习等技术,深度学习则包括卷积神经网络(Convolutional Neural Networks,,CNN)、深度置信网络、递归神经网络、自动编码器、生成对抗网络等技术。
计算机视觉是一门集计算机科学、信号处理、物理学、应用数学、统计学、神经生理学等多学科于一身的综合性学科,也是科学领域中一个富有挑战性的重要研究方向。计算机视觉是一门研究如何使机器“看”的学科,更进一步地说,该学科是指用摄像机和电脑等各种成像系统代替人类的视觉器官,对目标进行识别、跟踪和测量等机器视觉处理,并通过进一步地图形处理,将采集到的图像处理成更适合人眼观察或传送给仪器检测的图像。
计算机视觉作为一门科学学科,通过研究相关的理论和技术,试图让计算机具备像人类一样,通过视觉器官观察、理解世界的能力,建立一个能够从图像或多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,除此以外,计算机视觉技术还包括常见的人脸识别、指纹识别等生物特征识别技术。
下面对本申请实施例的设计思想进行简要介绍:
在相关技术中,通常使用量化特征作为视频的索引标签,检索获得相应的视频。其中,一般采用以下任意一种方法,获得相应的量化特征:
方法一,基于k均值聚类算法获得相应的量化特征,但针对大规模样本数据聚类时,为了保证索引检索的准确率,需要耗费大量资源,才能获得足够多的量化特征;
方法二,基于乘积量化(Product Quantization,PQ)获得相应的量化特征,但采用这种方法获得的量化特征,会因生成过程中的损失,降低量化特征的生成准确率,进而影响到视频检索的召回性能;
方法三,基于深度学习神经网络获得相应的量化特征,但该神经网络是先提取视频图像的embedding特征,再对embedding特征进行特征提取处理,获得相应的量化特征,会因生成过程中的损失,降低量化特征的生成准确率,进而影响到视频检索的召回性能。
有鉴于此,本申请实施例提供了一种视频检索的方法、装置、设备及存储介质,以解决量化效率低和准确率低的问题。本申请实施例可应用于各类视频检索场景下,如在视频侵权场景中,使用本申请实施例提供的视频检索方法,召回一批与待检索视频的内容相似度较高的视频,并将召回的视频判定为侵权视频。
该方法包括:对待检索视频的图像特征进行特征提取,获得第一量化特征,再基于第一量化特征,获得与待检索视频的类别相似度高的第二候选视频,最后将与待检索视频的内容相似度高的第二候选视频,作为目标视频输出。由于目标量化处理子模型的量化控制参数,会根据每个训练样本对应的纹理特征损失值进行调整,使得目标量化处理子模型学习到目标纹理特征子模型的排序能力,确保两个子模型的排序效果趋于一致,避免因固定的量化控制参数,导致目标量化处理子模型存在随机排序的情况。因端到端的模型架构,使得采用上述方式训练得到的目标量化处理子模型,可基于图像特征获得对应的量化特征,减少了在生成量化特征过程中的损失,提高了量化特征的生成准确率,再加上本申请实施例还优化了目标量化处理子模型的排序能力,又进一步提高了视频检索的召回性能。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参阅图1a和图1b示出的示意图,在本申请实施例的应用场景中,包括两个物理终端设备110和一个服务器130。
目标对象可通过物理终端设备110登录视频检索客户端,并在物理终端设备110的显示屏120上呈现检索界面;之后,目标对象在检索界面中输入待检索视频的图像,以使运行在目标服务器130上的目标视频检索模型基于待检索视频的图像,从后台端口连接的庞大视频库中,获取与待检索视频的内容相似度较高的目标视频;物理终端设备110在接收到目标服务器130返回的全部目标视频之后,在显示屏120的展示界面上呈现各个目标视频,同时用户还可以通过点击页面等手势操作,查看被选中的目标视频的视频详情,而且,进度条上还会标记出目标视频与待检索视频的相似片段或重复片段。
如图1b所示的展示界面呈现了某部电视剧的节选片段,针对已播放片段,其对应的进度条颜色为白色;针对未播放片段,其对应的进度条颜色为黑色;而针对相似片段或重复片段,其对应的进度条颜色为灰色,这样,用户可以通过进度条颜色,粗略估计出目标视频与待检索视频的相似程度,便于用户进行视频创作的侵权判定。
如图1c所示的展示界面呈现了某部电视剧的节选片段,针对已播放片段,其对应的进度条颜色为白色;针对未播放片段,其对应的进度条颜色为黑色;而针对相似片段或重复片段,会在进度条上用三角形标记点或其他形状的标记点,标记出这些片段的起始点、终止点,这样,用户可以通过点击标记点,直接跳转到相应的剧情,同样地,用户也可以通过进度条上的标记点数量,粗略估计出目标视频与待检索视频的相似程度。
在本申请实施例中,物理终端设备110是用户使用的电子设备,电子设备可以是个人计算机、手机、平板电脑、笔记本电脑、电子书阅读器、智能家居等计算机设备。
各物理终端设备110通过通信网络与目标服务器130进行通信。在一种可选的实施方式中,通信网络为有线网络或者无线网络,因此,各物理终端设备110可通过有线网络或者无线网络,直接或间接地与目标服务器130建立通信连接,本申请在此不做限制。
目标服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、大数据以及人工智能平台等基础云计算服务的云服务器,本申请在此不做限制。
其中,目标服务器130上部署了目标视频检索模型,如图1d所示,目标视频检索模型包括目标图像处理子模型、目标纹理处理子模型和目标量化处理子模型。
目标图像处理子模型、目标纹理处理子模型,均是采用ResNet_101的网络架构构建的深度学习网络模型,并基于imageNet进行模型预训练。imageNet是大型通用物体识别开源数据集,在imageNet中有大量事先标注好的图像数据,且imageNet大概含有1000类的图像数据,因此,基于imageNet预训练获得的深度学习网络模型,其模型参数的稳定性、整体模型的通用性更优。
另外,还可以采用除ResNet_101以外的网络架构构建深度学习网络模型,以及基于其他大规模数据集,对深度学习网络模型进行预训练,如基于openimage预训练获得的深度学习网络模型。
采用目标量化处理子模型,对复杂的高维图像特征进行二值量化处理,将高维图像特征压缩为指定位数的二进制编码(即量化特征)。在进行视频检索时,以量化特征为索引,召回相应的目标视频,大大降低了计算时间和计算复杂度,更加有利于计算,对海量数据的检索是非常有利的。
另外,对于二进制编码来说,每一位的取值为0或1,如将128维的图像特征压缩到4比特(bit)的二进制编码0100。
与图1e所示的传统的量化处理模型不同,本申请实施例中的目标纹理处理子模型和目标量化处理子模型是并行放置的两个子模型,这样部署的好处在于,在训练阶段,目标量化处理子模型的量化控制参数,会根据每个训练样本对应的纹理特征损失值进行调整,使得目标量化处理子模型学习到目标纹理特征子模型的排序能力,确保两个子模型的排序效果趋于一致,避免因固定的量化控制参数,导致目标量化处理子模型存在随机排序的情况;
在应用阶段,相较于图1e所示的非端到端的模型架构而言,本申请实施例采用端到端的模型架构,可基于图像特征获得对应的量化特征,减少了在生成量化特征过程中的损失,提高了量化特征的生成准确率,再加上本申请实施例还优化了目标量化处理子模型的排序能力,又进一步提高了视频检索的召回性能。
而且,本申请实施例基于人工智能技术搭建的目标视频检索模型,在处理大规模的检索视频时,相较于传统的k均值聚类算法而言,其处理速度、召回性能更优,耗费的资源也更少。
在目标视频检索模型的训练过程中,具体分为预训练阶段和微调联合学习阶段,但是,两个训练阶段使用的训练数据是相同的,区别在于,两个训练阶段中需要学习的网络参数和生成的损失值是不同的。
其中,在预训练阶段中,使用图像处理纹理特征损失值,对待训练的图像处理子模型、所述待训练的纹理处理子模型进行参数调整,获得候选图像处理子模型和候选纹理处理子模型;在微调联合学习阶段中,使用纹理特征损失值,对候选纹理处理子模型进行参数调整,使用量化特征损失值,对候选图像处理子模型和待训练的量化处理子模型进行参数调整,获得目标图像处理子模型、目标纹理处理子模型,以及目标量化处理子模型。
为了便于理解,参阅图2a所示的流程示意图,介绍目标视频检索模型的训练过程。
S201:获得多个样本三元组,每个样本三元组包含样本视频、以及样本视频关联的正向标签和负向标签。
相较于传统的量化处理方法来说,本申请实施例采用了带标签的训练数据,使得待训练的量化处理子模型能够同时学习到正向标签、负向标签,进而提高目标量化处理子模型的召回效果。
其中,正向标签指的是,与样本视频的内容相似度较高的样本视频,而负向标签则指的是,与样本视频仅存在少量内容相同或相似的样本视频。
参阅图2b示出的流程示意图,本申请实施例可通过执行以下操作,获得多个样本三元组:
S2011:获取一个包含了多个相似样本对的相似样本集合,每个相似样本对包含样本视频、以及样本视频关联的正向标签。
S2012:将相似样本集合中的各个相似样本对,依次输入到待训练的图像处理子模型、待训练的纹理处理子模型中,获得对应的纹理特征组。
待训练的图像处理子模型、待训练的纹理处理子模型,均是基于大型通用物体识别开源数据集ImageNet预训练获得深度学习网络模型。将各个相似样本对依次输入到上述两个子模型中,可获得各个样本相似对各自对应的纹理特征组,每个纹理特征组包括样本视频的纹理特征、以及正向标签的纹理特征。
S2013:读取一个相似样本对的样本视频c;
S2014:针对相似样本集合中的各个其他相似样本对,分别执行以下操作:基于样本视频c的纹理特征,与一个其他相似样本对中任意一个其他样本视频的纹理特征,获得相应的纹理特征距离。
可选的一种实施方式,将两个纹理特征之间的欧式距离,作为对应的纹理特征距离。欧式距离的取值越小,表征两个样本视频的内容相似度越高;反之,欧式距离的取值越大,表征两个样本视频的内容相似度越低。
S2015:按纹理特征距离的远近顺序,排列各个其他样本视频。
S2016:在剔除前k%的其他样本视频之后,将排列在前m个的其他样本视频确定为样本视频的负向标签。
按照纹理特征距离从近至远的顺序,排列各个其他样本视频,再根据前文对纹理特征距离的介绍可知,前k%的其他样本视频与样本视频的内容相似度非常高,而本申请实施例中需要挖掘的负向标签是,与样本视频仅存在少量内容相同或相似的样本视频,很明显前k%的其他样本视频不符合负向标签的定义,被作为干扰噪声剔除掉。其中,k为可控值,干扰噪声越大,其对应的k值也越大。
而排名极其靠后的其他样本视频,因与样本视频几乎不存在相同或相似的内容,也不符合负向标签的定义,因此,本申请实施例是将排列在前m个的其他样本视频,确定为样本视频的负向标签。
例如,假设相似样本对为(样本视频1,样本视频2),表1示出了其他样本视频与样本视频1之间的纹理特征距离,最终筛选获得以下多个样本三元组:(样本视频1,样本视频2,其他样本视频7)、(样本视频1,样本视频2,其他样本视频4)、(样本视频1,样本视频2,其他样本视频5)
表1
其他样本视频的名称 纹理特征距离
其他样本视频3 0.5
其他样本视频6 0.55
其他样本视频7 0.8
其他样本视频4 0.83
其他样本视频5 0.9
其他样本视频8 1.2
其他样本视频9 1.5
S2017:判断相似样本集合中的全部相似样本对,是否均读取完毕,若是,执行步骤2018;否则,返回步骤2013。
S2018:判断所有相似样本集合是否均读取完毕,若是,输出所有样本三元组;否则,返回步骤2011。
S202:读取一个样本三元组d,将样本三元组d作为训练数据,依次输入到待训练的图像处理子模型、待处理的纹理处理子模型中,获得对应的第一纹理集合。
S203:基于第一纹理集合包含的多个第一样本纹理特征,生成对应的图像处理纹理特征损失值,并基于图像处理纹理特征损失值,对待训练的图像处理子模型、待训练的纹理处理子模型进行参数调整。
采用公式1,生成对应的图像处理纹理特征损失值;再基于图像处理纹理特征损失值,采用随机梯度下降(stochastic gradient descent,SGD)方法,,对待训练的图像处理子模型、待训练的纹理处理子模型进行参数调整。
其中,公式1中的Lem为图像处理纹理特征损失值,xa为样本视频的第一样本纹理特征,xp为正向标签的第一样本纹理特征,xn则为负向标签的第一样本纹理特征,‖xa-xp‖表征正向样本对之间的纹理特征距离,‖xa-xn‖则表征负向样本对之间的纹理特征距离,margin_em表征纹理控制参数。
Lem=max(‖xa-xp‖-‖xa-xn‖+margin_em) 公式1;
S204:判断图像处理纹理特征损失值是否高于预设的图像处理纹理特征损失门限值,若是,返回步骤202;否则,执行步骤205。
S205:停止迭代训练子模型,输出最后一轮迭代获得的候选图像处理子模型和候选纹理处理子模型。
S206:读取一个样本三元组e,将样本三元组e作为训练数据,依次输入到候选图像处理子模型、候选纹理处理子模型和待训练的量化处理子模型中,获得对应的第二纹理集合和量化特征组。
S207:基于第二纹理集合包含的多个第二样本纹理特征,生成对应的纹理特征损失值,并基于纹理特征损失值,对候选纹理处理子模型进行参数调整。
采用公式2,生成对应的纹理特征损失值;再基于纹理特征损失值,采用SGD方法,,对候选纹理处理子模型进行参数调整。
其中,公式2中的Lem′为图像处理纹理特征损失值,xa′为样本视频的第二样本纹理特征,xp′为正向标签的第二样本纹理特征,xn′则为负向标签的第一样本纹理特征,‖xa′-xp′‖表征正向样本对之间的纹理特征距离,‖xa′-xn′‖则表征负向样本对之间的纹理特征距离,margin_em表征纹理控制参数。
Lem′=max(‖xa′-xp′‖-‖xa′-xn′‖+margin_em) 公式2;
S208:基于量化特征组包含的多个样本量化特征、纹理特征损失值,生成对应的量化特征损失值,并基于量化特征损失值,对候选图像处理子模型和待训练的量化处理子模型进行参数调整。
可选的,参阅图2c示出的流程示意图,对第一种生成量化特征损失值的方式进行介绍。
S2081:基于纹理特征损失值,调整待训练的量化处理子模型的量化控制参数。
采用公式3,计算第i个样本三元组的量化控制参数。具体地,margin_i表征第i个样本三元组的量化控制参数,margin0是预设的汉明距离,Mem是纹理特征距离与汉明距离之间的比值,Lem_i为第i个样本三元组的纹理特征损失值。
margin_i=margin0*Lem_i/Mem 公式3;
S2082:基于一个量化特征组包含的多个样本量化特征和量化控制参数,分别确定待训练的量化处理子模型的训练样本损失值和符号量化损失值。
其中,公式4为训练样本损失值的计算公式。Ltriplet为训练样本损失值,
Figure BDA0003226774450000151
为样本视频的样本量化特征,
Figure BDA0003226774450000152
为正向标签的样本量化特征,
Figure BDA0003226774450000153
为负向标签的样本量化特征,
Figure BDA0003226774450000154
表征正向样本对之间的量化特征距离,
Figure BDA0003226774450000155
则表征负向样本对之间的量化特征距离,margin_i表征第i个样本三元组的量化控制参数。
Figure BDA0003226774450000156
先采用公式5,对样本量化特征中的每一位进行符号量化,获得符号量化特征;再采用公式6,基于样本量化特征与符号量化特征,生成对应的符号量化损失值。
其中,Lcoding为符号量化损失值,ui表征样本量化特征中的第i位,bi表征符号量化特征的第i位,若ui为负数,则bi的取值-1,否则bi的取值1。
Figure BDA0003226774450000157
Figure BDA0003226774450000158
S2083:基于待训练的量化处理子模型的训练样本损失值、符号量化损失值,生成对应的量化特征损失值。
采用公式7,生成对应的量化特征损失值;再基于量化特征损失值,采用SGD方法,对候选图像处理子模型和待训练的量化处理子模型进行参数调整。
其中,公式7中的Lq为量化特征损失值,Ltriplet为待训练的量化处理子模型的训练样本损失值,w21是为训练样本损失值分配的权重,Lcoding为待训练的量化处理子模型的符号量化损失值,w22是为符号量化损失值分配的权重。
Lq=w21Ltriplet+w22Lcoding 公式7;
可选的,参阅图2d示出的流程示意图,本申请实施例还提供了第二种生成量化特征损失值的方式。
S2081′:基于一个量化特征组包含的多个样本量化特征,分别确定待训练的量化处理子模型的训练样本损失值和符号量化损失值。
将多个样本量化特征代入公式4中,生成对应的训练样本损失值,但此时公式4中的margin_i的取值与margin_em的取值相同。
将多个样本量化特征,依次代入公式5~6中,获得对应的符号量化损失值。在前文中已经介绍过相关公式,在此将不再赘述。
S2082′:基于待训练的量化处理子模型的训练样本损失值、符号量化损失值和纹理特征损失值,生成对应的量化特征损失值。
采用公式8,生成对应的量化特征损失值。其中,Lq为量化特征损失值,Ltriplet为待训练的量化处理子模型的训练样本损失值,w21、Lem′均为训练样本损失值的权重,Lcoding为待训练的量化处理子模型的符号量化损失值,w22是为符号量化损失值分配的权重。
Lq=w21(Lem′*Ltriplet)+w22Lcoding 公式8;
S209:判断纹理特征损失值、量化特征损失值是否均高于预设的图像处理纹理特征损失门限值,若是,返回步骤206;否则,执行步骤210。
S210:停止迭代训练子模型,输出最后一轮迭代获得的目标图像处理子模型、目标纹理处理子模型和目标量化处理子模型。
接下来,参阅图3a示出的流程示意图、图3b示出的逻辑示意图,采用已训练的目标视频检索模型,建立视频数据库的索引表、映射表。
S301:读取一个第一候选视频s;
S302:将第一候选视频s输入到目标视频检索模型中,获得对应的初始量化特征、第二纹理特征;
S303:将第二纹理特征添加到映射表中,以及分别确定初始量化特征,与索引表中记载的各个第二量化特征之间的量化特征距离;
S304:将第一候选视频s添加到,最小量化特征距离对应的第二量化特征中;
S305:判断视频数据库中的全部第一候选视频,是否均读取完毕,若是,执行步骤306;否则,返回步骤301;
S306:输出最后一轮迭代获得的映射表、索引表。
其中,在执行步骤303时,若索引表为空值,则将第一候选视频s的初始量化特征,作为第二量化特征添加到索引表中。索引表如Lindex:[q1:[img1,img2,img6],q2:[img3],q3:[img4]]所示,表中包括多个第二量化特征,每个量化特征对应至少一个第一候选视频,因此,每个第二量化特征表征对应的至少一个第一候选视频所归属的视频类别;映射表如T:[[img1,embedding1],[img2,embedding2],……,[img6,embedding6]],表中包括多个第一候选视频、及对应的第二纹理特征。
另外,针对新加入视频数据库中的第一候选视频,也可以执行如图3a所示的流程,建立相应的索引关系、映射关系。
接下来,参阅图4a示出的流程示意图,在已训练的目标视频检索模型上,应用本申请实施例提供的视频检索方法。
S401:采用已训练的目标视频检索模型的目标图像处理子模型,对待检索视频进行特征提取,获得对应的图像特征。
在执行步骤401时,可将待检索视频的完整视频输入到目标图像处理子模型中,获得相应的一个图像特征;也可以先从待检索视频中提取关键帧,再将获得的多个关键帧输入到目标图像处理子模型中,获得相应的多个图像特征。
S402:采用目标视频检索模型的目标量化处理子模型,对图像特征进行特征提取,获得对应的第一量化特征,并基于第一量化特征,从各个第一候选视频中筛选出与待检索视频的类别相似度,符合设定类别相似要求的至少一个第二候选视频;其中,目标量化处理子模型的量化控制参数,是在训练过程中,基于每个训练样本对应的纹理特征损失值进行调整的,纹理特征损失值是基于对待训练的纹理处理子模型进行参数调整过程中,针对待训练的纹理处理子模型预设的纹理控制参数确定的。
目标量化处理子模型的量化控制参数,根据每个训练样本对应的纹理特征损失值进行调整,使得目标量化处理子模型学习到目标纹理特征子模型的排序能力,确保两个子模型的排序效果趋于一致,避免因固定的量化控制参数,导致目标量化处理子模型存在随机排序的情况。而端到端的模型架构,使得目标量化处理子模型能够基于图像特征,获得对应的量化特征,减少了在生成量化特征过程中的损失,提高了量化特征的生成准确率,再加上本申请实施例还优化了目标量化处理子模型的排序能力,又进一步提高了视频检索的召回性能。
根据前文的介绍可知,索引表中包含多个第二量化特征,每个量化特征对应至少一个第一候选视频,因此,在执行步骤402时,分别确定第一量化特征,与各个第一候选视频各自的第二量化特征之间的量化特征距离,再将量化特征距离低于预设量化特征距离门限值的第一候选视频,确定为第二候选视频。
S403:基于待检索视频,与至少一个第二候选视频之间的内容相似度,将内容相似度符合设定内容相似要求的第二候选视频,作为对应的目标视频输出。
在本申请实施例中,既可以将待检索视频的完整视频作为模型输入,也可以将获得的多个关键帧作为模型输入,因此,针对不同的模型输入,提供了以下几种获得目标视频的方式。
方式1:针对上述两种模型输入均适用,是按照纹理特征距离,筛选获得目标视频。
可选的,采用目标纹理处理子模型,对图像特征进行特征提取,获得对应的第一纹理特征;再针对至少一个第二候选视频,分别执行以下操作:确定第一纹理特征,与一个第二候选视频的第二纹理特征之间的纹理特征距离,若纹理特征距离低于预设纹理特征距离门限值,则判定待检索视频与该第二候选视频之间的内容相似度,符合设定内容相似要求,并将该第二候选视频,确定为目标视频输出;其中,第二纹理特征表征该第二候选视频的纹理信息。在本申请实施例中,可采用欧式距离、汉明距离等多种距离计算方式,计算量化特征距离、纹理特征距离,无论采用哪种距离计算方式,若距离的取值较小,则表示两个视频的内容相似度高;反之,若距离的取值较小,则表示两个视频的内容相似度低,后续将不再赘述。
方式2:针对将完整视频作为模型输入,按照内容重复度,筛选获得目标视频。
可选的,针对至少一个第二候选视频,分别执行以下操作:
将总匹配时长与比较时长之间的比值,确定为待检索视频与一个第二候选视频之间的内容重复度;其中,总匹配时长是基于至少一个第二候选视频各自与待检索视频与之间的匹配时长获得的,比较时长是待检索视频与该第二候选视频中视频时长较短的时长取值;
若内容重复度超过设定的内容重复度门限值,则判定待检索视频与该第二候选视频之间的内容相似度,符合设定内容相似要求,并将该第二候选视频,确定为目标视频输出。
例如,假设待检索视频的视频时长为30s,各个第二候选视频与待检索视频之间的匹配时长如表2所示,则采用方式2,获得待检索视频与各个第二候选视频之间的内容重复度,最终将第二候选视频1~3作为目标视频返回给用户。
表2
第二候选视频的名称 视频时长 匹配时长 内容重复度
第二候选视频1 15s 5s 6
第二候选视频2 20s 10s 4.5
第二候选视频3 25s 20s 3.6
第二候选视频4 60s 35s 3
第二候选视频5 120s 20s 3
方式3:针对将多个关键帧作为模型输入,按照内容重复度,筛选获得目标视频。
每个关键帧各自对应一个第一量化特征,每个第一量化特征可召回特征相同的第二候选视频,因此,可将相同量化特征的数量与比较时长之间的比值,确定为待检索视频与该第二候选视频之间的内容重复度。
可选的,针对至少一个第二候选视频,分别执行以下操作:
确定待检索视频与一个第二候选视频之间的相同量化特征的数量;
将相同量化特征的数量与比较时长之间的比值,确定为待检索视频与该第二候选视频之间的内容重复度;其中,比较时长是待检索视频与该第二候选视频中视频时长较短的时长取值;
若内容重复度超过设定内容重复度门限值,则判定待检索视频与该第二候选视频之间的内容相似度,符合设定内容相似要求,并将该第二候选视频,确定为目标视频输出。
例如,假设待检索视频的视频时长为30s,共抽取出10个关键帧。各个第二候选视频与待检索视频之间的相同量化特征的数量如表3所示,则采用方式2,获得待检索视频与各个第二候选视频之间的内容重复度,最终将第二候选视频1~2作为目标视频返回给用户。
表3
第二候选视频的名称 视频时长 相同量化特征的数量 内容重复度
第二候选视频1 15s 5 0.33
第二候选视频2 20s 8 0.4
第二候选视频3 25s 2 0.08
第二候选视频4 60s 3 0.1
第二候选视频5 120s 1 0.03
为了便于理解,参阅图4b示出的逻辑示意图,介绍在具体实施例上,应用视频检索方法的过程。
将待检索视频的完整视频输入已训练的目标视频检索模型中,获得对应的第一纹理特征、第一量化特征;根据第一量化特征与索引表中各个第二量化特征之间的量化特征距离,获得与待检索视频的类别相似度较高的多个候选视频;再根据第一纹理特征与上一轮被召回的各个候选视频的第二纹理特征之间的纹理特征距离,将排列在前N个的候选视频,作为与待检索视频的内容相似度较高的目标视频,返回给用户。
与上述方法实施例基于同一发明构思,本申请实施例还提供了一种视频检索的装置,如图5所示,装置500可以包括:
图像处理单元501,用于采用已训练的目标视频检索模型的目标图像处理子模型,对待检索视频进行特征提取,获得对应的图像特征;
量化处理单元502,用于采用目标视频检索模型的目标量化处理子模型,对图像特征进行特征提取,获得对应的第一量化特征,并基于第一量化特征,从各个第一候选视频中筛选出与待检索视频的类别相似度,符合设定类别相似要求的至少一个第二候选视频;其中,目标量化处理子模型的量化控制参数,是在训练过程中,基于每个训练样本对应的纹理特征损失值进行调整的,纹理特征损失值是基于对待训练的纹理处理子模型进行参数调整过程中,针对待训练的纹理处理子模型预设的纹理控制参数确定的;
检索单元503,用于基于待检索视频,与至少一个第二候选视频之间的内容相似度,将内容相似度符合设定内容相似要求的第二候选视频,作为对应的目标视频输出。
可选的,目标视频检索模型还包括目标纹理处理子模型,检索单元503用于:
采用目标纹理处理子模型,对图像特征进行特征提取,获得对应的第一纹理特征;
针对至少一个第二候选视频,分别执行以下操作:确定第一纹理特征,与一个第二候选视频的第二纹理特征之间的纹理特征距离,若纹理特征距离低于预设纹理特征距离门限值,则判定待检索视频与一个第二候选视频之间的内容相似度,符合设定内容相似要求,并将一个第二候选视频,确定为目标视频输出;其中,第二纹理特征表征对应的一个第二候选视频的纹理信息。
可选的,检索单元503用于:
针对至少一个第二候选视频,分别执行以下操作:
将总匹配时长与比较时长之间的比值,确定为待检索视频与一个第二候选视频之间的内容重复度;其中,总匹配时长是基于至少一个第二候选视频各自与待检索视频与之间的匹配时长获得的,比较时长是待检索视频与一个第二候选视频中视频时长较短的时长取值;
若内容重复度超过设定的内容重复度门限值,则判定待检索视频与一个第二候选视频之间的内容相似度,符合设定内容相似要求,并将一个第二候选视频,确定为目标视频输出。
可选的,检索单元503用于:
针对至少一个第二候选视频,分别执行以下操作:
确定待检索视频与一个第二候选视频之间的相同量化特征的数量;
将相同量化特征的数量与比较时长之间的比值,确定为待检索视频与一个第二候选视频之间的内容重复度;其中,比较时长是待检索视频与一个第二候选视频中视频时长较短的时长取值;
若内容重复度超过设定内容重复度门限值,则判定待检索视频与一个第二候选视频之间的内容相似度,符合设定内容相似要求,并将一个第二候选视频,确定为目标视频输出。
可选的,量化处理单元502用于:
分别确定第一量化特征,与各个第一候选视频各自的第二量化特征之间的量化特征距离;
将量化特征距离低于预设量化特征距离门限值的第一候选视频,确定为第二候选视频;其中,每个第二量化特征表征对应的至少一个第一候选视频所归属的视频类别。
可选的,装置500还包括模型训练单元504,模型训练单元504通过执行以下方式,获得已训练的目标视频检索模型:
获得多个样本三元组,每个样本三元组包含样本视频、以及样本视频关联的正向标签和负向标签;
将各个样本三元组作为训练数据,依次输入到待训练的图像处理子模型、待处理的纹理处理子模型中,获得对应的第一纹理集合;其中,每获得一个第一纹理集合,基于一个第一纹理集合包含的多个第一样本纹理特征,生成对应的图像处理纹理特征损失值,并基于图像处理纹理特征损失值,对待训练的图像处理子模型、待训练的纹理处理子模型进行参数调整,直至图像处理纹理特征损失值不高于预设的图像处理纹理特征损失门限值时,获得候选图像处理子模型和候选纹理处理子模型;
将将各个样本三元组作为训练数据,依次输入到候选图像处理子模型、候选纹理处理子模型和待训练的量化处理子模型中,获得对应的第二纹理集合和量化特征组;其中,每获得一个第二纹理集合,基于一个第二纹理集合包含的多个第二样本纹理特征,生成对应的纹理特征损失值,并基于纹理特征损失值,对候选纹理处理子模型进行参数调整,以及每获得一个量化特征组,基于一个量化特征组包含的多个样本量化特征、纹理特征损失值,生成对应的量化特征损失值,并基于量化特征损失值,对候选图像处理子模型和待训练的量化处理子模型进行参数调整,直至纹理特征损失值、量化特征损失值均不高于预设的特征损失门限值时,获得目标图像处理子模型、目标纹理处理子模型,以及目标量化处理子模型。
可选的,模型训练单元504用于:
基于纹理特征损失值,调整待训练的量化处理子模型的量化控制参数;
基于一个量化特征组包含的多个样本量化特征和量化控制参数,分别确定待训练的量化处理子模型的训练样本损失值和符号量化损失值;
基于待训练的量化处理子模型的训练样本损失值、符号量化损失值,生成对应的量化特征损失值。
可选的,模型训练单元504用于:
基于一个量化特征组包含的多个样本量化特征,分别确定待训练的量化处理子模型的训练样本损失值和符号量化损失值;
基于待训练的量化处理子模型的训练样本损失值、符号量化损失值和纹理特征损失值,生成对应的量化特征损失值。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的服务平台的访问方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的计算机设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种计算机设备,参阅图6所示,计算机设备600可以至少包括处理器601、以及存储器602。其中,存储器602存储有程序代码,当程序代码被处理器601执行时,使得处理器601执行上述任意一种视频检索的方法的步骤。
在一些可能的实施方式中,根据本申请的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的视频检索的方法中的步骤。例如,处理器可以执行如图4中所示的步骤。
下面参照图7来描述根据本申请的这种实施方式的计算装置700。图7的计算装置700仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算装置700以通用计算装置的形式表现。计算装置700的组件可以包括但不限于:上述至少一个处理单元701、上述至少一个存储单元702、连接不同系统组件(包括存储单元702和处理单元701)的总线703。
总线703表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元702可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)7021和/或高速缓存存储单元7022,还可以进一步包括只读存储器(ROM)7023。
存储单元702还可以包括具有一组(至少一个)程序模块7024的程序/实用工具7025,这样的程序模块7024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置700也可以与一个或多个外部设备704(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置700交互的设备通信,和/或与使得该计算装置700能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口705进行。并且,计算装置700还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器706通过总线703与用于计算装置700的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
与上述方法实施例基于同一发明构思,本申请提供的视频检索的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频检索的方法中的步骤,例如,电子设备可以执行如图4中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种视频检索的方法,其特征在于,包括:
采用已训练的目标视频检索模型的目标图像处理子模型,对待检索视频进行特征提取,获得对应的图像特征;
采用所述目标视频检索模型的目标量化处理子模型,对所述图像特征进行特征提取,获得对应的第一量化特征,并基于所述第一量化特征,从各个第一候选视频中筛选出与所述待检索视频的类别相似度,符合设定类别相似要求的至少一个第二候选视频;其中,所述目标量化处理子模型的量化控制参数,是在训练过程中,基于每个训练样本对应的纹理特征损失值进行调整的,所述纹理特征损失值是基于对待训练的纹理处理子模型进行参数调整过程中,针对所述待训练的纹理处理子模型预设的纹理控制参数确定的;
基于所述待检索视频,与所述至少一个第二候选视频之间的内容相似度,将内容相似度符合设定内容相似要求的第二候选视频,作为对应的目标视频输出。
2.如权利要求1所述的方法,其特征在于,所述目标视频检索模型还包括目标纹理处理子模型;
所述基于所述待检索视频,与所述至少一个第二候选视频之间的内容相似度,将内容相似度符合设定内容相似要求的第二候选视频,作为对应的目标视频输出,包括:
采用所述目标纹理处理子模型,对所述图像特征进行特征提取,获得对应的第一纹理特征;
针对所述至少一个第二候选视频,分别执行以下操作:确定所述第一纹理特征,与一个第二候选视频的第二纹理特征之间的纹理特征距离,若所述纹理特征距离低于预设纹理特征距离门限值,则判定所述待检索视频与所述一个第二候选视频之间的内容相似度,符合所述设定内容相似要求,并将所述一个第二候选视频,确定为所述目标视频输出;其中,所述第二纹理特征表征对应的一个第二候选视频的纹理信息。
3.如权利要求1所述的方法,其特征在于,所述基于所述待检索视频,与所述至少一个第二候选视频之间的内容相似度,将内容相似度符合设定内容相似要求的第二候选视频,作为对应的目标视频输出,包括:
针对所述至少一个第二候选视频,分别执行以下操作:
将总匹配时长与比较时长之间的比值,确定为所述待检索视频与一个第二候选视频之间的内容重复度;其中,所述总匹配时长是基于所述至少一个第二候选视频各自与所述待检索视频与之间的匹配时长获得的,所述比较时长是所述待检索视频与所述一个第二候选视频中视频时长较短的时长取值;
若所述内容重复度超过设定的内容重复度门限值,则判定所述待检索视频与所述一个第二候选视频之间的内容相似度,符合所述设定内容相似要求,并将所述一个第二候选视频,确定为所述目标视频输出。
4.如权利要求1所述的方法,其特征在于,所述基于所述待检索视频,与所述至少一个第二候选视频之间的内容相似度,将内容相似度符合设定内容相似要求的第二候选视频,作为对应的目标视频输出,包括:
针对所述至少一个第二候选视频,分别执行以下操作:
确定所述待检索视频与一个第二候选视频之间的相同量化特征的数量;
将所述相同量化特征的数量与比较时长之间的比值,确定为所述待检索视频与一个第二候选视频之间的内容重复度;其中,所述比较时长是所述待检索视频与所述一个第二候选视频中视频时长较短的时长取值;
若所述内容重复度超过设定内容重复度门限值,则判定所述待检索视频与所述一个第二候选视频之间的内容相似度,符合所述设定内容相似要求,并将所述一个第二候选视频,确定为所述目标视频输出。
5.如权利要求1-4任一项所述的方法,其特征在于,所述基于所述第一量化特征,从各个第一候选视频中筛选出与所述待检索视频的类别相似度,符合设定类别相似要求的至少一个第二候选视频,包括:
分别确定所述第一量化特征,与所述各个第一候选视频各自的第二量化特征之间的量化特征距离;
将量化特征距离低于预设量化特征距离门限值的第一候选视频,确定为第二候选视频;其中,每个第二量化特征表征对应的至少一个第一候选视频所归属的视频类别。
6.如权利要求1-4任一项所述的方法,其特征在于,通过执行以下方式,获得所述已训练的目标视频检索模型:
获得多个样本三元组,每个样本三元组包含样本视频、以及所述样本视频关联的正向标签和负向标签;
将各个样本三元组作为训练数据,依次输入到待训练的图像处理子模型、待处理的纹理处理子模型中,获得对应的第一纹理集合;其中,每获得一个第一纹理集合,基于所述一个第一纹理集合包含的多个第一样本纹理特征,生成对应的图像处理纹理特征损失值,并基于所述图像处理纹理特征损失值,对所述待训练的图像处理子模型、所述待训练的纹理处理子模型进行参数调整,直至所述图像处理纹理特征损失值不高于预设的图像处理纹理特征损失门限值时,获得候选图像处理子模型和候选纹理处理子模型;
将所述将各个样本三元组作为训练数据,依次输入到所述候选图像处理子模型、候选纹理处理子模型和待训练的量化处理子模型中,获得对应的第二纹理集合和量化特征组;其中,每获得一个第二纹理集合,基于所述一个第二纹理集合包含的多个第二样本纹理特征,生成对应的纹理特征损失值,并基于所述纹理特征损失值,对所述候选纹理处理子模型进行参数调整,以及每获得一个量化特征组,基于所述一个量化特征组包含的多个样本量化特征、所述纹理特征损失值,生成对应的量化特征损失值,并基于所述量化特征损失值,对所述候选图像处理子模型和所述待训练的量化处理子模型进行参数调整,直至所述纹理特征损失值、所述量化特征损失值均不高于预设的特征损失门限值时,获得所述目标图像处理子模型、所述目标纹理处理子模型,以及所述目标量化处理子模型。
7.如权利要求6所述的方法,其特征在于,基于所述一个量化特征组包含的多个样本量化特征、所述纹理特征损失值,生成对应的量化特征损失值,包括:
基于所述纹理特征损失值,调整所述待训练的量化处理子模型的量化控制参数;
基于所述一个量化特征组包含的多个样本量化特征和所述量化控制参数,分别确定所述待训练的量化处理子模型的训练样本损失值和符号量化损失值;
基于所述待训练的量化处理子模型的训练样本损失值、符号量化损失值,生成对应的量化特征损失值。
8.如权利要求6所述的方法,其特征在于,基于所述一个量化特征组包含的多个样本量化特征、所述纹理特征损失值,生成对应的量化特征损失值,包括:
基于所述一个量化特征组包含的多个样本量化特征,分别确定所述待训练的量化处理子模型的训练样本损失值和符号量化损失值;
基于所述待训练的量化处理子模型的训练样本损失值、符号量化损失值和所述纹理特征损失值,生成对应的量化特征损失值。
9.一种视频检索的装置,其特征在于,包括:
图像处理单元,用于采用已训练的目标视频检索模型的目标图像处理子模型,对待检索视频进行特征提取,获得对应的图像特征;
量化处理单元,用于采用所述目标视频检索模型的目标量化处理子模型,对所述图像特征进行特征提取,获得对应的第一量化特征,并基于所述第一量化特征,从各个第一候选视频中筛选出与所述待检索视频的类别相似度,符合设定类别相似要求的至少一个第二候选视频;其中,所述目标量化处理子模型的量化控制参数,是在训练过程中,基于每个训练样本对应的纹理特征损失值进行调整的,所述纹理特征损失值是基于对待训练的纹理处理子模型进行参数调整过程中,针对所述待训练的纹理处理子模型预设的纹理控制参数确定的;
检索单元,用于基于所述待检索视频,与所述至少一个第二候选视频之间的内容相似度,将内容相似度符合设定内容相似要求的第二候选视频,作为对应的目标视频输出。
10.如权利要求9所述的装置,其特征在于,所述目标视频检索模型还包括目标纹理处理子模型,所述检索单元用于:
采用所述目标纹理处理子模型,对所述图像特征进行特征提取,获得对应的第一纹理特征;
针对所述至少一个第二候选视频,分别执行以下操作:确定所述第一纹理特征,与一个第二候选视频的第二纹理特征之间的纹理特征距离,若所述纹理特征距离低于预设纹理特征距离门限值,则判定所述待检索视频与所述一个第二候选视频之间的内容相似度,符合所述设定内容相似要求,并将所述一个第二候选视频,确定为所述目标视频输出;其中,所述第二纹理特征表征对应的一个第二候选视频的纹理信息。
11.如权利要求9所述的装置,其特征在于,所述检索单元用于:
针对所述至少一个第二候选视频,分别执行以下操作:
将总匹配时长与比较时长之间的比值,确定为所述待检索视频与一个第二候选视频之间的内容重复度;其中,所述总匹配时长是基于所述至少一个第二候选视频各自与所述待检索视频与之间的匹配时长获得的,所述比较时长是所述待检索视频与所述一个第二候选视频中视频时长较短的时长取值;
若所述内容重复度超过设定的内容重复度门限值,则判定所述待检索视频与所述一个第二候选视频之间的内容相似度,符合所述设定内容相似要求,并将所述一个第二候选视频,确定为所述目标视频输出。
12.如权利要求9所述的装置,其特征在于,所述检索单元用于:
针对所述至少一个第二候选视频,分别执行以下操作:
确定所述待检索视频与一个第二候选视频之间的相同量化特征的数量;
将所述相同量化特征的数量与比较时长之间的比值,确定为所述待检索视频与一个第二候选视频之间的内容重复度;其中,所述比较时长是所述待检索视频与所述一个第二候选视频中视频时长较短的时长取值;
若所述内容重复度超过设定内容重复度门限值,则判定所述待检索视频与所述一个第二候选视频之间的内容相似度,符合所述设定内容相似要求,并将所述一个第二候选视频,确定为所述目标视频输出。
13.如权利要求9-12任一项所述的装置,其特征在于,所述量化处理单元用于:
分别确定所述第一量化特征,与所述各个第一候选视频各自的第二量化特征之间的量化特征距离;
将量化特征距离低于预设量化特征距离门限值的第一候选视频,确定为第二候选视频;其中,每个第二量化特征表征对应的至少一个第一候选视频所归属的视频类别。
14.一种计算机设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~8中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其包括程序代码,当程序产品在计算机设备上运行时,所述程序代码用于使所述计算机焦设备执行权利要求1~8中任一项所述方法的步骤。
CN202110973390.0A 2021-08-24 2021-08-24 视频检索的方法、装置、设备及存储介质 Pending CN114282059A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110973390.0A CN114282059A (zh) 2021-08-24 2021-08-24 视频检索的方法、装置、设备及存储介质
PCT/CN2022/105871 WO2023024749A1 (zh) 2021-08-24 2022-07-15 视频检索的方法、装置、设备及存储介质
EP22860095.3A EP4390725A1 (en) 2021-08-24 2022-07-15 Video retrieval method and apparatus, device, and storage medium
US18/136,538 US20230297617A1 (en) 2021-08-24 2023-04-19 Video retrieval method and apparatus, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110973390.0A CN114282059A (zh) 2021-08-24 2021-08-24 视频检索的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114282059A true CN114282059A (zh) 2022-04-05

Family

ID=80868419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110973390.0A Pending CN114282059A (zh) 2021-08-24 2021-08-24 视频检索的方法、装置、设备及存储介质

Country Status (4)

Country Link
US (1) US20230297617A1 (zh)
EP (1) EP4390725A1 (zh)
CN (1) CN114282059A (zh)
WO (1) WO2023024749A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098732A (zh) * 2022-08-11 2022-09-23 腾讯科技(深圳)有限公司 数据处理方法及相关装置
WO2023024749A1 (zh) * 2021-08-24 2023-03-02 腾讯科技(深圳)有限公司 视频检索的方法、装置、设备及存储介质
CN117670689A (zh) * 2024-01-31 2024-03-08 四川辰宇微视科技有限公司 一种通过ai算法控制提高紫外像增强器图像质量的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118015110A (zh) * 2023-12-19 2024-05-10 华院计算技术(上海)股份有限公司 人脸图像生成方法及装置、计算机可读存储介质、终端

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066621B (zh) * 2017-05-11 2022-11-08 腾讯科技(深圳)有限公司 一种相似视频的检索方法、装置和存储介质
CN110633627A (zh) * 2019-08-01 2019-12-31 平安科技(深圳)有限公司 在视频中定位对象的方法、装置、计算机设备及存储介质
CN113254687B (zh) * 2021-06-28 2021-09-17 腾讯科技(深圳)有限公司 图像检索、图像量化模型训练方法、装置和存储介质
CN113255625B (zh) * 2021-07-14 2021-11-05 腾讯科技(深圳)有限公司 一种视频检测方法、装置、电子设备和存储介质
CN114282059A (zh) * 2021-08-24 2022-04-05 腾讯科技(深圳)有限公司 视频检索的方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023024749A1 (zh) * 2021-08-24 2023-03-02 腾讯科技(深圳)有限公司 视频检索的方法、装置、设备及存储介质
CN115098732A (zh) * 2022-08-11 2022-09-23 腾讯科技(深圳)有限公司 数据处理方法及相关装置
CN115098732B (zh) * 2022-08-11 2022-11-11 腾讯科技(深圳)有限公司 数据处理方法及相关装置
CN117670689A (zh) * 2024-01-31 2024-03-08 四川辰宇微视科技有限公司 一种通过ai算法控制提高紫外像增强器图像质量的方法

Also Published As

Publication number Publication date
US20230297617A1 (en) 2023-09-21
EP4390725A1 (en) 2024-06-26
WO2023024749A1 (zh) 2023-03-02

Similar Documents

Publication Publication Date Title
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN113139628B (zh) 样本图像的识别方法、装置、设备及可读存储介质
EP4002161A1 (en) Image retrieval method and apparatus, storage medium, and device
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN113590854B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN112395979A (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN110457523B (zh) 封面图片的选取方法、模型的训练方法、装置及介质
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN114358109A (zh) 特征提取模型训练、样本检索方法、装置和计算机设备
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN114282055A (zh) 视频特征提取方法、装置、设备及计算机存储介质
CN112804558A (zh) 视频拆分方法、装置及设备
CN114299321A (zh) 视频分类方法、装置、设备及可读存储介质
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及系统
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN111783734B (zh) 原版视频识别方法及装置
CN117011741A (zh) 视频检测模型的训练方法、装置、设备及存储介质
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
WO2024174583A1 (zh) 一种模型训练方法、装置、设备、存储介质及产品
CN116049660B (zh) 数据处理方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40072961

Country of ref document: HK