CN115098732A - 数据处理方法及相关装置 - Google Patents

数据处理方法及相关装置 Download PDF

Info

Publication number
CN115098732A
CN115098732A CN202210958643.1A CN202210958643A CN115098732A CN 115098732 A CN115098732 A CN 115098732A CN 202210958643 A CN202210958643 A CN 202210958643A CN 115098732 A CN115098732 A CN 115098732A
Authority
CN
China
Prior art keywords
limb
image
facial
video
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210958643.1A
Other languages
English (en)
Other versions
CN115098732B (zh
Inventor
郭卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210958643.1A priority Critical patent/CN115098732B/zh
Publication of CN115098732A publication Critical patent/CN115098732A/zh
Application granted granted Critical
Publication of CN115098732B publication Critical patent/CN115098732B/zh
Priority to PCT/CN2023/102825 priority patent/WO2024032177A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及图像处理技术领域,提供一种数据处理方法及相关装置,用以提高图像检索准确率,该方法包括:基于指定的检测对象类型,分别对参考视频中包含的多个参考视频帧进行面部检测,确定多个参考视频帧各自包含的至少一个面部图像及相应的面部特征;基于检测对象类型,分别对多个参考视频帧进行肢体检测,确定多个参考视频帧各自包含的至少一个肢体图像及相应的肢体特征;基于确定的各面部图像与各肢体图像,获得参考视频对应的至少一个参考移动轨迹,并基于获得的各参考移动轨迹,得到图像检索结果,其中,每个参考移动轨迹中包含一个检测对象的多个肢体特征和多个面部特征。

Description

数据处理方法及相关装置
技术领域
本申请涉及计算机技术领域,提供数据处理方法及相关装置。
背景技术
随着互联网技术的快速发展,图像检索技术的应用范围越来越广泛,图像检索技术是指从图像库中包含的各候选图像中,查找出与待检索图像相似的目标图像。
相关技术中,通常分别针对各候选图像以及待检索图像,提取对应的图像全局特征,然后将各候选图像各自对应的图像全局特征,分别与待检索图像的图像全局特征进行匹配,根据匹配结果确定目标图像。
然而,由于图像全局特征更多地描述全局信息,在各候选图像之间的背景环境相似,且各候选图像中包含的目标对象的服饰类似的情况下,各候选图像的图像全局特征也是相似的,难以体现各候选图像之间的差异,难以保证图像检索的准确性。
发明内容
本申请实施例提供一种数据处理方法及相关装置,用以提高图像检索准确率。
第一方面,本申请实施例提供一种数据处理方法,包括:
基于指定的检测对象类型,分别对参考视频中包含的多个参考视频帧进行面部检测,确定所述多个参考视频帧各自包含的至少一个面部图像及相应的面部特征;
基于所述检测对象类型,分别对所述多个参考视频帧进行肢体检测,确定所述多个参考视频帧各自包含的至少一个肢体图像及相应的肢体特征;
基于确定的各面部图像与各肢体图像,获得所述参考视频对应的至少一个参考移动轨迹,每个参考移动轨迹中包含一个检测对象的多个肢体特征和多个面部特征;
基于获得的各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,从所述各待处理视频中,确定出目标视频。
第二方面,本申请实施例提供一种数据处理装置,包括:
面部检测单元,用于基于指定的检测对象类型,分别对参考视频中包含的多个参考视频帧进行面部检测,确定所述多个参考视频帧各自包含的至少一个面部图像及相应的面部特征;
肢体检测单元,用于基于所述检测对象类型,分别对所述多个参考视频帧进行肢体检测,确定所述多个参考视频帧各自包含的至少一个肢体图像及相应的肢体特征;
轨迹确定单元,用于基于确定的各面部图像与各肢体图像,获得所述参考视频对应的至少一个参考移动轨迹,每个参考移动轨迹中包含一个检测对象的多个肢体特征和多个面部特征;
轨迹应用单元,用于基于获得的各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,从所述各待处理视频中,确定出目标视频。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述数据处理方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述数据处理方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质中读取并执行所述计算机程序,使得电子设备执行上述数据处理方法的步骤。
本申请实施例中,基于指定的检测对象类型,分别对参考视频中包含的多个参考视频帧进行面部检测,确定所述多个参考视频帧各自包含的至少一个面部图像及相应的面部特征;基于所述检测对象类型,分别对所述多个参考视频帧进行肢体检测,确定所述多个参考视频帧各自包含的至少一个肢体图像及相应的肢体特征;基于确定的各面部图像与各肢体图像,获得所述参考视频对应的至少一个参考移动轨迹,并基于获得的各参考移动轨迹,得到图像检索结果,其中,每个参考移动轨迹中包含一个检测对象的多个肢体特征和多个面部特征。
这样,通过对视频中的面部图像、肢体图像进行挖掘,相比起常规的全局视频表征,面部特征、肢体特征可以更精准地图像之间的差异,从而提高了图像检索的准确性,同时,相对于相关技术中每帧抽取一个特征,本申请中通过获取包含肢体特征和面部特征的参考移动轨迹,可以更准确地抽取长视频信息,从而使得图像检索效果更好。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中提供的一种应用场景示意图;
图2为本申请实施例中提供的一种数据处理方法的流程示意图;
图3为本申请实施例中提供的一种获取面部特征的逻辑示意图;
图4为本申请实施例中提供的一种获取肢体特征的逻辑示意图;
图5为本申请实施例中提供的一种参考移动轨迹获得方法的流程示意图;
图6为本申请实施例中提供的一种面部图像与肢体图像进行关联的逻辑示意图;
图7A为本申请实施例中提供的一种参考视频的示意图;
图7B为本申请实施例中提供的一种肢体图像组的示意图;
图7C为本申请实施例中提供的一种肢体图像与肢体图像进行关联的逻辑示意图;
图8为本申请实施例中提供的一种参考移动轨迹的示意图;
图9为本申请实施例中提供的一种计算第二相似度的逻辑示意图;
图10A为本申请实施例中提供的一种确定目标视频的流程示意图;
图10B为本申请实施例中提供的一种计算肢体相似度的逻辑示意图;
图11为本申请实施例中提供的一种获得各相似样本组的流程示意图;
图12为本申请实施例中提供的一种聚类的示意图;
图13为本申请实施例中提供的另一种聚类的示意图;
图14为本申请实施例中提供的一种构建训练数据集的流程示意图;
图15为本申请实施例中提供的一种抽取相似样本对的逻辑示意图;
图16为本申请实施例中提供的一种计算第二相似度的逻辑示意图;
图17为本申请实施例中提供的一种面部特征提取模型的结构示意图;
图18为本申请实施例中提供的一种面部特征提取模型的训练过程的流程示意图;
图19为本申请实施例中提供的一种数据处理装置的结构示意图;
图20为本申请实施例中提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
首先,对本申请涉及的一些名词进行解释。
图像相似度表征:一种来自深度学习特征的图像嵌入(embedding),主要描述全图图像纹理、特征布局等一些表征信息,可以用于区分两张不同的图像。
图像语义表征:一种来自语义学习的图像embedding,主要描述图像中带有某些指定语义内容部位的表征,例如,若embedding用于描述狗,则通过提取图像中狗所在位置的特征作为图像表征。
图像embedding:用于描述图像信息的特征,上述相似度表征、语义表征均为图像embedding,embedding不局限于浮点特征,也可以是二值特征向量组成的图像表征,即深度哈希特征。下文中提到的embedding、特征,如无特殊说明均指二值化的深度哈希特征。
图像排重检索:确认两个图像是否相同的任务,或者一张图像经过某些图像变换得到另一张图的任务称为图像排重识别,从图像库中查找某查询图像是否与库中图像重复的任务称为图像排重检索。常规的图像检索是对图像库中样本提取embedding,根据查询(query)的embedding与图像库中样本的embedding进行距离计算,获取并召回距离最近的一些样本。
视频排重检索:对于海量视频存储下,为节省存储空间,或判别某一视频是否与现有视频库中存储的视频相同或相似,需要排除或识别出重复的视频或视频段,故视频排重识别需要确认两个视频是否相同或相似,或者确认两个视频是否存在相同或相似的子视频段。视频排重检索是从视频库中查找出是否存在与查询视频重复的视频,或者与查询视频存在重复子视频段的视频。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施中,对面部图像进行面部检测时,可以采用面部特征提取模型,得到面部图像对应的面部特征,对肢体图像进行肢体检测时,可以采用肢体特征提取模型,得到肢体图像对应的肢体特征。面部特征提取模型、肢体特征提取模型的模型训练及应用过程参见下文。
随着互联网技术的快速发展,图像检索技术的应用范围越来越广泛,图像检索技术是指从图像库中包含的各候选图像中,查找出与待检索图像相似的目标图像。
相关技术中,通常分别针对各候选图像以及待检索图像,提取对应的图像全局特征,然后将各候选图像各自对应的图像全局特征,分别与待检索图像的图像全局特征进行匹配,根据匹配结果确定目标图像。
然而,由于图像全局特征更多地描述全局信息,在各候选图像之间的背景环境相似,且各候选图像中包含的目标对象的服饰类似的情况下,各候选图像的图像全局特征也是相似的,难以体现各候选图像之间的差异,难以保证图像检索的准确性。
本申请实施例中,基于指定的检测对象类型,分别对参考视频中包含的多个参考视频帧进行面部检测,确定所述多个参考视频帧各自包含的至少一个面部图像及相应的面部特征;基于所述检测对象类型,分别对所述多个参考视频帧进行肢体检测,确定所述多个参考视频帧各自包含的至少一个肢体图像及相应的肢体特征;基于确定的各面部图像与各肢体图像,获得所述参考视频对应的至少一个参考移动轨迹,并基于获得的各参考移动轨迹,得到图像检索结果,其中,每个参考移动轨迹中包含一个检测对象的多个肢体特征和多个面部特征。
这样,通过对视频中的面部图像、肢体图像进行挖掘,相比起常规的全局视频表征,面部特征、肢体特征可以更精准地图像之间的差异,从而提高了图像检索的准确性,同时,相对于相关技术中每帧抽取一个特征,本申请中通过获取包含肢体特征和面部特征的参考移动轨迹,可以更准确地抽取长视频信息,从而使得图像检索效果更好。
参阅图1所示,其为本申请实施例中提供的一种应用场景的示意图。该应用场景中至少包括终端设备110以及服务器120。终端设备110的数量可以是一个或多个,服务器120的数量也可以是一个或多个,本申请对终端设备110和服务器120的数量不做具体限定。
本申请实施例中,终端设备110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、物联网设备、智能家电、车载终端等,但并不局限于此。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110与服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的数据处理方法可以由终端设备执行,也可以由服务器执行,或者由终端设备和服务器共同执行。
参阅图2所示,其为本申请实施例中提供的一种数据处理方法的流程示意图,该方法应用于电子设备,电子设备可以是终端设备或服务器,具体流程如下:
S201、基于指定的检测对象类型,分别对参考视频中包含的多个参考视频帧进行面部检测,确定多个参考视频帧各自包含的至少一个面部图像及相应的面部特征。
需要说明的是,本申请实施例中,检测对象类型可以是指人物、动物等具有面部的对象。例如,检测对象类型为人、狗、猫等。
S202、基于检测对象类型,分别对多个参考视频帧进行肢体检测,确定多个参考视频帧各自包含的至少一个肢体图像及相应的肢体特征。
S203、基于确定的各面部图像与各肢体图像,获得参考视频对应的至少一个参考移动轨迹,每个参考移动轨迹中包含一个检测对象的多个肢体特征和多个面部特征。
S204、基于获得的各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,从各待处理视频中,确定出目标视频。
需要说明的是,本申请实施例中,获得的各参考移动轨迹,可以用于视频排重识别、视频排重检索等业务,也可以用于视频穿搭推荐、视频剪辑等业务。对应的候选移动轨迹与参考视频匹配的目标视频是指符合相应业务需求的视频。
本申请实施例中,通过对视频中的面部图像、肢体图像进行挖掘,相比起常规的全局视频表征,面部特征、肢体特征可以更精准地图像之间的差异,从而提高了图像检索的准确性,同时,相对于相关技术中每帧抽取一个特征,本申请中通过获取包含肢体特征和面部特征的参考移动轨迹,可以更准确地抽取长视频信息,从而使得图像检索效果更好。
在一些实施例中,S201中,基于指定的检测对象类型,分别对参考视频中包含的多个参考视频帧进行面部检测,确定多个参考视频帧各自包含的至少一个面部图像的过程中,可以采用但不限于基于开源的coco数据集训练的yolo检测模型。
在一些实施例中,可以将各个面部图像分别输入至已训练的目标面部特征提取模型中,得到相应的面部特征,具体的,将多个参考视频帧各自包含的至少一个面部图像,分别输入至已训练的目标面部特征提取模型中,得到相应的面部特征。目标面部特征提取模型的训练过程参见下文。
以参考视频帧为视频帧1为例,参阅图3所示,视频帧1中包含面部图像A、面部图像B、面部图像C,将面部图像A输入至已训练的目标面部特征提取模型中得到面部特征A,将面部图像B输入至已训练的目标面部特征提取模型中得到面部特征B,以及,将面部图像C输入至已训练的目标面部特征提取模型中得到面部特征C。
在一些实施例中,基于检测对象类型,分别对多个参考视频帧进行肢体检测,确定多个参考视频帧各自包含的至少一个肢体图像的过程,与S201类似。基于检测对象类型,分别对多个参考视频帧进行肢体检测,确定多个参考视频帧各自包含的至少一个肢体图像的过程中,可以采用但不限于libfacedetection等肢体检测模型进行检测。
在一些实施例中,可以将各个肢体图像分别输入至已训练的目标肢体特征提取模型中,得到相应的肢体特征,具体的,将多个参考视频帧各自包含的至少一个肢体图像,分别输入至已训练的目标肢体特征提取模型中,得到相应的肢体特征。目标肢体特征提取模型的训练过程与目标面部特征提取模型的训练过程类似,具体参见下文。
仍以参考视频帧为视频帧1为例,参阅图4所示,视频帧1中包含肢体图像A、肢体图像B、肢体图像C,将肢体图像A输入至已训练的目标肢体特征提取模型中得到肢体特征A,将肢体图像B输入至已训练的目标肢体特征提取模型中得到肢体特征B,以及,将肢体图像C输入至已训练的目标肢体特征提取模型中得到肢体特征C。
在一些实施例中,参阅图5所示,执行203时,可以采用但不限于以下步骤:
S2031、基于确定的各面部图像与各肢体图像,确定各面部图像与各肢体图像之间的面部肢体关联关系。
具体的,本申请实施例中,针对多个参考视频帧中的每个参考视频帧,分别执行以下操作:
以参考视频帧x为例,参考视频帧x为多个参考数据帧中的任意一个参考数据帧计算参考视频帧x中包含的至少一个肢体图像,分别与参考视频帧x中包含的至少一个面部图像之间的图像重合面积;将至少一个肢体图像和至少一个面部图像中,对应的图像重合面积不小于预设重合面积阈值的面部图像与肢体图像进行关联。
仍以视频帧1为例,假设,预设重合面积阈值为60%,参阅图6所示,针对肢体图像A,计算肢体图像A分别与面部图像A、面部图像B、面部图像C之间的图像重合面积,肢体图像A与面部图像A、面部图像B、面部图像C之间的图像重合面积分别为100%、0、0,将肢体图像A与面部图像A进行关联,类似的,将肢体图像B与面部图像B进行关联。
通过上述实现方式,通过图像重合面积,将肢体图像与面部图像进行关联,一定程度上保证了肢体图像与面部图像之间的关联准确性,提高了移动轨迹的精度,进而提升图像排重效果。
S2032、基于面部肢体关联关系,以及基于各肢体图像各自对应的肢体特征之间的第一相似度,获得参考视频对应的至少一个参考移动轨迹。
具体的,本申请实施例中,执行S2032时,可以采用以下步骤:
S20321、计算各肢体图像各自对应的肢体特征之间的第一相似度,并基于计算出的各第一相似度,确定参考视频对应的前后帧肢体关联关系。
具体的,执行S20321时,针对多个参考视频帧,按照视频播放顺序,依次执行以下操作:
获取各肢体图像组,每个肢体图像组中包含:当前参考视频帧中的第一肢体图像和下一个参考视频帧中的第二肢体图像;
计算各肢体图像组各自对应的第一相似度,每个第一相似度用于表征对应的第一肢体图像和第二肢体图像之间的相似度;
从各肢体图像组中,筛选出对应的第一相似度不小于第一相似度阈值的目标肢体图像组,并基于筛选出的各目标肢体图像组,得到前后帧肢体关联关系。
本申请实施例中,第一相似度可以采用但不限于L2距离表示,L2距离也可以称为欧式距离。L2距离越小,第一相似度越高。
本申请实施例中,作为一种可能的实现方式,可以直接获取各肢体图像组,计算各肢体图像组各自对应的第一相似度,进而从各肢体图像组中,筛选出对应的第一相似度不小于第一相似度阈值的目标肢体图像组,并基于筛选出的各目标肢体图像组,得到前后帧肢体关联关系。
作为另一种可能的实现方式,针对当前参考视频帧,可以依次针对将当前参考视频帧中的各个第一肢体图像,分别确定各个第一肢体图像各自关联的第二肢体图像,进而基于各个第一肢体图像各自关联的第二肢体图像,得到前后帧肢体关联关系,其中,各个第一肢体图像及各自关联的第二肢体图像,即为筛选出的各目标肢体图像组。若与第一肢体图像之间的距离不小于第一相似度阈值的第二肢体图像的数目为多个,则选择与第一肢体图像之间的于第一相似度最大的第二肢体图像,作为与第一肢体图像关联的第二肢体图像。与第一肢体图像关联的第二肢体图像可以视为是第一肢体图像在下一帧的表现,此时,两者为同一条移动轨迹中的两个图像。
例如,参阅图7A所示,假设,参考视频中包含视频帧1和视频帧2,视频帧1中包含肢体图像A、肢体图像B、肢体图像C,视频帧2中包含肢体图像D、肢体图像E、肢体图像F。
参阅图7B所示,针对视频帧1,当前参考视频帧为视频帧1,下一个参考视频帧为视频帧2,针对肢体图像A,获取各肢体图像组,各肢体图像组包括肢体图像组1(肢体图像A,肢体图像D)、肢体图像组2(肢体图像A,肢体图像E)、肢体图像组3(肢体图像A,肢体图像F),然后,计算肢体图像A与肢体图像D之间的相似度作为肢体图像组1对应的第一相似度1,计算肢体图像A与肢体图像E之间的相似度作为肢体图像组2对应的第一相似度2,计算肢体图像A与肢体图像F之间的相似度作为肢体图像组3对应的第一相似度3,假设,第一相似度阈值为90%,第一相似度1、第一相似度2、第一相似度3分别为90%、80%、70%,从肢体图像组1、肢体图像组2、肢体图像组3中,确定目标肢体图像组为肢体图像组1,即肢体图像A与肢体图像E属于同于检测对象,肢体图像A与肢体图像D存在关联。
参阅图7C所示,类似的,针对肢体图像B,从肢体图像组4(肢体图像B,肢体图像D)、肢体图像组5(肢体图像B,肢体图像E)、肢体图像组6(肢体图像B,肢体图像F)中,确定目标肢体图像组为肢体图像组5(肢体图像B,肢体图像E),针对肢体图像C,从肢体图像组7(肢体图像C,肢体图像D)、肢体图像组8(肢体图像C,肢体图像E)、肢体图像组9(肢体图像C,肢体图像F)中,确定目标肢体图像组为肢体图像组9(肢体图像C,肢体图像F)。
通过上述实现方式,根据各肢体图像组各自对应的第一相似度,确定前后帧肢体关联关系,提高了前后帧肢体关联关系的准确率,进而提高了移动轨迹的精度,提升了图像排重效果。
S20322、基于面部肢体关联关系和前后帧肢体关联关系,获得参考视频对应的至少一个参考移动轨迹。
本申请实施例中,面部肢体关联关系中包含有各个参考视频中面部图像与肢体图像之间的关联关系,即每个视频帧中面部图像与肢体图像之间的关联关系。前后帧肢体关联关系中包含有前后帧中的肢体图像与肢体图像之间的关联关系。基于面部肢体关联关系和前后帧肢体关联关系,可以确定出至少一个参考移动轨迹,每个参考移动轨迹包含一个检测对象的多个肢体特征和多个面部特征。
例如,参阅图8所示,面部肢体关联关系包含视频帧1中的面部特征A和肢体特征A,视频帧2中的面部特征D和肢体特征D,以及视频帧3中的面部特征G和肢体特征G,前后帧肢体关联关系中包含有肢体特征A与肢体特征D、肢体特征D与肢体特征G之间的关联关系,基于面部肢体关联关系和前后帧肢体关联关系,获得参考移动轨迹1,参考移动轨迹1为检索对象1在视频帧1、视频帧2、视频帧3中的移动轨迹,参考移动轨迹1包含视频帧1中的面部特征A和肢体特征A,视频帧2中的面部特征D和肢体特征D,以及视频帧3中的面部特征G和肢体特征G。类似的,基于面部肢体关联关系和前后帧肢体关联关系,获得参考移动轨迹2和参考移动轨迹3,参考移动轨迹2为检索对象2在视频帧1、视频帧2中的移动轨迹,参考移动轨迹3为检索对象3在视频帧1视频帧2、视频帧3中的移动轨迹。
通过上述实现方式,通过面部肢体关联关系和前后帧肢体关联关系,可以确定出视频中包含的移动轨迹,后续通过移动轨迹进行图像排重时,可以提升各肢体图像在排重中的重要性,避免因embedding单一导致信息缺失,进而导致漏召回。
在一些实施例中,在确定前后帧肢体关联关系的过程中,记录各肢体图像各自对应的轨迹信息。具体的,可以将多个参考视频帧中的第一个参考视频帧中包含的各个肢体图像作为起点帧,记录各参考移动轨迹各自对应的初始化轨迹信息。初始化轨迹信息中包含以下信息:移动轨迹序号、肢体图像在移动轨迹中的出现时间排序、肢体图像的坐标、肢体特征、所属帧序号、所属视频序号。示例性的,移动轨迹序号、肢体图像在移动轨迹中的出现时间排序的初始化取值为1。
以视频帧1中的肢体图像A为例,记录参考移动轨迹1对应的轨迹信息1,轨迹信息1中,移动轨迹序号为1,肢体图像在移动轨迹中的出现时间排序为1,肢体图像的坐标为(2,2),肢体特征为肢体特征A,所属帧序号为1,所属视频序号为视频1。
当第一个参考视频帧开始,在筛选出各目标肢体图像组后,基于筛选出的目标肢体图像组中包含的第二肢体图像,记录相应的轨迹信息。
例如,肢体图像A与肢体图像D存在关联,记录参考移动轨迹1对应的轨迹信息2,轨迹信息2中,移动轨迹序号为1,肢体图像在移动轨迹中的出现时间排序为2,肢体图像的坐标为(2,3),肢体特征为肢体特征D,所属帧序号为2,所属视频序号为视频1。
需要说明的是,轨迹信息中还包含有面部图像信息,面部图像信息包括与体征图像关联的面部图像的序号,以及包括相应的面部特征。面部图像的序号可以从0开始,每新增一个则加1。
仍以视频帧1中的肢体图像A为例,参考移动轨迹1对应的轨迹信息1中还包含移动轨迹序号、肢体图像在移动轨迹中的出现时间排序、肢体图像的坐标、肢体特征、面部特征、面部图像的序号、所属帧序号、所属视频序号,其中,面部特征为面部特征A,面部图像的序号为0。
需要说明的是,本申请实施例中,如果某个肢体特征在下一帧中没有关联的肢体特征,则不需要记录对应的轨迹信息。
对于任意一帧参考视频帧,如果存在不与上一帧肢体图像关联的肢体图像,即参考视频帧中存在新的肢体,则将该肢体图像作为新增肢体图像,记录的新的参考移动轨迹的初始化轨迹信息。
在一些实施例中,若存在多个参考移动轨迹,则确定多个参考移动轨迹各自包含的多个面部体征之间的第二相似度,并基于确定的各第二相似度,得到所述多个参考移动轨迹之间的轨迹关联关系。其中,第二相似度也可以采用L2距离表示。相应的,基于获得的各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,从各待处理视频中,确定出目标视频的过程中,可以基于获得的各参考移动轨迹,各待处理视频各自对应的候选移动轨迹,各参考移动轨迹之间的轨迹关联关系,以及各候选移动轨迹之间的轨迹关联关系,从各待处理视频中,确定出目标视频。
具体的,确定多个参考移动轨迹各自包含的多个面部体征之间的第二相似度时,针对多个参考移动轨迹中的任意两个参考移动轨迹,确定任意两个参考移动轨迹各自包含的面部特征之间的第二相似度,相应的,基于确定的各第二相似度,得到所述多个参考移动轨迹之间的轨迹关联关系时,基于确定的各第二相似度,得到任意两个参考移动轨迹之间的轨迹关联关系。
基于确定的各第二相似度,得到多个参考移动轨迹之间的轨迹关联关系时,针对多个参考移动轨迹中包含的任意两个参考移动轨迹,执行以下操作:
计算一个参考移动轨迹中包含的多个面部特征,分别与另一个参考移动轨迹中包含的多个面部特征之间的第二相似度,并从计算出的各第二相似度中,筛选出对应取值不小于预设的第二相似度阈值的目标第二相似度;当基于筛选出的各目标第二相似度,确定任意两个参考移动轨迹属于同一检测对象时,在轨迹关联关系中,存储任意两个参考移动轨迹之间的关联关系。
基于筛选出的各目标第二相似度,确定任意两个参考移动轨迹属于同一检测对象时,作为一种可能的实现方式,当目标第二相似度的数目大于预设数目阈值时,确定任意两个参考移动轨迹属于同一检测对象。作为另一种可能的实现方式,当各目标第二相似度的数目与面部图像总数目的比值,不小于预设比值阈值时,确定任意两个参考移动轨迹属于同一检测对象,其中,面部图像总数目为:一个参考移动轨迹中包含的面部特征的数目,或者,另一个参考移动轨迹中包含的面部特征的数目,或者两个参考移动轨迹中包含的面部特征的数目的最小值。
参阅图9所示,以参考移动轨迹1和参考移动轨迹2为例,参考移动轨迹1中包含检索对象1的面部特征A、面部特征D、面部特征G,参考移动轨迹2中包含检索对象1的面部特征B、面部特征F,分别计算面部特征A与面部特征B、面部特征A与面部特征F、面部特征D与面部特征B、面部特征D与面部特征F、面部特征G与面部特征B、面部特征G与面部特征F之间的第二相似度,然后,从计算出的各第二相似度中,筛选出对应取值不小于预设的第二相似度阈值的目标第二相似度,假设,预设比值阈值为0.5,第二相似度阈值为0.2,目标第二相似度的数目为2,面部图像总数目为2,此时,各目标第二相似度的数目与面部图像总数目的比值为1,不小于预设的第二相似度阈值0.5,确定参考移动轨迹1和参考移动轨迹2存在关联。
需要说明的是,如果两个参考移动轨迹之间存在关联,则可以将两个参考移动轨迹中的面部序号标记为相同序号,相同序号可以采用两个参考移动轨迹对应的面部序号中的任意一个,也可以采用两个参考移动轨迹对应的面部序号中的取值最小的面部序号。
通过上述实现方式,在存在多个参考移动轨迹的情况下,基于确定的各第二相似度,得到多个参考移动轨迹之间的轨迹关联关系,后续根据参考移动轨迹进行图像排重时,根据轨迹关联关系,可以快速检索存在关联的移动轨迹,提高图像检索效率。进一步的,可以将属于同一检索对象的参考移动轨迹进行关联,从而提高后续的图像检索效率。
在一些实施例中,为了避免图像质量较差的面部图像影响图像检索结果,在得到各参考移动轨迹后,针对每个参考移动轨迹中包含的多个面部特征对应的面部图像,可以基于多个面部特征各自对应的图像质量评估值,从多个面部特征中,选取设定数目的面部图像,并基于选取出的面部图像对应的面部特征,对该参考移动轨迹中包含的多个面部特征进行更新。其中,图像质量评估值可以是根据对应的面部图像的图像锐度、色差、噪声等信息中的至少一项确定的,但不局限于此。选取设定数目K的面部图像时,可以选取图像质量评估值较高的前K个面部特征。
在一些实施例中,为了提高视频排重的准确率,参阅图10A所示,执行S204时,可以采用但不限于以下步骤:
S2041、基于各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,获得各候选移动轨迹与各参考移动轨迹之间的轨迹相似度。
具体的,执行S2041时,可以采用但不限于以下步骤:
S20411、基于各参考移动轨迹各自包含的肢体特征,以及基于各候选移动轨迹各自包含的肢体特征,确定各候选移动轨迹与各参考移动轨迹之间的肢体特征相似度。
以参考移动轨迹A与候选移动轨迹B为例,参考移动轨迹A为各参考移动轨迹中的任意一个参考移动轨迹,候选移动轨迹B为各候选移动轨迹中的任意一个候选移动轨迹。
参阅图10B所示,假设,参考移动轨迹A中包含肢体特征A1、肢体特征A2、……、肢体特征AN,候选移动轨迹B中包含肢体特征B1、肢体特征B2、……、肢体特征BM,分别计算肢体特征A1、肢体特征A2、……、AN分别与肢体特征B1、肢体特征B2、……、BM之间的肢体相似度。
S20412、基于各参考移动轨迹各自包含的面部特征,以及基于各候选移动轨迹各自包含的面部特征,确定各候选移动轨迹与各参考移动轨迹之间的面部特征相似度。
假设,参考移动轨迹A中包含面部特征A1、面部特征A2、……、面部特征AN,候选移动轨迹B中包含面部特征B1、面部特征B2、……、面部特征BM,分别计算面部特征A1、面部特征A2、……、面部特征AN分别与面部特征B1、面部特征B2、……、面部特征BM之间的肢体相似度。
S20413、基于获得的各肢体特征相似度和各面部特征相似度,获得各候选移动轨迹与各参考移动轨迹之间的轨迹相似度。
本申请实施例中,参考移动轨迹A与候选移动轨迹B之间的轨迹相似度通过以下信息中的至少一项确定:参考移动轨迹A与候选移动轨迹B中相似的肢体特征的数目,参考移动轨迹A与候选移动轨迹B中相似的面部特征的数目。
其中,当参考移动轨迹A中的肢体特征,与候选移动轨迹B中的肢体特征之间的肢体相似度,大于预设肢体相似度阈值时,参考移动轨迹A中的肢体特征与候选移动轨迹B中的肢体特征为相似的肢体特征。示例性的,预设肢体相似度阈值为0.2。
类似的,当参考移动轨迹A中的面部特征,与候选移动轨迹B中的面部特征之间的面部相似度,大于预设面部相似度阈值时,参考移动轨迹A中的面部特征与候选移动轨迹B中的肢体特征为相似的面部特征。
通过上述实现方式,基于各肢体特征相似度和各面部特征相似度,获得各候选移动轨迹与各参考移动轨迹之间的轨迹相似度,这样,轨迹相似度同时包含肢体特征相似度和面部特征相似度,因此,轨迹相似度更为精准。
S2042、基于获得的各轨迹相似度,确定各待处理视频与参考视频之间的视频相似度。
本申请实施例中,当参考移动轨迹A与候选移动轨迹B中相似的肢体特征的数目超过第一阈值,和/或,参考移动轨迹A与候选移动轨迹B中相似的面部特征的数目超过第二阈值时,确定参考移动轨迹A与候选移动轨迹B为相同轨迹。
其中,第一阈值是按照第一设定系数和第一肢体特征数目确定的,其中,第一肢体特征数目可以是以下信息中的一种:参考移动轨迹A中包含的肢体特征的数目,候选移动轨迹B中包含的肢体特征的数目,参考移动轨迹A与候选移动轨迹B中包含的肢体特征的数目的最小值,但不局限于此。
例如,参考移动轨迹A中包含的肢体特征的数目为40,候选移动轨迹B中包含的肢体特征的数目为30,假设,第一设定系数为1/3,第一肢体特征数目为30,则第一阈值为1/3×30=10。
第二阈值是按照第二设定系数和第二面部特征数目确定的,其中,第二面部特征数目可以是以下信息中的一种:参考移动轨迹A中包含的面部特征的数目,候选移动轨迹B中包含的面部特征的数目,参考移动轨迹A与候选移动轨迹B中包含的面部特征的数目的最小值,但不局限于此。
例如,参考移动轨迹A中包含的面部特征的数目为40,候选移动轨迹B中包含的面部特征的数目为30,假设,第一设定系数为1/4,第一肢体特征数目为40,则第一阈值为1/4×40=10。
本申请实施例中,以一个待处理视频与参考视频为例,基于获得的各轨迹相似度,可以确定出待处理视频中的各候选移动轨迹,与各参考移动轨迹中存在的相同轨迹,基于相同轨迹的数目,确定该待处理视频与参考视频之间的视频相似度。本文中,视频相似度也可以称为视频重复度。
示例性的,该待处理视频与参考视频之间的视频相似度的取值为该待处理视频与参考视频中包含的相同轨迹的数量与第三轨迹数目的比值,其中,第三轨迹数目可以是以下信息中的一种:该待处理视频中包含的候选移动轨迹的数目,参考视频中包含的参考移动轨迹的数目,或者前述两项中的最小值,但不局限于此。
S2043、基于各待处理视频与参考视频之间的视频相似度,筛选出符合检索条件的目标视频。
具体的,本申请实施例中,执行S2043时,可以采用但不限于以下方式:
作为一种可能的实现方式,基于各待处理视频与参考视频之间的视频相似度,筛选出符合检索条件的目标视频,对各待处理视频进行排序,从各待处理视频筛选出一定数目的目标视频。
作为另一种可能的实现方式,将从各待处理视频中,筛选出至少一个与参考视频之间的视频相似度超过预设视频相似度阈值的待处理视频,并将筛选出的至少一个待处理视频作为目标视频。
需要说明的是,本申请实施例中,还可以在参考移动轨迹A与候选移动轨迹B为相同轨迹时,将参考移动轨迹A对应的待处理视频作为目标视频,并获取参考移动轨迹A、参考移动轨迹A对应的待处理视频与参考视频之间的视频相似度、参考移动轨迹A对应的待处理视频的视频序号。
需要说明的是,本申请实施例中,目标视频可以是一个或多个,相同轨迹的数目也可以是一个或多个。
下面,对面部特征提取模型的训练过程进行说明。
本文中将训练前的面部特征提取模型称为初始面部特征提取模型,将已训练的面部特征提取模型称为目标面部特征提取模型。
对初始面部特征提取模型的训练过程包括两个阶段:数据采集阶段和模型训练阶段,其中,数据采集阶段用于获取训练数据集,模型训练阶段用于基于训练数据集对初始面部特征提取模型进行训练。
在数据采集阶段,首先,基于样本数据集中的各样本数据之间的第一样本相似度,获得各相似样本组,其次,基于各相似样本组,构建训练数据集,每个训练数据中包含至少三个样本,至少三个样本中的一个样本对应的相似样本组,与其他样本对应的相似样本组不同。
其中,每个相似样本组中包含至少两个样本数据,且相似样本组内的各个样本数据相互为相似样本对。本文中相似样本对也可以称为正样本对。
基于样本数据集中的各样本数据之间的第一样本相似度,获得各相似样本组的过程中,可以采用但不限于以下方式:
方式1:针对样本数据集中的各个样本数据进行面部检测,得到各个样本数据各自对应的面部图像,然后,分别针对得到的各个面部图像中的每两个面部图像进行标注,确定每两个面部图像是否为相似样本对,基于标注结果,得到各组相似样本组。其中,面部图像标注可以是采用预训练的标注模型。
方式2:为了提升标注效率和数据准备效率,参阅图11所示,本申请实施例中提供一种各相似样本组获得方法的流程示意图,该方法应用于电子设备,电子设备可以是终端设备或服务器,需要说明的是,模型训练阶段和模型应用阶段可以由同一电子设备执行,也可以由不同的电子设备执行,模型训练阶段中涉及的数据采集阶段和模型训练阶段由同一电子设备执行,也可以由不同的电子设备执行,具体流程如下:
S1101、针对样本数据集中的各个样本数据进行面部检测,得到各个样本数据各自对应的面部图像。样本数据集可以包含一个或多个视频,也可以包含一个或多个图像。
需要说明的是,在一些实施例中,为了进一步提高标注效率和数据准备效率,针对样本数据集中的各个样本数据进行面部检测之前,还可以按照预设的图像抽取间隔,从样本数据集中抽取出一定数目的样本数据,相应的,针对样本数据集中的各个样本数据进行面部检测时,可以针对抽取出的样本数据进行面部检测,从而减少计算量,提高标注效率。
例如,样本数据集为视频1,视频1中包含视频帧1-视频帧N,假设,预设的图像抽取间隔为10帧抽取一帧,从视频帧1-视频帧N中,抽取出视频帧1、视频帧11、视频帧21等。
具体的,执行S1101的过程中,针对样本数据进行面部检测时,可以采用基于开源数据coco训练的yolo检测模型,检测样本数据中包含的面部图像,并记录面部图像的坐标。
其中,面部图像的形状可以是规则图形,例如,矩形,也可以是不规则图形,如果面部图像的是规则图形,记录面部图像的坐标时,可以将面部图像的中心点坐标,作为面部图像的坐标,如果面部图像是不规则图像,记录面部图像的坐标时,将面部图像的边缘坐标,作为面部图像的坐标。
例如,参阅图3所示,对视频帧1进行面部检测,视频帧1中包含面部图像A、面部图像B和面部图像C,其中,面部图像1、面部图像2和面部图像3均采用矩形标识,面部图像1、面部图像2和面部图像3的中心点坐标分别为(1,2)、(2,3)、(4,5),记录面部图像1、面部图像2和面部图像3的坐标分别为(1,2)、(2,3)、(4,5)。
S1102、基于得到的各面部图像,获得各面部图像各自对应的面部特征。
具体的,执行S1102时,将得到的各面部图像分别输入至预训练的面部模型中,得到各面部图像各自对应的面部特征。预训练的面部模型可以是采用imagenet预训练的resnet101模型,具体而言,采用预训练的resnet101模型的池化(pooling)层输出结果。
S1103、对得到的各面部特征进行聚类,得到各个聚类。
其中,聚类数量是根据各个样本数据中包含的面部图像的总数目确定的,示例性的,计算总数目与设定数目的比值,并对比值取整,得到聚类数量,但不局限于此。
例如,设定数目为20,各个样本数据中包含的面部图像的总数目为200,则聚类数量=200/20=10,即对得到的各面部特征进行聚类,得到10个聚类。
又例如,设定数目为20,各个样本数据中包含的面部图像的总数目为270,则聚类数量=[270/20]=14,即对得到的各面部特征进行聚类,得到14个聚类。
需要说明的是,本申请实施例中,每个聚类中包含的面部图像的数量,需要大于后续聚类清洗采用的图像数量。
S1104、基于各个聚类中的各面部特征之间的距离,分别从各个聚类中,筛选出符合预设聚类条件的面部特征,并基于筛选出的面部特征对应的面部图像,得到各相似样本组。
具体的,执行S1104时,针对每个聚类中的每一个面部特征,基于该面部特征与同一聚类中除该面部特征外的其他面部特征之间的距离,得到该面部特征对应的评估值,进而基于各个聚类中的各面部特征各自对应的评估值,从各个聚类中,筛选出符合预设聚类条件的面部特征。
以聚类x中的面部特征xi为例,聚类x为各个聚类中的任意一个聚类,聚类x中包含各个面部特征,面部特征xi是聚类x中包含的各个面部特征中的任意一个面部特征。
在一些实施例中,可以采用但不限于以下操作,确定面部特征xi对应的评估值:
步骤A1、计算面部特征xi与聚类x中除xi之外的其他面部特征之间的距离。面部特征xi与其他面部特征之间的距离可以采用但不限于L2距离表示。
例如,参阅图12所示,聚类A中包含面部特征1至面部特征20,针对面部特征1,计算面部特征1与面部特征2之间的距离L1,计算面部特征1与面部特征3之间的距离L2,类似的,计算得到面部特征1分别与面部特征2-面部特征20之间的距离L1-L19。
步骤A2、根据计算出的距离,从各其他面部特征中,筛选出设定数目的面部特征。
具体的,根据计算出的距离,从其他面部特征中,按照设定数目,筛选出距离最小的面部特征。
例如,面部特征1与面部特征2-面部特征20之间的距离分别为L1-L19,假设,L1-L19的取值按照从小到大排序依次为L19、L18、……L1,假设,设定数目为5,从其他面部特征中,筛选出L19、L18、L17、L16、L15。
步骤A3、基于筛选出的各面部特征与面部特征xi之间的距离,确定面部特征xi的评估值。
具体的,将筛选出的各面部特征对应的距离的平均值,作为面部特征xi的评估值。
例如,假设,将L19、L18、L17、L16、L15的平均值,作为面部特征1的评估值。
基于各个聚类中的各面部特征各自对应的评估值,从各个聚类中,筛选出符合预设聚类条件的面部特征的过程中,分别从所述各个聚类中的各面部特征中,筛选出对应的评估值小于所述评估值阈值的面部特征,并将筛选出的面部特征,作为符合预设聚类条件的面部特征。
本申请实施例中,如果面部特征xi的评估值小于评估值阈值,则保留面部特征xi,即如果面部特征xi的评估值小于评估值阈值,则面部特征xi为符合预设聚类条件的面部特征。如果面部特征xi的评估值不小于评估值阈值,则将面部特征xi从聚类x中删除。
其中,评估值阈值是根据聚类x中各个面部特征各自对应的评估值确定的。作为一种可能的实现方式,可以按照取值,从聚类x中各个面部特征各自对应的评估值中,确定出中间值,将中间值作为评估值阈值。中间值通过以下方式确定的:将各评估值以递增或递减的次序依次排列时,若评估值的个数是奇数,则按照排列顺序位于中间位置的评估值为中间值,若评估值的个数是偶数,则按照排列顺序位于中间位置的两个数值的平均值为中间值。作为另一种可能的实现方式,将聚类x中各个面部特征各自对应的评估值的平均值,作为评估值阈值。
例如,假设,评估值阈值为10,面部特征1的评估值大于评估值阈值,则将面部特征1从聚类1中删除。
类似的,参阅图13所示,针对聚类1,分别计算面部特征1至面部特征20各自对应的评估值,假设,评估值阈值为10,面部特征1至面部特征20各自对应的评估值分别与1-20,则将面部特征10至面部特征20从聚类1中删除,此时,聚类1中包含面部特征1至面部特征9。
针对每个聚类,均可以通过步骤A1-步骤A4进行聚类清洗,从而得到干净聚类。每个干净聚类为一个相似样本组,组内包含的图像互为相似样本。
需要说明的是,本申请实施例中,如果一个聚类中包含的面部特征的数目小于设定聚类数目,可以舍弃该聚类。例如,设定聚类数据为5,当一个聚类中包含的面部特征的数目小于5,则舍弃该聚类。
假设,相似样本组共N组,由于线上视频资源丰富,可以收集到海量N组数据,如上百万组。
作为一种可能的实现方式,基于各相似样本组,构建训练数据集的过程中,参阅图14所示,本申请实施例中提供一种构建训练数据集的流程示意图,该方法应用于电子设备,电子设备可以是终端设备或服务器,可以采用但不限于以下步骤:
S1401、分别从获得的各相似样本组中,抽取出对应的相似样本对。
由于计算机GPU内存有限,整体训练中需要把全量正样本对分批次(batch)送入GPU训练,故对于每个三元组中的负样本在一个批次(batch)内部挖掘更高效。
对所有N个相似样本组,每bs个相似样本组进行一次模型学习,一个批次中处理bs个相似样本组,在bs个相似样本组中,可以在每组中随机抽取两个样本数据作为相似图像对。
例如,参阅图15所示,相似样本组包括:相似样本组1、相似样本组2、……、相似样本组bs,相似样本组1中包含样本数据1a、1b、1c等,其中,样本数据1a、1b、1c均为同一男性的面部图像,相似样本组2中包含样本数据2a、2b、2c等,相似样本组bs中包含样本数据bsa、bsb、bsc等,相似样本组1中抽取两个样本数据1a,1b,得到相似样本对1(1a,1b),相似样本组2中抽取两个样本数据2a,2b,得到相似样本对2(2a,2b),类似的,相似样本组bs中抽取两个样本数据bsa, bsb,得到相似样本对bs(bsa, bsb)。本文中,样本数据也可以简称为样本。
S1402、针对各相似样本对中的每个相似样本对,分别执行以下操作:
首先,将一个相似样本对中包含的一个样本作为参考样本,并分别从其他相似样本对中,抽取出对应的一个其他样本,以及计算抽取出的各其他样本分别与参考样本之间的第二样本相似度;
其次,基于计算出的第二样本相似度,从各其他样本中,确定出至少一个目标样本,并基于至少一个目标样本和一个相似样本对,得到至少一个训练数据。
需要说明的是,本申请实施例中,当训练数据中包含三个样本时,训练数据也可以称为三元组。三元组表示为(a、p、n),其中,a表示锚点(anchor),p表示正样本(positive),n表示负样本(negative),三元组样本中a和p构成正样本对,a和n构成负样本对,在学习任务中,为保证正样本对之间可被相互检索到,正样本对的特征之间需要足够接近,而负样本对需要足够远离。本文中,相似样本对中的参考样本称为锚点,相似样本对中另一个样本称为正样本,确定出的目标样本称为负样本。
本申请实施例中,其他相似样本对中,抽取出对应的一个其他样本时,可以每对其他相似样本对中随机选择一个样本。第二样本相似度可以采用但不限于L2距离。
以相似样本对1(1a,1b)为例,参阅图16所示,将相似样本对1(1a,1b)中的样本数据1a作为参考样本,从相似样本对2(2a,2b)抽取出样本数据2a,……,从相似样本对bs(bsa, bsb)抽取出样本数据bsa,计算参考样本1a,分别与样本数据2a、样本数据3b、……、样本数据bsa之间的第二样本相似度。
基于计算出的第二样本相似度,从各其他样本中,确定出至少一个目标样本的过程中,可以采用但不限于以下方式:
目标样本确定方式一:基于计算出的第二样本相似度的取值,按照从小到大的顺序,对各其他样本进行排序,并基于排序结果,从各其他样本中,按照从小到大的顺序,依次选取出预设的目标样本数目的目标样本。
例如,参考样本1a分别与样本2a、样本3b、……、样本bsa之间的第二样本相似度分别为L2a、L3b、……、Lbsa,基于计算出的第二样本相似度的取值,按照从小到大的顺序,对各其他样本进行排序,排序结果为:L2a、L3b、……、Lbsa,假设,预设的目标样本数目为20,基于排序结果,从各其他样本中,依次选取出20个样本:样本2a、样本3b、……、样本20a,作为目标样本。
目标样本确定方式二:对于度量学习难负样本比负样本更有价值,由于需要学习的是极度相似样本的特征,对于极度相似样本,认为其特征的距离越小越相似,而海量视频数据中,两张图像为极度相似样本的概率比较低,因此,本申请实施例中,可以直接去掉与参考样本之间的距离最为接近的设定数目的相似样本,从而有效避免两张图像极为相似的情况。
具体的,基于计算出的第二样本相似度的取值,按照从小到大的顺序,对各其他样本进行排序,并基于排序结果,按照从小到大的顺序,从各其他样本中,删除预设样本删除数目的样本,以及从删除后的各其他样本中,依次选取出预设的目标样本数目的目标样本。
例如,参考样本1a分别与样本2a、样本3b、……、样本bsa之间的第二样本相似度分别为L2a、L3b、……、Lbsa,基于计算出的第二样本相似度的取值,按照从小到大的顺序,对各其他样本进行排序,排序结果为:L2a、L3b、……、Lbsa,假设,预设样本删除数目为5,预设的目标样本数目为20,基于排序结果,从各其他样本中,删除样本2a、样本3b、样本4a、样本5b、样本6a,并从样本7a、样本8b、……、样本bsa中,依次选取出20个样本:样本7a、样本8b、……、样本27a,作为目标样本。
需要说明的时,本申请实施例,仅以按照从小到大排序为例进行说明,实际应用过程中,也可以按照从大到小排序,若按从大到小排序,则基于排序结果,从各其他样本中,按照从大到小的顺序依次选取目标样本。
基于至少一个目标样本和一个相似样本对,得到至少一个训练数据的过程中,将一个相似样本对,分别与至少一个目标样本进行组合,得到至少一个训练数据。
例如,假设,针对参考样本1a,目标样本为样本7a、样本8b、……、样本27a,那么,将相似样本对1(1a,1b),分别与样本7a、样本8b、……、样本27a进行组合,得到各训练数据,各训练数据包括:(1a,1b,7a)、(1a,1b,8b)、……、(1a,1b,27a)。
通过上述实现方式,以预设的目标样本数目为20为例,每个相似样本对可以产生20个三元组,整个batch得到20*bs个三元组。为了保证负样本对挖掘有效,bs可以设置为相对加大的值,如1024。
由于基于三元组的度量学习对难样本要求多,若都是简单样本,则模型无法学到具有区分度的表征,通过上述实现方式,实际上前20个负样本里不能保证全是难负样本,但能保证难样本比较多,因此对度量学习较为有利。
在模型训练阶段,参阅图17所示,其为本申请实施例中提供的一种可能的面部特征提取模型的结构示意图,面部特征提取模型中包含卷积神经网络(ConvolutionalNeural Network,CNN)和嵌入层(Fc-embedding),CNN用于提取基础特征,CNN可以采用resnet101的特征提取模块,嵌入层(Fc-embedding)用于输出人体图像表征。
参阅表1所示,CNN中包含卷积层Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x,Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x用来提取图像不同层次的特征,示例性的,浅层的Conv1、Conv2_x可以用于提取图像的浅层特征,比如角点、纹理、明亮等,深层的Conv3_x、Conv4_x、Conv5_x可以用于提取图像的抽象特征,比如眼睛、鼻子、嘴巴、肢体等。
其中,Conv1为7×7×64的卷积,步幅(stride)等于2,Conv2_x包含3×3的最大池化(max pool)层和3个块(block),最大池化层的stride等于2,Conv3_x包含4个block,Conv4_x包含23个block,Conv5_x包含3个block。
Figure 697674DEST_PATH_IMAGE001
参阅表2所示,Fc-embedding输出人体图像表征,基于cnn输出的embedding模块,输出embedding维度128,Pool为最大池化层,Fc-embedding为全连接(full connection)层。表1和表2中均为待学习的模型参数。
Figure 693443DEST_PATH_IMAGE002
参数初始化时,Conv1-Conv5可以采用多标签预训练模型进行参数初始化,其他结构,如Fc-embedding,可以采用方差为0.01,均值为0的高斯分布进行初始化。
具体的,为了提升模型性能,提高模型训练效果,在模型训练过程中,参阅图18所示,本申请实施例中提供一种构建训练数据集的流程示意图,该方法应用于电子设备,电子设备可以是终端设备或服务器,对初始面部特征提取模型进行迭代训练,每次迭代过程中,执行以下操作:
S1801、基于样本数据集中包含的各相似样本组,以及预设批次数据处理量,构建各批次各自对应的训练数据集,每个训练数据中包含至少三个样本,至少三个样本中的一个样本对应的相似样本组,与其他样本对应的相似样本组不同。
需要说明的是,本申请实施例中,在数据采集阶段获取到各相似样本组之后,可以在数据采集阶段基于各相似样本组,得到各批次各自对应的训练数据集,也可以在模型训练阶段,基于各相似样本组,得到各批次各自对应的训练数据集,训练数据集的获得方法参见S1401-S1402。
S1802、将构建的各训练子集合,分批次输入至初始面部特征提取模型,得到相应的模型总损失,并基于得到的模型总损失,对初始面部特征提取模型进行调整,以及在确定满足预设收敛条件时,输出目标面部特征提取模型。
针对全量共N个图像正样本组,每次迭代(epoch)从每个正样本组中随机抽取2个样本组成正样本对,每次迭代会遍历一次所有图像正样本组,最终每次迭代需要处理N个正样本对。
在每个迭代中数据分批次(batch,以batch为单位更新网络,一个batch的数据更新一次网络参数)学习并更新模型,每个批次随机取bs个图像样本对输入,更新模型,再从剩下中取bs样本对输入……共N/bs个批次需要学习。
在每个batch中,针对一个训练数据,进行模型前向计算,获取表1和表2中各项模 型参数的输出,计算相应的子图度量损失。具体的,可以采用三元损失(triplet loss)作为 该训练数据对应的子图度量损失。针对三元组(a,p,n),三元组(a,p,n)的三元损失
Figure 738759DEST_PATH_IMAGE003
采用 以下公式计算得到:
Figure 665127DEST_PATH_IMAGE004
其中,xa、xp、xn分别表示三元组中a、p、n各自对应的面部特征,α为margin,用于表示两个embedding之间的L2距离。triplet loss的目的是使得anchor与negative的距离比距离positive的距离大于margin,示例性的,margin设置为0.6。
本申请实施例中,在每个批次中,对每1个批次的bs个三元组,均可以通过上述公式计算相应的子图度量损失。基于bs个三元组各自对应的子图度量损失,计算得到模型总损失。
基于得到的模型总损失,对初始面部特征提取模型进行调整的过程中,可以采用但不限于梯度下降法(SGD)回传计算网络中每个模型参数的梯度,并根据梯度更新模型参数。当完成全量N/bs次更新后,完成一个epoch。
根据梯度更新模型参数的过程中,可以采用计算得到的模型总损失,进行梯度后向计算,得到更新的模型参数的梯度,并基于得到的梯度,更新模型参数的参数值。基于得到的梯度,更新模型参数的参数值时,可以根据不同的学习率更新模型参数。学习率是一个超参数,用于控制每次更新模型权重时响应估计错误而更改模型的程度,示例性的,学习率为0.0005,每10轮学习率调整为原来的0.1倍。
本申请实施例中,预设收敛条件可以包括但不限于以下条件中的至少一种:
条件1:迭代次数达到预设的迭代次数阈值,例如,迭代次数阈值为10。
条件2:连续P1次的平均模型总损失小于预设损失阈值。
条件3:连续P2次的平均模型总损失未下降。
其中,平均模型总损失是根据模型更新次数以及历史模型总损失确定的,P1、P2均为自然数。
需要说明的是,本申请实施例中,面部特征提取模型的训练过程与上文类似,在此不再赘述。除了resnet101也可以使用不同的网络结构、不同的预训练模型权重作为基础模型,也可以采用更多层网络组成分类深层特征提取模块。
下面,结合具体实施例,对本申请进行说明。
实施例一:针对动物的视频排重。
参考视频为视频2,视频2中包含视频帧1和视频帧2,基于指定的检测对象类型:熊,分别对视频帧1和视频帧2进行面部检测,得到视频帧1和视频帧2各自包含的各面部图像及相应的面部特征,视频帧1中包含两个面部图像,视频帧2中包含两个面部图像。
基于上述检测对象类型,分别对视频帧1和视频帧2进行肢体检测,确定视频帧1和视频帧2各自包含的各肢体图像及相应的肢体特征,视频帧1中包含两个肢体图像,视频帧2中包含两个肢体图像。
基于确定的各面部图像与各肢体图像,获得视频2对应的两个参考移动轨迹,参考移动轨迹1中包含熊1的两个肢体特征和两个面部特征,参考移动轨迹1中包含熊2的两个肢体特征和两个面部特征。
基于获得的视频2的参考移动轨迹1和参考移动轨迹2,以及基于各待处理视频各自对应的候选移动轨迹,从各待处理视频中,确定出对应的候选移动轨迹与参考视频匹配的目标视频。
实施例二:基于电视剧的穿搭推荐
参考视频为电视剧,指定的检测对象类型为人物,获取到参考视频中包含的各参考移动轨迹,每个参考移动轨迹为电视剧中的主角或配角的多个肢体特征和多个面部特征。然后,基于各参考移动轨迹中包含的肢体特征的数量,按照数量从大到小的顺序,从各参考移动轨迹中,确定出设定数目的参考移动轨迹。
将电视剧中除确定出的参考移动轨迹之外包含的其他参考移动轨迹,作为待处理轨迹,即电视剧既是参考视频,也是待处理视频。基于确定出的参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,从待处理视频中,确定出对应的候选移动轨迹与参考视频匹配的目标视频,其中,与参考视频匹配的目标视频是指由同一检索对象的不同移动轨迹组成的视频。
示例性的,可以从各参考移动轨迹中,确定出肢体图像数量最多的前4个面部图像,进而从前4个参考移动轨迹中,确定前4个面部图像各自对应的不同轨迹,然后,基于前4个面部图像各自对应的不同轨迹,得到目标视频,其中,前4个面部图像各自对应的不同轨迹中,可以选择图片质量最高的肢体图像进行展示。
实施例三:视频剪辑。
以长视频为例,指定的检测对象类型为人物,基于指定的检测对象类型,获取到参考视频中包含的各参考移动轨迹,之后,基于各参考移动轨迹中包含的肢体特征的数量,按照数量从大到小的顺序,从各参考移动轨迹中,确定出设定数目的参考移动轨迹。
将长视频中除确定出的参考移动轨迹之外包含的其他参考移动轨迹,作为待处理轨迹,即长视频既是参考视频,也是待处理视频。基于确定出的参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,从待处理视频中,确定出对应的候选移动轨迹与参考视频匹配的目标视频,其中,与参考视频匹配的目标视频是指由属于同一检索对象且表情不同的面部图像的移动轨迹组成的视频。
示例性的,可以从各参考移动轨迹中,确定出肢体图像数量最多的前4个面部图像,进而从前4个参考移动轨迹中,确定前4个面部图像各自对应的不同轨迹,然后,从前4个面部图像各自对应的参考移动轨迹,选取与前4个面部图像属于同一检索对象且表情不同的面部图像的移动轨迹,得到并展示目标视频,为保证表情出现时长固定,每个表情选择前后10帧。
基于相同的发明构思,本申请实施例提供一种数据处理装置。如图19所示,其为数据处理装置1900的结构示意图,可以包括:
面部检测单元1901,用于基于指定的检测对象类型,分别对参考视频中包含的多个参考视频帧进行面部检测,确定所述多个参考视频帧各自包含的至少一个面部图像及相应的面部特征;
肢体检测单元1902,用于基于所述检测对象类型,分别对所述多个参考视频帧进行肢体检测,确定所述多个参考视频帧各自包含的至少一个肢体图像及相应的肢体特征;
轨迹确定单元1903,用于基于确定的各面部图像与各肢体图像,获得所述参考视频对应的至少一个参考移动轨迹,每个参考移动轨迹中包含一个检测对象的多个肢体特征和多个面部特征;
轨迹应用单元1904,用于基于获得的各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,从所述各待处理视频中,确定出目标视频。
面部检测单元1901、肢体检测单元1902、轨迹确定单元1903和轨迹应用单元1904相互配合,以实现数据处理装置1900在上述各个实施例中的功能。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
关于上述实施例中的装置,其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例中,通过对视频中的面部图像、肢体图像进行挖掘,相比起常规的全局视频表征,面部特征、肢体特征可以更精准地图像之间的差异,从而提高了图像检索的准确性,同时,相对于相关技术中每帧抽取一个特征,本申请中通过获取包含肢体特征和面部特征的参考移动轨迹,可以更准确地抽取长视频信息,从而使得图像检索效果更好。
相比起单一视频embedding检索的方法,本申请中特征所代表的信息更明确,有利于针对特定类别的检索对象进行分析,有利于难例优化以及模型持续迭代。
此外,通过设计面部图像、肢体图像的有效细节纹理聚合,对不同的面部图像、肢体图像进行表征,以及挖掘相同视频下的不同图像进行三元组学习,提升了面部图像、肢体图像的表征效果,为各后续图像排重提供更准确的相似度信息。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
基于相同的发明构思,本申请实施例还提供一种电子设备。在一种实施例中,该电子设备可以是服务器,也可以是终端设备。参阅图20所示,其为本申请实施例中提供的一种可能的电子设备的结构示意图,图20中,电子设备2000包括:处理器2010和存储器2020。
其中,存储器2020存储有可被处理器2010执行的计算机程序,处理器2010通过执行存储器2020存储的指令,可以执行上述数据处理方法的步骤。
存储器2020可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器2020也可以是非易失性存储器(non-volatilememory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器2020是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器2020也可以是上述存储器的组合。
处理器2010可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器2010,用于执行存储器2020中存储的计算机程序时实现上述数据处理方法。
在一些实施例中,处理器2010和存储器2020可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
本申请实施例中不限定上述处理器2010和存储器2020之间的具体连接介质。本申请实施例中以处理器2010和存储器2020之间通过总线连接为例,总线在图20中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线可以分为地址总线、数据总线、控制总线等。为便于描述,图20中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其包括计算机程序,当计算机程序在电子设备上运行时,计算机程序用于使电子设备执行上述数据处理方法的步骤。在一些可能的实施方式中,本申请提供的数据处理方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行上述数据处理方法中的步骤,例如,电子设备可以执行如图2中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(Compact Disk Read Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用CD-ROM并包括计算机程序,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储计算机程序的有形介质,该计算机程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的计算机程序。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (18)

1.一种数据处理方法,其特征在于,所述方法包括:
基于指定的检测对象类型,分别对参考视频中包含的多个参考视频帧进行面部检测,确定所述多个参考视频帧各自包含的至少一个面部图像及相应的面部特征;
基于所述检测对象类型,分别对所述多个参考视频帧进行肢体检测,确定所述多个参考视频帧各自包含的至少一个肢体图像及相应的肢体特征;
基于确定的各面部图像与各肢体图像,获得所述参考视频对应的至少一个参考移动轨迹,每个参考移动轨迹中包含一个检测对象的多个肢体特征和多个面部特征;
基于获得的各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,从所述各待处理视频中,确定目标视频。
2.如权利要求1所述的方法,其特征在于,所述基于确定的各面部图像与各肢体图像,获得所述参考视频对应的至少一个参考移动轨迹,包括:
基于确定的各面部图像与各肢体图像,确定所述各面部图像与所述各肢体图像之间的面部肢体关联关系;
基于所述面部肢体关联关系,以及基于所述各肢体图像各自对应的肢体特征之间的第一相似度,获得所述参考视频对应的至少一个参考移动轨迹。
3.如权利要求2所述的方法,其特征在于,所述基于确定的各面部图像与各肢体图像,确定所述各面部图像与所述各肢体图像之间的面部肢体关联关系,包括:
针对所述多个参考视频帧中的每个参考视频帧,分别执行以下操作:
计算一个参考视频帧中包含的至少一个肢体图像,分别与所述一个参考视频帧中包含的至少一个面部图像之间的图像重合面积;
将所述至少一个肢体图像和所述至少一个面部图像中,对应的图像重合面积不小于预设重合面积阈值的面部图像与肢体图像进行关联。
4.如权利要求2所述的方法,其特征在于,所述基于所述面部肢体关联关系,以及基于所述各肢体图像各自对应的肢体特征之间的第一相似度,获得所述参考视频对应的至少一个参考移动轨迹,包括:
计算所述各肢体图像各自对应的肢体特征之间的第一相似度,并基于计算出的各第一相似度,确定所述参考视频对应的前后帧肢体关联关系;
基于所述面部肢体关联关系和所述前后帧肢体关联关系,获得所述参考视频对应的至少一个参考移动轨迹。
5.如权利要求4所述的方法,其特征在于,所述计算所述各肢体图像各自对应的肢体特征之间的第一相似度,并基于计算出的各第一相似度,确定所述参考视频对应的前后帧肢体关联关系,包括:
针对所述多个参考视频帧,按照视频播放顺序,依次执行以下操作:
获取各肢体图像组,每个肢体图像组中包含:当前参考视频帧中的第一肢体图像和下一个参考视频帧中的第二肢体图像;
计算所述各肢体图像组各自对应的第一相似度,每个第一相似度用于表征对应的第一肢体图像和第二肢体图像之间的相似度;
从所述各肢体图像组中,筛选出对应的第一相似度不小于第一相似度阈值的目标肢体图像组,并基于筛选出的各目标肢体图像组,得到所述前后帧肢体关联关系。
6.如权利要求2所述的方法,其特征在于,所述基于确定的各面部图像与各肢体图像,获得所述参考视频对应的至少一个参考移动轨迹之后,还包括:
若存在多个参考移动轨迹,则确定所述多个参考移动轨迹各自包含的多个面部体征之间的第二相似度;
基于确定的各第二相似度,得到所述多个参考移动轨迹之间的轨迹关联关系。
7.如权利要求6所述的方法,其特征在于,所述基于确定的各第二相似度,得到所述多个参考移动轨迹之间的轨迹关联关系,包括:
针对所述多个参考移动轨迹中包含的任意两个参考移动轨迹,执行以下操作:
计算一个参考移动轨迹中包含的多个面部特征,分别与另一个参考移动轨迹中包含的多个面部特征之间的第二相似度,并从计算出的各第二相似度中,筛选出对应取值不小于预设的第二相似度阈值的目标第二相似度;
当基于筛选出的各目标第二相似度,确定所述任意两个参考移动轨迹属于同一检测对象时,在所述轨迹关联关系中,存储所述任意两个参考移动轨迹之间的关联关系。
8.如权利要求1-7中任一项所述的方法,其特征在于,所述基于获得的各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,从所述各待处理视频中,确定目标视频,包括:
基于所述各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,获得各候选移动轨迹与所述各参考移动轨迹之间的轨迹相似度;
基于获得的各轨迹相似度,确定所述各待处理视频与所述参考视频之间的视频相似度;
从所述各待处理视频中,筛选出至少一个与所述参考视频之间的视频相似度超过预设视频相似度阈值的待处理视频,并将筛选出的至少一个待处理视频作为目标视频。
9.如权利要求8所述的方法,其特征在于,所述基于所述各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,获得各候选移动轨迹与所述各参考移动轨迹之间的轨迹相似度,包括:
基于所述各参考移动轨迹各自包含的肢体特征,以及基于所述各候选移动轨迹各自包含的肢体特征,确定所述各候选移动轨迹与所述各参考移动轨迹之间的肢体特征相似度;
基于所述各参考移动轨迹各自包含的面部特征,以及基于所述各候选移动轨迹各自包含的面部特征,确定所述各候选移动轨迹与所述各参考移动轨迹之间的面部特征相似度;
基于获得的各肢体特征相似度和各面部特征相似度,获得各候选移动轨迹与所述各参考移动轨迹之间的轨迹相似度。
10.如权利要求1-7中任一项所述的方法,其特征在于,所述确定相应的面部特征,包括:
将所述多个参考视频帧各自包含的至少一个面部图像,分别输入至已训练的目标面部特征提取模型中,得到相应的面部特征,其中,所述目标面部特征提取模型是通过迭代训练得到的,每次迭代过程中,执行以下操作:
基于样本数据集中包含的各相似样本组,以及预设批次数据处理量,构建各批次各自对应的训练数据集,每个训练数据中包含至少三个样本,所述至少三个样本中的一个样本对应的相似样本组,与其他样本对应的相似样本组不同;
将构建的各训练子集合,分批次输入至初始面部特征提取模型,得到相应的模型总损失,并基于得到的模型总损失,对所述初始面部特征提取模型进行调整,以及在确定满足预设收敛条件时,输出目标面部特征提取模型。
11.如权利要求10所述的方法,其特征在于,所述基于样本数据集中包含的各相似样本组,以及预设批次数据处理量,构建各批次各自对应的训练数据集,包括:
基于预设批次数据处理量,从样本数据集中包含的各相似样本组中,抽取出各批次各自对应的相似样本对;
针对每个相似样本对,分别执行以下操作:
将一个相似样本对中包含的一个样本作为参考样本,并分别从其他相似样本对中,抽取出对应的一个其他样本,以及计算抽取出的各其他样本分别与所述参考样本之间的第二样本相似度;
基于计算出的第二样本相似度,从所述各其他样本中,确定出至少一个目标样本,并基于所述至少一个目标样本和所述一个相似样本对,得到至少一个训练数据。
12.如权利要求10所述的方法,其特征在于,所述相似样本组是通过以下方式得到的:
针对样本数据集中的各个样本数据进行面部检测,得到所述各个样本数据各自对应的面部图像及相应的面部特征;
对得到的各面部特征进行聚类,得到各个聚类;
基于所述各个聚类中的各面部特征之间的距离,分别从所述各个聚类中,筛选出符合预设聚类条件的面部特征,并基于筛选出的面部特征对应的面部图像,得到各相似样本组。
13.如权利要求12所述的方法,其特征在于,所述基于所述各个聚类中的各面部特征之间的距离,分别从所述各个聚类中,筛选出符合预设聚类条件的面部特征,包括:
基于所述各个聚类中的各面部特征之间的距离,确定所述各个聚类中的各面部特征各自对应的评估值;
基于所述各个聚类中的各面部特征各自对应的评估值,从各个聚类中,筛选出符合预设聚类条件的面部特征。
14.如权利要求13所述的方法,其特征在于,所述基于所述各个聚类中的各面部特征之间的距离,确定所述各个聚类中的各面部特征各自对应的评估值,包括:
针对所述各个聚类中的每个面部特征,执行以下操作:
计算一个聚类中的一个面部特征,分别与所述一个聚类中除所述一个面部特征外的其他面部特征之间的距离,并根据计算出的距离,从各其他面部特征中,筛选出设定数目的面部特征;
基于筛选出的各面部特征与所述一个面部特征之间的距离,确定所述一个面部特征的评估值。
15.如权利要求13所述的方法,其特征在于,所述基于所述各个聚类中的各面部特征各自对应的评估值,从各个聚类中,筛选出符合预设聚类条件的面部特征,包括:
基于所述各个聚类中的各面部特征各自对应的评估值,确定所述各个聚类各自对应的评估值阈值;
分别从所述各个聚类中的各面部特征中,筛选出对应的评估值小于所述评估值阈值的面部特征,并将筛选出的面部特征,作为符合预设聚类条件的面部特征。
16.一种数据处理装置,其特征在于,包括:
面部检测单元,用于基于指定的检测对象类型,分别对参考视频中包含的多个参考视频帧进行面部检测,确定所述多个参考视频帧各自包含的至少一个面部图像及相应的面部特征;
肢体检测单元,用于基于所述检测对象类型,分别对所述多个参考视频帧进行肢体检测,确定所述多个参考视频帧各自包含的至少一个肢体图像及相应的肢体特征;
轨迹确定单元,用于基于确定的各面部图像与各肢体图像,获得所述参考视频对应的至少一个参考移动轨迹,每个参考移动轨迹中包含一个检测对象的多个肢体特征和多个面部特征;
轨迹应用单元,用于基于获得的各参考移动轨迹,以及基于各待处理视频各自对应的候选移动轨迹,从所述各待处理视频中,确定出目标视频。
17.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~15中任一所述方法的步骤。
18.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~15中任一所述方法的步骤。
CN202210958643.1A 2022-08-11 2022-08-11 数据处理方法及相关装置 Active CN115098732B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210958643.1A CN115098732B (zh) 2022-08-11 2022-08-11 数据处理方法及相关装置
PCT/CN2023/102825 WO2024032177A1 (zh) 2022-08-11 2023-06-27 数据处理方法、装置、电子设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210958643.1A CN115098732B (zh) 2022-08-11 2022-08-11 数据处理方法及相关装置

Publications (2)

Publication Number Publication Date
CN115098732A true CN115098732A (zh) 2022-09-23
CN115098732B CN115098732B (zh) 2022-11-11

Family

ID=83301351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210958643.1A Active CN115098732B (zh) 2022-08-11 2022-08-11 数据处理方法及相关装置

Country Status (2)

Country Link
CN (1) CN115098732B (zh)
WO (1) WO2024032177A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024032177A1 (zh) * 2022-08-11 2024-02-15 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、存储介质及程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509896A (zh) * 2018-03-28 2018-09-07 腾讯科技(深圳)有限公司 一种轨迹跟踪方法、装置和存储介质
CN111797652A (zh) * 2019-04-09 2020-10-20 佳能株式会社 对象跟踪方法、设备及存储介质
CN112199543A (zh) * 2020-10-14 2021-01-08 哈尔滨工程大学 一种基于图像检索模型的对抗样本生成方法
US11048919B1 (en) * 2018-05-30 2021-06-29 Amazon Technologies, Inc. Person tracking across video instances
CN114282059A (zh) * 2021-08-24 2022-04-05 腾讯科技(深圳)有限公司 视频检索的方法、装置、设备及存储介质
CN114783043A (zh) * 2022-06-24 2022-07-22 杭州安果儿智能科技有限公司 一种儿童行为轨迹定位方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098732B (zh) * 2022-08-11 2022-11-11 腾讯科技(深圳)有限公司 数据处理方法及相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509896A (zh) * 2018-03-28 2018-09-07 腾讯科技(深圳)有限公司 一种轨迹跟踪方法、装置和存储介质
US11048919B1 (en) * 2018-05-30 2021-06-29 Amazon Technologies, Inc. Person tracking across video instances
CN111797652A (zh) * 2019-04-09 2020-10-20 佳能株式会社 对象跟踪方法、设备及存储介质
CN112199543A (zh) * 2020-10-14 2021-01-08 哈尔滨工程大学 一种基于图像检索模型的对抗样本生成方法
CN114282059A (zh) * 2021-08-24 2022-04-05 腾讯科技(深圳)有限公司 视频检索的方法、装置、设备及存储介质
CN114783043A (zh) * 2022-06-24 2022-07-22 杭州安果儿智能科技有限公司 一种儿童行为轨迹定位方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024032177A1 (zh) * 2022-08-11 2024-02-15 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN115098732B (zh) 2022-11-11
WO2024032177A1 (zh) 2024-02-15

Similar Documents

Publication Publication Date Title
Zhang et al. Detection of co-salient objects by looking deep and wide
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN110728294A (zh) 一种基于迁移学习的跨领域图像分类模型构建方法和装置
CN112069929A (zh) 一种无监督行人重识别方法、装置、电子设备及存储介质
CN111339343A (zh) 图像检索方法、装置、存储介质及设备
Li et al. Depthwise nonlocal module for fast salient object detection using a single thread
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
Zheng et al. A feature-adaptive semi-supervised framework for co-saliency detection
Kart et al. Depth masked discriminative correlation filter
CN111209897A (zh) 视频处理的方法、装置和存储介质
CN113177616A (zh) 图像分类方法、装置、设备及存储介质
CN114283350A (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN113569895A (zh) 图像处理模型训练方法、处理方法、装置、设备及介质
CN114358109A (zh) 特征提取模型训练、样本检索方法、装置和计算机设备
Wang et al. Action recognition using edge trajectories and motion acceleration descriptor
CN113763385A (zh) 视频目标分割方法、装置、设备及介质
CN115098732B (zh) 数据处理方法及相关装置
CN107220597B (zh) 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法
Wang et al. Fast and accurate action detection in videos with motion-centric attention model
Wang et al. Hierarchical image segmentation ensemble for objectness in RGB-D images
CN113762041A (zh) 视频分类方法、装置、计算机设备和存储介质
CN111709473A (zh) 对象特征的聚类方法及装置
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
JP2016014990A (ja) 動画像検索方法、動画像検索装置及びそのプログラム
Ramesh et al. Efficient key frame extraction and hybrid wavelet convolutional manta ray foraging for sports video classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40072601

Country of ref document: HK