CN117576520A - 目标检测模型的训练方法、目标检测方法及电子设备 - Google Patents

目标检测模型的训练方法、目标检测方法及电子设备 Download PDF

Info

Publication number
CN117576520A
CN117576520A CN202410059185.7A CN202410059185A CN117576520A CN 117576520 A CN117576520 A CN 117576520A CN 202410059185 A CN202410059185 A CN 202410059185A CN 117576520 A CN117576520 A CN 117576520A
Authority
CN
China
Prior art keywords
sample
feature vector
target
video image
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410059185.7A
Other languages
English (en)
Other versions
CN117576520B (zh
Inventor
张天柱
马银超
汤宇旸
杨文飞
张金鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202410059185.7A priority Critical patent/CN117576520B/zh
Publication of CN117576520A publication Critical patent/CN117576520A/zh
Application granted granted Critical
Publication of CN117576520B publication Critical patent/CN117576520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种目标检测模型的训练方法、目标检测方法及电子设备。该方法包括:将第一模态样本输入目标检测模型的第一神经网络,得到第一模态样本特征向量;将第二模态样本输入目标检测模型的第二神经网络,得到第二模态样本特征向量;对第一模态样本特征向量与第二模态样本特征向量进行第一拼接处理,得到第三模态样本特征向量;将第三模态样本特征向量输入目标检测模型的第三神经网络,得到第四模态样本特征向量;将第四模态样本特征向量输入目标检测模型的第四神经网络,得到目标样本对象的检测结果;利用目标样本对象的检测结果调整目标检测模型的模型参数,得到经训练的目标检测模型。

Description

目标检测模型的训练方法、目标检测方法及电子设备
技术领域
本发明涉及人工智能技术领域,尤其涉及计算机视觉领域和多模态领域,更具体地,涉及一种目标检测模型的训练方法、目标检测方法及电子设备。
背景技术
目前,目标跟踪是通过给定的模态参考信息(例如,视觉参考信息、语言参考信息或视觉语言参考信息)作为目标的描述,在当前帧裁剪的搜索区域中定位目标。其在自动驾驶、智能监控、人机交互等场景中有着广泛的应用。
针对给定的不同模态参考信息作为目标描述,其采用不同的跟踪模型对相应的模态参考信息进行跟踪,实现目标对象的检测。例如,针对以给定的视觉参考信息作为目标描述,可以基于视觉跟踪模型,利用首帧给定的目标框裁剪模板,通过该模板与搜索区域的图像的特征交互,定位目标;针对以给定的视觉语言参考信息,可以基于视觉语言跟踪模型,将语言特征融入到特征提取与交互中,来增强视觉信息。
在实现本发明的过程中,利用视觉跟踪模型进行目标跟踪时,其无法通过给定的包含高级语义的语言参考信息进行目标的跟踪;而利用视觉语言跟踪模型进行目标跟踪时,如若缺少语言参考信息时,该模型的性能会大幅度下降。可见,针对现有跟踪模型只能在特定的模态参考信息下进行目标跟踪,而无法自切换不同模态参考信息进行目标跟踪,从而降低了模型的泛化性和准确性,限制了模型的应用场景。
发明内容
鉴于上述问题,本发明提供了一种目标检测模型的训练方法、目标检测方法及电子设备。
本发明的一方面提供了一种目标检测模型的训练方法,包括:将第一模态样本输入目标检测模型的第一神经网络,得到第一模态样本特征向量,第一模态样本包括样本自然语言描述文本;基于具有任务导向的多头注意力机制,将第二模态样本输入目标检测模型的第二神经网络,得到第二模态样本特征向量,第二模态样本包括待搜索区域的第一样本视频图像和与待搜索区域的第一样本视频图像对应的样本模板图像,样本自然语言描述文本表征待搜索区域的第一样本视频图像中包含的待检测的目标样本;对第一模态样本特征向量与第二模态样本特征向量进行第一拼接处理,得到第三模态样本特征向量;基于具有任务导向的多头注意力机制,将第三模态样本特征向量输入目标检测模型的第三神经网络,得到第四模态样本特征向量;将第四模态样本特征向量输入目标检测模型的第四神经网络,得到目标样本对象的检测结果;利用目标样本对象的检测结果调整目标检测模型的模型参数,得到经训练的目标检测模型。
本发明的另一方面提供了一种目标检测方法,包括:利用目标检测模型对不同模态进行目标对象检测,得到目标对象的检测结果,不同模态包括第一模态和/或第二模态,其中,第一模态包括自然语言描述文本,第二模态包括待搜索区域的第一视频图像和与待搜索区域的第一视频图像对应的模板图像,自然语言描述文本表征待搜索区域的第一视频图像中包含的待检测的目标对象;其中,目标检测模型是利用根据上述训练方法训练得到的。
本发明的另一方面提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述目标检测模型的训练方法及目标检测方法。
本发明的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,指令在被执行时用于实现上述目标检测模型的训练方法及目标检测方法。
本发明的另一方面提供了一种计算机程序产品,计算机程序产品包括计算机可执行指令,指令在被执行时用于实现上述目标检测模型的训练方法及目标检测方法。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示出了根据本发明实施例的目标检测模型的训练方法、目标检测方法及装置的应用场景图。
图2示出了根据本发明实施例的目标检测模型的训练方法的流程图。
图3示出了根据本发明实施例的得到第二模态样本特征向量的方法的流程图。
图4示出了根据本发明实施例的得到第四模态样本特征向量的方法的流程图。
图5(a)示出了根据本发明一实施例的不同模态样本下的第一注意力掩膜的示意图。
图5(b)示出了根据本发明一实施例的不同模态样本下的第二注意力掩膜示意图。
图6(a)示出了根据本发明另一实施例的不同模态样本下的第一注意力掩膜的示意图。
图6(b)示出了根据本发明另一实施例的不同模态样本下的第二注意力掩膜示意图。
图7(a)示出了根据本发明另一实施例的不同模态样本下的第一注意力掩膜的示意图。
图7(b)示出了根据本发明另一实施例的不同模态样本下的第二注意力掩膜示意图。
图8示出了根据本发明实施例的得到历史目标语义特征向量、历史干扰物图像特征向量和历史背景图像特征向量的方法的示意图。
图9示出了根据本发明实施例的基于第四神经网络得到目标样本对象的检测结果的方法的示意图。
图10(a)示出了根据本发明实施例的第二概率值的概率密度示意图。
图10(b)示出了根据本发明实施例的第二概率值的概率分布示意图。
图11示出了根据本发明实施例的得到经训练的目标检测模型的方法的流程图。
图12(a)示出了根据本发明实施例的正样本和负样本的图像的示意图。
图12(b)示出了根据本发明实施例的确定多模态对比损失值的方法的示意图。
图13(a)示出了根据本发明实施例的目标检测模型的训练方法的确定第四损失函数值的示意图。
图13(b)示出了根据本发明实施例的目标检测模型的训练方法的确定第一损失函数值的示意图。
图13(c)示出了根据本发明实施例的目标检测模型的训练方法的确定总损失函数值的示意图。
图14示出了根据本发明实施例的目标检测模型的训练装置的框图。
图15示出了根据本发明实施例的适于实现目标检测模型的训练方法和目标检测方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本发明的实施例中,所涉及的数据(例如,包括但不限于用户个人信息)的收集、更新、分析、处理、使用、传输、提供、公开、存储等方面,均符合相关法律法规的规定,被用于合法的用途,且不违背公序良俗。特别地,对用户个人信息采取了必要措施,防止对用户个人信息数据的非法访问,维护用户个人信息安全和网络安全。
在本发明的实施例中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
图1示出了根据本发明实施例的目标检测模型的训练方法、目标检测方法及装置的应用场景图。
如图1所示,根据该实施例的应用场景可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本发明实施例所提供的目标检测模型的训练方法和目标检测方法一般可以由服务器105执行。相应地,本发明实施例所提供的目标检测模型的训练装置和目标检测装置一般可以设置于服务器105中。本发明实施例所提供的目标检测模型的训练方法和目标检测方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本发明实施例所提供的目标检测模型的训练装置和目标检测装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的第一终端设备、第二终端设备、第三终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的第一终端设备、第二终端设备、第三终端设备、网络和服务器。
图2示出了根据本发明实施例的目标检测模型的训练方法的流程图。
如图2所示,该方法包括操作S210~操作S260。
在操作S210,将第一模态样本输入目标检测模型的第一神经网络,得到第一模态样本特征向量,第一模态样本包括样本自然语言描述文本。
在操作S220,基于具有任务导向的多头注意力机制,将第二模态样本输入目标检测模型的第二神经网络,得到第二模态样本特征向量,第二模态样本包括待搜索区域的第一样本视频图像,样本自然语言描述文本表征待搜索区域的第一样本视频图像中包含的待检测的目标样本对象。
在操作S230,对第一模态样本特征向量与第二模态样本特征向量进行第一拼接处理,得到第三模态样本特征向量。
在操作S240,基于具有任务导向的多头注意力机制,将第三模态样本特征向量输入目标检测模型的第三神经网络,得到第四模态样本特征向量。
在操作S250,将第四模态样本特征向量输入目标检测模型的第四神经网络,得到目标样本对象的检测结果。
在操作S260,利用目标样本对象的检测结果调整目标检测模型的模型参数,得到经训练的目标检测模型。
根据本发明的实施例,第一模态样本可以为样本自然语言描述文本,第一神经网络可以为由N层文本编码器构成的网络,用于基于多头注意力机制,对样本自然语言描述文本经过N层文本编码器的文本处理,得到第一模态样本特征向量。
根据本发明的实施例,第二模态样本可以包括待搜索区域的第一样本视频图像和与待搜索区域的第一样本视频图像对应的样本模板图像。样本模板图像可以为待搜索区域的第一样本视频图像的首帧目标样本图像。
根据本发明的实施例,第一模态样本与第二模态样本为不同模态样本。第一模态样本包含的样本自然语言描述文本可以是待搜索区域的第一样本视频图像中包含的目标样本对象。例如,样本自然语言描述文本为“cat climbing down a tree”,待搜索区域的第一样本视频图像中包含有与该样本自然描述文本相应的目标样本对象。样本模板图像是通过对待搜索区域的第一样本视频图像中含有目标样本对象的首帧图像经过目标框裁剪得到的。
根据本发明的实施例,第二神经网络可以为由N层图像编码器构成的网络,用于基于具有任务导向的多头注意力机制,可以对待搜索区域的第一样本视频图像经过N层图像编码器的图像处理,也可以对待搜索区域的第一样本视频图像和样本模板图像经过N层图像编码器的图像处理,得到相应的第二模态样本特征向量。
根据本发明的实施例,第一神经网络和第二神经网络都是具有N层的网络。N为大于或等于1的正整数,第一神经网络和第二神经网络可以构成浅层编码器,用于提取第一模态样本和第二模态样本的浅层特征,得到第一模态样本特征向量和第二模态样本特征向量。浅层编码器提取的浅层特征可以包括第一模态样本和第二模态样本的底层语言信息、图像块像素信息等。
根据本发明的实施例,第一模态样本在第一神经网络的每一层得到相应的第一模态样本特征向量,与第二模态样本在第二神经网络的每一层得到相应的第二模态样本特征向量在浅层编码器中进行模态特征对齐,以将不同模态的特征对齐到统一的语义空间。
根据本发明的实施例,当给定模态样本为第二模态样本中待搜索区域的第一样本视频图像和与待搜索区域的第一样本视频图像对应的样本模板图像,则利用浅层编码器的第二神经网络对该第二模态样本进行处理,得到第二模态样本特征向量。
根据本发明的实施例,当给定模态样本为第一模态样本和第二模态样本中的待搜索区域的第一样本视频图像,则利用浅层编码器的第一神经网络对第一模态样本处理,得到第一模态样本特征向量;利用浅层编码器的第二神经网络对待搜索区域的第一样本视频图像进行处理,得到待搜索区域的第一样本视频图像特征向量,此处,待搜索区域的第一样本视频图像特征向量作为第二模态样本特征向量。
根据本发明的实施例,当给定模态样本为第一模态样本和第二模态样本中的待搜索区域的第一样本视频图像和与待搜索区域的第一样本视频图像对应的样本模板图像,则利用浅层编码器的第一神经网络对第一模态样本处理,得到第一模态样本特征向量;利用浅层编码器的第二神经网络对待搜索区域的第一样本视频图像进行处理,得到第一样本视频图像特征向量;利用浅层编码器的第二神经网络对样本模板图像进行处理,得到样本模板图像特征向量,并将拼接后的第一样本视频图像特征向量和样本模板图像特征向量作为第二模态特征向量。
根据本发明的实施例,可以将得到的第一模态样本特征向量和第二模态样本特征向量进行第一拼接,得到第三模态样本特征向量。第三模态样本特征向量包含有样本文本特征向量和第一样本视频图像特征向量以及样本模板图像特征向量。
根据本发明的实施例,第三神经网络可以为具有M层的深层编码器,M为大于或等于1的正整数,用于提取第三模态样本特征向量的深度特征,得到第四模态样本特征向量。深层编码器提取的深层特征可以包括一些粗粒度信息,包含更抽象的信息,也就是语义信息,语义信息可以包括语言语义信息和视觉语义信息。
根据本发明的实施例,第四神经网络可以为模态自适应目标检测网络,用于对第四模态样本特征向量进行特征提取,得到目标样本对象的检测结果。目标样本对象的检测结果可以通过将得到的目标样本对象与真实对象进行比较,确定检测准确率。
根据本发明的实施例,可以根据获得的目标样本对象的检测结果调整目标检测模型的参数,例如,可以包括调整各个神经网络的权重参数,再对目标检测模型继续训练,直至得到的目标样本对象的检测结果满足预设检测结果阈值,该目标检测模型训练完成,得到经训练的目标检测模型。
根据本发明的实施例,通过基于具有任务导向的多头注意力机制,将第二模态样本输入目标检测模型的第二神经网络,得到第二模态样本特征向量,并将第二模态样本特征向量与得到的第一模态样本特征向量进行拼接处理,得到第三模态样本特征向量,并基于任务导向的多头注意力机制,将第三模态样本特征向量输入目标检测模型的第三神经网络,得到第四模态样本特征向量;将第四模态样本特征向量输入目标检测模型的第四神经网络,得到目标样本对象的检测结果;利用目标样本对象的检测结果调整目标检测模型的模型参数,得到经训练的目标检测模型。至少部分地解决了针对现有检测模型只能在特定的模态参考信息下进行目标检测,无法自切换不同模态参考信息进行目标跟踪,从而降低了模型的泛化性和准确性,限制了模型的应用场景的技术问题。实现通过基于该方法对检测模型进行训练,能够自由切换在不同模态下的目标检测,有效提高对不同模态下的目标检测的泛化性和准确性。
根据本发明的实施例,将第一模态样本输入目标检测模型的第一神经网络,得到第一模态样本特征向量,可以包括:将第一模态样本进行文本编码,具体地,可以先对第一模态样本进行文本分词,再将每个词的词向量拼在一起形成样本文本特征向量,其中,K l 为第一模态样本的特征数量,C为通道数。
根据本发明的实施例,为了能够使得第一神经网络捕捉到第一模态样本的全局语义特征,可以在形成的样本文本特征向量前放置一个样本语言语义特征向量/>,其中,
根据本发明的实施例,可以将样本语言语义特征向量和样本文本特征向量/>进行拼接,形成第一中间样本文本特征向量/>
根据本发明的实施例,基于多头注意力机制,可以将第一中间样本文本特征向量作为第一神经网络第一层的输入,对该第一中间样本文本特征向量/>进行层归一化和线型映射,可以生成与第一神经网络第一层对应的注意力机制的键向量/>、查询向量以及值向量/>。基于上述键向量/>、查询向量/>以及值向量/>,利用第一中间样本文本特征向量/>,可以得到第一神经网络第一层的第二中间样本文本特征向量/>,对第二中间样本文本特征向量/>进行层归一化和多层感知机处理,得到第一神经网络第一层输出的第一模态样本特征向量/>,以第一神经网络第一层输出的第一模态样本特征向量/>作为第一神经网络第二层输入,得到第一神经网络第二层输出的第一模态样本特征向量/>。以此类推,以第一神经网络第i-2层输出的第一模态样本特征向量/>作为第一神经网络第i-1层输入,得到第一神经网络第i-1层输出的第一模态样本特征向量/>
根据本发明的实施例,针对第一神经网络第i层,可以以第一神经网络第i-1层输出的第一模态样本特征向量作为第一神经网络第i层的输入,基于上述得到第一神经网络第一层输出的第一模态样本特征向量/>的方式,得到第一神经网络第i层输出的第一模态样本特征向量/>
根据本发明的实施例,第二中间样本文本特征向量可以通过下式计算得到,如式(1):
(1);
其中,表示与第一神经网络第i层对应的第二中间样本文本特征向量;/>表示与第一神经网络第i层对应的键向量;/>表示与第一神经网络第i层对应的查询向量;/>表示与第一神经网络第i层对应的值向量;C表示通道数。
根据本发明的实施例,第一神经网络第i层输出的第一模态样本特征向量可以通过下式计算得到,如式(2):
(2);
其中,1≤iNN为大于或等于1的整数;表示多层感知机,/>表示层归一化。
根据本发明的实施例,针对第一神经网络第N层,可以以第一神经网络第N-1层输出作为第一神经网络第N层的输入,基于上述得到第一神经网络第i层输出的第一模态样本特征向量/>的方式,并结合上式(1)~(2),计算得到第一神经网络第N层输出的第一模态样本特征向量/>。并将第一神经网络第N层输出的第一模态样本特征向量/>作为第一神经网络最终输出的第一模态样本特征向量。
根据本发明实施例,将第二模态样本输入目标检测模型的第二神经网络,得到第二模态样本特征向量,包括:对待搜索区域的第一样本视频图像进行图像编码,得到第一样本视频图像特征向量;对样本模板图像进行图像编码,得到样本模板图像特征向量;对第一样本视频图像特征向量和样本模板图像特征向量进行第二拼接处理,得到第一中间模态样本特征向量;将第一中间模态样本特征向量输入目标检测模型的第二神经网络,得到第二模态样本特征向量。
根据本发明的实施例,第二模态样本可以包括待搜索区域的第一样本视频图像,也可以包括待搜索区域的第一样本视频图像和待搜索区域的第一样本视频图像的样本模板图像。样本模板图像是通过对待搜索区域的第一样本视频图像中含有目标样本对象的首帧图像经过目标框裁剪得到的。
根据本发明的实施例,如果第二模态样本为待搜索区域的第一样本视频图像,则只对待搜索区域的第一样本视频图像进行图像编码;如果第二模态样本为待搜索区域的第一样本视频图像和待搜索区域的第一样本视频图像的样本模板图像,则分别对待搜索区域的第一样本视频图像和待搜索区域的第一样本视频图像的样本模板图像进行图像编码。
根据本发明的实施例,可以对待搜索区域的第一样本视频图像进行图像编码,具体地,可以将待搜索区域的第一样本视频图像切分成图片块,再根据图片块对应的位置向量,得到第一样本视频图像特征向量,其中,/>K x 为第一样本视频图像的图像特征向量的数量,C为通道数。
根据本发明的实施例,对样本模板图像进行图像编码,具体地,可以将样本模板图像切分成图片块,再根据图片块对应的位置向量,得到样本模板图像特征向量,其中,K z 为样本模板图像的特征数量,C为通道数。
根据本发明的实施例,可以将样本模板图像特征向量和第一样本视频图像特征向量/>进行第二拼接,得到拼接后的图像特征向量/>
需要说明的是,如果第二模态样本为待搜索区域的第一样本视频图像,则在拼接时,相应样本模板图像特征向量取0,形成的拼接后的图像特征向量/>;如果第二模态样本为待搜索区域的第一样本视频图像和待搜索区域的第一样本视频图像的样本模板图像,则将样本模板图像特征向量/>和第一样本视频图像特征向量/>进行拼接,得到拼接后的图像特征向量/>
根据本发明的实施例,可以以统一表示第一中间模态样本特征向量。
根据本发明的实施例,为了能够使得第二神经网络捕捉到第二模态样本中样本模板图像的全局语义特征,可以在拼接后的图像特征向量前放置一个样本视觉语义特征向量,其中,/>
根据本发明的实施例,可以将样本视觉语义特征向量和拼接后的图像特征向量/>进行再次拼接,形成第一中间模态样本特征向量/>
根据本发明的实施例,可以基于具有任务导向的多头注意力机制,对第一中间模态样本特征向量输入第二神经网络,并对该第一中间模态样本特征向量进行层归一化和多层感知机处理,得到第二模态样本特征向量。
图3示出了根据本发明实施例的得到第二模态样本特征向量的方法的流程图。
如图3所示,该方法包括操作S310~操作S350。
在操作S310,根据第一中间模态样本特征向量,得到与第一中间模态样本特征向量对应的第一掩膜矩阵。
在操作S320,根据第一中间模态样本特征向量,得到与第i-1层对应的第二模态样本特征向量。
在操作S330,对与第i-1层对应的第二模态样本特征向量进行线性变换处理,得到与第i层对应的第一参数特征向量。
在操作S340,根据与第i-1层对应的第二模态样本特征向量、第一掩膜矩阵、第一参数特征向量,确定与第i层对应的第二中间模态样本特征向量。
在操作S350,根据与第i层对应的第二中间模态样本特征向量,得到与第i层对应的第二模态样本特征向量。
根据本发明的实施例,第二神经网络具有与第一神经网络相同层数的网络结构,不同之处在于,第一神经网络每一层设计了多头注意力机制,而第二神经网络每一层设计了具有任务导向的多头注意力机制。下面,具体说明将第一中间模态样本特征向量输入目标检测模型的第二神经网络,得到第二模态样本特征向量。
根据本发明的实施例,可以对该第一中间模态样本特征向量进行掩膜处理,得到与第一中间模态样本特征向量/>对应的第一掩膜矩阵M a 。第一掩膜矩阵M a 可以用来屏蔽与任务无关的注意力值,避免与任务无关的特征交互。
根据本发明的实施例,将第一中间模态样本特征向量作为第二神经网络第一层的输入,得出第二神经网络第一层输出的第二模态样本特征向量/>,以第二神经网络第一层输出的第二模态样本特征向量/>作为第二神经网络第二层输入,得到第二神经网络第二层输出的第二模态样本特征向量/>。以此类推,以第二神经网络第i-2层输出的第二模态样本特征向量/>作为第二神经网络第i-1层输入,得到第二神经网络第i-1层输出的第二模态样本特征向量/>
根据本发明的实施例,针对第二神经网络第i层,可以以第二神经网络第i-1层输出的第二模态样本特征向量作为第二神经网络第i层的输入,对该第二模态样本特征向量/>进行层归一化和线型映射,得到与第二神经网络第i层对应的第一参数特征向量,第一参数特征向量可以包括注意力机制的键向量/>、查询向量/>以及值向量/>
根据本发明的实施例,可以基于上述键向量、查询向量/>、值向量/>以及第一掩膜矩阵M a ,利用第二神经网络第i-1层输出的第二模态样本特征向量/>,得到与第二神经网络第i层对应的第二中间模态样本特征向量/>。对与第二神经网络第i层对应的第二中间模态样本特征向量/>进行层归一化和多层感知机处理,得到第二神经网络第i层输出的第二模态样本特征向量/>
根据本发明的实施例,第二中间模态样本特征向量可以通过下式计算得到,如式(3):
(3);
其中,表示与第二神经网络第i层对应的第二中间模态样本特征向量;/>表示与第二神经网络第i层对应的键向量、/>表示与第二神经网络第i层对应的查询向量;/>表示与第二神经网络第i层对应的值向量;M a 表示第一掩膜矩阵;C表示通道数。
根据本发明的实施例,第二神经网络第i层输出的第二模态样本特征向量可以通过下式计算得到,如式(4):
(4);
其中,1≤iNN为大于或等于1的整数;表示多层感知机,/>表示层归一化。
根据本发明的实施例,针对第二神经网络第N层,可以以第二神经网络第N-1层输出作为第二神经网络第N层的输入,基于上述得到第二神经网络第i层输出的第二模态样本特征向量/>的方式,并结合上式(3)~(4),计算得到第二神经网络第N层输出的第二模态样本特征向量/>。并将第二神经网络第N层输出的第二模态样本特征向量/>作为第二神经网络最终输出的第二模态样本特征向量。
图4示出了根据本发明实施例的得到第四模态样本特征向量的方法的流程图。
如图4所示,该方法包括操作S410~操作S450。
在操作S410,根据第三模态样本特征向量,确定与第三模态样本特征向量对应的第二掩膜矩阵。
在操作S420,根据第三模态样本特征向量,得到与第j-1层对应的第三模态样本特征向量。
在操作S430,对与第j-1层对应的第三模态样本特征向量进行线性变换处理,得到与第j层对应的第二参数特征向量。
在操作S440,根据与第j-1层对应的第三模态样本特征向量、第二掩膜矩阵、第二参数特征向量,确定与第j层对应的第三中间模态样本特征向量。
在操作S450,根据与第j层对应的第三中间模态样本特征向量,得到与第j层对应的第四模态样本特征向量。
根据本发明的实施例,第三神经网络可以为具有多层的网络结构。第三模态样本特征向量是通过将第一模态样本特征向量和第二模态样本特征向量进行拼接后得到的。第三模态样本特征向量可以表示为
根据本发明的实施例,可以对第三模态样本特征向量进行掩膜处理,得到与第三模态样本特征向量/>对应的第二掩膜矩阵/>。第二掩膜矩阵/>与第一掩膜矩阵M a 的作用相同,都是可以用来屏蔽与任务无关的注意力值,避免与任务无关的特征交互。
根据本发明的实施例,将第三模态样本特征向量作为第三神经网络第一层的输入,得出第三神经网络第一层输出的第四模态样本特征向量/>,以第三神经网络第一层输出的第四模态样本特征向量/>作为第三神经网络第二层输入,得到第三神经网络第二层输出的第四模态样本特征向量/>。以此类推,以第三神经网络第i-2层输出的第四模态样本特征向量/>作为第三神经网络第i-1层输入,得到第三神经网络第i-1层输出的第四模态样本特征向量/>
根据本发明的实施例,针对第三神经网络第i层,可以以第三神经网络第i-1层输出的第四模态样本特征向量作为第三神经网络第i层的输入,对该第四模态样本特征向量/>进行层归一化和线型映射,得到与第三神经网络第i层对应的第二参数特征向量,第二参数特征向量可以包括注意力机制的键向量/>、查询向量/>以及值向量/>
根据本发明的实施例,可以基于上述键向量、查询向量/>、值向量以及第二掩膜矩阵/>,利用第三神经网络第i-1层输出的第四模态样本特征向量,得到与第三神经网络第i层对应的第三中间模态样本特征向量/>。对与第三神经网络第i层对应的第三中间模态样本特征向量/>进行层归一化和多层感知机处理,得到第三神经网络第i层输出的第四模态样本特征向量/>
根据本发明的实施例,第三中间模态样本特征向量可以通过下式计算得到,如式(5):
(5);/>
其中,表示与第三神经网络第i层对应的第三中间模态样本特征向量;表示与第三神经网络第i层对应的键向量、/>表示与第三神经网络第i层对应的查询向量;/>表示与第三神经网络第i层对应的值向量;/>表示第二掩膜矩阵;C表示通道数。
根据本发明的实施例,第三神经网络第i层输出的第四模态样本特征向量可以通过下式计算得到,如式(6):
(6);
其中,1≤iMM为大于或等于1的整数;表示多层感知机,/>表示层归一化。
根据本发明的实施例,针对第三神经网络第M层,可以以第三神经网络第M-1层输出作为第三神经网络第M层的输入,基于上述得到第三神经网络第i层输出的第四模态样本特征向量/>的方式,并结合上式(5)~(6),计算得到第三神经网络第M层输出的第四模态样本特征向量/>。并将第三神经网络第M层输出的第四模态样本特征向量/>作为第三神经网络最终输出的第四模态样本特征向量。
图5(a)示出了根据本发明一实施例的不同模态样本下的第一注意力掩膜的示意图;图5(b)示出了根据本发明一实施例的不同模态样本下的第二注意力掩膜示意图。
根据本发明的实施例,上述提出将第一神经网络和第二神经网络构成具有N层的浅层编码器;第三神经网络构成具有M层的深层编码器。
参照图5(a)和5(b),当没有给定第一模态样本时,将待搜索区域的第一样本视频图像和与待搜索区域的第一样本视频图像对应的样本模板图像输入浅层编码器中,利用浅层编码器中的第二神经网络对待搜索区域的第一样本视频图像和与待搜索区域的第一样本视频图像对应的样本模板图像进行处理,得到如图5(a)示意的特征向量的数量,其中,K z 表示样本模板图像特征向量的数量;K x 表示第一样本视频图像的图像特征向量的数量,为了能够使得第二神经网络捕捉到不同模态样本的全局语义特征,因此,在拼接后的样本模板图像特征向量和第一样本视频图像特征向量前放置了一个样本视觉语义特征向量,该样本视觉语义特征向量的数量为1。图5(a)中显示第二模态样本特征向量的数量为1+K z +K x 。由于输入浅层编码器中的第二模态样本包含有待搜索区域的第一样本视频图像和样本模板图像,因此,无需进行掩膜,如图5(a)所示的示意图,根据上式(3)计算,第一掩膜矩阵可以为0。其中,K x K z 为大于或等于1的正整数。
由于浅层编码器中第一神经网络没有对第一模态样本的样本文本特征向量进行处理,样本文本特征向量可以用0表示,因此,经过N层浅层编码器进行特征交互后,从浅层编码器输出的第二模态样本特征向量后,进行拼接得到的第三模态样本特征向量不包含样本文本特征向量。
将第三模态样本特征向量输入M层的深层编码器进行特征交互,深层编码器可以根据输入的第三模态样本特征向量,将不包含的样本文本特征向量(即,图5(b)中对应的样本文本特征向量的数量1+K l )进行掩膜,得到第二掩膜矩阵,如图5(b)所示的示意图,根据上式(5)计算,第二掩膜矩阵可以为负无穷,白色部分为0。
图6(a)示出了根据本发明另一实施例的不同模态样本下的第一注意力掩膜的示意图;图6(b)示出了根据本发明另一实施例的不同模态样本下的第二注意力掩膜示意图。
参照图6(a)和6(b),当没有给定第二模态样本包含的待搜索区域的第一样本视频图像对应的样本模板图像时,将待搜索区域的第一样本视频图像和第一模态样本输入浅层编码器中,利用浅层编码器中的第一神经网络对第一模态样本进行处理,得到第一模态样本特征向量,第一模态样本特征向量的数量为K l ;为了能够使得第一神经网络捕捉到第一模态样本的全局语义特征,因此,在该第一模态样本的特征向量前放置了一个样本语言语义特征向量,图6(a)中显示第一模态样本特征向量的数量为1+K l 。利用浅层编码器中的第二神经网络对待搜索区域的第一样本视频图像进行处理,并将不包含的样本模板图像特征向量进行掩膜,得到第一掩膜矩阵,如图6(a)所示的示意图,根据上式(3)计算,第一掩膜矩阵可以为负无穷(-inf),白色部分为0。
经过浅层编码器中的N层第一神经网络对第一模态样本进行特征交互,得到第一模态样本特征向量;经过浅层编码器中的N层第二神经网络对第二模态样本中的待搜索区域的第一样本视频图像进行特征交互,得到第二模态样本特征向量;将第一模态样本特征向量和第二模态样本特征向量进行拼接后得到第三模态样本特征向量;第三模态样本特征向量不包含样本模板图像特征向量。
将第三模板特征向量输入M层的深层编码器进行特征交互,深层编码器可以根据输入的第三模态样本特征向量,将样本视觉语义特征向量和不包含的样本模板图像特征向量进行掩膜(即,图6(b)中对应的样本视觉语义特征向量和样本模板图像特征向量的数量1+K z ),得到第二掩膜矩阵,如图6(b)所示的示意图,根据上式(5)计算,第二掩膜矩阵可以为负无穷(-inf),白色部分为0。
图7(a)示出了根据本发明另一实施例的不同模态样本下的第一注意力掩膜的示意图;图7(b)示出了根据本发明另一实施例的不同模态样本下的第二注意力掩膜示意图。
参照图7(a)和7(b),当同时给定第一模态样本和第二模态样本包含的待搜索区域的第一样本视频图像和与待搜索区域的第一样本视频图像对应的样本模板图像时,将第二模态样本和第一模态样本输入浅层编码器中,利用浅层编码器中的第一神经网络对第一模态样本进行处理,得到第一模态样本特征向量;利用浅层编码器中的第二神经网络对第二模态样本的待搜索区域的第一样本视频图像和与待搜索区域的第一样本视频图像对应的样本模板图像进行处理,得到第二模态样本特征向量。由于输入浅层编码器中的第二模态样本包含有待搜索区域的第一样本视频图像和样本模板图像,因此,无需进行掩膜,如图7(a)所示的示意图,根据上式(3)计算,第一掩膜矩阵可以为0。
经过浅层编码器中的N层第一神经网络对第一模态样本进行特征交互,得到第一模态样本特征向量;经过浅层编码器中的N层第二神经网络对第二模态样本中的待搜索区域的第一样本视频图像和样本模板图像进行特征交互,得到第二模态样本特征向量;将第一模态样本特征向量和第二模态样本特征向量进行拼接后得到第三模态样本特征向量;第三模态样本特征向量包含样本文本特征向量,第一样本视频图像特征向量和样本模板图像特征向量。
将第三模板特征向量输入M层的深层编码器进行特征交互,深层编码器可以根据输入的第三模态样本特征向量,对第三模态样本特征向量进行处理。由于该第三模态样本特征向量包含有样本文本特征向量和样本模板图像特征向量,无需进行掩膜,如图7(b)所示的示意图,根据式(5)计算,第二掩膜矩阵可以为0。
根据本发明的实施例,上述目标检测模型的训练方法还可以包括:根据与第二样本视频图像对应的历史中间样本视频图像特征向量,确定第二样本视频图像特征向量,第二样本视频图像包括与待搜索区域的第一样本视频图像相关的历史搜索区域的视频图像。
根据本发明的实施例,第二样本视频图像可以为与待搜索区域的第一样本视频图像相关的历史搜索区域的视频图像,例如,可以为该待搜索区域的第一样本视频图像所在当前帧的上一帧对应的视频图像,即,历史待搜索区域的第二样本视频图像。
根据本发明的实施例,根据与第二样本视频图像对应的历史中间样本视频图像特征向量,确定第二样本视频图像特征向量,包括:获取历史中间样本视频图像特征向量;对历史中间样本视频图像特征向量进行特征处理,确定第二样本视频图像特征向量。
根据本发明的实施例,可以从存储的待搜索区域的第一样本视频图像的历史帧中获得对应的历史第一样本视频图像特征向量,并将历史第一样本视频图像特征向量作为历史中间样本视频图像特征向量的历史待搜索区域的第二样本视频图像特征向量;并将历史待搜索区域的第二样本视频图像特征向量和样本模板图像特征向量作为历史中间样本视频图像特征向量。
根据本发明的实施例,与待搜索区域的第一样本视频图像对应的样本模板图像为一给定待检测的目标样本图像,在进行目标样本检测时,该样本模板图像一直不变。
根据本发明的实施例,可以基于历史目标掩膜矩阵,利用历史中间样本视频图像特征向量和第四模态样本特征向量包括的目标语义特征向量,确定第二样本视频图像特征向量。
根据本发明的实施例,具体地,可以根据历史中间样本视频图像特征向量获取历史目标掩膜矩阵,以及相应的历史待搜索区域的第二样本视频图像特征向量/>。样本模板图像特征向量/>和历史搜索区域的第二样本视频图像特征向量/>组合形成历史中间样本视频图像特征向量/>
根据本发明的实施例,第四模态样本特征向量包括待搜索区域的第三样本视频图像特征向量。
根据本发明的实施例,将第四模态样本特征向量输入目标检测模型的第四神经网络,得到目标样本对象的检测结果,包括:对待搜索区域的第三样本视频图像特征向量进行卷积操作,得到目标样本对象的目标框的第一中心点位置分数信息、第一中心点位置偏移信息和尺寸信息;根据第二样本视频图像特征向量和第四模态样本特征向量,确定目标样本对象的目标框的目标分类分数信息;根据第一中心点位置分数信息和目标分类分数信息,确定目标样本对象的目标框的中间目标中心点位置信息;根据中间目标中心点位置信息、第一中心点位置偏移信息和尺寸信息,确定目标样本对象的目标框的位置信息;根据目标框的位置信息,得到目标样本对象的检测结果。
根据本发明的实施例,上述提到为了使得第一神经网络捕捉到第一模态样本的全局语义特征,可以在形成的样本文本特征向量前放置一个样本语言语义特征向量/>为了能够使得第二神经网络捕捉到第二模态样本中样本模板图像的全局语义特征,可以在拼接后的图像特征向量/>前放置一个样本视觉语义特征向量/>
根据本发明的实施例,得到的第四模态样本特征向量包含经过由第一神经网络和第二神经网络构成的N层浅层编码器处理,以及经第三神经网络构成的M深层编码器处理之后的相应的样本语言语义特征向量和/或样本视觉语义特征向量、样本文本特征向量和待搜索区域的第三样本视频图像特征向量。其中,待搜索区域的第三样本视频图像特征向量是通过对待搜索区域的第一样本视频图像经过浅层编码器和深层编码器处理得到的。
根据本发明的实施例,可以将待搜索区域的第三样本视频图像特征向量输入第四神经网络中的三分支卷积网络进行二维化处理及卷积操作,可以得到待检测的目标样本对象的目标框的第一中心点位置分数信息/>、第一中心点位置偏移信息和尺寸信息/>
根据本发明的实施例,第一中心位置分数信息,第一中心点位置偏移信息/>,尺寸信息/>。其中,H x 表示待搜索区域的第一样本视频图像的宽,W x 表示待搜索区域的第一样本视频图像的高;p为将第一样本视频图像分成的每个图像块的边长。
根据本发明的实施例,根据第二样本视频图像特征向量和第四模态样本特征向量,确定目标样本对象的目标框的目标分类分数信息,可以包括:基于历史目标掩膜矩阵,根据历史中间样本视频图像特征向量和目标语义特征向量,确定与历史目标框相关的第一概率值和第二概率值;根据第一概率值和历史中间样本视频图像特征向量,得到历史目标语义特征向量;根据第二概率值,确定第二样本视频图像中的历史干扰物掩膜矩阵和历史背景掩膜矩阵;根据历史中间样本视频图像特征向量、目标语义特征向量、历史目标掩膜矩阵、历史干扰物掩膜矩阵和历史背景掩膜矩阵,确定第二样本视频图像特征向量;根据第二样本视频图像特征向量和待搜索区域的第三样本视频图像特征向量,确定第一目标相似度;根据历史目标语义特征向量和待搜索区域的第三样本视频图像特征向量,确定第二目标相似度;根据第一目标相似度和第二目标相似度,确定目标样本对象的目标框的目标分类分数信息。
根据本发明的实施例,第四模态样本特征向量还可以包括目标语义特征向量。/>
根据本发明的实施例,目标语义特征向量可以包括目标语言语义特征向量和/或目标视觉语义特征向量。当输入模态信息为第一模态样本和第二模态样本中的待搜索区域的第一样本视频图像,则目标语义特征向量为目标语言语义特征向量;当输入模态信息为第一模态样本和第二模态样本的样本模板图像和待搜索区域的第一样本视频图像,则目标语义特征向量为目标语言语义特征向量和目标视觉语义特征向量;当输入模态信息为第二模态样本的样本模板图像和待搜索区域的第一样本视频图像,则目标语义特征向量为目标视觉语义特征向量。
根据本发明的实施例,可以基于历史掩膜矩阵,利用目标语义特征向量和历史中间样本视频图像特征向量/>,可以计算与历史目标框相关的第一概率值/>和第二概率值/>
根据本发明的实施例,第一概率值可以为历史目标框内的图像块属于目标样本对象的概率;第二概率值可以为历史目标框外的图像块属于目标样本对象的概率。
根据本发明的实施例,第一概率值可以通过下式(7)计算得到,第二概率值可以通过下式(8)计算得到,具体地:
(7);
(8);
其中,C为通道数;为历史中间样本视频图像特征向量的转置向量;/>为针对历史目标框内的历史掩膜矩阵,图像块在历史目标框内时,/>设置为0,图像块在历史目标框外时,/>设置为负无穷;/>为针对历史目标框外的历史掩膜矩阵,图像块在历史目标框外时,/>设置为0,图像块在历史目标框内时,/>设置为负无穷。
根据本发明的实施例,可以根据第二样本视频图像进行图像编码得到历史中间样本视频图像特征向量和第一概率值/>,计算得到历史目标语义特征向量/>。如式(9):
(9);
根据本发明的实施例,可以通过概率阈值β来确定第二样本视频图像中的历史干扰物掩膜矩阵和历史背景掩膜矩阵/>。例如,可以取β值为0.75,将第二概率值按照降序排列,并将样本模板图像特征向量与历史干扰物图像特征向量与背景图像特征向量进行累加获得概率分布,根据概率分布进行特征融合。
根据本发明的实施例,针对历史干扰物掩膜矩阵,将概率分布值小于或等于阈值β的第二样本视频图像特征向量的位置设置为0,其他位置设置为负无穷;针对历史背景掩膜矩阵/>,将概率分布值大于阈值β值的第二样本视频图像特征向量的位置设置为0,其他位置设置为负无穷。
根据本发明的实施例,可以根据历史中间样本视频图像特征向量、目标语义特征向量/>、针对历史目标框外的历史掩膜矩阵/>、历史干扰物掩膜矩阵/>和历史背景掩膜矩阵/>,确定第二样本视频图像特征向量的历史干扰物图像特征向量/>和历史背景图像特征向量/>。具体地,可以通过下式(10)~(11)得到:
(10);
(11);
根据本发明的实施例,可以将历史目标语义特征向量叠加至目标语义特征向量/>,可以得到叠加后的目标语义特征向量/>。即,可以通过式(12)得到:
(12);
根据本发明的实施例,可以将历史干扰物图像特征向量叠加至可学习的干扰物特征向量/>,/>为可学习的参数向量,可以得到叠加后的干扰物图像特征向量/>。即,可以通过式(13)得到:
(13);
根据本发明的实施例,可以将历史背景图像特征向量叠加至可学习的背景特征向量/>,/>为可学习的参数向量,可以得到叠加后的背景图像特征向量/>。即,可以通过式(14)得到:
(14);
根据本发明的实施例,第四模态样本特征向量包含的待搜索区域的第三样本视频图像特征向量,可以表示为/>,其中,K x 表示表示第一样本视频图像的图像特征向量的数量,1≤rK x K x 为大于等于1的正整数。
根据本发明的实施例,可以将叠加后的目标语义特征向量与待搜索区域的第三样本视频图像特征向量中的每一个图像特征向量进行相似度计算,可以得到第二目标相似度/>。具体地,可以通过下式(15)得到:
(15);
其中,τ为温度系数。
根据本发明的实施例,可以将叠加后的干扰物图像特征向量和叠加后的背景图像特征向量/>分别与待搜索区域的第三样本视频图像特征向量中的每一个图像特征向量进行相似度计算,再取二者最大相似度值,作为第一目标相似度/>,同时,为了避免未见过的特征在归一化后有相对较大的第一目标相似度,因此,本发明在计算第一目标相似度时,添加了一个0。具体地,可以通过下式(16)得到:
(16);
根据本发明的实施例,可以根据第一目标相似度和第二目标相似度,确定待搜索区域的第三样本视频图像特征向量中所属目标样本对象的目标相似度。具体地,可以通过下式(17)得到:
(17);
根据本发明的实施例,可以根据目标相似度确定目标样本对象的目标框的中间目标分类分数信息/>。即,/>
根据本发明的实施例,可以将中间目标分类分数信息进行二维处理,可以得到目标样本对象的目标框的目标分类分数信息/>,可以表示为/>
根据本发明的实施例,目标样本对象的目标框的目标分类分数信息可以表征该待搜索区域的第一样本视频图像中的每一个图像块属于目标样本对象的概率。
根据本发明的实施例,可以根据第一中心点位置分数信息和目标分类分数信息/>,得到目标样本对象的目标框的中间目标中心点位置信息/>。具体地,可以通过下式(18)得到:
(18);
根据本发明的实施例,可以根据目标样本对象的目标框的中间目标中心点位置信息和第一中心点位置偏移信息/>,确定该目标样本对象的目标框的目标中心点位置信息/>。具体地,可以通过下式(19)得到:
(19);
其中,p为将第一样本视频图像分成的每个图像块边长;表示向x方向偏移;/>表示向y方向偏移。
根据本发明的实施例,可以根据尺寸信息和目标样本对象的目标框的中间目标中心点位置信息/>,确定该目标样本对象的目标框的高度信息/>和宽度信息。具体地,可以通过下式(20)得到:/>
(20);
其中,H x 表示待搜索区域的第一样本视频图像的宽度;W x 表示待搜索区域的第一样本视频图像的高度;表示目标样本对象的目标框进行归一化后的宽度;表示目标样本对象的目标框进行归一化后的高度。
根据本发明的实施例,根据目标样本对象的目标框的目标中心点和目标样本对象的目标框的高度信息/>和宽度信息/>,可以确定目标样本对象的目标框的位置信息,将目标框内的样本对象作为目标样本对象,得出目标检测结果。
图8示出了根据本发明实施例的得到历史目标语义特征向量、历史干扰物图像特征向量和历史背景图像特征向量的方法的示意图。
如图8所示,根据目标语义特征向量801,目标语义特征向量包括目标语言语义特征向量和/或目标视觉语义特征向量801-1,和历史中间样本视频图像特征向量的转置向量802,得到与目标框相关的第一概率值803和第二概率值/>804。根据第一概率值/>803,将历史中间样本视频图像特征向量中的样本模板图像目标框内的图像特征向量805-1和历史搜索区域的第二样本视频图像中目标框内的图像特征向量805-2进行相似性特征聚合,得到历史目标语义特征向量806。根据第二概率值/>804,将历史中间样本视频图像特征向量中的样本模板图像目标框外的图像特征向量805-3和历史搜索区域的第二样本视频图像中目标框外的图像特征向量805-4进行相似性特征聚合,得到历史干扰物图像特征向量807和历史背景图像特征向量808。
图9示出了根据本发明实施例的基于第四神经网络得到目标样本对象的检测结果的方法的示意图。
如图9所示,将历史目标语义特征向量901,和目标语义特征向量902进行叠加,得到叠加后的目标语义特征向量903。将历史干扰物图像特征向量904和可学习的干扰物特征向量905进行叠加,得到叠加后的干扰物图像特征向量906。将历史背景图像特征向量907和可学习的背景特征向量908进行叠加,得到叠加后的背景图像特征向量909。根据叠加后的目标语义特征向量903和待搜索区域的第三样本视频图像特征向量910进行相似度计算,得到第二目标相似度911。根据叠加后的干扰物图像特征向量906、叠加后的背景图像特征向量909以及在叠加后的背景图像特征向量后添加的0向量909-1,和待搜索区域的第三样本视频图像特征向量910进行相似度计算,得到第一目标相似度912。根据第二目标相似度911和第一目标相似度912,得到中间目标分类分数信息913。对中间目标分类分数信息913进行二维化处理,得到目标分类分数信息914。
将待搜索区域的第三样本视频图像特征向量910进行二维化处理及卷积操作,得到待检测的目标样本对象的目标框的第一中心点位置分数信息915、第一中心点位置偏移信息916和尺寸信息917。根据目标分类分数信息914和第一中心点位置分数信息915及第一中心点位置偏移信息916,得到目标样本对象的目标框的目标中心点位置信息918。根据目标分类分数信息914和尺寸信息917,得到目标样本对象的目标框的高度和宽度信息919。根据目标中心点位置信息918和目标框的高度和宽度信息919,确定目标样本对象的目标框的位置信息920,根据目标框的位置信息920,检测目标框内的样本对象,得出目标检测结果921。
图10(a)示出了根据本发明实施例的第二概率值的概率密度示意图;图10(b)示出了根据本发明实施例的第二概率值的概率分布示意图。
参照图10(a)和10(b),如图10(a)所示的概率密度图,根据得到的第二概率值,将第二概率值按照降序排列后,得到相应的样本模板图像特征与历史目标框外的历史干扰物图像特征和背景图像特征;再如图10(b)所示的概率分布,将样本模板图像特征与目标框外的历史干扰物图像特征和背景图像特征进行特征融合,基于根据设置的概率阈值β,将融合后的图像特征进行干扰物图像特征和背景图像特征的区分,得到干扰物图像特征和背景图像特征。
图11示出了根据本发明实施例的得到经训练的目标检测模型的方法的流程图。
如图11所示,该方法包括操作S1110~S1160。
在操作S1110,基于第一损失函数,根据目标样本对象的目标框的目标分类分数信息和目标样本对象的目标框的目标分类分数标签信息,得到第一损失函数值。
在操作S1120,基于第二损失函数,根据目标样本对象的目标框的第一中心点位置分数信息和目标样本对象的目标框的第一中心点位置分数标签信息,得到第二损失函数值。
在操作S1130,基于第三损失函数,根据目标样本对象的目标框位置信息和目标样本对象的目标框的位置标签信息,得到第三损失函数值。
在操作S1140,基于第四损失函数,根据样本语义特征向量和待搜索区域的第一样本视频图像特征向量,确定正样本相似度和负样本相似度。
在操作S1150,根据正样本相似度和负样本相似度,得到第四损失函数值。
在操作S1160,根据第一损失函数值、第二损失函数值、第三损失函数值和第四损失函数值对目标检测模型的参数进行调整,得到经训练的目标检测模型。
根据本发明的实施例,可以基于上式(9)~(17)计算得到目标样本对象的目标框的目标分类分数信息,目标分类分数信息可以表征该待搜索区域的第一样本视频图像中的每一个图像块属于目标样本对象的预测信息。目标样本对象的目标框的目标分类分数标签信息L可以表征该待搜索区域的第一样本视频图像中的每一个图像块属于目标样本对象的真实信息。
根据本发明的实施例,可以通过将目标框内的图像块设置为正样本,将目标框外的图像块设置为负样本,根据正样本和负样本,得到目标样本对象的目标框的目标分类分数标签信息L
根据本发明的实施例,第一损失函数可以通过采用二值交叉熵损失函数/>作为目标样本对象的目标框的目标分类分数的约束。
根据本发明的实施例,第一损失函数可以由式(21)表示:
(21);
根据本发明的实施例,可以由上式(21)基于目标样本对象的目标框的目标分类分数信息和目标样本对象的目标框的目标分类分数标签信息L,确定第一损失函数值。/>
根据本发明的实施例,第二损失函数可以通过采用加权聚焦损失函数/>作为目标样本对象的目标框的第一中心点位置分数信息的约束。
根据本发明的实施例,第二损失函数可以为分类损失函数。分类损失函数/>可以由式(22)表示:
(22);
其中,为第一中心点位置分数标签信息;/>为第一中心点位置分数信息。
根据本发明的实施例,第一中心点位置分数标签信息表征经过二维化并卷积操作之后的目标框的第一中心点位置的真实信息;第一中心点位置分数信息/>表征经过二维化并卷积操作之后的目标框的第一中心点位置的预测信息。
根据本发明的实施例,可以由上式(22)基于目标样本对象的目标框的第一中心点位置分数信息和第一中心点位置分数标签信息/>,确定第二损失函数值。
根据本发明的实施例,第三损失函数可以通过采用平均绝对误差损失函数/>和泛化交并比损失函数/>作为目标样本对象的目标框的位置信息约束。
根据本发明的实施例,基于上式(19)~(20)可知,目标样本对象的目标框的位置信息包括目标框的中心点位置信息和目标框的宽度信息和高度信息。即,目标样本对象的目标框的位置信息
根据本发明的实施例,第三损失函数可以由式(23)表示:
(23);
其中,为目标样本对象的目标框的位置信息;/>为目标样本对象的目标框的位置标签信息;/>为权重值。
根据本发明的实施例,目标样本对象的目标框的位置标签信息可以表征该目标框的位置信息的真实信息;目标样本对象的目标框的位置信息/>可以表征该目标框的位置的预测信息。
根据本发明的实施例,可以由上式(23),基于目标样本对象的目标框的位置标签信息和目标样本对象的目标框的位置信息/>,确定第三损失函数值。
根据本发明的实施例,样本语义特征向量可以包括样本语言语义特征向量和/或样本视觉语义特征向量。
根据本发明的实施例,为了实现多模态特征对齐,本发明在浅层编码器部分和深层编码器部分训练时引入了多模态对比损失函数。
根据本发明的实施例,针对由具有N层第一神经网络和N层第二神经网络构成的N层浅层编码器,可以根据样本语义特征向量和待搜索区域的第一样本视频图像特征向量的相似度,确定第四损失函数值。
根据本发明的实施例,具体地,针对浅层编码器的第i层样本语义特征向量,及第i层的待搜索区域的第一样本视频图像特征向量/>,其中,K x 表示第一样本视频图像的图像特征向量的数量,1≤rK x K x 为大于等于1的正整数。/>
根据本发明的实施例,可以根据第i层样本语义特征向量与第i层的待搜索区域的第一样本视频图像中每一个图像块对应的图像特征向量,确定二者之间的中间相似度。具体地,可以通过下式得到,如式(24):
(24);
其中,表示欧几里得范数。
根据本发明的实施例,基于上式(24),可以得到第i层样本语义特征向量与第i层的待搜索区域的第一样本视频图像中每一个图像块对应的图像特征向量的中间多模态对比相似度/>。具体地,可以通过下式得到,如式(25):
(25);
其中,τ为温度系数。
根据本发明的实施例,基于上述(25),可以得到第i层样本语义特征向量与第i层的待搜索区域的第一样本视频图像特征向量/>的多模态对比相似度/>。即,
根据本发明的实施例,可以根据目标框的中心坐标确定目标框中心对应的图像特征向量,从中确定与目标框的中心对应的图像块特征向量与样本语义特征向量的中间多模态对比相似度,并将该模态对比相似度作为第i层的正样本相似度/>。其中,/>为第i层正样本相似度。
根据本发明的实施例,可以从中确定满足中间多模态对比相似度阈值的目标框外对应的R个中间多模态对比相似度作为负样本相似度/>。其中,/>为第i层的第k个负样本相似度,1≤kRR为大于等于1的正整数。
根据本发明的实施例,第i层的多模态对比损失函数可以由式(26)表示:
(26);
根据本发明的实施例,根据上述计算第i层多模态对比相似度,可以得出N层浅层编码器的多模态对比相似度;计算M层深层编码器的多模态相似度方式与上述相同,在此不再赘述。
根据本发明的实施例,将N层浅层编码器得到的N层多模态对比损失值和M层深层编码器得到的M层多模态对比损失值相加得到总的多模态对比损失值。
根据本发明的实施例,多模态对比损失函数可以由N层浅层编码器对应的多模态损失函数和M层深层编码器对应的多模态损失函数构成。
根据本发明的实施例,第四损失函数可以为多模态对比损失函数,其可以由式(27)表示:
(27);/>
根据本发明的实施例,可以根据上式(27),基于正样本相似度和负样本相似度,得到第四损失函数值。
根据本发明的实施例,可以根据第一损失函数、第二损失函数/>、第三损失函数/>和第四损失函数/>得到总损失函数/>,以对目标检测模型进行训练。总损失函数/>可以由式(28)表示:
(28);
其中,为权重值。
图12(a)示出了根据本发明实施例的正样本和负样本的图像的示意图;图12(b)示出了根据本发明实施例的确定多模态对比损失值的方法的示意图。
如图12(a)所示,针对N层浅层编码器的第i层,将目标框的中心点所对应的图像作为正样本图像1201;将目标框外距离目标框中心点较近的R个点对应的图像作为负样本图像1202。正样本图像的正样本相似度可以表示为R个点对应的图像作为负样本图像的负样本相似度可以表示为/>
如图12(b)所示,根据样本语义特征向量1203,样本语义特征向量1203包括样本语言语义特征向量和/或样本视觉语义特征向量1203-1,和待搜索区域的第一样本视频图像特征向量1204,可以确定第i层多模态对比相似度1205。从第i层多模态对比相似度/>1205中确定正样本相似度1206和负样本相似度1207,根据正样本相似度1206和负样本相似度1207,确定第i层多模态对比损失值1208。
本发明还提出了一种目标检测方法,包括:利用目标检测模型对不同模态的进行目标对象检测,得到目标对象的检测结果,不同模态的包括第一模态的和/或第二模态的,其中,第一模态包括自然语言描述文本,第二模态包括待搜索区域的第一视频图像和与待搜索区域的第一视频图像对应的模板图像,自然语言描述文本表征待搜索区域的第一视频图像中包含的待检测的目标对象。
根据本发明的实施例,可以利用上述目标检测方法将不同模态输入利用上述目标检测模型训练方法训练得到的目标检测模型中,可以得到不同模态的目标对象检测结果。例如,目标对象所属的目标框的位置信息,从而确定目标框内的目标对象的检测结果。
根据本发明的实施例,利用该目标检测模型训练方法训练得到的目标检测模型处理不同模态,针对不同模态的目标对象的检测任务均能实现目标检测,以提高目标检测模型的泛化性。
图13(a)示出了根据本发明实施例的目标检测模型的训练方法的确定第四损失函数值的示意图;图13(b)示出了根据本发明实施例的目标检测模型的训练方法的确定第一损失函数值的示意图;图13(c)示出了根据本发明实施例的目标检测模型的训练方法的确定总损失函数值的示意图。
如图13(a)所示,将第一模态样本1301进行文本编码,得到样本文本特征向量1302,在样本文本特征向量前放置一个样本语言语义特征向量1303,得到第一中间样本文本特征向量1304。将第一中间样本文本特征向量1304输入N层浅层编码器1305的第一神经网络1305-1,得到第一模态样本特征向量1306。将第二模态样本1307进行图像编码,第二模态样本1307包括样本模板图像1307-1和待搜索区域的第一样本视频图像1307-2,得到样本模板图像特征向量1308和第一样本视频图像特征向量1309,在样本模板图像特征向量1308前放置一个样本视觉语义特征向量1308-1,与第一样本视频图像特征向量1309拼接后得到第一中间模态样本特征向量1310。将第一中间模态样本特征向量1310输入N层浅层编码器1305的第二神经网络1305-2,得到第二模态样本特征向量1311。将第一模态样本特征向量1306和第二模态样本特征向量1311进行第一拼接,得到第三模态样本特征向量1312。将第三模态样本特征向量1312输入至M层深层编码器1312-1的第三神经网络1312-2中,得到第四模态样本特征向量1317。
针对N层浅层编码器中每层的第一神经网络和第二神经网络,根据样本语义特征向量1313,样本语义特征向量1313可以包括第一模态样本特征向量中的样本语言语义特征向量和/或第二模态样本特征向量中的样本视觉语义特征向量1313-1,与每一层的待搜索区域的第一样本视频图像特征向量1314,确定每一层的多模态对比相似度1315,根据每一层的多模态对比相似度1315,确定针对N层浅层编码器的多模态对比相似度1316。
针对M层深层编码器中每层的第三神经网络,根据第四模态样本特征向量中的样本语义特征向量1318,第四模态样本特征向量中的样本语义特征向量1318包括该特征向量中的样本语言特征向量和/或样本视觉语义特征向量1318-1,与每一层的待搜索区域的第三样本视频图像特征向量1319,确定每一层的多模态对比相似度1320,根据每一层的多模态对比相似度1320,确定针对M层深层编码器的多模态对比相似度1321。根据针对N层浅层编码器的多模态对比相似度1316和针对M层深层编码器的多模态对比相似度1321,确定第四损失函数值1322。
如图13(b)所示,将第二样本视频图像1323输入至第四神经网络1324,可以得到历史目标语义特征向量1325、历史干扰物图像特征向量1326和历史背景图像特征向量1327。将第四模态样本特征向量1317输入至第四神经网络1324中,获取第四模态样本特征向量中的目标语义特征向量1328、干扰物图像特征向量1329和背景图像特征向量1330。将历史目标语义特征向量1325叠加至目标语义特征向量1328,得到叠加后的目标语义特征向量1331;将历史干扰物图像特征向量1326叠加至干扰物图像特征向量1329,得到叠加后的干扰物图像特征向量1332;将历史背景图像特征向量1327叠加至背景图像特征向量1330,得到叠加后的背景图像特征向量1333。根据叠加后的目标语义特征向量1331和第四模态样本特征向量中待搜索区域的第三样本视频图像特征向量1334,确定第二目标相似度1335;根据叠加后的干扰物图像特征向量1332和叠加后的背景图像特征向量1333,以及第四模态样本特征向量中待搜索区域的第三样本视频图像特征向量1334,确定第一目标相似度1336,根据第一目标相似度1336和第二目标相似度1335,确定目标框的目标分类分数信息1337。根据目标框的目标分类分数信息1337和目标框的分类分数标签信息1338,确定第一损失函数值1339。
如图13(c)所示,将第四模态样本特征向量中待搜索区域的第三样本视频图像特征向量1334输入至第四神经网络进行二维化及卷积操作,得到目标框的第一中心点位置分数信息1340和目标框的第一中心点位置偏移信息1341。根据目标框的第一中心点位置分数信息1340和目标框的第一中心点位置分数标签信息1342,确定第二损失函数值1343;根据目标框的位置信息1341和目标框的位置标签信息1344,确定第三损失函数值1345。根据第一损失函数值1339、第二损失函数值1343、第三损失函数值1345和第四损失函数值1322的总损失函数值1346,对目标检测模型进行参数调整,以完成对目标检测模型达到预设检测阈值的训练1347。
图14示出了根据本发明实施例的目标检测模型的训练装置的框图。
如图14所示,该训练装置可以包括:第一获得模块1410、第二获得模块1420、拼接模块1430、第三获得模块1440、第四获得模块1450和调整模块1460。
第一获得模块1410,用于将第一模态样本输入目标检测模型的第一神经网络,得到第一模态样本特征向量,第一模态样本包括样本自然语言描述文本。
第二获得模块1420,用于基于具有任务导向的多头注意力机制,将第二模态样本输入目标检测模型的第二神经网络,得到第二模态样本特征向量,第二模态样本包括待搜索区域的第一样本视频图像和与待搜索区域的第一样本视频图像对应的样本模板图像,样本自然语言描述文本表征待搜索区域的第一样本视频图像中包含的待检测的目标样本对象。
拼接模块1430,用于对第一模态样本特征向量与第二模态样本特征向量进行第一拼接处理,得到第三模态样本特征向量。
第三获得模块1440,用于基于具有任务导向的多头注意力机制,将第三模态样本特征向量输入目标检测模型的第三神经网络,得到第四模态样本特征向量。
第四获得模块1450,用于将第四模态样本特征向量输入目标检测模型的第四神经网络,得到目标样本对象的检测结果;
调整模块1460,用于利用目标样本对象的检测结果调整目标检测模型的模型参数,得到经训练的目标检测模型。
根据本发明的实施例,还提供了一种目标检测装置。该目标检测装置可以包括检测模块。
检测模块,用于利用目标检测模型对不同模态的进行目标对象检测,得到目标对象的检测结果,不同模态的包括第一模态的和/或第二模态的,其中,第一模态包括自然语言描述文本,第二模态包括待搜索区域的第一视频图像和与待搜索区域的第一视频图像对应的模板图像,自然语言描述文本表征待搜索区域的第一视频图像中包含的待检测的目标对象。其中,目标检测模型是利用上述目标检测模型训练装置训练得到的。
根据本发明实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本发明实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本发明的实施例中目标检测模型的训练装置和目标检测装置部分与本发明的实施例中目标检测模型的训练方法和目标检测方法部分是相对应的,目标检测模型的训练装置和目标检测装置部分的描述具体参考目标检测模型的训练方法和目标检测方法部分,在此不再赘述。
图15示出了根据本发明实施例的适于实现目标检测模型的训练方法和目标检测方法的电子设备的方框图。
如图15所示,根据本发明实施例的电子设备包括处理器1501,其可以根据存储在只读存储器(ROM)1502中的程序或者从存储部分1508加载到随机访问存储器(RAM)1503中的程序而执行各种适当的动作和处理。处理器1501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1501还可以包括用于缓存用途的板载存储器。处理器1501可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1503中,存储有电子设备操作所需的各种程序和数据。处理器 1501、ROM1502以及RAM 1503通过总线1504彼此相连。处理器1501通过执行ROM 1502和/或RAM 1503中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM 1502和RAM 1503以外的一个或多个存储器中。处理器1501也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备还可以包括输入/输出(I/O)接口1505,输入/输出(I/O)接口1505也连接至总线1504。系统还可以包括连接至输入/输出(I/O)接口1505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1507;包括硬盘等的存储部分1508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至输入/输出(I/O)接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入存储部分1508。
根据本发明的实施例,根据本发明实施例的方法流程可以被实现为计算机软件程序。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本发明实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本发明实施例所提供的方法。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。

Claims (10)

1.一种目标检测模型的训练方法,其特征在于,所述方法包括:
将第一模态样本输入目标检测模型的第一神经网络,得到第一模态样本特征向量,所述第一模态样本包括样本自然语言描述文本;
基于具有任务导向的多头注意力机制,将第二模态样本输入所述目标检测模型的第二神经网络,得到第二模态样本特征向量,所述第二模态样本包括待搜索区域的第一样本视频图像和与所述待搜索区域的第一样本视频图像对应的样本模板图像,所述样本自然语言描述文本表征所述待搜索区域的第一样本视频图像中包含的待检测的目标样本对象;
对所述第一模态样本特征向量与所述第二模态样本特征向量进行第一拼接处理,得到第三模态样本特征向量;
基于所述具有任务导向的多头注意力机制,将第三模态样本特征向量输入所述目标检测模型的第三神经网络,得到第四模态样本特征向量;
将所述第四模态样本特征向量输入所述目标检测模型的第四神经网络,得到目标样本对象的检测结果;
利用所述目标样本对象的检测结果调整所述目标检测模型的模型参数,得到经训练的目标检测模型。
2.根据权利要求1所述的方法,其特征在于,所述将第二模态样本输入所述目标检测模型的第二神经网络,得到第二模态样本特征向量,包括:
对所述待搜索区域的第一样本视频图像进行图像编码,得到第一样本视频图像特征向量;
对所述样本模板图像进行图像编码,得到样本模板图像特征向量;
对所述第一样本视频图像特征向量和所述样本模板图像特征向量进行第二拼接处理,得到第一中间模态样本特征向量;
将所述第一中间模态样本特征向量输入所述目标检测模型的第二神经网络,得到第二模态样本特征向量。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一中间模态样本特征向量输入所述目标检测模型的第二神经网络,得到第二模态样本特征向量,包括:
针对第i层所述第二神经网络,
根据所述第一中间模态样本特征向量,得到与所述第一中间模态样本特征向量对应的第一掩膜矩阵;
根据所述第一中间模态样本特征向量,得到与第i-1层对应的第二模态样本特征向量;
对所述与第i-1层对应的第二模态样本特征向量进行线性变换处理,得到与第i层对应的第一参数特征向量;
根据所述与第i-1层对应的第二模态样本特征向量、所述第一掩膜矩阵、所述第一参数特征向量,确定与第i层对应的第二中间模态样本特征向量;
根据所述与第i层对应的第二中间模态样本特征向量,得到与第i层对应的第二模态样本特征向量;
其中,1≤iNN为大于或等于1的整数。
4.根据权利要求3所述的方法,其特征在于,所述将第三模态样本特征向量输入所述目标检测模型的第三神经网络,得到第四模态样本特征向量,包括:
针对第j层所述第三神经网络,
根据所述第三模态样本特征向量,确定与所述第三模态样本特征向量对应的第二掩膜矩阵;
根据所述第三模态样本特征向量,得到与第j-1层对应的第三模态样本特征向量;
对所述与第j-1层对应的第三模态样本特征向量进行线性变换处理,得到与第j层对应的第二参数特征向量;
根据所述与第j-1层对应的第三模态样本特征向量、所述第二掩膜矩阵、所述第二参数特征向量,确定与第j层对应的第三中间模态样本特征向量;
根据所述与第j层对应的第三中间模态样本特征向量,得到与第j层对应的第四模态样本特征向量;
其中,1≤jMM为大于或等于1的整数。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据与第二样本视频图像对应的历史中间样本视频图像特征向量,确定第二样本视频图像特征向量,所述第二样本视频图像包括与所述待搜索区域的第一样本视频图像相关的历史搜索区域的视频图像;
其中,所述第四模态样本特征向量包括所述待搜索区域的第三样本视频图像特征向量;
所述将所述第四模态样本特征向量输入所述目标检测模型的第四神经网络,得到目标样本对象的检测结果,包括:
对所述待搜索区域的第三样本视频图像特征向量进行卷积操作,得到所述目标样本对象的目标框的第一中心点位置分数信息、第一中心点位置偏移信息和尺寸信息;
根据所述第二样本视频图像特征向量和所述第四模态样本特征向量,确定所述目标样本对象的所述目标框的目标分类分数信息;
根据所述第一中心点位置分数信息和所述目标分类分数信息,确定所述目标样本对象的目标框的中间目标中心点位置信息;
根据所述中间目标中心点位置信息、所述第一中心点位置偏移信息和所述尺寸信息,确定所述目标样本对象的目标框的位置信息;
根据所述目标框的位置信息,得到所述目标样本对象的检测结果。
6.根据权利要求5所述的方法,其特征在于,所述根据与第二样本视频图像对应的历史中间样本视频图像特征向量,确定第二样本视频图像特征向量,包括:
获取所述历史中间样本视频图像特征向量;
对所述历史中间样本视频图像特征向量进行特征处理,确定第二样本视频图像特征向量。
7.根据权利要求6所述的方法,其特征在于,所述第四模态样本特征向量包括目标语义特征向量;
所述根据所述第二样本视频图像特征向量和所述第四模态样本特征向量,确定所述目标样本对象的所述目标框的目标分类分数信息,包括:
基于历史目标掩膜矩阵,根据所述历史中间样本视频图像特征向量和所述目标语义特征向量,确定与历史目标框相关的第一概率值和第二概率值;
根据所述第一概率值和所述历史中间样本视频图像特征向量,得到历史目标语义特征向量;
根据所述第二概率值,确定所述第二样本视频图像中的历史干扰物掩膜矩阵和历史背景掩膜矩阵;
根据所述历史中间样本视频图像特征向量、所述目标语义特征向量、历史目标掩膜矩阵、历史干扰物掩膜矩阵和历史背景掩膜矩阵,确定所述第二样本视频图像特征向量;
根据所述第二样本视频图像特征向量和所述待搜索区域的第三样本视频图像特征向量,确定第一目标相似度;
根据所述历史目标语义特征向量和所述待搜索区域的第三样本视频图像特征向量,确定第二目标相似度;
根据所述第一目标相似度和所述第二目标相似度,确定所述目标样本对象的所述目标框的目标分类分数信息。
8.根据权利要求7所述的方法,其特征在于,所述第三模态样本特征向量包括样本语义特征向量和待搜索区域的所述第一样本视频图像特征向量,
所述利用所述目标样本对象的检测结果调整所述目标检测模型的模型参数,得到经训练的目标检测模型,包括:
基于第一损失函数,根据所述目标样本对象的目标框的目标分类分数信息和所述目标样本对象的目标框的目标分类分数标签信息,得到第一损失函数值;
基于第二损失函数,根据所述目标样本对象的目标框的第一中心点位置分数信息和所述目标样本对象的目标框的第一中心点位置分数标签信息,得到第二损失函数值;
基于第三损失函数,根据所述目标样本对象的目标框的位置信息和所述目标样本对象的目标框的位置标签信息,得到第三损失函数值;
基于第四损失函数,根据所述样本语义特征向量和待搜索区域的所述第一样本视频图像特征向量,确定正样本相似度和负样本相似度;
根据所述正样本相似度和负样本相似度,得到第四损失函数值;
根据所述第一损失函数值、第二损失函数值、第三损失函数值和第四损失函数值对所述目标检测模型的参数进行调整,得到经训练的目标检测模型。
9.一种目标检测方法,其特征在于,所述方法包括:
利用目标检测模型对不同模态进行目标对象检测,得到所述目标对象的检测结果,所述不同模态包括第一模态和/或第二模态,其中,所述第一模态包括自然语言描述文本,所述第二模态包括待搜索区域的第一视频图像和与所述待搜索区域的第一视频图像对应的模板图像,所述自然语言描述文本表征所述待搜索区域的第一视频图像中包含的待检测的目标对象;其中,所述目标检测模型是利用根据权利要求1~8中任一项所述的训练方法训练得到的。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~9中任一项所述的方法。
CN202410059185.7A 2024-01-16 2024-01-16 目标检测模型的训练方法、目标检测方法及电子设备 Active CN117576520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410059185.7A CN117576520B (zh) 2024-01-16 2024-01-16 目标检测模型的训练方法、目标检测方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410059185.7A CN117576520B (zh) 2024-01-16 2024-01-16 目标检测模型的训练方法、目标检测方法及电子设备

Publications (2)

Publication Number Publication Date
CN117576520A true CN117576520A (zh) 2024-02-20
CN117576520B CN117576520B (zh) 2024-05-17

Family

ID=89862887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410059185.7A Active CN117576520B (zh) 2024-01-16 2024-01-16 目标检测模型的训练方法、目标检测方法及电子设备

Country Status (1)

Country Link
CN (1) CN117576520B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902807A (zh) * 2011-10-18 2013-01-30 微软公司 使用多个视觉输入模态的视觉搜索
US20140006326A1 (en) * 2012-06-28 2014-01-02 Nokia Corporation Method and apparatus for providing rapport management
EP3009072A1 (en) * 2014-10-17 2016-04-20 Samsung Electronics Co., Ltd. X-ray imaging apparatus, method of controlling the same, and x-ray imaging system
CN109711464A (zh) * 2018-12-25 2019-05-03 中山大学 基于层次化特征关系图构建的图像描述方法
CN110874590A (zh) * 2019-11-18 2020-03-10 安徽大学 基于适配器互学习模型的训练及可见光红外视觉跟踪方法
CN111597918A (zh) * 2020-04-26 2020-08-28 北京金山云网络技术有限公司 人脸活体检测模型的训练、检测方法、装置及电子设备
CN113743544A (zh) * 2021-11-05 2021-12-03 中科智为科技(天津)有限公司 一种跨模态神经网络构建方法、行人检索方法及系统
CN114140885A (zh) * 2021-11-30 2022-03-04 网易(杭州)网络有限公司 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN115114443A (zh) * 2022-04-27 2022-09-27 腾讯科技(深圳)有限公司 多模态编码模型的训练方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902807A (zh) * 2011-10-18 2013-01-30 微软公司 使用多个视觉输入模态的视觉搜索
US20140006326A1 (en) * 2012-06-28 2014-01-02 Nokia Corporation Method and apparatus for providing rapport management
EP3009072A1 (en) * 2014-10-17 2016-04-20 Samsung Electronics Co., Ltd. X-ray imaging apparatus, method of controlling the same, and x-ray imaging system
CN109711464A (zh) * 2018-12-25 2019-05-03 中山大学 基于层次化特征关系图构建的图像描述方法
CN110874590A (zh) * 2019-11-18 2020-03-10 安徽大学 基于适配器互学习模型的训练及可见光红外视觉跟踪方法
CN111597918A (zh) * 2020-04-26 2020-08-28 北京金山云网络技术有限公司 人脸活体检测模型的训练、检测方法、装置及电子设备
CN113743544A (zh) * 2021-11-05 2021-12-03 中科智为科技(天津)有限公司 一种跨模态神经网络构建方法、行人检索方法及系统
CN114140885A (zh) * 2021-11-30 2022-03-04 网易(杭州)网络有限公司 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN115114443A (zh) * 2022-04-27 2022-09-27 腾讯科技(深圳)有限公司 多模态编码模型的训练方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. HOOGS ET AL.: "Multi-modal fusion for video understanding", 《PROCEEDINGS 30TH APPLIED IMAGERY PATTERN RECOGNITION WORKSHOP (AIPR 2001). ANALYSIS AND UNDERSTANDING OF TIME VARYING IMAGERY》, 6 August 2002 (2002-08-06), pages 103 - 108 *
宋玉普 等: "基于模态应变能与神经网络的钢网架损伤检测方法", 《土木工程学报》, vol. 40, no. 10, 15 October 2007 (2007-10-15), pages 13 - 18 *

Also Published As

Publication number Publication date
CN117576520B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
US20220092351A1 (en) Image classification method, neural network training method, and apparatus
JP7185039B2 (ja) 画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム
US20200005022A1 (en) Method, terminal, and storage medium for tracking facial critical area
Dodge et al. Visual saliency prediction using a mixture of deep neural networks
Wang et al. Dynamic attention guided multi-trajectory analysis for single object tracking
CN112215171B (zh) 目标检测方法、装置、设备及计算机可读存储介质
EP4180991A1 (en) Neural network distillation method and apparatus
CN113095346A (zh) 数据标注的方法以及数据标注的装置
US20220366259A1 (en) Method, apparatus and system for training a neural network, and storage medium storing instructions
US20110052074A1 (en) Image database creation device, image retrieval device, image database creation method and image retrieval method
CN111382616A (zh) 视频分类方法、装置及存储介质、计算机设备
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN114998777A (zh) 一种针对跨模态视频检索模型的训练方法及装置
Venegas et al. Automatic ladybird beetle detection using deep-learning models
Zhu et al. Srdd: a lightweight end-to-end object detection with transformer
CN116630630B (zh) 语义分割方法、装置、计算机设备及计算机可读存储介质
CN117576520B (zh) 目标检测模型的训练方法、目标检测方法及电子设备
CN115810202A (zh) 非法遛狗事件的检测方法、装置、电子设备和存储介质
CN114882372A (zh) 一种目标检测的方法及设备
CN116756554A (zh) 对齐模型的训练方法、装置、设备、介质及程序产品
WO2022086728A1 (en) Multi-task learning via gradient split for rich human analysis
Dai et al. Field robot environment sensing technology based on TensorRT
He et al. A semantic segmentation algorithm for fashion images based on modified mask RCNN
CN116128043B (zh) 视频场景边界检测模型的训练方法和场景边界检测方法
CN116501993B (zh) 房源数据推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant