CN117953543A

CN117953543A - 基于多元文本的人物交互检测方法、终端及可读存储介质

Info

Publication number: CN117953543A
Application number: CN202410346348.XA
Authority: CN
Inventors: 任卫红; 罗金国; 刘洪海; 姜渭博; 高宇; 许兴隆; 董潜
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30
Anticipated expiration: 2044-03-26
Also published as: CN117953543B

Abstract

本发明公开基于多元文本的人物交互检测方法、终端及可读存储介质，所述方法包括：获取原始待检测图像，根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征；获取先验文本的先验文本特征，将所述多角度交互特征和所述先验文本特征进行双向特征融合，得到融合图像特征和融合文本特征；根据所述多角度交互特征、所述融合图像特征和所述融合文本特征，输出人目标和物目标的交互动作预测结果。可以看出，本发明通过多元化文本的交叉对照，从而避免了单个文本作为先验信息时，会引入有歧义性的先验文本特征，进而影响模型预测的准确性和鲁棒性的问题，从而提高了模型整体预测的准确性和鲁棒性。

Description

基于多元文本的人物交互检测方法、终端及可读存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及的是基于多元文本的人物交互检测方法、终端及可读存储介质。

背景技术

人物交互检测旨在定位图像中存在交互关系的人和物组合，并且预测组合之间的交互动作，人物交互检测为以人为中心的视觉任务提供了深入分析的基础，它能够在细粒度层面上解读和理解人类行为与意图的深层次含义。

现有技术中，基于语言-视觉大模型提出了一种统一视觉图像特征和语言文本特征的机制，这种机制能将相匹配的图像-文本对映射到同一特征空间，使得模型能够利用先验的文本知识来预测图像中人物组合间的交互动作。基于此，现有技术的一些研究将该模型应用于人-物交互检测领域来提升检测能力。

但是现有的基于语言-视觉大模型进行人物交互检测的模型的文本提示主要聚焦于人物交互的动作层面，但由于某些特定的人物交互动作在文本描述上具有相似性，这导致模型利用此类特定动作的文本提示获取先验知识时，会引入有歧义性的先验文本特征，进而影响模型预测的准确性和鲁棒性。

发明内容

本发明的目的是提供基于多元文本的人物交互检测方法、终端及可读存储介质，旨在解决单一的先验文本提示由于歧义性影响模型预测的准确性和鲁棒性的问题。

本发明解决技术问题所采用的技术方案如下：

本发明提供一种基于多元文本的人物交互检测方法，所述基于多元文本的人物交互检测方法包括：

获取原始待检测图像，根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征；

获取先验文本的先验文本特征，将所述多角度交互特征和所述先验文本特征进行双向特征融合，得到融合图像特征和融合文本特征；

根据所述多角度交互特征、所述融合图像特征和所述融合文本特征，输出人目标和物目标的交互动作预测结果。

进一步地，所述根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征，具体包括：

对所述原始待检测图像进行目标定位，获取所述原始待检测图像中的人目标位置和物目标位置；

将所述原始待检测图像、所述人目标位置和所述物目标位置输入多角度图像特征提取模块，通过所述多角度图像特征提取模块提取并输出所述多角度交互特征。

进一步地，所述对所述原始待检测图像进行目标定位，获取所述原始待检测图像中的人目标位置和物目标位置，具体包括：

将所述原始待检测图像输入卷积神经网络，所述卷积神经网络输出所述原始待检测图像的初级图像特征；

将所述初级图像特征输入Transformer图像编码器，所述Transformer图像编码器输出自注意图像特征；

将所述自注意图像特征输入Transformer人物目标框解码器，所述Transformer人物目标框解码器识别出所述人目标位置和所述物目标位置并输出。

进一步地，所述多角度图像特征提取模块包括实例感知分支、交互感知分支、背景感知分支、第一多层感知机和线性层；

所述通过所述多角度图像特征提取模块提取并输出所述多角度交互特征，具体包括：

通过所述实例感知分支根据所述原始待检测图像、所述人目标位置和所述物目标位置提取人实例特征和物实例特征；

通过所述交互感知分支根据所述人目标位置和所述物目标位置的图像提取人和物的交互关系特征；

通过所述背景感知分支根据所述原始待检测图像提取交互背景特征；

通过所述第一多层感知机对所述人实例特征、所述物实例特征、所述交互关系特征和所述交互背景特征进行融合，得到局部图像特征；

通过所述线性层对局部图像特征进行处理得到全局层次图像特征；

将所述局部图像特征和所述全局层次图像特征作为所述多角度交互特征。

进一步地，所述获取先验文本的先验文本特征，具体包括：

获取与多个交互动作对应的多个多角度文本提示；

根据BLIP模型的文本编码器对每个所述多角度文本提示进行特征编码，提取每个所述多角度文本提示的初步文本特征；

将所有所述初步文本特征经过线性层进行映射，得到所述先验文本特征。

进一步地，所述将所述多角度交互特征和所述先验文本特征进行双向特征融合，得到融合图像特征和融合文本特征，具体包括：

采用Transformer解码器，以所述多角度交互特征作为查询，所述先验文本特征作为键值和属性值，计算得到所述融合图像特征：

；

其中，表示融合图像特征，/>表示转置，/>是激活函数，/>为局部图像特征，/>为先验文本特征，/>代表/>和/>中特征向量的长度；

采用Transformer解码器，以所述先验文本特征作为查询，所述多角度交互特征作为键值和属性值，计算得到所述融合文本特征：

；

其中，表示融合文本特征。

进一步地，所述根据所述多角度交互特征、所述融合图像特征和所述融合文本特征，输出人目标和物目标的交互动作预测结果，具体包括：

采用第二多层感知机对所述多角度交互特征进行映射，得到全局人物交互的映射查询；

将所述融合图像特征和所述融合文本特征进行拼接，得到拼接特征；

采用人物交互解码器以所述映射查询作为查询，以所述拼接特征作为键值和属性值，解码出人目标和物目标的所述交互动作预测结果。

进一步地，所述方法还包括：

基于损失函数对所述多角度图像特征提取模块、所述卷积神经网络、所述Transformer图像编码器、所述Transformer人物目标框解码器、所述Transformer解码器、所述第二多层感知机和所述人物交互解码器的多个参数进行调整，所述损失函数具体为：

；

其中，表示所述损失函数的值，/>表示Focal Loss损失函数，/>表示人物交互对数目，/>表示动作类别数目，/>表示第/>个人物交互对中是否包含了第/>个动作，表示模型预测出的人物交互动作存在的概率值。

此外，为实现上述目的，本发明还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多元文本的人物交互检测程序，所述基于多元文本的人物交互检测程序被所述处理器执行时控制终端实现如上所述的基于多元文本的人物交互检测方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质存储有基于多元文本的人物交互检测程序，所述基于多元文本的人物交互检测程序被处理器执行时实现如上所述的基于多元文本的人物交互检测方法的步骤。

本发明采用上述技术方案具有以下效果：

本发明通过采用双向特征融合对齐了图像与文本特征，同时加强了图像与文本特征，实现了基于多角度的多元化文本作为先验信息实现模型能够利用先验的文本知识来预测图像中人物组合间的交互动作，通过多元化文本的交叉对照，从而避免了单个文本作为先验信息时，会引入有歧义性的先验文本特征，进而影响模型预测的准确性和鲁棒性的问题，从而提高了模型整体预测的准确性和鲁棒性。

附图说明

图1是本发明较佳实施例中一种基于多元文本的人物交互检测方法的步骤流程图；

图2是本发明较佳实施例中基于多元文本的人物交互检测的模型结构示意图；

图3是本发明较佳实施例中基于多元文本的人物交互检测的详细模型结构示意图；

图4是本发明较佳实施例中图像-文本双向特征融合模块的结构示意图；

图5是本发明较佳实施例中人物交互预测模块的结构示意图；

图6是本发明终端的较佳实施例的运行环境示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

实施例一

请参见图1和图2，本申请的实施例一是基于多元文本的人物交互检测方法，其包括步骤：

S1、获取原始待检测图像，根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征。

具体而言，请参照图2和图3，包括步骤：

S11、对所述原始待检测图像进行目标定位，获取所述原始待检测图像中的人目标位置和物目标位置。

具体而言，请参照图3，本实施例中，将原始待检测图像输入人物目标检测器，人物目标检测器从原始待检测图像中识别出人目标位置和物目标位置。

其中，请参照图3，本实施例中，人物目标检测器由卷积神经网络、Transformer图像编码器和Transformer人物目标框解码器组成。

所述人物目标检测器从原始待检测图像中识别出人目标位置和物目标位置具体包括：

将原始待检测图像输入卷积神经网络，卷积神经网络输出原始待检测图像的初级图像特征；

所述初级图像特征输入Transformer图像编码器，Transformer图像编码器输出自注意图像特征；

所述自注意图像特征输入Transformer人物目标框解码器，Transformer人物目标框解码器输出识别出人目标位置和物目标位置。

其中，卷积神经网络具体是resnet50卷积神经网络，其用于从原始待检测图像中提取出初步的图像特征，Transformer图像编码器由6层Transformer编码层组成，其用于执行自注意力来建立全局特征的关联，从而完善来自卷积神经网络的视觉特征得完善的自注意图像特征，Transformer人物目标框解码器由6层Transformer解码层组成，其用于从自注意图像特征中解码出人目标的目标框和物目标的目标框/>，分别作为识别出的人目标位置和物目标位置。

S12、将所述原始待检测图像、所述人目标位置和所述物目标位置输入多角度图像特征提取模块，多角度图像特征提取模块提取并输出所述多角度交互特征。

具体而言，请参照图3，本实施例的多角度图像特征提取模块包括实例感知分支、交互感知分支和背景感知分支，其中，实例感知分支包括分割模块和特征提取模块，交互感知分支包括配对联合模块和特征提取模块，背景感知分支包括特征提取模块。

所述多角度图像特征提取模块提取并输出所述多角度交互特征，具体包括：

本实施例中，在提取出人实例的特征、物实例的特征、人和物的交互关系特征和交互背景特征之后，还通过所述多层感知机对所述人实例特征、所述物实例特征、所述交互关系特征和所述交互背景特征进行融合，得到局部图像特征，局部图像特征/>再经过一层线性层映射为全局层次图像特征/>，输出局部图像特征/>和全局层次图像特征/>作为多角度交互特征。

具体而言，实例感知分支根据原始待检测图像、人目标位置和物目标位置提取人实例的特征和物实例的特征，首先将原始待检测图像、人目标位置和物目标位置输入分割模块，分割模块根据人目标位置和物目标位置对原始待检测图像进行分割，从而分割出原始待检测图像的人实例和物实例。

具体而言，本实施例中，输入的是人目标的目标框和物目标的目标框/>，分割模块根据输入的目标框对目标框范围内的人图像实例和物图像实例进行分割，从而得到人实例和物实例。

之后将分割得到的人实例和物实例输入特征提取模块，特征提取模块提取并输出人实例的特征和物实例的特征。

交互感知分支根据人目标位置和物目标位置的图像提取人和物的交互关系特征，具体包括：

将人目标位置和物目标位置输入配对联合模块，配对联合模块首先根据人目标位置和物目标位置，对人目标和物目标依次配对；

之后配对联合模块将配对之后的人目标图像和物目标图像进行联合得到多个联合图像；

然后将各个联合图像依次输入特征提取模块，特征提取模块依次对各个联合图像进行特征提取，从而得到人和物的多个交互关系特征。

背景感知分支根据原始待检测图像提取交互背景特征，具体是将原始待检测图像输入特征提取模块，从而提取出原始待检测图像的整体特征作为背景特征。

具体而言，本实施例中，所述各个分支的特征提取分支具体是BLIP（Bootstrapping Language-Image Pretraining，自举语言图像预训练）模型的图像编码器，在其他实施例中，也可以采用其他的编码器或特征提取网络，可选的，可以根据被提取的目标，为每个分支单独设置合适的特征提取模块，以针对性的进行特征提取，从而提高特征提取的效果。

S2、获取先验文本的先验文本特征，将所述多角度交互特征和所述先验文本特征进行双向特征融合，得到融合图像特征和融合文本特征。

其中，先验文本的先验文本特征通过多元化文本特征提取模块生成，具体而言，首先多元化文本提示生成部分为每一种人物交互动作生成与对应的多角度交互特征相对应的文本提示/>，包括：目标实例、交互关系和交互背景文本提示，分别具体地描述了人物交互动作的空间位置关系、交互动作姿态和交互背景信息。

例如，请参照图3，对于图3的多角度交互特征，相应的描述了人物交互动作的空间位置关系的目标实例文本提示为“球在人的脚附近”，相应的描述了交互动作姿态的交互关系文本提示为“人用弯曲的腿踢向足球”，相应的描述了交互背景信息的交互背景文本提示为“人在球场上”。

在得到各种可能的文本提示后，文本提示特征提取部分利用BLIP模型的文本编码器对三种文本提示进行特征编码，分别提取目标实例、交互关系、交互背景的初步文本特征/>，最后，初步文本特征/>再经过一层线性层映射，将三种先验文本特征融合得到多元化的先验文本特征/>。

然后将得到多角度交互特征中的局部层次的图像特征和多元化的先验文本特征/>输入图像-文本双向特征融合模块，从而得到融合后的融合图像特征/>和融合文本特征/>。

具体而言，图像-文本双向特征融合模块如图4所示，该模块包括图像至文本、文本至图像特征融合两个部分，图像至文本特征融合部分的作用是将文本特征融入图像特征中，具体来说，采用了Transformer解码器的结构，将局部图像特征输入作为Query（查询），先验文本特征/>作为Key（键值）和Value（属性值），通过如下计算公式得到融合后的图像特征/>：

；

式中，是激活函数，/>表示转置，/>为局部图像特征，/>为先验文本特征，代表/>和/>中特征向量的长度。

文本至图像特征融合部分的作用是将图像特征融入文本特征中，与图像至文本特征融合部分相似，使用transformer解码器的结构，将先验文本特征输入作为Query（查询），局部图像特征/>作为 Key（键值）和Value（属性值），通过如下计算公式得到融合后的文本特征/>：

；

式中，是激活函数，/>为局部图像特征，/>为先验文本特征，/>代表/>和中特征向量的长度。

可以看出，本实施例中，利用Transformer解码器的特征融合属性，对图像和文本特征做了双向的特征融合，此过程对齐了图像与文本特征，同时加强了图像与文本特征，经过图像和文本的对齐之后，包含各种可能的文本提示的文本特征便只剩下与预测相关的先验文本提示。

S3、根据所述多角度交互特征、所述融合图像特征和所述融合文本特征，输出人目标和物目标的交互动作预测结果。

具体而言，本实施例中，将多角度交互特征、融合图像特征和融合文本特征/>输入人物交互预测模块，人物交互预测模块输出预测的交互动作。

其中，人物交互预测模块结构如图5所示，利用前面所得的全局图像特征、融合后的图像特征/>和融合后的文本特征/>预测出人物交互的动作。

具体而言，采用多层感知机对全局图像特征进行映射得到全局人物交互的映射查询/>；

然后将融合图像特征和融合文本特征/>进行拼接处理，得到拼接特征；

最后采用人物交互解码器，以映射查询作为查询（Query），以拼接特征作为键值（Key）和属性值（Value），解码出人物交互动作。

本实施例中，人物交互解码器具体是一个具有6层Transformer解码层的解码器，其用于从全局人物交互的查询解码出人物交互动作，具体来说，将/>作为Query，拼接后的图像、文本特征/>、/>作为Key和Value，预测得到人物组合之间的交互动作/>。

本实施例中，方法所采用的模型包括人物目标检测器、多角度图像特征提取模块、多元化文本特征提取模块、图像-文本双向特征融合模块和人物交互预测模块，该模型训练时的损失函数如下：

；

其中，表示Focal Loss损失函数，/>表示人物交互对数目，/>表示动作类别数目，/>表示第/>个人物交互对中是否包含了第/>个动作，/>表示模型预测出的人物交互动作存在的概率值。

实施例二

请参见图6，基于上述方法，本发明还提供了一种终端，所述终端包括：存储器10、处理器20及存储在所述存储器10上并可在所述处理器20上运行的基于多元文本的人物交互检测程序，所述基于多元文本的人物交互检测程序被所述处理器20执行时控制终端实现如上所述的基于多元文本的人物交互检测方法的步骤。

所述存储器10在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器10在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡（SmartMediaCard,SMC），安全数字（SecureDigital,SD）卡，闪存卡（FlashCard）等。进一步地，所述存储器10还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器10用于存储安装于所述终端的应用软件及各类数据，例如所述安装终端的程序代码等。所述存储器10还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器10上存储有基于多元文本的人物交互检测程序，该基于多元文本的人物交互检测程序可被处理器20所执行，从而实现本申请中的基于多元文本的人物交互检测方法。

所述处理器20在一些实施例中可以是一中央处理器（CentralProcessingUnit,CPU），微处理器或其他数据处理芯片，用于运行所述存储器10中存储的程序代码或处理数据，例如执行所述基于多元文本的人物交互检测方法等。

实施例三

本实施例提供一种存储介质，所述可读存储介质存储有基于多元文本的人物交互检测程序，所述基于多元文本的人物交互检测程序被处理器执行时实现如上所述的基于多元文本的人物交互检测方法的步骤。

综上所述，本发明通过采用双向特征融合对齐了图像与文本特征，同时加强了图像与文本特征，实现了基于多角度的多元化文本作为先验信息实现模型能够利用先验的文本知识来预测图像中人物组合间的交互动作，通过多元化文本的交叉对照，从而避免了单个文本作为先验信息时，会引入有歧义性的先验文本特征，进而影响模型预测的准确性和鲁棒性的问题，从而提高了模型整体预测的准确性和鲁棒性。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于多元文本的人物交互检测方法，其特征在于，所述基于多元文本的人物交互检测方法包括：

2.根据权利要求1所述的基于多元文本的人物交互检测方法，其特征在于，所述根据所述原始待检测图像获取所述原始待检测图像中的人目标和物目标的多角度交互特征，具体包括：

3.根据权利要求2所述的基于多元文本的人物交互检测方法，其特征在于，所述对所述原始待检测图像进行目标定位，获取所述原始待检测图像中的人目标位置和物目标位置，具体包括：

4.根据权利要求3所述的基于多元文本的人物交互检测方法，其特征在于，所述多角度图像特征提取模块包括实例感知分支、交互感知分支、背景感知分支、第一多层感知机和线性层；

5.根据权利要求1所述的基于多元文本的人物交互检测方法，其特征在于，所述获取先验文本的先验文本特征，具体包括：

获取与多个交互动作对应的多个多角度文本提示；

6.根据权利要求4所述的基于多元文本的人物交互检测方法，其特征在于，所述将所述多角度交互特征和所述先验文本特征进行双向特征融合，得到融合图像特征和融合文本特征，具体包括：

；

其中，表示融合图像特征，/>表示转置，/>是激活函数，/>为局部图像特征，为先验文本特征，/>代表/>和/>中特征向量的长度；

；

其中，表示融合文本特征。

7.根据权利要求6所述的基于多元文本的人物交互检测方法，其特征在于，所述根据所述多角度交互特征、所述融合图像特征和所述融合文本特征，输出人目标和物目标的交互动作预测结果，具体包括：

8.根据权利要求7所述的基于多元文本的人物交互检测方法，其特征在于，所述方法还包括：

；

其中，表示所述损失函数的值，/>表示Focal Loss损失函数，/>表示人物交互对数目，/>表示动作类别数目，/>表示第/>个人物交互对中是否包含了第/>个动作，/>表示模型预测出的人物交互动作存在的概率值。

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多元文本的人物交互检测程序，所述基于多元文本的人物交互检测程序被所述处理器执行时控制终端实现如权利要求1-8任一项所述的基于多元文本的人物交互检测方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质存储有基于多元文本的人物交互检测程序，所述基于多元文本的人物交互检测程序被处理器执行时实现如权利要求1-8任一项所述的基于多元文本的人物交互检测方法的步骤。