CN114743217A - 一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法 - Google Patents

一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法 Download PDF

Info

Publication number
CN114743217A
CN114743217A CN202210318598.3A CN202210318598A CN114743217A CN 114743217 A CN114743217 A CN 114743217A CN 202210318598 A CN202210318598 A CN 202210318598A CN 114743217 A CN114743217 A CN 114743217A
Authority
CN
China
Prior art keywords
text
image
layer
local
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210318598.3A
Other languages
English (en)
Inventor
陈裕豪
张国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210318598.3A priority Critical patent/CN114743217A/zh
Publication of CN114743217A publication Critical patent/CN114743217A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了模式识别技术领域的一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法,所述行人识别方法包括:获取行人的图文数据,将行人的图文数据输入到预先训练好的局部特征感知图文跨模态模型中进行特征提取,输出对行人的识别结果。所述局部特征感知图文跨模态模型包括视觉特征提取模块和文本特征提取模块,在视觉特征提取上引入PCB局部特征学习,在文本特征提取上引入多分支卷积的结构,无需引入语义分割、属性学习等额外即可高效提取图文局部特征。在浅层特征、局部特征、全局特征三个层面进行跨模态匹配,逐步拉进图文特征分布。该方法结构简洁,准确率高,能推动图文跨模态行人检索领域在实际场景中的应用。

Description

一种基于局部特征感知图文跨模态模型的行人识别方法和模 型的训练方法
技术领域
本发明涉及一种基于局部特征感知图文跨模态模型的行人识别方法和模型 的训练方法,属于模式识别技术领域。
背景技术
人工查阅监控摄像头寻找目标行人可能存在时间成本高昂、容易遗漏、可 信度低等问题。此外,在某些特定场景中,无法通过行人再识别、人脸识别等 技术进行智能检索,例如目击证人没有拍摄下目标照片,只能通过口述来描绘 行人外貌。
现有与之相关的技术如下:(1)申请号为CN202010590313.2的一种基于文 本的行人检索自监督视觉表示学习系统及方法:该算法通过构建辅助任务(性别 判断和行人相似性回归)使得模型关注行人的细节信息,并学习到具有鲁棒性的 视觉特征;此外该方法也提取行人与物体之间的关系,并且对这些关系进行筛 选和汇总。该方法解决了现有方法忽略图片中行人细节信息,无法获取样本之 间具体的相似度值,缺少监督信息等问题。(2)申请号为CN202110454724.3的 一种基于文本动态引导视觉特征提炼的文本行人检索方法:该方法通过划分条 带区域精炼视觉特征,通过文本过滤器指示文本输入中对所提到的图像区域的 重要程度,再运用一个文本动态引导的视觉特征精炼器动态地对每个文本描述进行部分视觉特征的融合。该方法能够实现跨模态信息之间的交互,进一步提 高行人检索任务的准确率。然而上述方法依然存在特征提取过程复杂、精度不 足的问题,难以投入实际应用场景。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种特征提取过程简单、 精度高的基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方 法。
为达到上述目的,本发明是采用下述技术方案实现的:
一种基于局部特征感知图文跨模态模型的行人识别方法,包括:
所述局部特征感知图文跨模态模型包括视觉特征提取模块和文本特征提取 模块,视觉特征提取模块包括用于提取局部图像的PCB结构,文本特征提取模 块包括用于提取文本特征的多分支卷积结构,所述多分支卷积结构的每个分支 与一个所述局部图像对齐;
所述行人识别方法包括:
获取行人的图文数据,
将行人的图文数据输入到预先训练好的局部特征感知图文跨模态模型中进 行特征提取,输出对行人的识别结果。
本发明还提供了一种局部特征感知图文跨模态模型的训练方法,所述局部 特征感知图文跨模态模型用于上述的行人识别方法,所述训练方法包括:
构建图文数据集,所述图文数据集包括训练集和测试集;
将训练集内的图文数据输入到预先建立好的局部特征感知图文跨模态模型 中进行迭代训练,直至模型损失函数值不再下降,完成训练。
进一步的,图文数据集包括图像和文本一一对应的图文跨模态行人检索数 据集CUHK-PEDES。
进一步的,所述视觉特征提取模块包括依次连接的单层卷积层、多层 ResBlock层和单层ResBlock层;
所述单层卷积层包括依次连接的卷积层、BN层和最大池化层,输入的图像 经单层卷积层处理,得到预处理特征图;
所述多层ResBlock层包括三层ResBlock层,输入的预处理特征图经过多层ResBlock层处理,得到图像浅层特征图,图像浅层特征图进行全局最大池化得 到图像浅层特征;
所述单层ResBlock层包括一层ResBlock层和Segment层,输入的浅层特征 图经过单层ResBlock层处理,得到图像深层特征图,并将图像深层特征图在纵 向上进行划分,得到图像局部特征图,对每个图像局部特征图分别进行全局最 大池化得到视觉局部特征;
将视觉局部特征按通道位置取最大值,融合各个通道的最大值得到视觉最 终特征。
进一步的,所述文本特征提取模块包括依次连接的词向量提取器、维度转 换层和多分支卷积层;
输入的待测文本经词向量提取器处理,得到文本编译后的二维词向量;
所述维度转换层包括Expand层、卷积层和BN层,输入的二维词向量经过 维度转换层处理后得到文本浅层特征图,文本浅层特征图通过全局最大池化得 到文本浅层特征;
所述多分支卷积层中每一个分支均包括多个残差卷积块,输入的文本浅层 特征图经过残差卷积块处理后得到与图像局部特征图一一对应的文本局部特征 图;
对每个文本局部特征图分别进行全局最大池化得到文本局部特征;
将文本局部特征按通道位置取最大值,融合各个通道的最大值得到文本最 终特征。
进一步的,所述残差卷积块包括两条支线,第一条支线包括依次连接的1 ×1卷积层、1×3卷积层和1×1卷积层,每个卷积层后都设置BN层,各个卷 积层之间设置ReLu激活函数层;
第二条支线中,若输入的文本浅层特征图的通道数与图像局部特征图通道 数不同,则输入的文本浅层特征图依次经过1×1的卷积层和BN层提取特征, 再进行输出;若输入的文本浅层特征图的通道数与图像局部特征图通道数相同, 则直接进行输出;
第一条支线的输出与第二条支线的输出直接相加,最终输出通道数与图像 局部特征图通道数对应的文本局部特征图。
进一步的,所述损失函数的的计算方法为:
计算单向CMPM损失
Figure BDA0003570683390000041
式中,pi,j为图像特征向对应文本特征投影的相似度;qi,j为正则化处理后的 真实匹配标签;ε为用于避免出现除零问题的极小参数;其中,所述图像特征 包括图像浅层特征、图像局部特征和视觉最终特征;
计算双向CMPM损失
LCMPM=LI2T+lT2I
式中LI2T和LT2I分别为图像特征到文本特征映射时的单向CMPM损失和文 本特征到图像特征映射时的单向CMPM损失;
计算最终损失函数
Figure BDA0003570683390000051
式中,
Figure BDA0003570683390000052
为图像浅层特征和文本浅层特征之间的双向CMPM损失;
Figure BDA0003570683390000053
为图像局部特征和文本局部特征之间的双向CMPM损失;
Figure BDA0003570683390000054
为视觉 最终特征和文本最终特征之间的双向CMPM损失;λ1、λ2和λ3为各个双向CMPM 损失的权重。
进一步的,所述视觉特征提取模块采用的ResNet-50或者VGG-16,均加载ImageNet上的预训练模型,再进行训练。
进一步的,所述文本特征提取模块的词向量提取器包括BERT、Bi-LSTM或 Bi-GRU中的任意一个;
当采用BERT作为词向量提取器时,固定BERT参数,直接加载在Toronto BookCorpus和Wikipedia上的预训练模型而不用进行训练;
当采用Bi-LSTM或Bi-GRU作为词向量提取器时,需要将其加入模型的训 练中。
进一步的,训练时,学习率设置为3×10-3,前10次迭代周期采用预热技巧, 并在20次、40次和/或50次迭代周期后进行学习率0.1倍衰减。
与现有技术相比,本发明所达到的有益效果:
在视觉特征提取上引入PCB局部特征学习,在文本特征提取上引入多分支 卷积的结构,无需引入语义分割、属性学习等额外即可高效提取图文局部特征。 在浅层特征、局部特征、全局特征三个层面进行跨模态匹配,逐步拉进图文特 征分布。该方法结构简洁,准确率高,能推动图文跨模态行人检索领域在实际 场景中的应用。
附图说明
图1是实施例1中局部特征感知图文跨模态模型的网络结构图;
图2是实施例1中文本特征提取模块中的多分支卷积结构图;
图3是实施例2中行人识别方法的流程图;
图4是实施例2中行人识别实验样例图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明 本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一
本实施例提供了一种局部特征感知图文跨模态模型的训练方法,其中局部 特征感知图文跨模态模型基于Pytorch深度学习框架,用于挖掘行人图像和文本 描述的特征信息,局部特征感知图文跨模态模型包括视觉特征提取模块和文本 特征提取模块,视觉特征提取模块包括用于提取局部图像的PCB结构,文本特 征提取模块包括用于提取文本特征的多分支卷积结构,所述多分支卷积结构的 每个分支与一个所述局部图像对齐。
具体的,如图1所示,局部特征感知图文跨模态模型的训练方法如下。
一、准备图文数据集
构建图文数据集,所述图文数据集包括训练集和测试集;本实施例中图文 数据集采用图文跨模态行人检索数据集CUHK-PEDES,CUHK-PEDES数据集 中的图像和文本一一对应。
二、构建局部特征感知图文跨模态模型
本实施例中局部特征感知图文跨模态模型包括视觉特征提取模块和文本特 征提取模块。
视觉特征提取模块的主干网络主要采用ResNet-50或者VGG-16,ResNet-50 或者VGG-16均加载ImageNet上的预训练模型,再进行训练。本实施例中视觉 特征提取模块的主干网络主要采用ResNet-50,视觉特征提取模块包括依次连接 的单层卷积层、多层ResBlock层和单层ResBlock层。其中单层卷积层包括依次 连接的卷积层、BN层和最大池化层;多层ResBlock层包括三层ResBlock层; 单层ResBlock层包括一层ResBlock层和Segment层。
视觉特征提取模块的工作原理为:
选取训练集内的图像,将图像输入到视觉特征提取模块内,图像先经过单 层卷积层的预处理,得到预处理特征图;
得到的预处理特征图经过多层ResBlock层的特征提取,输出得到图像浅层 特征图:
Figure BDA0003570683390000071
式中,H、W和C1分别为浅层特征图的高、宽、通 道维度;fl I为生成的图像浅层特征图;
同时,图像浅层特征图通过全局最大池化得到浅层特征,其表达式为:
Figure BDA0003570683390000072
式中,
Figure BDA0003570683390000073
为输出的图像浅层特征;C1为图像浅层特征图的通道维度;
得到的图像浅层特征图经过单层ResBlock层的特征提取,得到图像深层特 征图:
Figure BDA0003570683390000081
式中,
Figure BDA0003570683390000082
为输出的图像深层特征图;C2为图像深层特 征图的通道维度,且C2通道数比C1更大;
将特征提取后的图像深层特征图在纵向上进行划分,共划分为K个局部, 得到图像局部特征图:
Figure BDA0003570683390000083
式中,
Figure BDA0003570683390000084
为图像 局部特征图;K为局部的个数;
Figure BDA0003570683390000085
为图像局部特征图的高维度;
图像局部特征图经过全局最大池化得到图像局部特征:
Figure BDA0003570683390000086
式中,
Figure BDA0003570683390000087
为图像局部特征;
将视觉局部特征按通道位置取最大值,融合各个通道的最大值得到视觉最 终特征,其表达式为:
Figure BDA0003570683390000088
式中,
Figure BDA0003570683390000089
为视觉最终特征;Max为通道最大值计算函数;
文本特征提取模块主要采用多分支卷积的结构,每个分支分别与一个局部 图像对齐,包括依次连接的词向量提取器、维度转换层和多分支卷积层。其中 词向量提取器采用BERT、Bi-LSTM或者Bi-GRU,当文本特征提取模块采用 BERT作为词向量提取器时,固定BERT参数,直接加载在Toronto Book Corpus 和Wikipedia上的预训练模型而不进行训练;当采用Bi-LSTM或者Bi-GRU作 为词向量提取器时,需要将其纳入整体训练框架,而在本实施例中词向量提取 器采用BERT。维度转换层包括Expand层、卷积层和BN层;多分支卷积层包 括多个残差分支,且每一个残差分支均包括多个残差卷积块。
残差分支包括依次连接的1×1的卷积层、BN层和P个残差卷积块,其中 首个残差卷积块将特征图的通道数修改为C2,后续残差卷积块保持特征图通道 维度不变。
残差卷积块包括两条支线,第一条支线包括依次连接的1×1卷积层、1×3 卷积层和1×1卷积层,来保证特征图在空间上信息不被压缩,每个卷积层后都 设置BN层,各个卷积层之间设置ReLu激活函数层;第二条支线中,若输入的 文本浅层特征图的通道数与图像局部特征图通道数不同,则输入的文本浅层特 征图依次经过1×1的卷积层和BN层提取特征,再进行输出;若输入的文本浅 层特征图的通道数与图像局部特征图通道数相同,则直接进行输出。第一条支 线的输出与第二条支线的输出直接相加,最终输出通道数与图像局部特征图通 道数对应的文本局部特征图。
文本特征提取模块的工作原理为:
选取训练集中与视觉特征提取模块输入图像相对应的文本,作为文本特征 提取模块的输入,文本先经过词向量提取器进行编译,首先将文本语句划分为 单词,在句首句尾分别插入[CLS]和[SEP],输入到预训练的编码器中获取每个单 词的编号,若文本长度超过L,则只保留L个单词;若文本长度短于L,则在空 余位置补零。最终获得文本编译后的二维词向量:
Figure BDA0003570683390000091
式中,D为二维 词向量通道数;
将二维词向量经过维度转换层进行维度转换并进行特征提取,得到文本浅 层特征图,其中二维词向量转换为三维向量:
Figure BDA0003570683390000092
文本浅层特征图经 过全局最大池化得到浅层特征
Figure BDA0003570683390000093
将文本浅层特征输入到多分支卷积层中,多分支卷积层的每个残差分支均 生成一个与图像局部特征图对应的文本局部特征图,对每个文本局部特征图分 别进行全局最大池化得到文本局部特征:
Figure BDA0003570683390000094
将文本局部特征按通道位置取最大值,融合各个通道的最大值得到文本最 终特征
Figure BDA0003570683390000101
三、模型损失函数的构建和计算
本实施例采用多阶段跨模态匹配损失,首先定义每个相互对应的图像和文 本为样本对,其表达式为:
Figure BDA0003570683390000102
式中,
Figure BDA0003570683390000103
为视觉特征;
Figure BDA0003570683390000104
为文本特征;yi,j为第i个图像和第j个文本样 本是否匹配的真实标签;N为样本对数量;
其中yi,j=1表示
Figure BDA0003570683390000105
Figure BDA0003570683390000106
来自同一个行人,而yi,j=0表示两者不是同一个 行人,由此计算图像特征向对应文本特征投影的相似度:
Figure BDA0003570683390000107
式中,
Figure BDA0003570683390000108
为正则化后的文本特征,其中
Figure BDA0003570683390000109
为文本特征,||||为特征 二维范式计算;
Figure BDA00035706833900001010
为输出的正则化后的文本特征;
由于可能存在多个匹配样本,真实标签需要进行权重计算,即:
Figure BDA00035706833900001011
式中:yi,j为第i个图像和第j个文本样本是否匹配的真实标签;qi,j为第 i个图像和第j个文本样本间权重计算后的匹配度标签。
计算单向CMPM损失
Figure BDA0003570683390000111
式中,pi,j为图像特征向对应文本特征投影的相似度;qi,j为正则化处理后的 真实匹配标签;ε为用于避免出现除零问题的极小参数;其中,所述图像特征 包括图像浅层特征、图像局部特征和视觉最终特征;
计算双向CMPM损失
LCMPM=LI2T+lT2I
式中LI2T和LT2I分别为图像特征到文本特征映射时的单向CMPM损失和文 本特征到图像特征映射时的单向CMPM损失;
计算最终损失函数
Figure BDA0003570683390000112
式中,
Figure BDA0003570683390000113
为图像浅层特征和文本浅层特征之间的双向CMPM损失;
Figure BDA0003570683390000114
为图像局部特征和文本局部特征之间的双向CMPM损失;
Figure BDA0003570683390000115
为视觉 最终特征和文本最终特征之间的双向CMPM损失;λ1、λ2和λ3为各个双向CMPM 损失的权重。
本实施例中训练参数的设置:每帧图像的尺寸设置为384×128;文本长度设置 为L=64;局部区域数量设置为K=6;多分支卷积层中的残差卷积块数量设置 为P=3;视觉特征图的尺寸设置为H=24、W=8;训练批次设置为N=64, 优化器采用Adam,并设置权重衰减为4×10-5;学习率设置为3×10-3,前10次 迭代周期采用预热技巧,并在一定迭代周期后进行学习率0.1倍衰减;此外,根 据不同的主干网络,需要设置如下不同的参数,具体见表1:
表1.不同主干网络下的部分参数设置
Figure BDA0003570683390000121
四、训练局部特征感知图文跨模态模型
所述训练方法包括:
构建图文数据集,所述图文数据集包括训练集和测试集;
将训练集内的图文数据输入到预先建立好的局部特征感知图文跨模态模型 中进行迭代训练,直至模型损失函数值不再下降,完成训练。
其中,采用训练集对模型训练后,需对模型进行测试,测试采用图文数据 集中的测试集,通过计算图像、文本特征之间的余弦距离来衡量相似度,采用 CMC评估方法计算Rank-1、Rank-5和Rank-10。选择性能最高的模型应用到实 际场景测试中。通过广泛实验,可以得到以下的效益:
(1)技术方面:在不同主干网络下,本方法均能取得当前最高性能,对比实 验结果如下表2,其中方法类型的G和L分别代表全局特征方法和局部特征方 法:
表2本方法与其他图文跨模态行人检索方法的准确率对比
Figure BDA0003570683390000122
Figure BDA0003570683390000131
Figure BDA0003570683390000141
(2)社会方面:本发明能在图像缺失的特定场景下,辅助进行行人检索。
(3)经济方面:本发明采用自动化的方式对行人进行检索,减少了人工查阅 的工作量,节约了大量的人力成本和时间成本。
实施例二:
本实施例提供了一种基于局部特征感知图文跨模态模型的行人识别方法, 如图3和图4所示,所述行人识别方法包括:
获取行人的图文数据,
将行人的图文数据输入到预先训练好的局部特征感知图文跨模态模型中进 行特征提取,输出对行人的识别结果。
其中局部特征感知图文跨模态模型的构建和训练在实施例1中已有明确的 阐述,在此不做过多赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品 的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或 方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式 处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机 或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流 程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的 指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流 程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变 形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于局部特征感知图文跨模态模型的行人识别方法,其特征在于,包括:
所述局部特征感知图文跨模态模型包括视觉特征提取模块和文本特征提取模块,视觉特征提取模块包括用于提取局部图像的PCB结构,文本特征提取模块包括用于提取文本特征的多分支卷积结构,所述多分支卷积结构的每个分支与一个所述局部图像对齐;
所述行人识别方法包括:
获取行人的图文数据,
将行人的图文数据输入到预先训练好的局部特征感知图文跨模态模型中进行特征提取,输出对行人的识别结果。
2.一种局部特征感知图文跨模态模型的训练方法,其特征在于,所述局部特征感知图文跨模态模型用于权利要求1所述的行人识别方法,所述训练方法包括:
构建图文数据集,所述图文数据集包括训练集和测试集;
将训练集内的图文数据输入到预先建立好的局部特征感知图文跨模态模型中进行迭代训练,直至模型损失函数值不再下降,完成训练。
3.根据权利要求2所述的局部特征感知图文跨模态模型的训练方法,其特征在于,图文数据集包括图像和文本一一对应的图文跨模态行人检索数据集CUHK-PEDES。
4.根据权利要求2所述的局部特征感知图文跨模态模型的训练方法,其特征在于,所述视觉特征提取模块包括依次连接的单层卷积层、多层ResBlock层和单层ResBlock层;
所述单层卷积层包括依次连接的卷积层、BN层和最大池化层,输入的图像经单层卷积层处理,得到预处理特征图;
所述多层ResBlock层包括三层ResBlock层,输入的预处理特征图经过多层ResBlock层处理,得到图像浅层特征图,图像浅层特征图进行全局最大池化得到图像浅层特征;
所述单层ResBlock层包括一层ResBlock层和Segment层,输入的浅层特征图经过单层ResBlock层处理,得到图像深层特征图,并将图像深层特征图在纵向上进行划分,得到图像局部特征图,对每个图像局部特征图分别进行全局最大池化得到视觉局部特征;
将视觉局部特征按通道位置取最大值,融合各个通道的最大值得到视觉最终特征。
5.根据权利要求4所述的局部特征感知图文跨模态模型的训练方法,其特征在于,所述文本特征提取模块包括依次连接的词向量提取器、维度转换层和多分支卷积层;
输入的待测文本经词向量提取器处理,得到文本编译后的二维词向量;
所述维度转换层包括Expand层、卷积层和BN层,输入的二维词向量经过维度转换层处理后得到文本浅层特征图,文本浅层特征图通过全局最大池化得到文本浅层特征;
所述多分支卷积层中每一个分支均包括多个残差卷积块,输入的文本浅层特征图经过残差卷积块处理后得到与图像局部特征图一一对应的文本局部特征图;
对每个文本局部特征图分别进行全局最大池化得到文本局部特征;
将文本局部特征按通道位置取最大值,融合各个通道的最大值得到文本最终特征。
6.根据权利要求5所述的局部特征感知图文跨模态模型的训练方法,其特征在于,所述残差卷积块包括两条支线,第一条支线包括依次连接的1×1卷积层、1×3卷积层和1×1卷积层,每个卷积层后都设置BN层,各个卷积层之间设置ReLu激活函数层;
第二条支线中,若输入的文本浅层特征图的通道数与图像局部特征图通道数不同,则输入的文本浅层特征图依次经过1×1的卷积层和BN层提取特征,再进行输出;若输入的文本浅层特征图的通道数与图像局部特征图通道数相同,则直接进行输出;
第一条支线的输出与第二条支线的输出直接相加,最终输出通道数与图像局部特征图通道数对应的文本局部特征图。
7.根据权利要求5所述的局部特征感知图文跨模态模型的训练方法,其特征在于,所述损失函数的计算方法为:
计算单向CMPM损失
Figure FDA0003570683380000031
式中,pi,j为图像特征向对应文本特征投影的相似度;qi,j为正则化处理后的真实匹配标签;ε为用于避免出现除零问题的极小参数;其中,所述图像特征包括图像浅层特征、图像局部特征和视觉最终特征;
计算双向CMPM损失
LCMPM=LI2T+lT2I
式中LI2T和LT2I分别为图像特征到文本特征映射时的单向CMPM损失和文本特征到图像特征映射时的单向CMPM损失;
计算最终损失函数
Figure FDA0003570683380000041
式中,
Figure FDA0003570683380000042
为图像浅层特征和文本浅层特征之间的双向CMPM损失;
Figure FDA0003570683380000043
为图像局部特征和文本局部特征之间的双向CMPM损失;
Figure FDA0003570683380000044
为视觉最终特征和文本最终特征之间的双向CMPM损失;λ1、λ2和λ3为各个双向CMPM损失的权重。
8.根据权利要求4-7任一所述的局部特征感知图文跨模态模型的训练方法,其特征在于,所述视觉特征提取模块采用的ResNet-50或者VGG-16,均加载ImageNet上的预训练模型,再进行训练。
9.根据权利要求5-7任一所述的局部特征感知图文跨模态模型的训练方法,其特征在于,所述文本特征提取模块的词向量提取器包括BERT、Bi-LSTM或Bi-GRU中的任意一个;
当采用BERT作为词向量提取器时,固定BERT参数,直接加载在Toronto Book Corpus和Wikipedia上的预训练模型而不用进行训练;
当采用Bi-LSTM或Bi-GRU作为词向量提取器时,需要将其加入模型的训练中。
10.根据权利要求2-7任一所述的局部特征感知图文跨模态模型的训练方法,其特征在于,训练时,学习率设置为3×10-3,前10次迭代周期采用预热技巧,并在20次、40次和/或50次迭代周期后进行学习率0.1倍衰减。
CN202210318598.3A 2022-03-29 2022-03-29 一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法 Pending CN114743217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210318598.3A CN114743217A (zh) 2022-03-29 2022-03-29 一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210318598.3A CN114743217A (zh) 2022-03-29 2022-03-29 一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法

Publications (1)

Publication Number Publication Date
CN114743217A true CN114743217A (zh) 2022-07-12

Family

ID=82277024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210318598.3A Pending CN114743217A (zh) 2022-03-29 2022-03-29 一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法

Country Status (1)

Country Link
CN (1) CN114743217A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757857A (zh) * 2023-01-09 2023-03-07 吉林大学 一种水下三维跨模态联合检索方法、存储介质和电子设备
CN117456560A (zh) * 2023-12-22 2024-01-26 华侨大学 一种基于前景感知动态部件学习的行人再辨识方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757857A (zh) * 2023-01-09 2023-03-07 吉林大学 一种水下三维跨模态联合检索方法、存储介质和电子设备
CN117456560A (zh) * 2023-12-22 2024-01-26 华侨大学 一种基于前景感知动态部件学习的行人再辨识方法
CN117456560B (zh) * 2023-12-22 2024-03-29 华侨大学 一种基于前景感知动态部件学习的行人再辨识方法

Similar Documents

Publication Publication Date Title
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN108415977B (zh) 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN108804530B (zh) 对图像的区域加字幕
CN108733837B (zh) 一种病历文本的自然语言结构化方法及装置
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
CN114743217A (zh) 一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法
CN110135441B (zh) 一种图像的文本描述方法及装置
CN110188775A (zh) 一种基于联合神经网络模型的图像内容描述自动生成方法
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
CN109558605A (zh) 用于翻译语句的方法和装置
CN107122492A (zh) 基于图片内容的歌词生成方法和装置
CN114998777A (zh) 一种针对跨模态视频检索模型的训练方法及装置
CN106557554A (zh) 基于人工智能的搜索结果的显示方法和装置
CN114996511A (zh) 一种针对跨模态视频检索模型的训练方法及装置
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN117746078B (zh) 一种基于用户自定义类别的物体检测方法及系统
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114995729A (zh) 一种语音绘图方法、装置及计算机设备
CN116186310B (zh) 一种融合ai通用助手的ar空间标注及展示方法
CN116485943A (zh) 图像生成方法、电子设备及存储介质
CN110852103A (zh) 一种命名实体识别方法及装置
CN116433936A (zh) 图像检测方法、装置、电子设备及存储介质
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
CN115859121A (zh) 文本处理模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination