CN111598041B

CN111598041B - 一种用于物品查找的图像生成文本方法

Info

Publication number: CN111598041B
Application number: CN202010447384.7A
Authority: CN
Inventors: 纪刚; 周粉粉
Original assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Current assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-05-02
Anticipated expiration: 2040-05-25
Also published as: CN111598041A

Abstract

本发明属于图像处理技术领域，涉及一种用于物品查找的图像生成文本方法；工艺步骤如下：步骤一：对训练集样本图像中的物品使用标注工具进行数据标注，将标注后的训练集图像输入目标检测模型M_o，得到保存有特征向量的训练集图像；步骤二：对保存有特征向量的训练集图像通过图像文本语言模型M_c进行文本语言描述，每张图像对应5个不同的文本描述，描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述；所述方法根据对图像更加细粒度的分析加深图像理解得到高阶特征并实现文本的预测，最终图像的文本描述，可用于人类与机器人交互过程中实现物品的查找。

Description

一种用于物品查找的图像生成文本方法

技术领域：

本发明属于图像处理技术领域，涉及一种对图像进行文本信息描述的方法，特别是一种用于物品查找的图像生成文本方法。

背景技术：

目前智能化设备日新月异，使用机器人进行物品查找得到科研创新领域的关注，在机器人查找物品的过程中，将机器人获取的图像与机器人数据库中庞大的图像信息进行匹配，从而确定查找物品的类别，再进行物品类别确定前，需要对数据库中的图像进行文本信息标注，确定数据库中图像的类别，这一过程计算量大，处理复杂，对机器人物品查找的准确度影响显著。

在现有技术中，公开号为CN108509521B的中国专利，公开了一种自动生成文本索引的图像检索方法，步骤如下：(1)训练自动标注模型，首先通过模型的CNN部分提取图像特征，将特征和图像的描述词作为模型的RNN部分的输入，并以交叉熵损失函数为目标函数进行反向传播；(2)为图像生成文本索引，经过训练得到自动标注模型和词典，对于未标注的图像，通过自动标注模型为其生成描述词序列以及各个词对应的置信度，对置信度进行归一化后，两者共同作为图像的文本索引，用于构建图像检索索引；(3)当查询关键词不在词典中，通过近义词查询词库找到关键词在词典中的近义词；(4)根据关键词或其近义词在图像检索索引中找到相应图像，按照置信度从高到低依次返回。公开号为CN110555332A的中国专利，公开了一种基于图像生成文本信息的方法、电子设备及存储介质，该方法包括：获取待处理图像的第一图像特征信息，以及至少一个文本属性对应的文本属性信息；根据第一图像特征信息和文本属性信息，确定待处理图像所对应的文本信息。

现有图像文本索引或文本信息生成主要存在以下问题：现有的文本信息生成只是粗略度量图像的特征，使生成的图像文本缺少图像全局的特征的描述，没有考虑图像内容在语义方面的关联性，导致图像文本生成简单化。

发明内容：

本发明的目的在于克服现有技术存在的缺点，针对现有的图像文本生成模型中只能被动的生成图像的文本描述、不适用具体的应用场景的缺陷，同时图像文本生成模型在没有考虑图像全局特征的情况下，存在生成的文本内容过于简单、根本没有考虑用户关心的文本内容以及文本描述的详细程度、生成的内容关联性差、无法适用于实际工程等不足，寻求设计一种用于物品查找的图像生成文本方法。

为了实现上述目的，本发明涉及的一种用于物品查找的图像生成文本方法，工艺步骤如下：

步骤一：目标检测模型M_o对图像编码

对训练集样本图像中的物品使用标注工具进行数据标注，得到标注后的训练集图像，将标注后的训练集图像输入目标检测模型M_o，得到保存有特征向量的训练集图像；

步骤二：图像文本语言模型M_c进行文本语言的描述

对保存有特征向量的训练集图像通过图像文本语言模型M_c进行文本语言描述，每张图像对应5个不同的文本描述，描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述，图像场景是指图像中包含的内容场景，图像不同，得到的图像文本描述中文本内容就不同。

本发明所述步骤一：目标检测模型M_o对图像编码的具体过程如下：

(1)训练集样本中图像表示为I＝(w,h,c)，其中w为图像I的宽度、h为图像I的高度和c为图像I的通道；物品的类别为C＝(c₁,c₂,...,c_i)，物品的类别根据实际情况需要自动添加；对样本图像中含有类别C中的物品使用labelImg标注工具进行数据标注，标注数据包含图像I中的目标框位置坐标信息(x_min,y_min,x_max,y_max)和该目标框指定的类别信息c_i，得到标注后的训练集图像，其中图像I中的目标框视为已经标注的目标框；

(2)将标注后的训练集图像输入faster RCNN目标检测模型M_o，训练目标检测模型M_o的网络参数θ，使得训练的训练集图像中样本数据不断拟合目标检测模型M_o，目标检测模型M_o输出图像的目标检测结果，得到保存有特征向量的训练集图像。

本发明所述目标检测模型M_o输出目标检测结果的工艺流程如下：

(a1)将标注后的训练集图像输入卷积神经CNN网络，卷积神经CNN网络提取图像的特征得到图像特征图feature_map,

(a2)将图像特征图feature_map输入RPN网络(区域生成网络)，RPN网络处理特征图feature_map得到训练集图像中目标的候选区域框，

(a3)将得到的候选区域框与训练集图像中已经标注的目标框计算二者的重叠度得分score，设定重叠度的阈值为th＝0.6，保留score＞0.6的候选区域框；

(a4)使保留的候选区域框中包含目标物体，并标记为1；舍弃的候选区域框不包含目标物体，标记为0，舍弃的候选区域框区域划归为图像背景；

(a5)将保留的候选区域框(即回归得到的目标框)经ROI pooling层将候选区域框提取出来映射到特征图对应的位置；

(a6)将映射后的候选区域处理为维度为2048的特征向量(矩阵)，同时得到候选区域的检测目标数量N，检测目标数量N的取值范围是N∈(10,100)，最终保存图像的N*2048维的特征向量(矩阵)V，得到保存有特征向量的训练集图像。

本发明所述步骤二中通过图像文本语言模型M_c进行文本语言描述的具体过程为：

(1)首先，由于每个图像都有自身的文本描述内容，为方便快速查找，对训练集图像的所有文本描述建立词汇表，根据词汇表将每个词进行数字编码以方便数据处理，例如将this cup is on the desk,编码为[15,58,100,6,500,62]；对词汇表中词出现的次数c≤6的词过滤掉，保留出现频率大的词汇，对过滤掉的低频率词汇用UNK代替，最终得到词汇编码表V_cab；

(2)通过V_cab对所有的文本描述编码为句子向量S＝(w₀,w₁,...,w_L-1)，w_i为第i个单词编码特征，将每个单词表示为一个一维词向量w_i，w_i的维数等于词汇表V_cab的大小，L为词的数量；

(3)采用自注意力机制编码解码网络实现文本内容的生成。

本发明所述采用自注意力机制编码解码网络的具体过程为：

(3-1)自注意力模块编码：

将保存有特征向量的训练集图像中的图像特征输入自注意力机制，设定自注意力机制的输入为查询向量、键向量和值向量，采用3级自注意力机制模块串联的方式实现图像的高阶特征编码过程，实现图像的高阶特征编码过程的具体流程如下：

(b1)采用均值化区域特征

作为初始的输入查询向量Q⁽⁰⁾，其中均值化区域特征

的公式为：

其中V_i为某一个候选区域框中的特征向量；

(b2)设定第一个注意力机制的输入为K⁽⁰⁾＝V⁽⁰⁾＝V，

经自注意力机制处理输出注意力图像级特征

作为第二个注意力机制的输入查询向量Q⁽¹⁾，同时在

的基础上输入嵌入层经归一化处理更新键向量K⁽¹⁾和值向量V⁽¹⁾，更新的键向量和值向量作为下一个注意力机制的输入，键向量和值向量的具体实现公式如下；

其中

σ为sigmoid激活函数，

和

为嵌入层矩阵；

(b3)经过3级自注意力机制模块串联处理后，获得的注意力图像级特征

将第三个自注意力机制模块更新后的值V⁽³⁾作为增强后的图像区域级特征,得到的图像区域级特征属于高阶的、精细度特征；

(3-2)自注意力机制模块解码过程：

解码过程就是预测生成的词的过程，在解码阶段，将均值化区域特征

与编码阶段得到的图像级特征

串联，经嵌入层进一步转化为全局的图像级特征，全局的图像级特征的转化公式为：

其中W_G为嵌入矩阵；

将全局的图像级特征

和词嵌入向量x_i输入LSTM网络，经LSTM网络处理后输出h_t，其中通过词嵌入矩阵得到对应的词嵌入向量x_i，通过引入词嵌入向量x_i方便数据处理，词嵌入向量x_i的计算公式为：

x_i＝W_ew_i，

其中i∈{0,1,...,L-1}，W_e表示词嵌入矩阵；

将LSTM网络的输出h_t作为自注意力机制模块的查询向量h_t＝q，其中键向量和值向量均为V⁽³⁾，输出的注意力特征

与h_t相连，经嵌入层(Embed)和门线性单元(GLU)处理得到上下文向量c_t，c_t经过线性化处理后，在softmax层预测下一个词y_i；直到生成的词序列长度达到设定的值或者遇到结束符，结束生成的句子，最后得到图像中关于检测目标的最终文本描述。

本发明所述softmax层预测下一个词y_i具体实现流程如下：

(c1)预测下一个单词y_i生成采用的方法为beam search搜寻方法，其中参数设置为beam_size＝3，beam_size表示预测生成下一个单词的可能性，词汇中的每个词概率属于0-1之间的值；softmax层的softmax函数将经过线性化处理后c_t的输入数据转化为0-1之间的概率值，概率值经sort()函数进行排序得到概率排序后的词汇表V_cab；

(c2)在预测得到的第一个单词y₁时，选择词汇表V_cab中概率最大的前3个词{V_w1,V_w2,V_w3}，当预测生成下一个单词时，将当前序列的三个词{V_w1,V_w2,V_w3}同V_cab中所有词进行组合，得到新的词组序列，预测下一个单词y₂，此时LSTM的输入为前一个词得到的上下文向量c_t同

之和，即

另一个输入为当前词的嵌入矩阵x₂＝W_ew₂，重复以上自注意力解码操作流程，预测下一个词，直到生成的词序列长度达到设定的值length＝17或者遇到结束符，结束生成的句子，最后得到图像中关于检测目标的最终文本描述。

本发明与现有技术相比，所设计的用于物品查找的图像生成文本方法具有如下有益效果：能够根据对图像更加细粒度的分析加深图像理解得到高阶特征并实现文本的预测，最终图像的文本描述，可用于人类与机器人交互过程中实现物品的查找；本方法根据机器人拍摄得到视觉图像I，与机器人平台集成一体的算法模型包括图像的目标检测模型M_o、图像文本语言模型M_c，当人在与机器人交互中，根据人们在一般场景下需要寻找的物品需求，机器人实现物品的快速查找，同时采用此方法也会提高了机器人的智能化程度。

附图说明：

图1为本发明涉及的目标检测模型M_o获得目标检测结果的工艺流程框图。

图2为本发明涉及的实现图像的高阶特征编码的工艺流程框图。

图3为本发明涉及的softmax层预测下一个词y_i的工艺流程框图。

图4为本发明涉及的任意一张彩色图像生成图像的文本内容的工艺流程框图。

图5为本发明涉及的选取的一张进行生成图像文本内容处理的彩色图像。

具体实施方式：

下面通过实施例并结合附图对本发明作进一步说明。

实施例1：

本实施例涉及的一种用于物品查找的图像生成文本方法，工艺步骤如下：

步骤一：目标检测模型M_o对图像编码

对训练集样本图像中的物品使用标注工具进行数据标注，得到标注后的训练集图像，将标注后的训练集图像输入目标检测模型M_o，得到保存有特征向量的训练集图像；具体过程如下：

(2)将标注后的训练集图像输入faster RCNN目标检测模型M_o，训练目标检测模型M_o的网络参数θ，使得训练的训练集图像中样本数据不断拟合目标检测模型M_o，目标检测模型M_o输出图像的目标检测结果，得到保存有特征向量的训练集图像，如图1所示，获得目标检测结果的工艺流程如下：

(a6)将映射后的候选区域处理为维度为2048的特征向量(矩阵)，同时得到候选区域的检测目标数量N，检测目标数量N的取值范围是N∈(10,100)，最终保存图像的N*2048维的特征向量(矩阵)V，得到保存有特征向量的训练集图像；

步骤二：图像文本语言模型M_c进行文本语言的描述

对保存有特征向量的训练集图像通过图像文本语言模型M_c进行文本语言描述，每张图像对应5个不同的文本描述，描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述，图像场景是指图像中包含的内容场景，图像不同，得到的图像文本描述中文本内容就不同；通过图像文本语言模型M_c进行文本语言描述的具体过程为：

(3)采用自注意力机制编码解码网络实现文本内容的生成：

采用自注意力机制编码解码网络的具体过程为：

(3-1)自注意力模块编码：

将保存有特征向量的训练集图像中的图像特征输入自注意力机制，设定自注意力机制的输入为查询向量、键向量和值向量，采用3级自注意力机制模块串联的方式实现图像的高阶特征编码过程，如图2所示，实现图像的高阶特征编码过程的具体流程如下：

(b1)采用均值化区域特征

作为初始的输入查询向量Q⁽⁰⁾，其中均值化区域特征

的公式为：

其中V_i为某一个候选区域框中的特征向量；

(b2)设定第一个注意力机制的输入为K⁽⁰⁾＝V⁽⁰⁾＝V，

经自注意力机制处理输出注意力图像级特征

作为第二个注意力机制的输入查询向量Q⁽¹⁾，同时在

其中

σ为sigmoid激活函数，

和

为嵌入层矩阵；

(3-2)自注意力机制模块解码过程：

与编码阶段得到的图像级特征

其中W_G为嵌入矩阵；

将全局的图像级特征

x_i＝W_ew_i，

其中i∈{0,1,...,L-1}，W_e表示词嵌入矩阵；

与h_t相连，经嵌入层(Embed)和门线性单元(GLU)处理得到上下文向量c_t，c_t经过线性化处理后，在softmax层预测下一个词y_i；直到生成的词序列长度达到设定的值或者遇到结束符，结束生成的句子，最后得到图像中关于检测目标的最终文本描述；如图3所示，softmax层预测下一个词y_i具体实现流程如下：

之和，即

实施例2：

选取任意一幅图像作为样本图像，样本图像在没有人为标注图像目标框和图像文本描述的情况下，输入到目标检测模型中，如图4所示，生成图像的文本内容过程如下：

选取任意一张彩色图像输入目标检测模型M_o，选取的彩色图像如图5所示，经目标检测模型M_o处理，输出图像的特征矩阵，特征矩阵行表示图像中检测得到的目标框，特征矩阵列表示图像中每一个目标框的特征向量，维度为2048；将得到的特征矩阵输入到文本语言模型M_c中，文本语言模型M_c学习图像的特征并预测图像中可能含有的内容，最终生成用于描述图像的文本内容；图5所示图像经处理后得到的文本描述内容为：a coffee cupsitting next to a computer mouse on a table。