CN111598041B - 一种用于物品查找的图像生成文本方法 - Google Patents

一种用于物品查找的图像生成文本方法 Download PDF

Info

Publication number
CN111598041B
CN111598041B CN202010447384.7A CN202010447384A CN111598041B CN 111598041 B CN111598041 B CN 111598041B CN 202010447384 A CN202010447384 A CN 202010447384A CN 111598041 B CN111598041 B CN 111598041B
Authority
CN
China
Prior art keywords
image
text
word
vector
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010447384.7A
Other languages
English (en)
Other versions
CN111598041A (zh
Inventor
纪刚
周粉粉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Lianhe Chuangzhi Technology Co ltd
Original Assignee
Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Lianhe Chuangzhi Technology Co ltd filed Critical Qingdao Lianhe Chuangzhi Technology Co ltd
Priority to CN202010447384.7A priority Critical patent/CN111598041B/zh
Publication of CN111598041A publication Critical patent/CN111598041A/zh
Application granted granted Critical
Publication of CN111598041B publication Critical patent/CN111598041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于图像处理技术领域,涉及一种用于物品查找的图像生成文本方法;工艺步骤如下:步骤一:对训练集样本图像中的物品使用标注工具进行数据标注,将标注后的训练集图像输入目标检测模型Mo,得到保存有特征向量的训练集图像;步骤二:对保存有特征向量的训练集图像通过图像文本语言模型Mc进行文本语言描述,每张图像对应5个不同的文本描述,描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述;所述方法根据对图像更加细粒度的分析加深图像理解得到高阶特征并实现文本的预测,最终图像的文本描述,可用于人类与机器人交互过程中实现物品的查找。

Description

一种用于物品查找的图像生成文本方法
技术领域:
本发明属于图像处理技术领域,涉及一种对图像进行文本信息描述的方法,特别是一种用于物品查找的图像生成文本方法。
背景技术:
目前智能化设备日新月异,使用机器人进行物品查找得到科研创新领域的关注,在机器人查找物品的过程中,将机器人获取的图像与机器人数据库中庞大的图像信息进行匹配,从而确定查找物品的类别,再进行物品类别确定前,需要对数据库中的图像进行文本信息标注,确定数据库中图像的类别,这一过程计算量大,处理复杂,对机器人物品查找的准确度影响显著。
在现有技术中,公开号为CN108509521B的中国专利,公开了一种自动生成文本索引的图像检索方法,步骤如下:(1)训练自动标注模型,首先通过模型的CNN部分提取图像特征,将特征和图像的描述词作为模型的RNN部分的输入,并以交叉熵损失函数为目标函数进行反向传播;(2)为图像生成文本索引,经过训练得到自动标注模型和词典,对于未标注的图像,通过自动标注模型为其生成描述词序列以及各个词对应的置信度,对置信度进行归一化后,两者共同作为图像的文本索引,用于构建图像检索索引;(3)当查询关键词不在词典中,通过近义词查询词库找到关键词在词典中的近义词;(4)根据关键词或其近义词在图像检索索引中找到相应图像,按照置信度从高到低依次返回。公开号为CN110555332A的中国专利,公开了一种基于图像生成文本信息的方法、电子设备及存储介质,该方法包括:获取待处理图像的第一图像特征信息,以及至少一个文本属性对应的文本属性信息;根据第一图像特征信息和文本属性信息,确定待处理图像所对应的文本信息。
现有图像文本索引或文本信息生成主要存在以下问题:现有的文本信息生成只是粗略度量图像的特征,使生成的图像文本缺少图像全局的特征的描述,没有考虑图像内容在语义方面的关联性,导致图像文本生成简单化。
发明内容:
本发明的目的在于克服现有技术存在的缺点,针对现有的图像文本生成模型中只能被动的生成图像的文本描述、不适用具体的应用场景的缺陷,同时图像文本生成模型在没有考虑图像全局特征的情况下,存在生成的文本内容过于简单、根本没有考虑用户关心的文本内容以及文本描述的详细程度、生成的内容关联性差、无法适用于实际工程等不足,寻求设计一种用于物品查找的图像生成文本方法。
为了实现上述目的,本发明涉及的一种用于物品查找的图像生成文本方法,工艺步骤如下:
步骤一:目标检测模型Mo对图像编码
对训练集样本图像中的物品使用标注工具进行数据标注,得到标注后的训练集图像,将标注后的训练集图像输入目标检测模型Mo,得到保存有特征向量的训练集图像;
步骤二:图像文本语言模型Mc进行文本语言的描述
对保存有特征向量的训练集图像通过图像文本语言模型Mc进行文本语言描述,每张图像对应5个不同的文本描述,描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述,图像场景是指图像中包含的内容场景,图像不同,得到的图像文本描述中文本内容就不同。
本发明所述步骤一:目标检测模型Mo对图像编码的具体过程如下:
(1)训练集样本中图像表示为I=(w,h,c),其中w为图像I的宽度、h为图像I的高度和c为图像I的通道;物品的类别为C=(c1,c2,...,ci),物品的类别根据实际情况需要自动添加;对样本图像中含有类别C中的物品使用labelImg标注工具进行数据标注,标注数据包含图像I中的目标框位置坐标信息(xmin,ymin,xmax,ymax)和该目标框指定的类别信息ci,得到标注后的训练集图像,其中图像I中的目标框视为已经标注的目标框;
(2)将标注后的训练集图像输入faster RCNN目标检测模型Mo,训练目标检测模型Mo的网络参数θ,使得训练的训练集图像中样本数据不断拟合目标检测模型Mo,目标检测模型Mo输出图像的目标检测结果,得到保存有特征向量的训练集图像。
本发明所述目标检测模型Mo输出目标检测结果的工艺流程如下:
(a1)将标注后的训练集图像输入卷积神经CNN网络,卷积神经CNN网络提取图像的特征得到图像特征图feature_map,
(a2)将图像特征图feature_map输入RPN网络(区域生成网络),RPN网络处理特征图feature_map得到训练集图像中目标的候选区域框,
(a3)将得到的候选区域框与训练集图像中已经标注的目标框计算二者的重叠度得分score,设定重叠度的阈值为th=0.6,保留score>0.6的候选区域框;
(a4)使保留的候选区域框中包含目标物体,并标记为1;舍弃的候选区域框不包含目标物体,标记为0,舍弃的候选区域框区域划归为图像背景;
(a5)将保留的候选区域框(即回归得到的目标框)经ROI pooling层将候选区域框提取出来映射到特征图对应的位置;
(a6)将映射后的候选区域处理为维度为2048的特征向量(矩阵),同时得到候选区域的检测目标数量N,检测目标数量N的取值范围是N∈(10,100),最终保存图像的N*2048维的特征向量(矩阵)V,得到保存有特征向量的训练集图像。
本发明所述步骤二中通过图像文本语言模型Mc进行文本语言描述的具体过程为:
(1)首先,由于每个图像都有自身的文本描述内容,为方便快速查找,对训练集图像的所有文本描述建立词汇表,根据词汇表将每个词进行数字编码以方便数据处理,例如将this cup is on the desk,编码为[15,58,100,6,500,62];对词汇表中词出现的次数c≤6的词过滤掉,保留出现频率大的词汇,对过滤掉的低频率词汇用UNK代替,最终得到词汇编码表Vcab
(2)通过Vcab对所有的文本描述编码为句子向量S=(w0,w1,...,wL-1),wi为第i个单词编码特征,将每个单词表示为一个一维词向量wi,wi的维数等于词汇表Vcab的大小,L为词的数量;
(3)采用自注意力机制编码解码网络实现文本内容的生成。
本发明所述采用自注意力机制编码解码网络的具体过程为:
(3-1)自注意力模块编码:
将保存有特征向量的训练集图像中的图像特征输入自注意力机制,设定自注意力机制的输入为查询向量、键向量和值向量,采用3级自注意力机制模块串联的方式实现图像的高阶特征编码过程,实现图像的高阶特征编码过程的具体流程如下:
(b1)采用均值化区域特征
Figure BDA0002506387760000041
作为初始的输入查询向量Q(0),其中均值化区域特征
Figure BDA0002506387760000042
的公式为:
Figure BDA0002506387760000043
其中Vi为某一个候选区域框中的特征向量;
(b2)设定第一个注意力机制的输入为K(0)=V(0)=V,
Figure BDA0002506387760000044
经自注意力机制处理输出注意力图像级特征
Figure BDA0002506387760000051
作为第二个注意力机制的输入查询向量Q(1),同时在
Figure BDA0002506387760000052
的基础上输入嵌入层经归一化处理更新键向量K(1)和值向量V(1),更新的键向量和值向量作为下一个注意力机制的输入,键向量和值向量的具体实现公式如下;
Figure BDA0002506387760000053
Figure BDA0002506387760000054
其中
Figure BDA0002506387760000055
σ为sigmoid激活函数,
Figure BDA0002506387760000056
Figure BDA0002506387760000057
为嵌入层矩阵;
(b3)经过3级自注意力机制模块串联处理后,获得的注意力图像级特征
Figure BDA0002506387760000058
将第三个自注意力机制模块更新后的值V(3)作为增强后的图像区域级特征,得到的图像区域级特征属于高阶的、精细度特征;
(3-2)自注意力机制模块解码过程:
解码过程就是预测生成的词的过程,在解码阶段,将均值化区域特征
Figure BDA0002506387760000059
与编码阶段得到的图像级特征
Figure BDA00025063877600000510
串联,经嵌入层进一步转化为全局的图像级特征,全局的图像级特征的转化公式为:
Figure BDA00025063877600000511
其中WG为嵌入矩阵;
将全局的图像级特征
Figure BDA00025063877600000512
和词嵌入向量xi输入LSTM网络,经LSTM网络处理后输出ht,其中通过词嵌入矩阵得到对应的词嵌入向量xi,通过引入词嵌入向量xi方便数据处理,词嵌入向量xi的计算公式为:
xi=Wewi
其中i∈{0,1,...,L-1},We表示词嵌入矩阵;
将LSTM网络的输出ht作为自注意力机制模块的查询向量ht=q,其中键向量和值向量均为V(3),输出的注意力特征
Figure BDA0002506387760000061
与ht相连,经嵌入层(Embed)和门线性单元(GLU)处理得到上下文向量ct,ct经过线性化处理后,在softmax层预测下一个词yi;直到生成的词序列长度达到设定的值或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述。
本发明所述softmax层预测下一个词yi具体实现流程如下:
(c1)预测下一个单词yi生成采用的方法为beam search搜寻方法,其中参数设置为beam_size=3,beam_size表示预测生成下一个单词的可能性,词汇中的每个词概率属于0-1之间的值;softmax层的softmax函数将经过线性化处理后ct的输入数据转化为0-1之间的概率值,概率值经sort()函数进行排序得到概率排序后的词汇表Vcab
(c2)在预测得到的第一个单词y1时,选择词汇表Vcab中概率最大的前3个词{Vw1,Vw2,Vw3},当预测生成下一个单词时,将当前序列的三个词{Vw1,Vw2,Vw3}同Vcab中所有词进行组合,得到新的词组序列,预测下一个单词y2,此时LSTM的输入为前一个词得到的上下文向量ct
Figure BDA0002506387760000062
之和,即
Figure BDA0002506387760000063
另一个输入为当前词的嵌入矩阵x2=Wew2,重复以上自注意力解码操作流程,预测下一个词,直到生成的词序列长度达到设定的值length=17或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述。
本发明与现有技术相比,所设计的用于物品查找的图像生成文本方法具有如下有益效果:能够根据对图像更加细粒度的分析加深图像理解得到高阶特征并实现文本的预测,最终图像的文本描述,可用于人类与机器人交互过程中实现物品的查找;本方法根据机器人拍摄得到视觉图像I,与机器人平台集成一体的算法模型包括图像的目标检测模型Mo、图像文本语言模型Mc,当人在与机器人交互中,根据人们在一般场景下需要寻找的物品需求,机器人实现物品的快速查找,同时采用此方法也会提高了机器人的智能化程度。
附图说明:
图1为本发明涉及的目标检测模型Mo获得目标检测结果的工艺流程框图。
图2为本发明涉及的实现图像的高阶特征编码的工艺流程框图。
图3为本发明涉及的softmax层预测下一个词yi的工艺流程框图。
图4为本发明涉及的任意一张彩色图像生成图像的文本内容的工艺流程框图。
图5为本发明涉及的选取的一张进行生成图像文本内容处理的彩色图像。
具体实施方式:
下面通过实施例并结合附图对本发明作进一步说明。
实施例1:
本实施例涉及的一种用于物品查找的图像生成文本方法,工艺步骤如下:
步骤一:目标检测模型Mo对图像编码
对训练集样本图像中的物品使用标注工具进行数据标注,得到标注后的训练集图像,将标注后的训练集图像输入目标检测模型Mo,得到保存有特征向量的训练集图像;具体过程如下:
(1)训练集样本中图像表示为I=(w,h,c),其中w为图像I的宽度、h为图像I的高度和c为图像I的通道;物品的类别为C=(c1,c2,...,ci),物品的类别根据实际情况需要自动添加;对样本图像中含有类别C中的物品使用labelImg标注工具进行数据标注,标注数据包含图像I中的目标框位置坐标信息(xmin,ymin,xmax,ymax)和该目标框指定的类别信息ci,得到标注后的训练集图像,其中图像I中的目标框视为已经标注的目标框;
(2)将标注后的训练集图像输入faster RCNN目标检测模型Mo,训练目标检测模型Mo的网络参数θ,使得训练的训练集图像中样本数据不断拟合目标检测模型Mo,目标检测模型Mo输出图像的目标检测结果,得到保存有特征向量的训练集图像,如图1所示,获得目标检测结果的工艺流程如下:
(a1)将标注后的训练集图像输入卷积神经CNN网络,卷积神经CNN网络提取图像的特征得到图像特征图feature_map,
(a2)将图像特征图feature_map输入RPN网络(区域生成网络),RPN网络处理特征图feature_map得到训练集图像中目标的候选区域框,
(a3)将得到的候选区域框与训练集图像中已经标注的目标框计算二者的重叠度得分score,设定重叠度的阈值为th=0.6,保留score>0.6的候选区域框;
(a4)使保留的候选区域框中包含目标物体,并标记为1;舍弃的候选区域框不包含目标物体,标记为0,舍弃的候选区域框区域划归为图像背景;
(a5)将保留的候选区域框(即回归得到的目标框)经ROI pooling层将候选区域框提取出来映射到特征图对应的位置;
(a6)将映射后的候选区域处理为维度为2048的特征向量(矩阵),同时得到候选区域的检测目标数量N,检测目标数量N的取值范围是N∈(10,100),最终保存图像的N*2048维的特征向量(矩阵)V,得到保存有特征向量的训练集图像;
步骤二:图像文本语言模型Mc进行文本语言的描述
对保存有特征向量的训练集图像通过图像文本语言模型Mc进行文本语言描述,每张图像对应5个不同的文本描述,描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述,图像场景是指图像中包含的内容场景,图像不同,得到的图像文本描述中文本内容就不同;通过图像文本语言模型Mc进行文本语言描述的具体过程为:
(1)首先,由于每个图像都有自身的文本描述内容,为方便快速查找,对训练集图像的所有文本描述建立词汇表,根据词汇表将每个词进行数字编码以方便数据处理,例如将this cup is on the desk,编码为[15,58,100,6,500,62];对词汇表中词出现的次数c≤6的词过滤掉,保留出现频率大的词汇,对过滤掉的低频率词汇用UNK代替,最终得到词汇编码表Vcab
(2)通过Vcab对所有的文本描述编码为句子向量S=(w0,w1,...,wL-1),wi为第i个单词编码特征,将每个单词表示为一个一维词向量wi,wi的维数等于词汇表Vcab的大小,L为词的数量;
(3)采用自注意力机制编码解码网络实现文本内容的生成:
采用自注意力机制编码解码网络的具体过程为:
(3-1)自注意力模块编码:
将保存有特征向量的训练集图像中的图像特征输入自注意力机制,设定自注意力机制的输入为查询向量、键向量和值向量,采用3级自注意力机制模块串联的方式实现图像的高阶特征编码过程,如图2所示,实现图像的高阶特征编码过程的具体流程如下:
(b1)采用均值化区域特征
Figure BDA0002506387760000091
作为初始的输入查询向量Q(0),其中均值化区域特征
Figure BDA0002506387760000092
的公式为:
Figure BDA0002506387760000093
其中Vi为某一个候选区域框中的特征向量;
(b2)设定第一个注意力机制的输入为K(0)=V(0)=V,
Figure BDA0002506387760000094
经自注意力机制处理输出注意力图像级特征
Figure BDA0002506387760000095
作为第二个注意力机制的输入查询向量Q(1),同时在
Figure BDA0002506387760000096
的基础上输入嵌入层经归一化处理更新键向量K(1)和值向量V(1),更新的键向量和值向量作为下一个注意力机制的输入,键向量和值向量的具体实现公式如下;
Figure BDA0002506387760000101
Figure BDA0002506387760000102
其中
Figure BDA0002506387760000103
σ为sigmoid激活函数,
Figure BDA0002506387760000104
Figure BDA0002506387760000105
为嵌入层矩阵;
(b3)经过3级自注意力机制模块串联处理后,获得的注意力图像级特征
Figure BDA0002506387760000106
将第三个自注意力机制模块更新后的值V(3)作为增强后的图像区域级特征,得到的图像区域级特征属于高阶的、精细度特征;
(3-2)自注意力机制模块解码过程:
解码过程就是预测生成的词的过程,在解码阶段,将均值化区域特征
Figure BDA0002506387760000107
与编码阶段得到的图像级特征
Figure BDA0002506387760000108
串联,经嵌入层进一步转化为全局的图像级特征,全局的图像级特征的转化公式为:
Figure BDA0002506387760000109
其中WG为嵌入矩阵;
将全局的图像级特征
Figure BDA00025063877600001010
和词嵌入向量xi输入LSTM网络,经LSTM网络处理后输出ht,其中通过词嵌入矩阵得到对应的词嵌入向量xi,通过引入词嵌入向量xi方便数据处理,词嵌入向量xi的计算公式为:
xi=Wewi
其中i∈{0,1,...,L-1},We表示词嵌入矩阵;
将LSTM网络的输出ht作为自注意力机制模块的查询向量ht=q,其中键向量和值向量均为V(3),输出的注意力特征
Figure BDA00025063877600001011
与ht相连,经嵌入层(Embed)和门线性单元(GLU)处理得到上下文向量ct,ct经过线性化处理后,在softmax层预测下一个词yi;直到生成的词序列长度达到设定的值或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述;如图3所示,softmax层预测下一个词yi具体实现流程如下:
(c1)预测下一个单词yi生成采用的方法为beam search搜寻方法,其中参数设置为beam_size=3,beam_size表示预测生成下一个单词的可能性,词汇中的每个词概率属于0-1之间的值;softmax层的softmax函数将经过线性化处理后ct的输入数据转化为0-1之间的概率值,概率值经sort()函数进行排序得到概率排序后的词汇表Vcab
(c2)在预测得到的第一个单词y1时,选择词汇表Vcab中概率最大的前3个词{Vw1,Vw2,Vw3},当预测生成下一个单词时,将当前序列的三个词{Vw1,Vw2,Vw3}同Vcab中所有词进行组合,得到新的词组序列,预测下一个单词y2,此时LSTM的输入为前一个词得到的上下文向量ct
Figure BDA0002506387760000111
之和,即
Figure BDA0002506387760000112
另一个输入为当前词的嵌入矩阵x2=Wew2,重复以上自注意力解码操作流程,预测下一个词,直到生成的词序列长度达到设定的值length=17或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述。
实施例2:
选取任意一幅图像作为样本图像,样本图像在没有人为标注图像目标框和图像文本描述的情况下,输入到目标检测模型中,如图4所示,生成图像的文本内容过程如下:
选取任意一张彩色图像输入目标检测模型Mo,选取的彩色图像如图5所示,经目标检测模型Mo处理,输出图像的特征矩阵,特征矩阵行表示图像中检测得到的目标框,特征矩阵列表示图像中每一个目标框的特征向量,维度为2048;将得到的特征矩阵输入到文本语言模型Mc中,文本语言模型Mc学习图像的特征并预测图像中可能含有的内容,最终生成用于描述图像的文本内容;图5所示图像经处理后得到的文本描述内容为:a coffee cupsitting next to a computer mouse on a table。

Claims (6)

1.一种用于物品查找的图像生成文本方法,其特征在于:工艺步骤如下:
步骤一:目标检测模型Mo对图像编码
对训练集样本图像中的物品使用标注工具进行数据标注,得到标注后的训练集图像,将标注后的训练集图像输入目标检测模型Mo,得到保存有特征向量的训练集图像;
步骤二:图像文本语言模型Mc进行文本语言的描述
对保存有特征向量的训练集图像通过图像文本语言模型Mc进行文本语言描述,每张图像对应5个不同的文本描述,描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述。
2.根据权利要求1所述的用于物品查找的图像生成文本方法,其特征在于:所述步骤一:目标检测模型Mo对图像编码的具体过程如下:
(1)训练集样本中图像表示为I=(w,h,c),其中w为图像I的宽度、h为图像I的高度和c为图像I的通道;物品的类别为C=(c1,c2,...,ci),物品的类别根据实际情况需要自动添加;对样本图像中含有类别C中的物品使用labelImg标注工具进行数据标注,标注数据包含图像I中的目标框位置坐标信息(xmin,ymin,xmax,ymax)和该目标框指定的类别信息ci,得到标注后的训练集图像,其中图像I中的目标框视为已经标注的目标框;
(2)将标注后的训练集图像输入faster RCNN目标检测模型Mo,训练目标检测模型Mo的网络参数θ,使得训练的训练集图像中样本数据不断拟合目标检测模型Mo,目标检测模型Mo输出图像的目标检测结果,得到保存有特征向量的训练集图像。
3.根据权利要求2所述的用于物品查找的图像生成文本方法,其特征在于:所述目标检测模型Mo输出目标检测结果的工艺流程如下:
(a1)将标注后的训练集图像输入卷积神经CNN网络,卷积神经CNN网络提取图像的特征得到图像特征图feature_map,
(a2)将图像特征图feature_map输入RPN网络,RPN网络处理特征图feature_map得到训练集图像中目标的候选区域框,
(a3)将得到的候选区域框与训练集图像中已经标注的目标框计算二者的重叠度得分score,设定重叠度的阈值为th=0.6,保留score>0.6的候选区域框;
(a4)使保留的候选区域框中包含目标物体,并标记为1;舍弃的候选区域框不包含目标物体,标记为0,舍弃的候选区域框区域划归为图像背景;
(a5)将保留的候选区域框经ROI pooling层将候选区域框提取出来映射到特征图对应的位置;
(a6)将映射后的候选区域处理为维度为2048的特征向量,同时得到候选区域的检测目标数量N,检测目标数量N的取值范围是N∈(10,100),最终保存图像的N*2048维的特征向量V,得到保存有特征向量的训练集图像。
4.根据权利要求3或权利要求1所述的用于物品查找的图像生成文本方法,其特征在于:所述步骤二中通过图像文本语言模型Mc进行文本语言描述的具体过程为:
(1)首先,由于每个图像都有自身的文本描述内容,为方便快速查找,对训练集图像的所有文本描述建立词汇表,根据词汇表将每个词进行数字编码以方便数据处理;对词汇表中词出现的次数c≤6的词过滤掉,保留出现频率大的词汇,对过滤掉的低频率词汇用UNK代替,最终得到词汇编码表Vcab
(2)通过Vcab对所有的文本描述编码为句子向量S=(w0,w1,...,wL-1),wi为第i个单词编码特征,将每个单词表示为一个一维词向量wi,wi的维数等于词汇表Vcab的大小,L为词的数量;
(3)采用自注意力机制编码解码网络实现文本内容的生成。
5.根据权利要求4所述的用于物品查找的图像生成文本方法,其特征在于:所述采用自注意力机制编码解码网络的具体过程为:
(3-1)自注意力模块编码:
将保存有特征向量的训练集图像中的图像特征输入自注意力机制,设定自注意力机制的输入为查询向量、键向量和值向量,采用3级自注意力机制模块串联的方式实现图像的高阶特征编码过程,实现图像的高阶特征编码过程的具体流程如下:
(b1)采用均值化区域特征
Figure FDA0004141484300000031
作为初始的输入查询向量Q(0),其中均值化区域特征
Figure FDA0004141484300000032
的公式为:
Figure FDA0004141484300000033
其中Vi为某一个候选区域框中的特征向量;
(b2)设定第一个注意力机制的输入为K(0)=V(0)=V,
Figure FDA0004141484300000034
经自注意力机制处理输出注意力图像级特征
Figure FDA0004141484300000035
Figure FDA0004141484300000036
作为第二个注意力机制的输入查询向量Q(1),同时在
Figure FDA0004141484300000037
的基础上输入嵌入层经归一化处理更新键向量K(1)和值向量V(1),更新的键向量和值向量作为下一个注意力机制的输入,键向量和值向量的具体实现公式如下;
Figure FDA0004141484300000038
Figure FDA0004141484300000039
其中
Figure FDA00041414843000000310
σ为sigmoid激活函数,
Figure FDA00041414843000000311
Figure FDA00041414843000000312
为嵌入层矩阵;
(b3)经过3级自注意力机制模块串联处理后,获得的注意力图像级特征
Figure FDA00041414843000000313
将第三个自注意力机制模块更新后的值V(3)作为增强后的图像区域级特征,得到的图像区域级特征属于高阶的、精细度特征;
(3-2)自注意力机制模块解码过程:
解码过程就是预测生成的词的过程,在解码阶段,将均值化区域特征
Figure FDA0004141484300000041
与编码阶段得到的图像级特征
Figure FDA0004141484300000042
串联,经嵌入层进一步转化为全局的图像级特征,全局的图像级特征的转化公式为:
Figure FDA0004141484300000043
其中WG为嵌入矩阵;
将全局的图像级特征
Figure FDA0004141484300000044
和词嵌入向量xi输入LSTM网络,经LSTM网络处理后输出ht,其中通过词嵌入矩阵得到对应的词嵌入向量xi,通过引入词嵌入向量xi方便数据处理,词嵌入向量xi的计算公式为:
xi=Wewi
其中i∈{0,1,...,L-1},We表示词嵌入矩阵;
将LSTM网络的输出ht作为自注意力机制模块的查询向量ht=q,其中键向量和值向量均为V(3),输出的注意力特征
Figure FDA0004141484300000045
与ht相连,经嵌入层和门线性单元处理得到上下文向量ct,ct经过线性化处理后,在softmax层预测下一个词yi;直到生成的词序列长度达到设定的值或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述。
6.根据权利要求5所述的用于物品查找的图像生成文本方法,其特征在于:所述softmax层预测下一个词yi具体实现流程如下:
(c1)预测下一个单词yi生成采用的方法为beam search搜寻方法,其中参数设置为beam_size=3,beam_size表示预测生成下一个单词的可能性,词汇中的每个词概率属于0-1之间的值;softmax层的softmax函数将经过线性化处理后ct的输入数据转化为0-1之间的概率值,概率值经sort()函数进行排序得到概率排序后的词汇表Vcab
(c2)在预测得到的第一个单词y1时,选择词汇表Vcab中概率最大的前3个词{Vw1,Vw2,Vw3},当预测生成下一个单词时,将当前序列的三个词{Vw1,Vw2,Vw3}同Vcab中所有词进行组合,得到新的词组序列,预测下一个单词y2,此时LSTM的输入为前一个词得到的上下文向量ct
Figure FDA0004141484300000051
之和,即
Figure FDA0004141484300000052
另一个输入为当前词的嵌入矩阵x2=Wew2,重复以上自注意力解码操作流程,预测下一个词,直到生成的词序列长度达到设定的值length=17或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述。
CN202010447384.7A 2020-05-25 2020-05-25 一种用于物品查找的图像生成文本方法 Active CN111598041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010447384.7A CN111598041B (zh) 2020-05-25 2020-05-25 一种用于物品查找的图像生成文本方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010447384.7A CN111598041B (zh) 2020-05-25 2020-05-25 一种用于物品查找的图像生成文本方法

Publications (2)

Publication Number Publication Date
CN111598041A CN111598041A (zh) 2020-08-28
CN111598041B true CN111598041B (zh) 2023-05-02

Family

ID=72189366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010447384.7A Active CN111598041B (zh) 2020-05-25 2020-05-25 一种用于物品查找的图像生成文本方法

Country Status (1)

Country Link
CN (1) CN111598041B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016493B (zh) * 2020-09-03 2024-08-23 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质
CN112508096B (zh) * 2020-12-08 2022-03-25 电子科技大学 一种基于几何自注意力机制的图像自动标注方法
CN112614561A (zh) * 2020-12-24 2021-04-06 北京工业大学 一种基于层级自注意力序列编码的脑ct医学报告生成方法
CN113283248B (zh) * 2021-04-29 2022-06-21 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113449801B (zh) * 2021-07-08 2023-05-02 西安交通大学 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN114821271B (zh) * 2022-05-19 2022-09-16 平安科技(深圳)有限公司 模型训练方法、图像描述生成方法、装置及存储介质
CN114708952B (zh) * 2022-06-02 2022-10-04 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种图像标注方法、装置、存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916164A (zh) * 2010-08-11 2010-12-15 中兴通讯股份有限公司 一种移动终端及其实现的文件浏览方法
CA2729526A1 (en) * 2010-02-01 2011-08-01 Daon Holdings Limited Method and system of accounting for positional variability of biometric features
WO2015165331A1 (en) * 2014-04-28 2015-11-05 Beijing Zhigu Rui Tuo Tech Co., Ltd Information processing method and apparatus

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117192B2 (en) * 2001-05-23 2006-10-03 Veridian Erim International, Inc. Text and imagery spatial correlator
JP5691289B2 (ja) * 2010-08-11 2015-04-01 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
CN108305296B (zh) * 2017-08-30 2021-02-26 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN109543516A (zh) * 2018-10-16 2019-03-29 深圳壹账通智能科技有限公司 签约意向判断方法、装置、计算机设备和存储介质
CN109543820B (zh) * 2018-11-23 2022-09-23 中山大学 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法
CN109740471B (zh) * 2018-12-24 2021-06-22 中国科学院西安光学精密机械研究所 基于联合潜在语义嵌入的遥感图像描述方法
CN110222680A (zh) * 2019-05-19 2019-09-10 天津大学 一种城市生活垃圾物品外包装文本检测方法
CN111062451B (zh) * 2019-12-30 2023-03-31 合肥工业大学 一种基于文本引导图模型的图像描述生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2729526A1 (en) * 2010-02-01 2011-08-01 Daon Holdings Limited Method and system of accounting for positional variability of biometric features
CN101916164A (zh) * 2010-08-11 2010-12-15 中兴通讯股份有限公司 一种移动终端及其实现的文件浏览方法
WO2015165331A1 (en) * 2014-04-28 2015-11-05 Beijing Zhigu Rui Tuo Tech Co., Ltd Information processing method and apparatus

Also Published As

Publication number Publication date
CN111598041A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111598041B (zh) 一种用于物品查找的图像生成文本方法
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
CN106650813B (zh) 一种基于深度残差网络和lstm的图像理解方法
CN110188346B (zh) 一种基于信息抽取的网络安全法案件智能研判方法
CN106897371B (zh) 中文文本分类系统及方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN110888980B (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN110263325B (zh) 中文分词系统
CN107526799A (zh) 一种基于深度学习的知识图谱构建方法
Guo et al. Jointly learning of visual and auditory: A new approach for RS image and audio cross-modal retrieval
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN112256904A (zh) 一种基于视觉描述语句的图像检索方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN117689963B (zh) 一种基于多模态预训练模型的视觉实体链接方法
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN114912512A (zh) 一种对图像描述的结果进行自动评估的方法
WO2023134085A1 (zh) 问题答案的预测方法、预测装置、电子设备、存储介质
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN111985548A (zh) 一种标签引导的跨模态深度哈希方法
CN116089874A (zh) 一种基于集成学习和迁移学习的情感识别方法及装置
Hong et al. Fine-grained feature generation for generalized zero-shot video classification
Lei Research on the improved Word2Vec optimization strategy based on statistical language model
Chharia et al. Deep recurrent architecture based scene description generator for visually impaired
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant