CN111598041B - 一种用于物品查找的图像生成文本方法 - Google Patents
一种用于物品查找的图像生成文本方法 Download PDFInfo
- Publication number
- CN111598041B CN111598041B CN202010447384.7A CN202010447384A CN111598041B CN 111598041 B CN111598041 B CN 111598041B CN 202010447384 A CN202010447384 A CN 202010447384A CN 111598041 B CN111598041 B CN 111598041B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- word
- vector
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 93
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000001514 detection method Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 241000282414 Homo sapiens Species 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于图像处理技术领域,涉及一种用于物品查找的图像生成文本方法;工艺步骤如下:步骤一:对训练集样本图像中的物品使用标注工具进行数据标注,将标注后的训练集图像输入目标检测模型Mo,得到保存有特征向量的训练集图像;步骤二:对保存有特征向量的训练集图像通过图像文本语言模型Mc进行文本语言描述,每张图像对应5个不同的文本描述,描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述;所述方法根据对图像更加细粒度的分析加深图像理解得到高阶特征并实现文本的预测,最终图像的文本描述,可用于人类与机器人交互过程中实现物品的查找。
Description
技术领域:
本发明属于图像处理技术领域,涉及一种对图像进行文本信息描述的方法,特别是一种用于物品查找的图像生成文本方法。
背景技术:
目前智能化设备日新月异,使用机器人进行物品查找得到科研创新领域的关注,在机器人查找物品的过程中,将机器人获取的图像与机器人数据库中庞大的图像信息进行匹配,从而确定查找物品的类别,再进行物品类别确定前,需要对数据库中的图像进行文本信息标注,确定数据库中图像的类别,这一过程计算量大,处理复杂,对机器人物品查找的准确度影响显著。
在现有技术中,公开号为CN108509521B的中国专利,公开了一种自动生成文本索引的图像检索方法,步骤如下:(1)训练自动标注模型,首先通过模型的CNN部分提取图像特征,将特征和图像的描述词作为模型的RNN部分的输入,并以交叉熵损失函数为目标函数进行反向传播;(2)为图像生成文本索引,经过训练得到自动标注模型和词典,对于未标注的图像,通过自动标注模型为其生成描述词序列以及各个词对应的置信度,对置信度进行归一化后,两者共同作为图像的文本索引,用于构建图像检索索引;(3)当查询关键词不在词典中,通过近义词查询词库找到关键词在词典中的近义词;(4)根据关键词或其近义词在图像检索索引中找到相应图像,按照置信度从高到低依次返回。公开号为CN110555332A的中国专利,公开了一种基于图像生成文本信息的方法、电子设备及存储介质,该方法包括:获取待处理图像的第一图像特征信息,以及至少一个文本属性对应的文本属性信息;根据第一图像特征信息和文本属性信息,确定待处理图像所对应的文本信息。
现有图像文本索引或文本信息生成主要存在以下问题:现有的文本信息生成只是粗略度量图像的特征,使生成的图像文本缺少图像全局的特征的描述,没有考虑图像内容在语义方面的关联性,导致图像文本生成简单化。
发明内容:
本发明的目的在于克服现有技术存在的缺点,针对现有的图像文本生成模型中只能被动的生成图像的文本描述、不适用具体的应用场景的缺陷,同时图像文本生成模型在没有考虑图像全局特征的情况下,存在生成的文本内容过于简单、根本没有考虑用户关心的文本内容以及文本描述的详细程度、生成的内容关联性差、无法适用于实际工程等不足,寻求设计一种用于物品查找的图像生成文本方法。
为了实现上述目的,本发明涉及的一种用于物品查找的图像生成文本方法,工艺步骤如下:
步骤一:目标检测模型Mo对图像编码
对训练集样本图像中的物品使用标注工具进行数据标注,得到标注后的训练集图像,将标注后的训练集图像输入目标检测模型Mo,得到保存有特征向量的训练集图像;
步骤二:图像文本语言模型Mc进行文本语言的描述
对保存有特征向量的训练集图像通过图像文本语言模型Mc进行文本语言描述,每张图像对应5个不同的文本描述,描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述,图像场景是指图像中包含的内容场景,图像不同,得到的图像文本描述中文本内容就不同。
本发明所述步骤一:目标检测模型Mo对图像编码的具体过程如下:
(1)训练集样本中图像表示为I=(w,h,c),其中w为图像I的宽度、h为图像I的高度和c为图像I的通道;物品的类别为C=(c1,c2,...,ci),物品的类别根据实际情况需要自动添加;对样本图像中含有类别C中的物品使用labelImg标注工具进行数据标注,标注数据包含图像I中的目标框位置坐标信息(xmin,ymin,xmax,ymax)和该目标框指定的类别信息ci,得到标注后的训练集图像,其中图像I中的目标框视为已经标注的目标框;
(2)将标注后的训练集图像输入faster RCNN目标检测模型Mo,训练目标检测模型Mo的网络参数θ,使得训练的训练集图像中样本数据不断拟合目标检测模型Mo,目标检测模型Mo输出图像的目标检测结果,得到保存有特征向量的训练集图像。
本发明所述目标检测模型Mo输出目标检测结果的工艺流程如下:
(a1)将标注后的训练集图像输入卷积神经CNN网络,卷积神经CNN网络提取图像的特征得到图像特征图feature_map,
(a2)将图像特征图feature_map输入RPN网络(区域生成网络),RPN网络处理特征图feature_map得到训练集图像中目标的候选区域框,
(a3)将得到的候选区域框与训练集图像中已经标注的目标框计算二者的重叠度得分score,设定重叠度的阈值为th=0.6,保留score>0.6的候选区域框;
(a4)使保留的候选区域框中包含目标物体,并标记为1;舍弃的候选区域框不包含目标物体,标记为0,舍弃的候选区域框区域划归为图像背景;
(a5)将保留的候选区域框(即回归得到的目标框)经ROI pooling层将候选区域框提取出来映射到特征图对应的位置;
(a6)将映射后的候选区域处理为维度为2048的特征向量(矩阵),同时得到候选区域的检测目标数量N,检测目标数量N的取值范围是N∈(10,100),最终保存图像的N*2048维的特征向量(矩阵)V,得到保存有特征向量的训练集图像。
本发明所述步骤二中通过图像文本语言模型Mc进行文本语言描述的具体过程为:
(1)首先,由于每个图像都有自身的文本描述内容,为方便快速查找,对训练集图像的所有文本描述建立词汇表,根据词汇表将每个词进行数字编码以方便数据处理,例如将this cup is on the desk,编码为[15,58,100,6,500,62];对词汇表中词出现的次数c≤6的词过滤掉,保留出现频率大的词汇,对过滤掉的低频率词汇用UNK代替,最终得到词汇编码表Vcab;
(2)通过Vcab对所有的文本描述编码为句子向量S=(w0,w1,...,wL-1),wi为第i个单词编码特征,将每个单词表示为一个一维词向量wi,wi的维数等于词汇表Vcab的大小,L为词的数量;
(3)采用自注意力机制编码解码网络实现文本内容的生成。
本发明所述采用自注意力机制编码解码网络的具体过程为:
(3-1)自注意力模块编码:
将保存有特征向量的训练集图像中的图像特征输入自注意力机制,设定自注意力机制的输入为查询向量、键向量和值向量,采用3级自注意力机制模块串联的方式实现图像的高阶特征编码过程,实现图像的高阶特征编码过程的具体流程如下:
其中Vi为某一个候选区域框中的特征向量;
(b2)设定第一个注意力机制的输入为K(0)=V(0)=V,经自注意力机制处理输出注意力图像级特征作为第二个注意力机制的输入查询向量Q(1),同时在的基础上输入嵌入层经归一化处理更新键向量K(1)和值向量V(1),更新的键向量和值向量作为下一个注意力机制的输入,键向量和值向量的具体实现公式如下;
(3-2)自注意力机制模块解码过程:
其中WG为嵌入矩阵;
xi=Wewi,
其中i∈{0,1,...,L-1},We表示词嵌入矩阵;
将LSTM网络的输出ht作为自注意力机制模块的查询向量ht=q,其中键向量和值向量均为V(3),输出的注意力特征与ht相连,经嵌入层(Embed)和门线性单元(GLU)处理得到上下文向量ct,ct经过线性化处理后,在softmax层预测下一个词yi;直到生成的词序列长度达到设定的值或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述。
本发明所述softmax层预测下一个词yi具体实现流程如下:
(c1)预测下一个单词yi生成采用的方法为beam search搜寻方法,其中参数设置为beam_size=3,beam_size表示预测生成下一个单词的可能性,词汇中的每个词概率属于0-1之间的值;softmax层的softmax函数将经过线性化处理后ct的输入数据转化为0-1之间的概率值,概率值经sort()函数进行排序得到概率排序后的词汇表Vcab;
(c2)在预测得到的第一个单词y1时,选择词汇表Vcab中概率最大的前3个词{Vw1,Vw2,Vw3},当预测生成下一个单词时,将当前序列的三个词{Vw1,Vw2,Vw3}同Vcab中所有词进行组合,得到新的词组序列,预测下一个单词y2,此时LSTM的输入为前一个词得到的上下文向量ct同之和,即另一个输入为当前词的嵌入矩阵x2=Wew2,重复以上自注意力解码操作流程,预测下一个词,直到生成的词序列长度达到设定的值length=17或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述。
本发明与现有技术相比,所设计的用于物品查找的图像生成文本方法具有如下有益效果:能够根据对图像更加细粒度的分析加深图像理解得到高阶特征并实现文本的预测,最终图像的文本描述,可用于人类与机器人交互过程中实现物品的查找;本方法根据机器人拍摄得到视觉图像I,与机器人平台集成一体的算法模型包括图像的目标检测模型Mo、图像文本语言模型Mc,当人在与机器人交互中,根据人们在一般场景下需要寻找的物品需求,机器人实现物品的快速查找,同时采用此方法也会提高了机器人的智能化程度。
附图说明:
图1为本发明涉及的目标检测模型Mo获得目标检测结果的工艺流程框图。
图2为本发明涉及的实现图像的高阶特征编码的工艺流程框图。
图3为本发明涉及的softmax层预测下一个词yi的工艺流程框图。
图4为本发明涉及的任意一张彩色图像生成图像的文本内容的工艺流程框图。
图5为本发明涉及的选取的一张进行生成图像文本内容处理的彩色图像。
具体实施方式:
下面通过实施例并结合附图对本发明作进一步说明。
实施例1:
本实施例涉及的一种用于物品查找的图像生成文本方法,工艺步骤如下:
步骤一:目标检测模型Mo对图像编码
对训练集样本图像中的物品使用标注工具进行数据标注,得到标注后的训练集图像,将标注后的训练集图像输入目标检测模型Mo,得到保存有特征向量的训练集图像;具体过程如下:
(1)训练集样本中图像表示为I=(w,h,c),其中w为图像I的宽度、h为图像I的高度和c为图像I的通道;物品的类别为C=(c1,c2,...,ci),物品的类别根据实际情况需要自动添加;对样本图像中含有类别C中的物品使用labelImg标注工具进行数据标注,标注数据包含图像I中的目标框位置坐标信息(xmin,ymin,xmax,ymax)和该目标框指定的类别信息ci,得到标注后的训练集图像,其中图像I中的目标框视为已经标注的目标框;
(2)将标注后的训练集图像输入faster RCNN目标检测模型Mo,训练目标检测模型Mo的网络参数θ,使得训练的训练集图像中样本数据不断拟合目标检测模型Mo,目标检测模型Mo输出图像的目标检测结果,得到保存有特征向量的训练集图像,如图1所示,获得目标检测结果的工艺流程如下:
(a1)将标注后的训练集图像输入卷积神经CNN网络,卷积神经CNN网络提取图像的特征得到图像特征图feature_map,
(a2)将图像特征图feature_map输入RPN网络(区域生成网络),RPN网络处理特征图feature_map得到训练集图像中目标的候选区域框,
(a3)将得到的候选区域框与训练集图像中已经标注的目标框计算二者的重叠度得分score,设定重叠度的阈值为th=0.6,保留score>0.6的候选区域框;
(a4)使保留的候选区域框中包含目标物体,并标记为1;舍弃的候选区域框不包含目标物体,标记为0,舍弃的候选区域框区域划归为图像背景;
(a5)将保留的候选区域框(即回归得到的目标框)经ROI pooling层将候选区域框提取出来映射到特征图对应的位置;
(a6)将映射后的候选区域处理为维度为2048的特征向量(矩阵),同时得到候选区域的检测目标数量N,检测目标数量N的取值范围是N∈(10,100),最终保存图像的N*2048维的特征向量(矩阵)V,得到保存有特征向量的训练集图像;
步骤二:图像文本语言模型Mc进行文本语言的描述
对保存有特征向量的训练集图像通过图像文本语言模型Mc进行文本语言描述,每张图像对应5个不同的文本描述,描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述,图像场景是指图像中包含的内容场景,图像不同,得到的图像文本描述中文本内容就不同;通过图像文本语言模型Mc进行文本语言描述的具体过程为:
(1)首先,由于每个图像都有自身的文本描述内容,为方便快速查找,对训练集图像的所有文本描述建立词汇表,根据词汇表将每个词进行数字编码以方便数据处理,例如将this cup is on the desk,编码为[15,58,100,6,500,62];对词汇表中词出现的次数c≤6的词过滤掉,保留出现频率大的词汇,对过滤掉的低频率词汇用UNK代替,最终得到词汇编码表Vcab;
(2)通过Vcab对所有的文本描述编码为句子向量S=(w0,w1,...,wL-1),wi为第i个单词编码特征,将每个单词表示为一个一维词向量wi,wi的维数等于词汇表Vcab的大小,L为词的数量;
(3)采用自注意力机制编码解码网络实现文本内容的生成:
采用自注意力机制编码解码网络的具体过程为:
(3-1)自注意力模块编码:
将保存有特征向量的训练集图像中的图像特征输入自注意力机制,设定自注意力机制的输入为查询向量、键向量和值向量,采用3级自注意力机制模块串联的方式实现图像的高阶特征编码过程,如图2所示,实现图像的高阶特征编码过程的具体流程如下:
其中Vi为某一个候选区域框中的特征向量;
(b2)设定第一个注意力机制的输入为K(0)=V(0)=V,经自注意力机制处理输出注意力图像级特征作为第二个注意力机制的输入查询向量Q(1),同时在的基础上输入嵌入层经归一化处理更新键向量K(1)和值向量V(1),更新的键向量和值向量作为下一个注意力机制的输入,键向量和值向量的具体实现公式如下;
(3-2)自注意力机制模块解码过程:
其中WG为嵌入矩阵;
xi=Wewi,
其中i∈{0,1,...,L-1},We表示词嵌入矩阵;
将LSTM网络的输出ht作为自注意力机制模块的查询向量ht=q,其中键向量和值向量均为V(3),输出的注意力特征与ht相连,经嵌入层(Embed)和门线性单元(GLU)处理得到上下文向量ct,ct经过线性化处理后,在softmax层预测下一个词yi;直到生成的词序列长度达到设定的值或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述;如图3所示,softmax层预测下一个词yi具体实现流程如下:
(c1)预测下一个单词yi生成采用的方法为beam search搜寻方法,其中参数设置为beam_size=3,beam_size表示预测生成下一个单词的可能性,词汇中的每个词概率属于0-1之间的值;softmax层的softmax函数将经过线性化处理后ct的输入数据转化为0-1之间的概率值,概率值经sort()函数进行排序得到概率排序后的词汇表Vcab;
(c2)在预测得到的第一个单词y1时,选择词汇表Vcab中概率最大的前3个词{Vw1,Vw2,Vw3},当预测生成下一个单词时,将当前序列的三个词{Vw1,Vw2,Vw3}同Vcab中所有词进行组合,得到新的词组序列,预测下一个单词y2,此时LSTM的输入为前一个词得到的上下文向量ct同之和,即另一个输入为当前词的嵌入矩阵x2=Wew2,重复以上自注意力解码操作流程,预测下一个词,直到生成的词序列长度达到设定的值length=17或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述。
实施例2:
选取任意一幅图像作为样本图像,样本图像在没有人为标注图像目标框和图像文本描述的情况下,输入到目标检测模型中,如图4所示,生成图像的文本内容过程如下:
选取任意一张彩色图像输入目标检测模型Mo,选取的彩色图像如图5所示,经目标检测模型Mo处理,输出图像的特征矩阵,特征矩阵行表示图像中检测得到的目标框,特征矩阵列表示图像中每一个目标框的特征向量,维度为2048;将得到的特征矩阵输入到文本语言模型Mc中,文本语言模型Mc学习图像的特征并预测图像中可能含有的内容,最终生成用于描述图像的文本内容;图5所示图像经处理后得到的文本描述内容为:a coffee cupsitting next to a computer mouse on a table。
Claims (6)
1.一种用于物品查找的图像生成文本方法,其特征在于:工艺步骤如下:
步骤一:目标检测模型Mo对图像编码
对训练集样本图像中的物品使用标注工具进行数据标注,得到标注后的训练集图像,将标注后的训练集图像输入目标检测模型Mo,得到保存有特征向量的训练集图像;
步骤二:图像文本语言模型Mc进行文本语言的描述
对保存有特征向量的训练集图像通过图像文本语言模型Mc进行文本语言描述,每张图像对应5个不同的文本描述,描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述。
2.根据权利要求1所述的用于物品查找的图像生成文本方法,其特征在于:所述步骤一:目标检测模型Mo对图像编码的具体过程如下:
(1)训练集样本中图像表示为I=(w,h,c),其中w为图像I的宽度、h为图像I的高度和c为图像I的通道;物品的类别为C=(c1,c2,...,ci),物品的类别根据实际情况需要自动添加;对样本图像中含有类别C中的物品使用labelImg标注工具进行数据标注,标注数据包含图像I中的目标框位置坐标信息(xmin,ymin,xmax,ymax)和该目标框指定的类别信息ci,得到标注后的训练集图像,其中图像I中的目标框视为已经标注的目标框;
(2)将标注后的训练集图像输入faster RCNN目标检测模型Mo,训练目标检测模型Mo的网络参数θ,使得训练的训练集图像中样本数据不断拟合目标检测模型Mo,目标检测模型Mo输出图像的目标检测结果,得到保存有特征向量的训练集图像。
3.根据权利要求2所述的用于物品查找的图像生成文本方法,其特征在于:所述目标检测模型Mo输出目标检测结果的工艺流程如下:
(a1)将标注后的训练集图像输入卷积神经CNN网络,卷积神经CNN网络提取图像的特征得到图像特征图feature_map,
(a2)将图像特征图feature_map输入RPN网络,RPN网络处理特征图feature_map得到训练集图像中目标的候选区域框,
(a3)将得到的候选区域框与训练集图像中已经标注的目标框计算二者的重叠度得分score,设定重叠度的阈值为th=0.6,保留score>0.6的候选区域框;
(a4)使保留的候选区域框中包含目标物体,并标记为1;舍弃的候选区域框不包含目标物体,标记为0,舍弃的候选区域框区域划归为图像背景;
(a5)将保留的候选区域框经ROI pooling层将候选区域框提取出来映射到特征图对应的位置;
(a6)将映射后的候选区域处理为维度为2048的特征向量,同时得到候选区域的检测目标数量N,检测目标数量N的取值范围是N∈(10,100),最终保存图像的N*2048维的特征向量V,得到保存有特征向量的训练集图像。
4.根据权利要求3或权利要求1所述的用于物品查找的图像生成文本方法,其特征在于:所述步骤二中通过图像文本语言模型Mc进行文本语言描述的具体过程为:
(1)首先,由于每个图像都有自身的文本描述内容,为方便快速查找,对训练集图像的所有文本描述建立词汇表,根据词汇表将每个词进行数字编码以方便数据处理;对词汇表中词出现的次数c≤6的词过滤掉,保留出现频率大的词汇,对过滤掉的低频率词汇用UNK代替,最终得到词汇编码表Vcab;
(2)通过Vcab对所有的文本描述编码为句子向量S=(w0,w1,...,wL-1),wi为第i个单词编码特征,将每个单词表示为一个一维词向量wi,wi的维数等于词汇表Vcab的大小,L为词的数量;
(3)采用自注意力机制编码解码网络实现文本内容的生成。
5.根据权利要求4所述的用于物品查找的图像生成文本方法,其特征在于:所述采用自注意力机制编码解码网络的具体过程为:
(3-1)自注意力模块编码:
将保存有特征向量的训练集图像中的图像特征输入自注意力机制,设定自注意力机制的输入为查询向量、键向量和值向量,采用3级自注意力机制模块串联的方式实现图像的高阶特征编码过程,实现图像的高阶特征编码过程的具体流程如下:
其中Vi为某一个候选区域框中的特征向量;
(b2)设定第一个注意力机制的输入为K(0)=V(0)=V,经自注意力机制处理输出注意力图像级特征 作为第二个注意力机制的输入查询向量Q(1),同时在的基础上输入嵌入层经归一化处理更新键向量K(1)和值向量V(1),更新的键向量和值向量作为下一个注意力机制的输入,键向量和值向量的具体实现公式如下;
(3-2)自注意力机制模块解码过程:
其中WG为嵌入矩阵;
xi=Wewi,
其中i∈{0,1,...,L-1},We表示词嵌入矩阵;
6.根据权利要求5所述的用于物品查找的图像生成文本方法,其特征在于:所述softmax层预测下一个词yi具体实现流程如下:
(c1)预测下一个单词yi生成采用的方法为beam search搜寻方法,其中参数设置为beam_size=3,beam_size表示预测生成下一个单词的可能性,词汇中的每个词概率属于0-1之间的值;softmax层的softmax函数将经过线性化处理后ct的输入数据转化为0-1之间的概率值,概率值经sort()函数进行排序得到概率排序后的词汇表Vcab;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010447384.7A CN111598041B (zh) | 2020-05-25 | 2020-05-25 | 一种用于物品查找的图像生成文本方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010447384.7A CN111598041B (zh) | 2020-05-25 | 2020-05-25 | 一种用于物品查找的图像生成文本方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598041A CN111598041A (zh) | 2020-08-28 |
CN111598041B true CN111598041B (zh) | 2023-05-02 |
Family
ID=72189366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010447384.7A Active CN111598041B (zh) | 2020-05-25 | 2020-05-25 | 一种用于物品查找的图像生成文本方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598041B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016493B (zh) * | 2020-09-03 | 2024-08-23 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112508096B (zh) * | 2020-12-08 | 2022-03-25 | 电子科技大学 | 一种基于几何自注意力机制的图像自动标注方法 |
CN112614561A (zh) * | 2020-12-24 | 2021-04-06 | 北京工业大学 | 一种基于层级自注意力序列编码的脑ct医学报告生成方法 |
CN113283248B (zh) * | 2021-04-29 | 2022-06-21 | 桂林电子科技大学 | 散点图描述的自然语言自动生成方法及装置 |
CN113449801B (zh) * | 2021-07-08 | 2023-05-02 | 西安交通大学 | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 |
CN114821271B (zh) * | 2022-05-19 | 2022-09-16 | 平安科技(深圳)有限公司 | 模型训练方法、图像描述生成方法、装置及存储介质 |
CN114708952B (zh) * | 2022-06-02 | 2022-10-04 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种图像标注方法、装置、存储介质和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916164A (zh) * | 2010-08-11 | 2010-12-15 | 中兴通讯股份有限公司 | 一种移动终端及其实现的文件浏览方法 |
CA2729526A1 (en) * | 2010-02-01 | 2011-08-01 | Daon Holdings Limited | Method and system of accounting for positional variability of biometric features |
WO2015165331A1 (en) * | 2014-04-28 | 2015-11-05 | Beijing Zhigu Rui Tuo Tech Co., Ltd | Information processing method and apparatus |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117192B2 (en) * | 2001-05-23 | 2006-10-03 | Veridian Erim International, Inc. | Text and imagery spatial correlator |
JP5691289B2 (ja) * | 2010-08-11 | 2015-04-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
CN108305296B (zh) * | 2017-08-30 | 2021-02-26 | 深圳市腾讯计算机系统有限公司 | 图像描述生成方法、模型训练方法、设备和存储介质 |
CN109543516A (zh) * | 2018-10-16 | 2019-03-29 | 深圳壹账通智能科技有限公司 | 签约意向判断方法、装置、计算机设备和存储介质 |
CN109543820B (zh) * | 2018-11-23 | 2022-09-23 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
CN109740471B (zh) * | 2018-12-24 | 2021-06-22 | 中国科学院西安光学精密机械研究所 | 基于联合潜在语义嵌入的遥感图像描述方法 |
CN110222680A (zh) * | 2019-05-19 | 2019-09-10 | 天津大学 | 一种城市生活垃圾物品外包装文本检测方法 |
CN111062451B (zh) * | 2019-12-30 | 2023-03-31 | 合肥工业大学 | 一种基于文本引导图模型的图像描述生成方法 |
-
2020
- 2020-05-25 CN CN202010447384.7A patent/CN111598041B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2729526A1 (en) * | 2010-02-01 | 2011-08-01 | Daon Holdings Limited | Method and system of accounting for positional variability of biometric features |
CN101916164A (zh) * | 2010-08-11 | 2010-12-15 | 中兴通讯股份有限公司 | 一种移动终端及其实现的文件浏览方法 |
WO2015165331A1 (en) * | 2014-04-28 | 2015-11-05 | Beijing Zhigu Rui Tuo Tech Co., Ltd | Information processing method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
CN111598041A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598041B (zh) | 一种用于物品查找的图像生成文本方法 | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN110188346B (zh) | 一种基于信息抽取的网络安全法案件智能研判方法 | |
CN106897371B (zh) | 中文文本分类系统及方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN110888980B (zh) | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN107526799A (zh) | 一种基于深度学习的知识图谱构建方法 | |
Guo et al. | Jointly learning of visual and auditory: A new approach for RS image and audio cross-modal retrieval | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN112256904A (zh) | 一种基于视觉描述语句的图像检索方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN117689963B (zh) | 一种基于多模态预训练模型的视觉实体链接方法 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN114912512A (zh) | 一种对图像描述的结果进行自动评估的方法 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN111985548A (zh) | 一种标签引导的跨模态深度哈希方法 | |
CN116089874A (zh) | 一种基于集成学习和迁移学习的情感识别方法及装置 | |
Hong et al. | Fine-grained feature generation for generalized zero-shot video classification | |
Lei | Research on the improved Word2Vec optimization strategy based on statistical language model | |
Chharia et al. | Deep recurrent architecture based scene description generator for visually impaired | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |