CN111062451B - 一种基于文本引导图模型的图像描述生成方法 - Google Patents
一种基于文本引导图模型的图像描述生成方法 Download PDFInfo
- Publication number
- CN111062451B CN111062451B CN201911402003.7A CN201911402003A CN111062451B CN 111062451 B CN111062451 B CN 111062451B CN 201911402003 A CN201911402003 A CN 201911402003A CN 111062451 B CN111062451 B CN 111062451B
- Authority
- CN
- China
- Prior art keywords
- text
- image
- graph
- nodes
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于文本引导图模型的图像描述生成方法,属于图像描述生成技术领域,包括以下步骤:S10、建立引导文本候选集;S20、引导文本提取;S30、视觉特征提取:基于卷积神经网络的Faster R‑CNN模型对给定图片产生L个目标检测区域;S40、建立图模型:用LSTM模型将引导文本转换为文本特征向量;将文本特征向量和图像视觉特征用非线性函数F融合生成图像区域表征,构建图模型;S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述字幕。本发明引入了图像相关的文本,扩展了输入信息的多样性,不仅关注了图像中的物体,也注重了与图像相关的文本所构建的物体之间的关系,从生成的结果上可以直观的看出图模型生成的句子中物体之间的关系也更加丰富和准确。
Description
技术领域
本发明涉及图像描述生成技术领域,尤其涉及一种基于文本引导图模型的图像描述生成方法。
背景技术
图像描述生成技术是根据给定图像自动生成描述图像内容的语句,它是横跨计算机视觉与自然语言处理之间的一门新兴研究方向,需要对视觉内容包括各种实体及其相互关系进行全面的理解。现在图像描述生成的主流方法是利用一个端到端的模型,将图片特征通过编解码方式翻译成文字。但这些方法只关注了个体的视觉要素,而忽略语义实体之间的关系。现有的基于视觉关系的图像描述生成方法通常依赖于要大量的人工来标注图像目标之间的关系结构。
因此,急需一种能够自动标注图像目标之间关系结构、关注语义实体之间关系的图像描述生成方法。
发明内容
本发明目的在于提供一种能够自动标注图像目标之间关系结构、关注语义实体之间关系的图像描述生成方法,发明的内容如下:
一种基于文本引导图模型的图像描述生成方法,包括以下步骤:
S10、建立训练集:从数据集中检索出视觉相似图片,每张图片标注有描述语句,将描述语句集合起来打分排序,从排序前三句中随机挑选一句作为引导文本,组建引导文本训练集;
打分排序方法为:根据给定的图片对象特征将包含视觉特征相似图像收集到一个集合,然后通过额外考虑图片的整体风格进一步筛选出m张相似图片;由筛选出的m张相似图片的相关描述语句{Ci},i=1,2,...,N,并根据图片的每一句描述得分排序,根据每句描述得分,从文本训练集中选择前n个描述文本作为引导文本的候选描述,并从候选描述中随机选取一个描述作为引导文本,所述描述得分的计算方式如下:
其中,Sim(Ci,Cj)为两个句子Ci和Cj通过TF-IDF算法得到的相似度;
S20、引导文本提取:对于给定的图片,根据图片的对象特征,基于引导文本训练集,提取引导文本;
S30、视觉特征提取:基于卷积神经网络的FasterR-CNN模型对给定图片产生L个目标检测区域,L是指目标检测区域的数量;将每个目标检测区域看作是一个节点构建关系图G={V,E,A},其中,V表示检测到物体节点的集合,所述物体节点由图片特征向量和边界框组成;E代表学习到的图节点之间的连线集合;A是图的邻接矩阵;
S40、建立图模型:用LSTM模型将引导文本转换为文本特征向量;将所述文本特征向量和图像视觉特征用非线性函数融合生成图像区域表征,构建图模型;
S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述语句字幕。
进一步地,所述图模型去学习一个有关于特定文本的邻接矩阵A,其中边A(i,j)代表了节点i和j之间的关系强度。
进一步地,将所述引导文本的特征向量g串联在每一个物体检测节点特征v后面,记作[v|g],然后获得一个融合后的特征e:el=F([v|g]),l=1,2,...,L,所述非线性函数F([v|g])为用于融合物体节点的特征向量和引导文本的特征向量的非线性函数。
进一步地,所述融合后的特征el为一个矩阵ELXel,得到关于特定文本的邻接矩阵A:A=EET,节点i和j之间的关系强度A(i,j)被定义为Ai,j=ei Tej。
进一步地,所述图卷积网络使用相对坐标o(i,j)来捕捉空间关系,在使用R个高斯核滤波方法的基础上,额外考虑图节点之间边的权重问题,将在第i个节点上的第r个高斯核的块操作定义为:
其中,N(i)表示节点i的邻域节点集合,ωr表示第r个核的权重,vi表示邻域节点中的任意节点,使用softmax函数αij=softmax(ai)j对连接矩阵A中节点i对应行第j个元素的归一化;节点i关于N个滤波器的输出并从hi中选出最大的输出作为最终的上下文特征表达:
其中Gr是高斯核的权重矩阵。
进一步地,每一张输入图片的表达被表示成一个三元组形式:输入图像I,引导文本g和由T个词组成的图像描述(w1,w2,...,wT),在描述的开始和结尾加入w0(<BOS>)和wT+1(<EOS>),解码公式如下:
x1=Wzz
xt=Wewt
ht=LSTM(xt,ht-1)
pt+1=softmax(Wtht)
其中,Wz,We,Wh分别三个学习矩阵,在t时刻输入的单词通过词嵌入技术转化成Wt,ht基于LSTM模型根据ht-1和xt计算得到,然后被送入softmax产生所有词的概率分布,图模型输出t+1时刻的预测词。
进一步地,所述图模型的LSTM解码器损失函数设置为:
本发明的有益效果:
(1)本发明额外引入了图像相关的文本,扩展了输入信息的多样性。
(2)本发明不仅只关注了图像中的物体,也注重了与图像相关的文本所构建的物体之间的关系,从生成的结果上可以直观的看出图模型生成的句子中物体之间的关系也更加丰富和准确。
(3)本发明实现了自动标注图像目标之间关系结构的图像描述生成方法。
附图说明
图1为一种基于文本引导图模型的图像描述生成方法流程图
图2为目标图像一
图3为图2目标图像一的相似图像集合
图4为图2目标图像一引导文本候选集TOP3
图5为目标图像二
图6为图5目标图像二的生成文本和标注文本
图7为目标图像三
图8为图7目标图像三的生成文本和标注文本
具体实施方式
本发明实施过程为:
一种基于文本引导图模型的图像描述生成方法,包括以下步骤:
S10、建立引导文本候选集:从数据集中检索出相似图片,每张图片标注有描述语句,将描述语句集合起来打分排序,从排序前三句中随机挑选一句作为引导文本,组建引导文本候选集;
打分排序方法为:根据给定的图片对象特征将包含视觉特征相似图像收集到一个集合,然后通过额外考虑图片的整体风格进一步筛选出m张相似图片;由筛选出的m张相似图片的相关描述语句{Ci},i=1,2,...,N,并根据图片的每一句描述得分排序,根据每句描述得分,从文本训练集中选择前n个描述文本作为引导文本的候选描述,并从候选描述中随机选取一个描述作为引导文本,所述描述得分的计算方式如下:
其中,Sim(Ci,Cj)为两个句子Ci和Cj通过TF-IDF算法得到的相似度;
本实施例中,数据集是微软的MSCOCO数据集,MSCOCO数据集中里面每张图片标注了5句描述语句。通过视觉相似性检索出相似图片,然后将这些图片所对应的语句提取出来,检索出10张图片,得到50个描述语句。
在引导文本提取模块,设置了m=10、n=3,并且使用隐藏层数为512的LSTM去编码指导文本。
S20、引导文本提取:对于给定的图片,根据图片的对象特征,基于引导文本训练集,提取引导文本;
S30、视觉特征提取:基于卷积神经网络的FasterR-CNN模型对给定图片产生L个目标检测区域。L是指目标检测区域的数量;将每个目标检测区域看作是一个节点构建关系图G={V,E,A},其中,V表示检测到物体节点的集合,物体节点由图片特征向量和边界框组成,E代表学习到的图节点之间的连线集合,A是图的邻接矩阵;
图模型去学习一个有关于特定文本的邻接矩阵A,其中边A(i,j)代表了节点i和j之间的关系强度。
本实施例中,通过利用基于卷积神经网络的目标检测模型Faster-RCNN来提取图片的区域。给定一张图片,将图片中检测区域设置数量L为36和视觉特征维度为2052(其中2048维属性特征,4维空间信息)。
S40、建立图模型:用LSTM模型将引导文本转换为文本特征向量;将文本特征向量和图像视觉特征用非线性函数F融合生成图像区域表征,构建图模型;
将引导文本的特征向量g串联在每一个物体检测节点特征v后面,记作[v|g],然后获得一个融合后的特征e:el=F([v|g]),l=1,2,...,L,所述非线性函数F([v|g])为用于融合物体节点的特征向量和引导文本的特征向量的非线性函数。
融合后的特征el为一个矩阵ELXel,得到关于特定文本的邻接矩阵:A=EET,节点i和j之间的关系强度A(i,j)被定义为Ai,j=ei Tej。
S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述字幕。
其中,图卷积网络使用相对坐标o(i,j)来捕捉空间关系,在使用R个高斯核滤波方法的基础上,额外考虑图节点之间边的权重问题,将在第i个节点上的第r个高斯核的块操作定义为:
其中,N(i)表示节点i的邻域节点集合,ωr表示第r个核的权重,vi表示邻域节点中的任意节点,使用softmax函数
αij=softmax(ai)j对连接矩阵A中节点i对应行第j个元素的归一化;节点i关于N个滤波器的输出并从hi中选出最大的输出作为最终的上下文特征表达:
其中Gr是高斯核的权重矩阵。
每一张输入图片的表达被表示成一个三元组形式:输入图像I,引导文本g和由T个词组成的图像描述(w1,w2,...,wT),在描述的开始和结尾加入w0(<BOS>)和wT+1(<EOS>),解码公式如下:
x1=Wzz
xt=Wewt
ht=LSTM(xt,ht-1)
pt+1=softmax(Wtht)
其中,Wz,We,Wh分别三个学习矩阵,在t时刻输入的单词通过词嵌入技术转化成Wt,ht基于LSTM模型根据ht-1和xt计算得到,然后被送入softmax产生所有词的概率分布,图模型输出t+1时刻的预测词。
图模型的LSTM解码器损失函数设置为:
本实施例中,在构建图卷积模型模块,用非线性函数F([v|g])去融合图片和文本特征至512维向量空间,同时选出A中最高的16个index作为邻居节点。在图的卷积阶段,我们分别使用了两个维度为2048和1024的空间图卷积层,这两个层都有8个高斯核。
此外,在训练的过程中,为了防止过拟合采用了dropout方法且使用了Adam优化器。
在测试阶段,设置beam search为2去生成字幕,并且用常见的指标BLEU,METEOR,CIDEr和ROUGE-L去评估我们的模型。所有的评价指标都是通过MS-COCO字幕评估工具来计算得到。
具体实施案例1:图2目标图像一为红绿灯的图片,图3为图2中红绿灯相似图像集合,图4为引导文本候选集TOP3候选语句。
具体实施案例2:图5目标图像二为一群人举伞过街目标图像,图6为图5目标图像二的生成文本和标注文本:
生成文本:A group of people walking down a street holding umbrellas
标注文本:A couple of kids walking with umbrellas in their hands
具体实施案例3:图7目标图像三为白色盘子里放有三明治和沙拉酱,图8为图7目标图像三的生成文本和标注文本:
生成文本:A white plate topped with a sandwich and a salad
标注文本:A white plate with a sandwich and a salad on it
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围的。
Claims (8)
1.一种基于文本引导图模型的图像描述生成方法,其特征在于,包括以下步骤:
S10、建立引导文本候选集:从数据集中检索出视觉相似图片,每张图片标注有描述语句,将描述语句集合起来打分排序,从排序前三句中随机挑选一句作为引导文本,组建引导文本训练集;
打分排序方法为:根据给定的图片对象特征将包含视觉特征相似图像收集到一个集合,然后通过额外考虑图片的整体风格进一步筛选出m张相似图片;由筛选出的m张相似图片的相关描述语句{Ci},i=1,2,...,N,并根据图片的每一句描述得分排序,根据每句描述得分,从文本训练集中选择前n个描述文本作为引导文本的候选描述,并从候选描述中随机选取一个描述作为引导文本,所述描述得分的计算方式如下:
其中,Sim(Ci,Cj)为两个句子Ci和Cj通过TF-IDF算法得到的相似度;
S20、引导文本提取:对于给定的图片,根据图片的对象特征,基于引导文本训练集,提取引导文本;
S30、视觉特征提取:基于卷积神经网络的Faster R-CNN模型对给定图片产生L个目标检测区域,L是指目标检测区域的数量;将每个目标检测区域看作是一个节点构建关系图G={V,E,A},其中,V表示检测到物体节点的集合,所述物体节点由图片特征向量和边界框组成;E代表学习到的图节点之间的连线集合;A是图的邻接矩阵;
S40、建立图模型:用LSTM模型将引导文本转换为文本特征向量;将所述文本特征向量和图像视觉特征用非线性函数融合生成图像区域表征,构建图模型;
S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述语句字幕。
2.根据权利要求1所述的图像描述生成方法,其特征在于,所述图模型去学习一个有关于特定文本的邻接矩阵A,其中边A(i,j)代表了节点i和j之间的关系强度。
3.根据权利要求2所述的图像描述生成方法,其特征在于,将所述引导文本的特征向量g串联在每一个物体检测节点特征v后面,记作[v|g],然后获得一个融合后的特征e:el=F([v|g]),l=1,2,...,L,所述非线性函数F([v|g])为用于融合物体节点的特征向量和引导文本的特征向量的非线性函数。
4.根据权利要求3所述的图像描述生成方法,其特征在于,所述融合后的特征el为一个矩阵ELXel,得到关于特定文本的邻接矩阵A:A=EET,节点i和j之间的关系强度A(i,j)被定义为Ai,j=ei Tej。
7.根据权利要求6所述的图像描述生成方法,其特征在于,每一张输入图片的表达被表示成一个三元组形式:输入图像I,引导文本g和由T个词组成的图像描述(w1,w2,...,wT),在描述的开始和结尾加入w0(<BOS>)和wT+1(<EOS>),解码公式如下:
x1=Wzz
xt=Wewt
ht=LSTM(xt,ht-1)
pt+1=softmax(Wtht)
其中,Wz,We,Wh分别三个学习矩阵,在t时刻输入的单词通过词嵌入技术转化成Wt,ht基于LSTM模型根据ht-1和xt计算得到,然后被送入softmax产生所有词的概率分布,图模型输出t+1时刻的预测词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911402003.7A CN111062451B (zh) | 2019-12-30 | 2019-12-30 | 一种基于文本引导图模型的图像描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911402003.7A CN111062451B (zh) | 2019-12-30 | 2019-12-30 | 一种基于文本引导图模型的图像描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062451A CN111062451A (zh) | 2020-04-24 |
CN111062451B true CN111062451B (zh) | 2023-03-31 |
Family
ID=70305043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911402003.7A Active CN111062451B (zh) | 2019-12-30 | 2019-12-30 | 一种基于文本引导图模型的图像描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062451B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598041B (zh) * | 2020-05-25 | 2023-05-02 | 青岛联合创智科技有限公司 | 一种用于物品查找的图像生成文本方法 |
CN112784848B (zh) * | 2021-02-04 | 2024-02-27 | 东北大学 | 一种基于多种注意力机制和外部知识的图像描述生成方法 |
CN113762237B (zh) * | 2021-04-26 | 2023-08-18 | 腾讯科技(深圳)有限公司 | 文本图像处理方法、装置、设备及存储介质 |
CN113657170B (zh) * | 2021-07-20 | 2024-02-06 | 西安理工大学 | 一种增加图像文本描述多样性方法 |
CN116071759B (zh) * | 2023-03-06 | 2023-07-18 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种融合gpt2预训练大模型的光学字符识别方法 |
CN116778011B (zh) * | 2023-05-22 | 2024-05-24 | 阿里巴巴(中国)有限公司 | 图像生成方法 |
CN116958706B (zh) * | 2023-08-11 | 2024-05-14 | 中国矿业大学 | 基于词性标注的图像多样化描述可控生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017097512A (ja) * | 2015-11-20 | 2017-06-01 | 株式会社オープンエイト | 動画広告配信サーバおよびプログラム |
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN109543820A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
-
2019
- 2019-12-30 CN CN201911402003.7A patent/CN111062451B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017097512A (ja) * | 2015-11-20 | 2017-06-01 | 株式会社オープンエイト | 動画広告配信サーバおよびプログラム |
WO2018188240A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN109543820A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
Non-Patent Citations (1)
Title |
---|
一种基于注意力机制与多模态的图像描述方法;牛斌等;《辽宁大学学报(自然科学版)》;20190215(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111062451A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062451B (zh) | 一种基于文本引导图模型的图像描述生成方法 | |
CN109344288B (zh) | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 | |
CN109145712B (zh) | 一种融合文本信息的gif短视频情感识别方法及系统 | |
CN107688821A (zh) | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN107066973A (zh) | 一种利用时空注意力模型的视频内容描述方法 | |
CN110781668B (zh) | 文本信息的类型识别方法及装置 | |
CN107391709A (zh) | 一种基于新型注意模型进行图像字幕生成的方法 | |
CN110083729B (zh) | 一种图像搜索的方法及系统 | |
CN111597341B (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN108765383A (zh) | 基于深度迁移学习的视频描述方法 | |
CN110210468A (zh) | 一种基于卷积神经网络特征融合迁移的文字识别方法 | |
CN112800225B (zh) | 一种微博评论情绪分类方法和系统 | |
CN108734159A (zh) | 一种图像中敏感信息的检测方法及系统 | |
CN111310867B (zh) | 一种基于图片的文本生成方法及装置 | |
CN111680684A (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN115272242B (zh) | 一种基于YOLOv5的光学遥感图像目标检测方法 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN116127959A (zh) | 基于深度学习的图像意境挖掘与意境转换中国古诗的方法 | |
CN107967299A (zh) | 一种面向农业舆情的热词自动提取方法及系统 | |
CN114821188A (zh) | 图像处理方法、场景图生成模型的训练方法以及电子设备 | |
Park et al. | Ensuring Visual Commonsense Morality for Text-to-Image Generation | |
Jing et al. | The application of social media image analysis to an emergency management system | |
CN115526176A (zh) | 文本识别方法及装置、电子设备、存储介质 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |