CN110502655B

CN110502655B - 一种嵌入场景文字信息的图像自然描述语句生成方法

Info

Publication number: CN110502655B
Application number: CN201910700592.0A
Authority: CN
Inventors: 肖春霞; 赵坤
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2022-04-01
Anticipated expiration: 2039-07-31
Also published as: CN110502655A

Abstract

本发明公开一种嵌入场景文字信息的图像自然描述语句生成方法，利用场景文字信息来提升描述语句的语义丰富度。本方法在生成描述语句和检测识别出场景文字的基础上，来进行场景文字的嵌入任务。首先，需要对描述语句中的每一个词进行词性分析，找出其中的名词，每一个名词都能一一对应图像中的一个区域，然后计算名词所对应的图像区域的包围框和场景文字包围框的交并比来衡量两者是否存在依赖关系，如果交并比超过一定的阈值那么两者就存在依赖关系，否则不存在。最后，在保证语法正确性的前提下把场景文字嵌入到描述语句中。

Description

一种嵌入场景文字信息的图像自然描述语句生成方法

技术领域

本发明属于图像自然描述语句生成领域，需要同时使用计算机视觉与自然语言处理两个领域的技术来完成图像信息到语言信息的转换。本发明利用场景文字信息来提升现有方法所生成的描述语句的语义丰富度。

背景技术

计算机视觉是一个让人工智能理解我们生活中的场景的领域，把这个概念具象化，就是让摄像机替代人的眼睛，对现实世界的信息进行收集，在此基础上，利用计算机对搜集的信息进行分析、处理，并做出相应的决策。自然语言处理是一个研究如何让人与计算机之间用自然语言进行有效沟通的领域，更具体地，就是让计算机理解人类的语言，并对人发出自然语言指令做出响应。扫地机器人、无人驾驶车辆、聊天机器人、实时翻译软件等一大批与计算机视觉、自然语言处理相关的技术已经逐渐融入我们的日常生活，让我们的生活更加智能、便捷。我们更期待机器能够将视觉信息与语言信息融会贯通，达到这一目的需要同时使用计算机视觉与自然语言处理这两个领域的技术，这也就是本发明所涉及的领域——图像自然描述语言的生成方法。图像的自然语言描述生成研究是一项极具有前景的工作，从应用层面来说，目前的自动驾驶车辆、无人超市等均需要对场景的感知和理解。从理论层面来说，图像的自然语言描述生成是更高级的人工智能中一项不可缺少的基础研究。

现在主流的方法都是有三个部分组成，第一个部分是视觉特征的提取，第二个部分是注意力机制，第三个部分是语言生成模型。其中视觉特征提取大多是采用目标检测方法，检测出图像中的对象。注意力机制负责生成每个单词的时候应该聚焦于图像中的哪块区域。语言生成模型一般是用循环神经网络来生成具体的单词。但是，现在的方法大多集中在改进算法的准确率，并没有对图像固有的信息进行深层次的挖掘。现实世界的场景当中有很多人造的文字信息，我们把这些文字叫做场景文字，比如广告牌，路标等。场景文字本身含有丰富的语义信息，加入了场景文字的描述语句对图像的描述更加准确，比如，“adelllaptop”，比“alaptop”更准确。图像的自然描述语言显然是要尽可能准确的描述图像中的场景。本发明就是着眼于此，提出了一种嵌入了场景文字信息的图像自然描述语言生成方法。

发明内容

本发明的目的是利用自然场景中的场景文字信息，来提升图像自然描述语句的语义丰富度。本方法的核心在于提出了一个无监督的场景文字嵌入方法，在不需要训练的情况下，能够把检测出来的场景文字嵌入到生成的自然描述语句中。

本发明所设计的嵌入场景文字信息的图像自然描述语句生成方法，其特征在于，包括以下步骤：

步骤1，使用公开的数据集构建两个数据集(D1，D2)：D1为训练联合检测场景文字与普通目标的数据集,D2为验证本发明提出的无监督的场景文字嵌入方法的数据集；

步骤2，对Faster R-CNN方法进行改进，以适应联合检测场景文字与普通对象的需要，并使用D1训练改进后的模型；

步骤3，对Top-Down方法进行改进，以减轻过拟合风险，并使用D2数据集训练改进后的模型；

步骤4，在D2中任取一张图像，使用步骤2，步骤3训练好的模型来生成检测结果与自然描述语句，并保留注意力机制产生的中间结果；使用公开的方法或者商业API对每一个检测出的场景文字进行识别，保留识别后的结果。

步骤5，根据步骤4的结果，使用依赖关系分析的方法，分析描述语句成分，提取其中的名词；找出名词对应的图像区域，计算每一个场景文字与每一个图像区域的交并比(IOU)，交并比计算公式，如下：

IOU＝(A∩B)/(A∪B)；

步骤6，找出每个场景文字依赖的对象之后，把场景文字嵌入到生成的自然描述语句中。

进一步地，所述步骤2中Faster R-CNN方法具体改进方式如下：

第一，使用特征图融合的方法来增强模型对多层特征图的利用率；

第二，改变anchor尺寸的大小，丢弃尺寸过大的anchor，新加入小尺寸anchor来提高对小目标的检测效果。

进一步地，所述步骤3中Top-Down方法改进具体如下：

第一，将Top-down模型的注意力函数替换为一个余弦相似度量函数；

第二，使用teacherforcing技术训练模型，加速模型的收敛速度。

进一步的，所述交并比的阈值为0.8。

进一步地，所述改变anchor尺寸的大小具体为：去掉了512×512的anchor，加入64×64的anchor和32×32的anchor。

优选地，所述特征融合的策略是把conv3_4层与conv4_6层进行融合，并采用双线性插值的方法解决像素点无法对齐的问题。

本发明的优点在于：

1)构建了一个联合检测数据集，目标检测和场景文字检测融合进一个模型，并改进相应的公开方法让其适应这一任务。改进主要集中在对小目标的检测上，提出了特征融合与重新设置anchor尺寸这两个方案。

2)，针对Top-down方法的不足做出了改进，第一，使用余弦相似度来替换注意力函数，从而减轻过拟合的风险。第二，使用teacherforcing技术来加速模型的收敛。

3)，提出了一个无监督的场景文字嵌入方法，该方法具有速度快、准确率高、复杂度低等特点。

附图说明

图1是本发明整体算法流程示意图。

图2是本发明特征融合的示意图。

图3是无监督的嵌入算法示意图。

图4是原始Faster R-CNN结果。

图5是改进后的Faster R-CNN结果。

图6是本发明提出的嵌入算法效果图。

图7是本发明提出的嵌入算法另一效果图。

图8是本发明提出的嵌入算法又一效果图。

具体实施方式

本发明的目的是利用自然场景中的场景文字信息，来提升图像自然描述语句的语义丰富度。本方法的核心在于提出了一个无监督的场景文字嵌入方法，在不需要训练的情况下，能够把检测出来的场景文字嵌入到生成的自然描述语句中。本发明所设计的一种嵌入场景文字信息的图像自然描述语句生成方法过程如下：

步骤1，使用公开的数据集构建两个数据集(D1，D2)。

D1是训练联合检测场景文字与普通目标的数据集，场景文字检测与目标检测的数据集标注方式各不相同，场景文字检测只需要给出包围框的左上角坐标与宽高即可，而目标检测除了给出包围框之外，还需要给出框中物体具体的类别。所以本方法需要在现有的数据集中构建出D1，这样才能联合检测场景文字与普通目标。D2是专门用来验证本发明提出的无监督的场景文字嵌入方法的数据集。公开的数据集比如Microsoft COCO是计算机视觉领域常用的数据集，该数据集含有330000张图像。COCO含有场景文字检测、目标检测的标注，本方法要通过现有的标注，构建D1，D2。COCO含有场景文字标注的COCO-TEXT数据集只占COCO数据集的一部分，大约有63686张图像。把非英文字、手写文字、水印文字去掉还剩下的图像作为D＝{D1，D2}。本方法从D中划分出20000张图像作为D1,1000张作为D2，每张图像的标注含有场景文字与普通对象，所有的场景文字类别统一为“scenetext”，通过这样的处理，使用D1训练即可训练出一个联合检测模型。

步骤2，对Faster R-CNN方法进行改进，并使用D1训练改进后的模型。

Faster R-CNN主要分为3部分，第一部分为提取图像特征的卷积神经网络，第二部分为选取建议区域的建议区域生成网络，第三部分为输出分类概率和精修包围框的检测网络。本方法主要对建议区域生成网络进行改进，以适应联合检测场景文字与普通对象的需要。Faster R-CNN对小目标的检测效果不好，这对场景文字检测来说是致命的，所以本方法主要增强Faster R-CNN对小目标的检测能力。第一，经过语义分割领域的启发，本方法使用特征图融合的方法来取长补短，给小目标加上更明显的语义信息来弥补卷积神经网络低层特征图语义信息不明显但分辨率高，高层特征图语义信息明显但分辨率低的缺陷。本方法采取的融合策略是把conv3_4层与conv4_6层进行融合，采取这一策略的原因在于，太低层的特征图语义信息不够丰富，所以需要在分辨率和语义信息之间寻找一个平衡，并且如果两个特征图之间尺寸相差的倍数大于4倍，会影响上采样的性能。特征融合的时候需要对特征图进行缩放，缩放过程中难免遇到像素点无法对齐的情况，所以本方法采用双线性插值的方法来解决这一问题。第二，anchor的尺寸决定了网络能够检测出何种大小的目标，要兼顾大量的小尺寸场景文字，且在不增加计算量的前提条件下，修改anchor的尺寸才是可行的，本方法去掉了512×512的anchor，加入64×64的anchor和32×32的anchor。模型的训练采用SGD优化器，学习率为0.02，迭代周期为10万，每一个批次训练图像数为4。

步骤3，对Top-Down方法进行改进。

第一，改进其注意力函数，Top-down模型采用的注意力函数非常复杂，需要用到三个全连接层，为了减轻过拟合的风险，本方法需要替换原有的注意力函数。改进的方法是把注意力函数替换为一个余弦相似度量函数，从本质上来说注意力机制计算出的权值就是两个向量之间的相似度，余弦相似度本质上是计算空间中两个向量夹角的余弦值，而余弦值也能够表示相似度，所以这样的替换是合理的。余弦相似度计算公式详见公式(1)。

第二，使用teacherforcing技术来训练模型，语言模型每一个时刻的结果都依赖上一个时刻的结果，假设现在要生成“you are a beautiful girl”中最后一个词“girl”，如果前一个词生成的词是“handsome”那么模型可能会生成“boy”这个词，因为根据语言习惯，“handsome”这个词一般不会用来形容“girl”。考虑最极端的情况，如果第一个词都生成错误的话，那么这句话就会变得完全不正确。所以，teacherforcing技术能够起到加速收敛的作用。使用步骤2得到的模型来预测训练数据集，保留预测结果作为本步骤模型的输入。模型训练采用Adam优化器，学习率为0.0001，训练epoch数为50，每一个批次训练的语句数为64。

步骤4，在D2中任取一张图像，使用步骤2，步骤3训练好的模型来生成检测结果与自然描述语句，并保留注意力机制产生的中间结果。使用公开的方法或者商业API对每一个检测出的场景文字进行识别，保留识别后的结果。

经过步骤2，我们可以得到一个联合检测模型，使用训练好的联合检测模型对D3中的图像进行预测，预测结果中的非场景文字作为语言描述模型的输入，场景文字作为场景文字识别的输入。使用步骤3训练好的语言描述模型生成图像的描述语句。使用公开的场景文字识别方法或者商业API进行场景文字识别。

步骤5：根据步骤4的结果，使用依赖关系分析的方法，分析描述语句成分，提取其中的名词。找出名词对应的图像区域，计算每一个场景文字与每一个图像区域的交并比(IOU)，交并比计算公式，详见公式(2)。

IOU＝(A∩B)/(A∪B)(2)

其中，A为场景文字，B为图像区域。

如何定位场景文字的嵌入位置，是本发明的重点和目标，嵌入的场景文字要保证不会破坏语句本身的语法结构。要达到这一目的，必须分析清楚英文的语法逻辑。场景文字本身在句子中对某一名词起到修饰的作用，比如“a airplane printed with Delta”，其中“Delta”为场景文字。所以，场景文字依赖于某一名词，而每一个名词在图像中都会有一个对应的区域，名词所对应的区域应该包含场景文字。交并比可以衡量两个物体在空间中的重叠关系，使用交并比就能够确定场景文字是否依赖于某一名词。交并比的阈值选定为0.8，即交并比大于0.8的场景文字和对象存在依赖关系，反之不存在。

步骤6，找出每个场景文字依赖的对象之后，就可以把场景文字嵌入到生成的自然描述语句中。

实施例具体的实施过程说明如下：

由于本方法是无监督的场景文字嵌入方法，在保证句子语法结构正确的前提下，本方法使用从句模板——“printedwith XXX”来进行嵌入。“XXX”代表场景文字，嵌入的时候视为“填空”操作，即把场景文字填入模板。图4为改进前后的Faster R-CNN的效果图，从图中我们

实施例：

本方法适用于解决存在场景文字的自然场景下的图像自然描述语言生成任务，使用本方法设计、训练的模型，可以有效地增加图像自然描述语言的丰富度。图4为原始Faster R-CNN结果，图5为改进后的Faster R-CNN结果，如图5中的箭头处可以看出改进后的模型能够检测出原始Faster R-CNN检测不出来的小目标。

图6图7图8为本方法结果图，图中包围框里的是普通对象，箭头所指的包围框中的是场景文字。其中，普通对象的检测框数量远超过场景文字的检测框数量，出现这一情况的原因在于，第一，普通对象的数量本来就比场景文字多，第二，本方法把检测阈值设置的较小，这样可以尽量的保证普通对象不被漏掉，本文的关键是在生成描述的基础上进行场景文字嵌入，而描述语句的生成依赖于普通对象的检测结果，所以需要给语言模型提供尽量多的检测结果。图6在采用本发明前的识别结果为“A airplane on the runway of anairport”，使用本发明后的识别结果为“A airplane printed with germanwings on therunway of an airport”，相同的图7使用本发明前后的识别结果分别为“a couple oftrains are parked down the railroad”“a couple of trains printed with EWS and60089 are parked down the railroad”,图8使用本发明前后的识别结果分别为“Alaptop is sitting on a table”“A laptop printed with DELL is sitting on atable”。从以上结果可以看出本方法不仅能够应对单个场景文字与单个对象的场景，也能应对多个场景文字与单个对象的场景。嵌入了场景文字之后的描述语言蕴含的信息量明显比嵌入前的描述语言丰富。

本发明的提出的方法采用了先进的技术方案，能够有效的解决场景文字嵌入图像自然描述语句的问题。本方法的创新点在于以下几点：(1)，本方法构建了一个联合检测数据集，目标检测和场景文字检测融合进一个模型，并改进相应的公开方法让其适应这一任务。改进主要集中在对小目标的检测上，提出了特征融合与重新设置anchor尺寸这两个方案。(2)，本方法针对Top-down方法的不足做出了改进，第一，使用余弦相似度来替换注意力函数，从而减轻过拟合的风险。第二，使用teacherforcing技术来加速模型的收敛。(3)，提出了一个无监督的场景文字嵌入方法，该方法具有速度快、准确率高、复杂度低等特点。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种嵌入场景文字信息的图像自然描述语句生成方法，其特征在于，包括以下步骤：

步骤1，使用公开的数据集构建两个数据集（D1 ，D2）：D1为训练联合检测场景文字与普通目标的数据集，D2为验证数据集；

其中，所述步骤2中Faster R-CNN方法具体改进方式如下：

第二，改变anchor尺寸的大小，丢弃尺寸过大的anchor，新加入小尺寸anchor来提高对小目标的检测效果；

其中，第一，将Top-down模型的注意力函数替换为一个余弦相似度量函数；

第二，使用teacher forcing技术训练模型，加速模型的收敛速度；

步骤4，在D2中任取一张图像，使用步骤2，步骤3训练好的模型来生成检测结果与自然描述语句，并保留注意力机制产生的中间结果；使用公开的方法或者商业API对每一个检测出的场景文字进行识别，保留识别后的结果；

步骤5，根据步骤4的结果，使用依赖关系分析的方法，分析描述语句成分，提取其中的名词；找出名词对应的图像区域，计算每一个场景文字与每一个图像区域的交并比IOU，交并比计算公式，如下：

IOU = (A∩B)/(A∪B) ；

2.根据权利要求1所述的一种嵌入场景文字信息的图像自然描述语句生成方法，其特征在于：所述交并比的阈值为0.8。

3.根据权利要求1所述的一种嵌入场景文字信息的图像自然描述语句生成方法，其特征在于：

所述改变anchor尺寸的大小具体为：去掉了512×512的anchor，加入64×64的anchor和32×32的anchor。

4.根据权利要求1所述的一种嵌入场景文字信息的图像自然描述语句生成方法，其特征在于：所述特征融合的策略是把conv3_4层与conv4_6层进行融合，并采用双线性插值的方法解决像素点无法对齐的问题。