CN107895393A

CN107895393A - 一种综合文字和形状的故事图像序列生成方法

Info

Publication number: CN107895393A
Application number: CN201711002366.2A
Authority: CN
Inventors: 张加万; 詹睿; 孙迪; 潘刚
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-10-24
Filing date: 2017-10-24
Publication date: 2018-04-10

Abstract

本发明涉及一种综合文字和形状的故事图像序列生成方法，包括下列步骤：文本故事解析；背景过滤；基于显著性的图像前景形状提取；前景过滤；图像合成；图像序列生成：默认同一故事主题可保留同一背景画面，在场景图像之间采用一致性过滤算法来保证场景单元之间的一致性；设A和B是故事文本中出现在不同场景即句子中的同一个对象即具有相同关键字，A为来自已完成场景的参考图像，B为来自新场景的用户草图，所谓一致性过滤，就是基于参考图像A和用户草图B搜索出新的候选前景图像集，使其尽量保持A的颜色以及B的形状。

Description

一种综合文字和形状的故事图像序列生成方法

技术领域

本发明涉及一种图像序列生成方法。

背景技术

Storytelling(讲故事)在人们传达信息，认知世界的过程中发挥着重要作用。传统的讲故事主要通过文本或者声音来表达呈现，但“一图胜千言”，通过图像形式(如插图配文字) 呈现故事内容能更好的传达信息，激发想象力。近年来，随着数码相机等多媒体设备的普及发展，一种把讲故事的艺术与多媒体工具(图片，视频，动画等)结合的新的storytelling形式产生了，我们把这个实现过程称之为数字故事可视化。与故事可视化相关的工作也受到了各国学者的关注和参与。

一些研究人员尝试用电脑给人们提供故事可视化的环境和工具，并已取得了一些研究成果[1]。有些研究尝试从网上搜索贴近文字内容的图片来描述故事场景[2，3，4]，有些则提供工具来为特定的故事场景来合成相应的图片[5]。但是，这些研究都存在一些问题，很多时候用户很难从网上直接获取一张能够准确描述故事场景的图片，而特定场景的图像合成又往往内容受限，无法真正地展现丰富的故事内容。此外，图像匹配、图像合成等近年来都有了较大的发展，对本专利的技术思路有较大的启发。如李建增、张岩等在专利“快速鲁棒性尺度不变的图像匹配方法”[6]中提出了尺度不变的图像匹配方法。谢杰融在专利“图像合成系统及方法”[7]中提出了一种将前景对象和背景图合成的方法，该方法通过对前景物体进行色彩处理，使得前景物体与背景物体合成后的图像能够在色彩上保持一致。

发明内容

本发明提供一种综合文字和形状的故事图像序列生成方案。从互联网上海量数据集中搜索出符合故事文本关键字的候选图像集，并根据前景过滤和背景过滤算法对图像进一步筛选，最后通过图像合成技术，一致性优化等策略能够合成符合用户需求的故事图像序列。技术方案如下：

一种综合文字和形状的故事图像序列生成方法，包括下列步骤：

1)文本故事解析

对输入的故事脚本进行解析，完成从文本故事到对象关键字的提取工作，并利用关键字分别搜索下载符合语义的图像，建立各场景对象的初始图像集，包含初始背景图像集B_ini和初始前景图像集F_ini；

2)背景过滤

对于背景的选择，遵循两个原则:一是背景内容应该与指定文本关键字一致，二是背景内容应该构图简单，背景的初始图像集为B_ini，背景过滤结果得到的候选背景图像用B_flt表示；

3)基于显著性的图像前景形状提取

利用显著性图来自动提取图像前景轮廓，以此生成图像前景形状集F_shp，算法如下：

第1步：基于颜色特征来对F_ini中的图像进行全局显著性度量，在lαβ颜色空间中，两个像素颜色差别可以用这两个像素的lαβ距离表示，距离差值的大小决定了像素之间的相似程度，以I来表示F_ini中的图像，将I转换到lαβ空间；

第2步：定义图像中某像素的显著性值为该像素与图像中其他像素颜色的二范式，图像 I中的像素I_k的显著性定义公式为：

其中，D(I_k,I_i)为两个像素I_k和I_i在lαβ空间的颜色距离度量；

第3步：对公式(1)计算的像素的显著性值进行重新排列，将具有相同颜色值的像素归为一类，从而得到每一种颜色的显著性值，如公式(2)所示：

其中，n为图像中所含的颜色种类个数，c_l为第k个像素I_k的颜色值，f_j为c_j在图像I中出现的概率；以此得到图像I的全局显著性图；

第4步：生成了显著性图后，选择合适的阈值来对其进行显著性分割，从而得到二值黑白图像，然后迭代的使用GrabCut分割算法来改善分割结果；

第5步：对F_ini中的每张图像执行上述操作，由此得到前景形状图集F_shp；

4)前景过滤

获取前景形状图集F_shp后，进一步引入用户草图，对其进行形状过滤，过滤结果用F_flt表示，具体过程如下：

第1步：用户手绘形状草图S，以此描述前景物体的大致轮廓；

第2步：利用形状上下文描述符shape context对用户草图s进行特征描述，得到一个表征物体形状的点集合，每个点的形状信息由集合中其他点与之形成的相对向量集表示，采用直方图g_i表示这些向量；

第3步：以C来表示F_shp中的图像，计算S与C之间每个样本点之间的差别，即形状上下文的差别；

第4步：在得到每个点之间的差别以后，可以形成一个代价矩阵，运行匈牙利算法找到最优匹配，使整个代价最小，基于这个最优匹配，得到整个形状代价d_s，d_s可以作为两个形状之间的差别衡量，代价越小，形状越相似；

第5步：按照形状代价值从小到大进行排序，保留F_shp中与之对应的前10张图像生成前景过滤集F_flt；

5)图像合成

经过以上过滤过程分别获取相应的背景过滤集B_flt和前景过滤集F_flt，使用泊松融合方法对排序结果最优的前景图像I_f和背景图像I_b进行合成，至此完成单幅场景图像的合成，对应文本中的一个句子；

6)图像序列生成

对于剩余句子的场景图像生成，同样采用上述操作，默认同一故事主题可保留同一背景画面，在场景图像之间采用一致性过滤算法来保证场景单元之间的一致性；设A和B是故事文本中出现在不同场景即句子中的同一个对象即具有相同关键字，A为来自已完成场景的参考图像，B为来自新场景的用户草图，所谓一致性过滤，就是基于参考图像A和用户草图B搜索出新的候选前景图像集F_newflt，使其尽量保持A的颜色以及B的形状。

优选地，步骤1)如下：

第1步：对输入的故事文本进行划分，利用最大熵模型来根据上下文语境判断句点位置，根据句点将输入的文本划分成句子，默认情况下，一个句子即为一个场景单元，将有一张合成图与之对应；

第2步：使用“Penn Treebank”词性标记方法，寻找句子中的短语，进一步提取出包括名词在内的关键字，每一个关键字对应一类场景对象，前景或背景；

第4步：利用关键字，从互联网上分别搜索下载500张符合语义的图片，建立各场景对象的初始图像集，其包括初始背景图像集B_ini和初始前景图像集F_ini。

步骤2)的背景过滤过程如下:

第1步：使用gist特征描述符来对B_ini中各图像的空间布局进行统计。

第2步：根据gist描述符获取的空间特征，使用mean shift算法来对上述图像进行聚类，并找出最大的聚类集。

第3步：使用标准马氏距离来对最大的聚类集中的图像进行排序，按照从小到大的排序结果保留前20张图，记为候选背景图像B_flt。

给定参考图像A和用户草图B，对于F_shp中的每一张图片T，步骤6)的故事图像序列生成方法如下：

第1步：计算A和T的颜色相似度：把图像A从RGB颜色空间转换到HSV颜色空间，通过颜色柱状图提取36维的向量作为其颜色特征C_A；对于T，采用同样的方法提取其颜色特征C_T，然后计算图像A和图像T的马氏距离D_c(A,T)并将其归一化，其中，S为C_A、C_T的协方差矩阵，公式见式(3)：

D_c(A,T)＝[(C_A-C_T)*S^-1*(C_A-C_T)^T](3)

第2步：基于形状上下文方法计算B和T形状相似度D_s(B,T)；

第3步：利用加权组合的颜色和形状距离进行过滤，加权距离见式(4)，据此进行排序，给出排序结果；

D＝w_cD_c+w_sD_s (4)

其中w_c，w_s分别表示颜色和形状距离权重，满足w_c+w_s＝1。

附图说明

图1是前景图像过滤流程图

图2是图像合成流程图

图3是图像显著性提取结果图

图4是图像合成结果，图4(a)为故事1的三幅用户草图，图4(b)为相应的图像合成结果，对应的故事脚本如下：“Asheepeatsgrassonagrassland.Suddenly,awolfcomesandchasesthesheep.Momentslateradogdrivesthewolfaway.”；

图4(c)为故事2的三幅用户草图，图4(d)为相应的图像合成结果，对应的故事脚本如下：。

具体实施方式

本发明所提方法主要包括：文本故事解析、图像背景过滤、图像显著性提取、前景过滤、图像序列合成。

1、文本故事解析

对输入的故事脚本进行解析，完成从文本故事到对象关键字的提取工作。

算法1：文本故事解析

第1步：对故事场景进行划分，利用最大熵模型来根据上下文语境判断句点位置，根据句点将输入的故事划分成场景单元。

第2步：使用“Penn Treebank”作为词性标记方法，寻找句子中的短语，其中每个短语中都含有名词，代表句子中一个完整的场景对象单元。

第3步：提取场景中有意义的场景对象单元，用于图像检索。本专利考虑将名词与动词、形容词进行结合，方法如下所示：

(1)A horse runs in the desert。→Horse runs，desert

(2)The horse is black。→Horse^black

(3)The horse is running。→Horse^running

第4步：利用场景对象关键字，从互联网上分别搜索下载符合语义的图像，建立各场景对象的图像初始集，默认情况下，每一类场景对象的下载图像数量为200。

2、背景过滤

对于背景的选择，主要遵循两个原则:一是背景内容应该与指定文本关键字一致，二是背景内容应该构图简单。背景过滤结果用S_b表示。具体过程如下:

算法2：背景过滤

第1步：使用基于场景的gist特征描述符来对图像的空间布局进行统计。

第2步：根据gist描述符获取的空间特征，使用mean shift算法来对图像进行聚类，并找出最大的聚类集，每个聚类集中的图像都拥有相同的成分。

第3步：使用标准马氏距离来对最大的聚类集的图像进行排序，根据排序结果返回最相关的前100张图像最为候选背景图像。

第4步：对候选背景图像进一步使用标准分割方法来进行过滤。对每张图像进行分割，并统计分割数目，分割数目越小表示图像越简单。根据分割数目，对图像进行更新排序，保留前10张作为背景过滤结果S_b。

3、图像显著性提取

为了对前景图像进行过滤，首先需要对根据关键字信息从网上下载下来的候选前景图像集进行显著性提取。这里采用了一种基于结构化SVM框架的显著性提取算法。它不仅能从图形层次上判断图像是否拥有显著性对象，还能从区域层次上判断图像区域是否为显著性区域。具体过程如下：

算法3：图像显著性存在特征和区域显著性特征提取

第1步：使用包含5层卷积层、2层全连接层的卷积神经网络CNN提取输入图像的显著性存在特征，并采用CNN的fc7层输出作为输出结果。

第2步：使用主成分分析法对输出结果降维，输出一个1885维的显著性存在特征向量Φ^ext(I)。

第3步：将输入图像I划分成N个超像素点并使用超像素点的平均像素值对图像进行填充，其中平均像素值来源于CNN的预训练图像。

第4步：将填充图像转换成227×227像素大小的图像，并输入至包含5层卷积层和2层全连接层的CNN网络中，提取图像区域的全局上下文特征，即为图像区域显著性特征，该特征包含图像区域的位置信息。

第5步：使用主成分分析法对CNN的fc7层输出的图像区域显著性特征进行降维，获取每个超像素点r_i维度为39的区域显著性特征向量

4、基于显著性的前景图像轮廓提取

根据显著性来进一步自动提取图像的前景轮廓，构建的轮廓集用S_c表示，具体过程如下：

算法4：前景轮廓自动提取

使用上面获得的图像显著性存在特征Φ^ext(I)和图像区域显著性特征来判断图像的显著性存在标签y∈Y＝{-1,1}(-1表示不存在显著性对象)，以及图像区域的显著性标签s_i∈S＝{-1,1}(-1表示超像素点r_i为背景区域，1表示为前景区域)，并据此来提取图像的显著性区域。

第1步：使用一系列训练样本来对SVM模型进行训练，其中I_m表示图像m，y_m,s_m表示图像m的显著性存在标签和区域显著性标签。

第2步：根据给定的训练样本通过最小化公式(1)来寻找最优的模型参数w。

其中λ为常量参数，用于控制正则项与R_m(w)损失函数项之间的比例，R_m(w)定义如下：

Δ(y_m,y,s_m,s)＝δ(y_m≠y)+α(s_m,s)(3)

公式(3)的第一项为0/1损失项，多用于分类问题；第二项用于限制显著性对象的分割，通过计算未被正确分类的超像素点数目来评估区域分类的错误率，定义见式(4)：

式中，β_l为r_l的面积，是一个归一化的项，用于确保α(s_m,s)∈[0,1]。

使用捆绑优化方法，基于子梯度不断迭代构建目标函数L(w)的分段二次逼近，最终求得最优的模型参数w。

第3步：使用SVM模型对输入图像I进行预测，通过最大化公式(5)来获取其显著性存在标签和区域显著性标签。公式如下：

其中Φ^ext(I)表示输入图像I的显著性存在特征，表示超像素点r_i的显著性特征向量，G＝(V,E)表示两个邻接超像素点的空间关系，j∈V表示超像素点的r_j，(j,k)∈E表示r_j和r_k的空间约束。为模型参数，w^ext表示显著性存在参数，表示图像为前景图时的区域的显著性参数，表示图像为前景图时图像区域为前景区域和背景区域的参数，表示平滑参数。v_jk表示两个邻接区域r_j和r_k的相似度，c_j表示超像素点r_j的平均颜色向量，σ_c是手动设置的。

由于y∈Y＝{-1,1}，因此可以迭代所有可能的值。通过给定任何y值，使用最大流算法来优化公式(5)，以此来获取最优的区域显著性标签s。

第4步：根据显著性存在标签和区域显著性标签来获取图像的显著性图。使用二次能量函数来对最终的分割结果进行扩展，见公式(7)。

其中z_i∈[0,1]是超像素点r_i的显著性值，I为单位矩阵，V＝[v_ij]和 D＝diag{d₁₁,…,d_NN}为阶矩阵，其中L＝D-V为拉普拉斯矩阵。

第5步：对生成的显著性图进行阈值分割，从而得到二值黑白图像。白色代表原始图像的显著性目标，黑色代表背景部分。直接根据二值结果对其进行裁剪，获取前景对象的轮廓，并由此构建出前景图像的轮廓集S_c。

5、前景过滤

根据上述过程获取了前景图像的轮廓集S_c后，需要进一步对其进行过滤，过滤结果用 S_f表示，具体过程如下：

算法5：基于轮廓匹配的前景过滤算法

第1步：用户根据自身需求描绘出用户草图s，即合成图像的大致轮廓。

第2步：对每一个c_i∈S_c(i＝1,2,...,200)，使用形状上下文描述符来计算s和c_i的形状相似性距离d_i(i＝1,2,...,200)，距离相似度值被归一化为[0，1]。

第3步：根据相似度值对图像进行排序，保留前10张图像作为前景过滤结果S_f。

6、图像序列合成

经过以上过滤过程获取了相应的背景过滤集S_b和前景图集S_f后，自动对排序结果靠前的图像进行合成，或可用户从排序集中自行选择。

算法6：图像序列合成

第1步：优化前景图像的边界。这里采用形态学扩展方法使前景对象扩展20倍，来获取初始的前景区域Ω₀。在Ω₀内对边界进行优化。优化必须满足以下两个条件：1)优化的区域要小于原始区域，即2)将区域Ω内的每个像素赋值到集合M₁和M₂，M₁中包含的像素颜色和纹理一致，M₂中则包含其他像素。

第2步：对于M₁中的像素使用Drag-and-drop粘贴方法来优化其边界，对于处于M₂中的像素将边界设置在具有较小alpha matte值的像素点处，α＝0.001。

第3步：根据区域Ω和集合M₁，M₂来进行图像合成。首先使用改善的泊松混合操作来计算中间结果f'，然后使用α混合进一步合成。

第4步：根据场景语义，重复算法2至6步骤进一步合成多幅场景单元图，并引入场景复用等过滤策略来实现场景单元之间的一致性。

采用Visual studio 2010作为开发工具，C#作为开发语言。选择25位不同年龄层的用户对其进行评估，结果表明大多数用户都认为以上方法能够快速、准确的生成符合用户需求的图像。

图1展示了前景图像过滤的流程图。图2展示了图像合成的流程图。图3展示了图像显著性提取结果。图4展示了图像合成结果，图4(a)(c)分别为故事1，2的三幅用户草图，图4(b)、4(d)为相应的图像合成结果。故事1对应的故事脚本为

“Asheepeatsgrassonagrassland.Suddenly,awolfcomesandchasesthesheep.

Momentslateradogdrivesthewolfaway.”故事1对应的故事脚本为

“Ahorseandacamelarereadyforarunningraceinthedesert.

Thehorserunsinfrontofthecamelatthefirsttime.However,

becausethehorselacksinendurance,thecamelwinstherace.”。

Claims

1.一种综合文字和形状的故事图像序列生成方法，包括下列步骤：

1)文本故事解析

2)背景过滤

3)基于显著性的图像前景形状提取

第2步：定义图像中某像素的显著性值为该像素与图像中其他像素颜色的二范式，图像I中的像素I_k的显著性定义公式为：

<mrow> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <mo>&ForAll;</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>I</mi> </mrow> </msub> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>k</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>S</mi> <mrow> <mi>G</mi> <mi>l</mi> <mi>o</mi> <mi>b</mi> <mi>a</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>f</mi> <mi>j</mi> </msub> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>l</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

4)前景过滤

第5步：按照形状代价值从小到大进行排序，生成前景过滤集F_flt；

5)图像合成

6)图像序列生成

2.根据权利要求1所述的生成方法，其特征在于，步骤1)如下：

第4步：利用关键字，从互联网上分别搜索下载符合语义的图片，建立各场景对象的初始图像集，其包括初始背景图像集B_ini和初始前景图像集F_ini。

3.根据权利要求1所述的生成方法，其特征在于，步骤2)的背景过滤过程如下:

第1步：使用gist特征描述符来对B_ini中各图像的空间布局进行统计；

第2步：根据gist描述符获取的空间特征，使用mean shift算法来对上述图像进行聚类，并找出最大的聚类集；

第3步：使用标准马氏距离来对最大的聚类集中的图像进行排序，按照从小到大的排序结果选取候选背景图像B_flt。

4.根据权利要求1所述的生成方法，其特征在于，给定参考图像A和用户草图B，对于F_shp中的每一张图片T，步骤6)的故事图像序列生成方法如下：

D_c(A,T)＝[(C_A-C_T)*S^-1*(C_A-C_T)^T] (3)

第2步：基于形状上下文方法计算B和T形状相似度D_s(B,T)；

D＝w_cD_c+w_sD_s (4)

其中w_c，w_s分别表示颜色和形状距离权重，满足w_c+w_s＝1。