CN111428447A

CN111428447A - 一种基于显著性检测的智能图文排版方法

Info

Publication number: CN111428447A
Application number: CN202010126919.0A
Authority: CN
Inventors: 李晨辉; 张佩迎; 王长波
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-17

Abstract

本发明公开了一种基于显著性检测的智能图文排版方法，其特点是该方法首先读入用户指定的一张背景图像和文本，接着通过卷积神经网络生成背景图像的显著图，并根据扩散方程迭代求得文本位置概率图，然后利用文本位置概率图计算出一系列文本候选框，最后通过美学评分网络对这些候选框进行评分，找出最优文本框位置，得到最终图文排版结果。本发明与现有技术相比具有较高的计算效率和良好的视觉效果，能够在多种实际应用场景中生成和谐的图文排版结果，更准确识别用户感兴趣的视觉主体区域。

Description

一种基于显著性检测的智能图文排版方法

技术领域

本发明涉及图文排版技术领域，尤其是一种基于图像内容分析和显著性检测的智能图文排版方法。

背景技术

在视觉设计领域，设计人员经常投入大量的时间来满足一定的重复性要求，尤其是图文排版的工作非常繁琐，而缺乏经验的设计师也很难做出更高层次的创意设计。

目前，图文排版主要采用规则驱动和数据驱动的方法。规则驱动的方法主要包括自定义美学规则、用户指定约束、设计布局模板等，其中自定义美学规则的方法需要定义空间布局、语义风格、字体风格和大小、颜色模型等大量参数，调参的工作较为繁琐；用户指定约束的方法需要使用者具有较高的审美素质；设计布局模板需要大量领域专家的先验知识。随着人工智能领域的发展，图文排版逐渐开始使用数据驱动的深度学习方法，如有学者使用生成对抗网络GAN来自动生成和谐的图文布局，也有研究者利用神经网络对图文设计作品进行打分，从而在搜索空间内找出最佳的图文排版结果。数据驱动的方法需要大量的标注数据，但在视觉设计领域收集和标记高质量的数据是较为困难的。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于显著性检测的智能图文排版方法，采用训练的卷积神经网络，将其应用到所输入的背景图像和待排版文本中，生成背景图像的显著图，并根据扩散方程迭代求得文本位置概率图，利用文本位置概率图得到一系列文本候选框，通过美学评分，找出最优文本框位置，得到最终图文排版结果，方法简便，具有较高的计算效率和良好的视觉效果，能够在多种实际应用场景中生成和谐的图文排版结果。

本发明的目的是这样实现的：一种基于显著性检测的智能图文排版方法，其特点是该图文的智能排版具体包括以下步骤：

a步骤：输入1张大小为n*m的背景图像I，所述图像I为n*m的像素值矩阵，其中，n为图像I纵向每列像素数，m为图像I横向每行像素数；输入待排版文本T，共有p行文本，每行文本长度分别为q₁,q₂,...,q_p，最大文本长度q_max＝max{q₁,q₂,...,q_p}，1≤p≤5,1≤q_max≤25。

b步骤：在显著性检测数据集上训练一个全卷积神经网络模型，该全卷积神经网络为FCN神经网络模型，所述FCN神经网络包括16层卷积层和一个归一化指数模型即softmax模型的输出层，线性整流函数(即ReLU函数作为激活函数)，全卷积神经网络模型的具体训练包括下述步骤：

b-1步骤：FCN全卷积神经网络模型包括多组用于提取图像显著性特征的卷积层，每个卷积核都使用3×3的大小，然后为批量归一化和ReLU激活函数；在每3次卷积之后将特征图下采样2倍，进行最大化池化处理；

b-2步骤：使用转置卷积将在不同比例学习的特征图上采样到原始分辨率，然后将所有多尺度的特征图按照权重进行相加连接；最后三个内核大小为1×1的卷积层，以及softmax函数，用于预测显著图，经过3次卷积后利用softmax函数得到所有像素点的预测结果。

c步骤：将b步骤中的FCN神经网络模型应用到a步骤所输入的图像I，从中检索到显著性特征后从FCN神经网络中的softmax层输出显著度值；输出的显著度图表示为S(I)，即为一个表示每个像素点的显著度值的矩阵。

d步骤：根据c步骤所得的显著度图S(I)计算出文本位置概率图G(I)，其中，文本概率图G(I)可按照下述(1)式表示的扩散方程迭代求得：

其中：λ为指定的系数；

表示X方向上的梯度；

表示Y方向上的梯度；c_X为X方向上的扩散系数；c_Y为Y方向上的扩散系数；λ的默认值为0.5；c_X的默认值为1；c_Y的默认值为1；G(I)的初始值与c步骤中计算得到的S(I)相等。

利用上述(1)式，文本位置概率图G(I)的具体迭代计算过程如下所示：

e步骤：定义文本位置概率图G(I)中的一个连通区域为{g^x,g^y}，其中，

所述i表示图像I的第i行，x(i)表示第i行中的某个像素的横坐标值，n表示图像I纵向每列像素数，G(x(i),i)表示坐标为(x(i),i)的像素对应的文本概率值；

所述j表示图像I的第j列，y(j)表示第j列中的某个像素的纵坐标值，m表示图像I横向每行像素数，G(j,y(j))表示坐标为(j,y(j))的像素对应的文本位置概率值；计算出文本位置概率图G(I)中所有连通区域。

f步骤：设定大小为T_x*T_y文本框，纵横比Ratio_T＝T_y/T_x，使用大小为T_x*T_y的滑动窗口遍历e步骤中的所有连通区域，滑动窗口在每个连通区域取得最大值的位置，设其左上角坐标为(x₁,y₁)，右下角坐标为(x₂,y₂)，则新生成的一系列文本框的左上角坐标(x_new1,y_new1)可用下述(2)式表示：

其中：Δx＝δ|x₂-x₁|,Δy＝Ratio_TΔx；Δx表示文本框在x方向上偏移的距离；Δy表示文本框在y方向上偏移的距离；δ为指定的系数，

g步骤：在美学评估数据集上训练一个卷积神经网络模型，该卷积神经网络为ResNet神经网络模型，所述ResNet神经网络包括18层卷积层和一个归一化指数模型即softmax模型的输出层，线性整流函数即ReLU函数作为激活函数。

h步骤：利用文本位置概率图G(I)计算得到一系列文本候选框，将此ResNet神经网络模型应用到所生成的一系列文本框，对文本框进行美学评估后从ResNet神经网络中的softmax层输出美学分数。

i步骤：找出美学分数最高的文本框位置，输出最终的图文排版结果。

本发明与现有技术相比具有较高的计算效率和良好的视觉效果，能够在多种实际应用场景中生成和谐的图文排版结果，更准确识别用户感兴趣的视觉主体区域，将背景图像的语义特征结合视觉感知原理，将扩散方程与文本位置框生成算法相结合，能够高效地生成不同位置的候选文本框，通过使用美学评分网络对候选文本框进行美学评分，不需要自定义复杂的美学规则。

附图说明

图1为本发明流程示意图；

图2为实施例示意图。

具体实施方式

参阅附图1，本发明按下述步骤进行该图文的智能排版：

步骤一：输入1张大小为n*m的背景图像I和待排版文本T；

步骤二：通过训练的卷积神经网络提取显著性特征，并输出显著度图S(I)；

步骤三：根据扩散方程迭代求得文本位置概率图G(I)；

步骤四：利用文本位置概率图G(I)计算出一系列文本候选框；

步骤五：通过美学评分网络对文本候选框进行评分，输出最优的图文排版结果。

以下以某一城市建筑岸边的智能图文排版为例对本发明作进一步的详细说明。

实施例1

参阅附图2，本发明按下述步骤进行智能图文排版的：

a步骤：首先输入1张大小为n*m的背景图像I和待排版文本T，共有p行文本，每行文本长度分别为q₁,q₂,...,q_p，最大文本长度q_max＝max{q₁,q₂,...,q_p}，1≤p≤5,1≤q_max≤25。

b步骤：在显著性检测数据集上训练一个全卷积神经网络模型，该全卷积神经网络为FCN神经网络模型，所述FCN神经网络包括16层卷积层和一个归一化指数模型即softmax模型的输出层，线性整流函数即ReLU函数作为激活函数。

c步骤：将此FCN神经网络模型应用到所输入的图像I，从中检索到显著性特征后从FCN神经网络中的softmax层输出显著度值；输出的显著度图表示为S(I)，即为一个表示每个像素点的显著度值的矩阵。

d步骤：根据显著度图S(I)计算出文本位置概率图G(I)，其中，文本概率图G(I)可按照下述(1)式表示的扩散方程迭代求得：

其中：λ为指定的系数；

表示X方向上的梯度；

表示Y方向上的梯度；c_X为X方向上的扩散系数；c_Y为Y方向上的扩散系数；G(I)的初始值与c步骤中计算得到的S(I)相等。

所述j表示图像I的第j列，y(j)表示第j列中的某个像素的纵坐标值，m表示图像I横向每行像素数，G(j,y(j))表示坐标为(j,y(j))的像素对应的文本位置概率值；计算出文本位置概率图G(I)中所有连通区域；

f步骤：设定大小为T_x*T_y文本框，纵横比Ratio_T＝T_y/T_x，使用大小为T_x*T_y的滑动窗口遍历文本位置概率图G(I)中所有连通区域，滑动窗口在每个连通区域取得最大值的位置，设其左上角坐标为(x₁,y₁)，右下角坐标为(x₂,y₂)，则新生成的一系列文本框的左上角坐标(x_new1,y_new1)可表示为下述(2)式：

h步骤：将此ResNet神经网络模型应用到生成的一系列文本框，对文本框进行美学评估后从ResNet神经网络中的softmax层输出美学分数。

i步骤：找出美学分数最高的文本框位置，最后输出最终的图文排版结果。

本发明训练了一个卷积神经网络，将此神经网络应用到所输入的背景图像I和待排版文本T，计算出图像的显著图，并根据扩散方程迭代求得文本位置概率图；然后利用文本位置概率图计算出一系列文本候选框；最后通过美学评分网络对这些候选框进行评分，找出最优文本框位置，即可得到最终图文排版结果，通过这些方法的应用能够在多种实际应用场景中生成和谐的图文排版结果。

以上只是对本发明作进一步的说明，并非用以限制本专利，在不背离本发明构思的精神和范围下的等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于显著性检测的智能图文排版方法，其特征在于该图文的智能排版具体包括以下步骤：

a步骤：输入一张大小为n*m的背景图像I和待排版文本T，所述图像I为n*m的像素值矩阵，其中，n为图像I纵向每列像素数，m为图像I横向每行像素数；所述文本T共有p行，每行文本长度分别为q₁,q₂,...,q_p，最大文本长度q_max＝max{q₁,q₂,...,q_p}，1≤p≤5,1≤q_max≤25；

b步骤：在显著性检测数据集上训练一个FCN神经网络模型；所述FCN神经网络包括16层卷积层、softmax模型的输出层(归一化指数模型)和线性整流函数(ReLU函数作为激活函数)；

c步骤：将b步骤中的FCN神经网络模型应用到a步骤所输入的图像I，从中检索到显著性特征后从FCN神经网络中的softmax层输出一个表示每个像素点的显著度值的矩阵S(I)；

d步骤：根据矩阵S(I)按下述(1)式的扩散方程迭代计算出文本位置概率图G(I)：

其中：λ为指定的系数，其默认值为0.5；

表示X方向上的梯度；

表示Y方向上的梯度；c_X为X方向上的扩散系数，其默认值为1；c_Y为Y方向上的扩散系数，其默认值为1；G(I)的初始值与c步骤中计算得到的S(I)相等；

e步骤：定义文本位置概率图G(I)中的一个连通区域为{g^x,g^y}，计算出文本位置概率图G(I)中所有连通区域，其中：

计算文本位置概率图G(I)中所有连通区域；

式中：i表示图像I的第i行；x(i)表示第i行中的某个像素的横坐标值；n表示图像I纵向每列像素数；G(x(i),i)表示坐标为(x(i),i)的像素对应的文本概率值；j表示图像I的第j列；y(j)表示第j列中的某个像素的纵坐标值；m表示图像I横向每行像素数；G(j,y(j))表示坐标为(j,y(j))的像素对应的文本位置概率值；

f步骤：设定大小为T_x*T_y文本框，纵横比Ratio_T＝T_y/T_x，使用大小为T_x*T_y的滑动窗口遍历e步骤中的所有连通区域，滑动窗口在每个连通区域取得最大值的位置，设其左上角坐标为(x₁,y₁)，右下角坐标为(x₂,y₂)，生成下述(2)式表示的一系列文本框的左上角坐标(x_new1,y_new1)：

其中：Δx＝δ|x₂-x₁|,Δy＝Ratio_TΔx；Δx表示文本框在x方向上偏移的距离；

Δy表示文本框在y方向上偏移的距离；δ为指定的系数，

g步骤：在美学评估数据集上训练一个ResNet神经网络模型，所述ResNet神经网络包括18层卷积层、softmax模型的输出层和线性整流函数(ReLU函数作为激活函数)；

h步骤：利用文本位置概率图G(I)计算得到一系列文本候选框，并通过美学评分网络对每一文本候选框进行美学评分，其得分由softmax模型的输出层输出；

i步骤：找出美学分数最高的文本框位置为最终的图文排版结果。

2.根据权利要求1所述基于显著性检测的智能图文排版方法，其特征在于所述b步骤中FCN全卷积神经网络模型包括多组用于提取图像显著性特征的卷积层，其具体训练包括下述步骤：

b-1步骤：每个卷积核都使用3×3的大小，然后为批量归一化和ReLU激活函数，在每3次卷积之后将特征图下采样2倍，进行最大化池化处理；

b-2步骤：使用转置卷积将在不同比例学习的特征图上采样到原始分辨率，然后将所有多尺度的特征图按照权重进行相加连接，最后三个内核大小为1×1的卷积层以及softmax函数，用于预测显著图，经3次卷积后利用softmax函数得到所有像素点的预测结果。