CN111428447A - 一种基于显著性检测的智能图文排版方法 - Google Patents

一种基于显著性检测的智能图文排版方法 Download PDF

Info

Publication number
CN111428447A
CN111428447A CN202010126919.0A CN202010126919A CN111428447A CN 111428447 A CN111428447 A CN 111428447A CN 202010126919 A CN202010126919 A CN 202010126919A CN 111428447 A CN111428447 A CN 111428447A
Authority
CN
China
Prior art keywords
text
image
neural network
convolution
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010126919.0A
Other languages
English (en)
Inventor
李晨辉
张佩迎
王长波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010126919.0A priority Critical patent/CN111428447A/zh
Publication of CN111428447A publication Critical patent/CN111428447A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于显著性检测的智能图文排版方法,其特点是该方法首先读入用户指定的一张背景图像和文本,接着通过卷积神经网络生成背景图像的显著图,并根据扩散方程迭代求得文本位置概率图,然后利用文本位置概率图计算出一系列文本候选框,最后通过美学评分网络对这些候选框进行评分,找出最优文本框位置,得到最终图文排版结果。本发明与现有技术相比具有较高的计算效率和良好的视觉效果,能够在多种实际应用场景中生成和谐的图文排版结果,更准确识别用户感兴趣的视觉主体区域。

Description

一种基于显著性检测的智能图文排版方法
技术领域
本发明涉及图文排版技术领域,尤其是一种基于图像内容分析和显著性检测的智能图文排版方法。
背景技术
在视觉设计领域,设计人员经常投入大量的时间来满足一定的重复性要求,尤其是图文排版的工作非常繁琐,而缺乏经验的设计师也很难做出更高层次的创意设计。
目前,图文排版主要采用规则驱动和数据驱动的方法。规则驱动的方法主要包括自定义美学规则、用户指定约束、设计布局模板等,其中自定义美学规则的方法需要定义空间布局、语义风格、字体风格和大小、颜色模型等大量参数,调参的工作较为繁琐;用户指定约束的方法需要使用者具有较高的审美素质;设计布局模板需要大量领域专家的先验知识。随着人工智能领域的发展,图文排版逐渐开始使用数据驱动的深度学习方法,如有学者使用生成对抗网络GAN来自动生成和谐的图文布局,也有研究者利用神经网络对图文设计作品进行打分,从而在搜索空间内找出最佳的图文排版结果。数据驱动的方法需要大量的标注数据,但在视觉设计领域收集和标记高质量的数据是较为困难的。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于显著性检测的智能图文排版方法,采用训练的卷积神经网络,将其应用到所输入的背景图像和待排版文本中,生成背景图像的显著图,并根据扩散方程迭代求得文本位置概率图,利用文本位置概率图得到一系列文本候选框,通过美学评分,找出最优文本框位置,得到最终图文排版结果,方法简便,具有较高的计算效率和良好的视觉效果,能够在多种实际应用场景中生成和谐的图文排版结果。
本发明的目的是这样实现的:一种基于显著性检测的智能图文排版方法,其特点是该图文的智能排版具体包括以下步骤:
a步骤:输入1张大小为n*m的背景图像I,所述图像I为n*m的像素值矩阵,其中,n为图像I纵向每列像素数,m为图像I横向每行像素数;输入待排版文本T,共有p行文本,每行文本长度分别为q1,q2,...,qp,最大文本长度qmax=max{q1,q2,...,qp},1≤p≤5,1≤qmax≤25。
b步骤:在显著性检测数据集上训练一个全卷积神经网络模型,该全卷积神经网络为FCN神经网络模型,所述FCN神经网络包括16层卷积层和一个归一化指数模型即softmax模型的输出层,线性整流函数(即ReLU函数作为激活函数),全卷积神经网络模型的具体训练包括下述步骤:
b-1步骤:FCN全卷积神经网络模型包括多组用于提取图像显著性特征的卷积层,每个卷积核都使用3×3的大小,然后为批量归一化和ReLU激活函数;在每3次卷积之后将特征图下采样2倍,进行最大化池化处理;
b-2步骤:使用转置卷积将在不同比例学习的特征图上采样到原始分辨率,然后将所有多尺度的特征图按照权重进行相加连接;最后三个内核大小为1×1的卷积层,以及softmax函数,用于预测显著图,经过3次卷积后利用softmax函数得到所有像素点的预测结果。
c步骤:将b步骤中的FCN神经网络模型应用到a步骤所输入的图像I,从中检索到显著性特征后从FCN神经网络中的softmax层输出显著度值;输出的显著度图表示为S(I),即为一个表示每个像素点的显著度值的矩阵。
d步骤:根据c步骤所得的显著度图S(I)计算出文本位置概率图G(I),其中,文本概率图G(I)可按照下述(1)式表示的扩散方程迭代求得:
Figure BDA0002394664520000021
其中:λ为指定的系数;
Figure BDA0002394664520000022
表示X方向上的梯度;
Figure BDA0002394664520000023
表示Y方向上的梯度;cX为X方向上的扩散系数;cY为Y方向上的扩散系数;λ的默认值为0.5;cX的默认值为1;cY的默认值为1;G(I)的初始值与c步骤中计算得到的S(I)相等。
利用上述(1)式,文本位置概率图G(I)的具体迭代计算过程如下所示:
Figure BDA0002394664520000031
e步骤:定义文本位置概率图G(I)中的一个连通区域为{gx,gy},其中,
Figure BDA0002394664520000032
所述i表示图像I的第i行,x(i)表示第i行中的某个像素的横坐标值,n表示图像I纵向每列像素数,G(x(i),i)表示坐标为(x(i),i)的像素对应的文本概率值;
Figure BDA0002394664520000033
Figure BDA0002394664520000034
所述j表示图像I的第j列,y(j)表示第j列中的某个像素的纵坐标值,m表示图像I横向每行像素数,G(j,y(j))表示坐标为(j,y(j))的像素对应的文本位置概率值;计算出文本位置概率图G(I)中所有连通区域。
f步骤:设定大小为Tx*Ty文本框,纵横比RatioT=Ty/Tx,使用大小为Tx*Ty的滑动窗口遍历e步骤中的所有连通区域,滑动窗口在每个连通区域取得最大值的位置,设其左上角坐标为(x1,y1),右下角坐标为(x2,y2),则新生成的一系列文本框的左上角坐标(xnew1,ynew1)可用下述(2)式表示:
Figure BDA0002394664520000035
其中:Δx=δ|x2-x1|,Δy=RatioTΔx;Δx表示文本框在x方向上偏移的距离;Δy表示文本框在y方向上偏移的距离;δ为指定的系数,
Figure BDA0002394664520000036
g步骤:在美学评估数据集上训练一个卷积神经网络模型,该卷积神经网络为ResNet神经网络模型,所述ResNet神经网络包括18层卷积层和一个归一化指数模型即softmax模型的输出层,线性整流函数即ReLU函数作为激活函数。
h步骤:利用文本位置概率图G(I)计算得到一系列文本候选框,将此ResNet神经网络模型应用到所生成的一系列文本框,对文本框进行美学评估后从ResNet神经网络中的softmax层输出美学分数。
i步骤:找出美学分数最高的文本框位置,输出最终的图文排版结果。
本发明与现有技术相比具有较高的计算效率和良好的视觉效果,能够在多种实际应用场景中生成和谐的图文排版结果,更准确识别用户感兴趣的视觉主体区域,将背景图像的语义特征结合视觉感知原理,将扩散方程与文本位置框生成算法相结合,能够高效地生成不同位置的候选文本框,通过使用美学评分网络对候选文本框进行美学评分,不需要自定义复杂的美学规则。
附图说明
图1为本发明流程示意图;
图2为实施例示意图。
具体实施方式
参阅附图1,本发明按下述步骤进行该图文的智能排版:
步骤一:输入1张大小为n*m的背景图像I和待排版文本T;
步骤二:通过训练的卷积神经网络提取显著性特征,并输出显著度图S(I);
步骤三:根据扩散方程迭代求得文本位置概率图G(I);
步骤四:利用文本位置概率图G(I)计算出一系列文本候选框;
步骤五:通过美学评分网络对文本候选框进行评分,输出最优的图文排版结果。
以下以某一城市建筑岸边的智能图文排版为例对本发明作进一步的详细说明。
实施例1
参阅附图2,本发明按下述步骤进行智能图文排版的:
a步骤:首先输入1张大小为n*m的背景图像I和待排版文本T,共有p行文本,每行文本长度分别为q1,q2,...,qp,最大文本长度qmax=max{q1,q2,...,qp},1≤p≤5,1≤qmax≤25。
b步骤:在显著性检测数据集上训练一个全卷积神经网络模型,该全卷积神经网络为FCN神经网络模型,所述FCN神经网络包括16层卷积层和一个归一化指数模型即softmax模型的输出层,线性整流函数即ReLU函数作为激活函数。
c步骤:将此FCN神经网络模型应用到所输入的图像I,从中检索到显著性特征后从FCN神经网络中的softmax层输出显著度值;输出的显著度图表示为S(I),即为一个表示每个像素点的显著度值的矩阵。
d步骤:根据显著度图S(I)计算出文本位置概率图G(I),其中,文本概率图G(I)可按照下述(1)式表示的扩散方程迭代求得:
Figure BDA0002394664520000051
其中:λ为指定的系数;
Figure BDA0002394664520000052
表示X方向上的梯度;
Figure BDA0002394664520000053
表示Y方向上的梯度;cX为X方向上的扩散系数;cY为Y方向上的扩散系数;G(I)的初始值与c步骤中计算得到的S(I)相等。
e步骤:定义文本位置概率图G(I)中的一个连通区域为{gx,gy},其中,
Figure BDA0002394664520000054
所述i表示图像I的第i行,x(i)表示第i行中的某个像素的横坐标值,n表示图像I纵向每列像素数,G(x(i),i)表示坐标为(x(i),i)的像素对应的文本概率值;
Figure BDA0002394664520000055
Figure BDA0002394664520000056
所述j表示图像I的第j列,y(j)表示第j列中的某个像素的纵坐标值,m表示图像I横向每行像素数,G(j,y(j))表示坐标为(j,y(j))的像素对应的文本位置概率值;计算出文本位置概率图G(I)中所有连通区域;
f步骤:设定大小为Tx*Ty文本框,纵横比RatioT=Ty/Tx,使用大小为Tx*Ty的滑动窗口遍历文本位置概率图G(I)中所有连通区域,滑动窗口在每个连通区域取得最大值的位置,设其左上角坐标为(x1,y1),右下角坐标为(x2,y2),则新生成的一系列文本框的左上角坐标(xnew1,ynew1)可表示为下述(2)式:
Figure BDA0002394664520000061
其中:Δx=δ|x2-x1|,Δy=RatioTΔx;Δx表示文本框在x方向上偏移的距离;Δy表示文本框在y方向上偏移的距离;δ为指定的系数,
Figure BDA0002394664520000062
g步骤:在美学评估数据集上训练一个卷积神经网络模型,该卷积神经网络为ResNet神经网络模型,所述ResNet神经网络包括18层卷积层和一个归一化指数模型即softmax模型的输出层,线性整流函数即ReLU函数作为激活函数。
h步骤:将此ResNet神经网络模型应用到生成的一系列文本框,对文本框进行美学评估后从ResNet神经网络中的softmax层输出美学分数。
i步骤:找出美学分数最高的文本框位置,最后输出最终的图文排版结果。
本发明训练了一个卷积神经网络,将此神经网络应用到所输入的背景图像I和待排版文本T,计算出图像的显著图,并根据扩散方程迭代求得文本位置概率图;然后利用文本位置概率图计算出一系列文本候选框;最后通过美学评分网络对这些候选框进行评分,找出最优文本框位置,即可得到最终图文排版结果,通过这些方法的应用能够在多种实际应用场景中生成和谐的图文排版结果。
以上只是对本发明作进一步的说明,并非用以限制本专利,在不背离本发明构思的精神和范围下的等效实施,均应包含于本专利的权利要求范围之内。

Claims (2)

1.一种基于显著性检测的智能图文排版方法,其特征在于该图文的智能排版具体包括以下步骤:
a步骤:输入一张大小为n*m的背景图像I和待排版文本T,所述图像I为n*m的像素值矩阵,其中,n为图像I纵向每列像素数,m为图像I横向每行像素数;所述文本T共有p行,每行文本长度分别为q1,q2,...,qp,最大文本长度qmax=max{q1,q2,...,qp},1≤p≤5,1≤qmax≤25;
b步骤:在显著性检测数据集上训练一个FCN神经网络模型;所述FCN神经网络包括16层卷积层、softmax模型的输出层(归一化指数模型)和线性整流函数(ReLU函数作为激活函数);
c步骤:将b步骤中的FCN神经网络模型应用到a步骤所输入的图像I,从中检索到显著性特征后从FCN神经网络中的softmax层输出一个表示每个像素点的显著度值的矩阵S(I);
d步骤:根据矩阵S(I)按下述(1)式的扩散方程迭代计算出文本位置概率图G(I):
Figure FDA0002394664510000011
其中:λ为指定的系数,其默认值为0.5;
Figure FDA0002394664510000012
表示X方向上的梯度;
Figure FDA0002394664510000013
表示Y方向上的梯度;cX为X方向上的扩散系数,其默认值为1;cY为Y方向上的扩散系数,其默认值为1;G(I)的初始值与c步骤中计算得到的S(I)相等;
e步骤:定义文本位置概率图G(I)中的一个连通区域为{gx,gy},计算出文本位置概率图G(I)中所有连通区域,其中:
Figure FDA0002394664510000014
Figure FDA0002394664510000015
Figure FDA0002394664510000016
计算文本位置概率图G(I)中所有连通区域;
式中:i表示图像I的第i行;x(i)表示第i行中的某个像素的横坐标值;n表示图像I纵向每列像素数;G(x(i),i)表示坐标为(x(i),i)的像素对应的文本概率值;j表示图像I的第j列;y(j)表示第j列中的某个像素的纵坐标值;m表示图像I横向每行像素数;G(j,y(j))表示坐标为(j,y(j))的像素对应的文本位置概率值;
f步骤:设定大小为Tx*Ty文本框,纵横比RatioT=Ty/Tx,使用大小为Tx*Ty的滑动窗口遍历e步骤中的所有连通区域,滑动窗口在每个连通区域取得最大值的位置,设其左上角坐标为(x1,y1),右下角坐标为(x2,y2),生成下述(2)式表示的一系列文本框的左上角坐标(xnew1,ynew1):
Figure FDA0002394664510000021
其中:Δx=δ|x2-x1|,Δy=RatioTΔx;Δx表示文本框在x方向上偏移的距离;
Δy表示文本框在y方向上偏移的距离;δ为指定的系数,
Figure FDA0002394664510000022
g步骤:在美学评估数据集上训练一个ResNet神经网络模型,所述ResNet神经网络包括18层卷积层、softmax模型的输出层和线性整流函数(ReLU函数作为激活函数);
h步骤:利用文本位置概率图G(I)计算得到一系列文本候选框,并通过美学评分网络对每一文本候选框进行美学评分,其得分由softmax模型的输出层输出;
i步骤:找出美学分数最高的文本框位置为最终的图文排版结果。
2.根据权利要求1所述基于显著性检测的智能图文排版方法,其特征在于所述b步骤中FCN全卷积神经网络模型包括多组用于提取图像显著性特征的卷积层,其具体训练包括下述步骤:
b-1步骤:每个卷积核都使用3×3的大小,然后为批量归一化和ReLU激活函数,在每3次卷积之后将特征图下采样2倍,进行最大化池化处理;
b-2步骤:使用转置卷积将在不同比例学习的特征图上采样到原始分辨率,然后将所有多尺度的特征图按照权重进行相加连接,最后三个内核大小为1×1的卷积层以及softmax函数,用于预测显著图,经3次卷积后利用softmax函数得到所有像素点的预测结果。
CN202010126919.0A 2020-02-28 2020-02-28 一种基于显著性检测的智能图文排版方法 Pending CN111428447A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010126919.0A CN111428447A (zh) 2020-02-28 2020-02-28 一种基于显著性检测的智能图文排版方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010126919.0A CN111428447A (zh) 2020-02-28 2020-02-28 一种基于显著性检测的智能图文排版方法

Publications (1)

Publication Number Publication Date
CN111428447A true CN111428447A (zh) 2020-07-17

Family

ID=71547331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010126919.0A Pending CN111428447A (zh) 2020-02-28 2020-02-28 一种基于显著性检测的智能图文排版方法

Country Status (1)

Country Link
CN (1) CN111428447A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963081A (zh) * 2021-10-11 2022-01-21 华东师范大学 一种基于图卷积网络的图像图表智能合成方法
CN117669493A (zh) * 2023-12-08 2024-03-08 安徽省医学情报研究所 基于显著性检测的智能图文排版方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060109510A1 (en) * 2004-11-23 2006-05-25 Simon Widdowson Methods and systems for determining object layouts
US20140245115A1 (en) * 2013-02-22 2014-08-28 Google Inc. Systems and methods for automated content generation
US20160275067A1 (en) * 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Domain-based generation of communications media content layout

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060109510A1 (en) * 2004-11-23 2006-05-25 Simon Widdowson Methods and systems for determining object layouts
US20140245115A1 (en) * 2013-02-22 2014-08-28 Google Inc. Systems and methods for automated content generation
US20160275067A1 (en) * 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Domain-based generation of communications media content layout

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963081A (zh) * 2021-10-11 2022-01-21 华东师范大学 一种基于图卷积网络的图像图表智能合成方法
CN113963081B (zh) * 2021-10-11 2024-05-17 华东师范大学 一种基于图卷积网络的图像图表智能合成方法
CN117669493A (zh) * 2023-12-08 2024-03-08 安徽省医学情报研究所 基于显著性检测的智能图文排版方法及系统
CN117669493B (zh) * 2023-12-08 2024-10-11 安徽省医学情报研究所 基于显著性检测的智能图文排版方法及系统

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN108629338B (zh) 一种基于lbp和卷积神经网络的人脸美丽预测方法
CN111340738B (zh) 一种基于多尺度渐进融合的图像去雨方法
CN111259940B (zh) 一种基于空间注意力地图的目标检测方法
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN109919013A (zh) 视频图像中基于深度学习的人脸检测方法及装置
CN107437100A (zh) 一种基于跨模态关联学习的图像位置预测方法
CN111753828A (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN113010656B (zh) 一种基于多模态融合和结构性控制的视觉问答方法
CN112580507B (zh) 一种基于图像矩矫正的深度学习文本字符检测方法
CN115601772B (zh) 一种基于多模态学习的美学质量评价模型和方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN111563563B (zh) 一种手写体识别的联合数据的增强方法
CN110674777A (zh) 一种专利文本场景下的光学字符识别方法
CN113111906B (zh) 一种基于单对图像训练的条件生成对抗网络模型的方法
CN114510594A (zh) 一种基于自注意力机制的传统纹样子图检索方法
CN112926696A (zh) 一种基于注意力图的可解释局部迁移互学习方法
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN111428447A (zh) 一种基于显著性检测的智能图文排版方法
CN112069961B (zh) 一种基于度量学习的少样本文档版面分析方法
CN111553351A (zh) 一种基于语义分割的场景任意形状的文本检测方法
CN113486645A (zh) 一种基于深度学习的文本相似度检测方法
CN113392244A (zh) 一种基于深度度量学习的三维模型检索方法及系统
CN117152427A (zh) 基于扩散模型和知识蒸馏的遥感图像语义分割方法与系统
CN112801092B (zh) 一种自然场景图像中字符元素检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200717

WD01 Invention patent application deemed withdrawn after publication