CN105654534A

CN105654534A - 一种学术海报自动排版生成方法

Info

Publication number: CN105654534A
Application number: CN201511016330.0A
Authority: CN
Inventors: 郭延文; 强玉庭; 付彦伟
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-06-08
Anticipated expiration: 2035-12-29
Also published as: CN105654534B

Abstract

本发明公开了一种学术海报自动排版生成方法，包括以下步骤：1)学术论文摘要，根据学术论文的不同章节对学术论文进行划分，进而对划分出的不同部分进行摘要；2)面板特征推断，根据每个章节的文字、图片等信息，利用概率图模型学习出学术海报中每个面板的特征，包括大小、形状；3)整体排版，根据机器学习得到的面板特征，自动设计出最适合的面板排版方案；4)局部排版，根据每个面板所应包含的文字和图片，推断每个图片在相应面板中的大小和位置信息；5)生成学术海报，根据前面步骤学习推断得到的信息，先生成latex文件，然后通过WinEdt工具编译生成PDF文件。

Description

一种学术海报自动排版生成方法

技术领域

本发明属于计算机视觉，人工智能，自动化等领域，涉及一种学术海报自动排版生成方法，更具体的是，涉及一种根据学术论文自动生成学术海报的自动化方法。

背景技术

随着科研工作的不断发展，越来越多的学术会议开展起来，越来越多的学术论文被发表。例如，仅IEEE国际计算机视觉与模式识别会议(2016)就接收了超过600篇文章。对于相关领域的研究者而言，阅读并理解这些文章本身是十分耗费时间和精力的，但学术海报往往简洁明了，逻辑清晰，整洁美观，使读者能够迅速的了解到关键信息，因此，如果文章作者能够提供对应的学术海报，那么无疑是有助于相关研究者阅读和理解文章内容的，这也是很多学术会议要求作者提供学术海报的原因。

在学术海报的多种优点的基础下，其发展趋势不言而喻，然而，对于科研工作者而言，制作美观实用的学术海报的过程不仅会消耗大量的人力成本和时间成本，并且还要求他们熟悉掌握相关的制作工具，如PowerPoint。虽然偶尔也能在互联网上找到他人提供的模板，但这些模板并非能够适应所有的学术论文。

基于以上这些原因，根据学术论文自动生成学术海报无疑会为科研工作者带来极大的帮助，这一领域的发明也无疑有广大的前景。

然而，就现阶段而言，根据学术论文自动生成学术海报的方法几乎没有。现有的相关发明如电子书的排版也大多是针对固定的内容去适应不同的电子屏幕，并不能直接用于学术海报的自动生成。因此设计一种自动化方法完成学术论文向学术海报的转化有着深刻的意义。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术领域的空白，提供一种根据学术论文自动生成学术海报的方法，从而将已有的学术论文转化为学术海报。

技术方案：本发明公开了一种学术海报自动排版生成方法，其核心在于通过已有数据学习学术海报中一些关键要素的计算，并提出了一种算法自动的进行排版，其特征在于，包括以下步骤：

步骤1，学术论文摘要：读取学术论文的内容，根据学术论文的章节，将学术论文划分为对应的部分，采用自动摘要算法TextRank(参考文章TextRank:BringingOrderintoTexts)对学术论文划分后的每个部分自动摘要出文本内容；

步骤2，面板特征推断：通过机器学习得出学术论文的每个部分对应的面板信息；

步骤3，整体排版：根据机器学习得到的面板信息自动设计出最优的面板排版方案；

步骤4，局部排版：根据每个章节的摘要出的文本内容，学习推断出面板内部每个步骤1中包含的图片在面板内部的位置和大小；

步骤5，生成学术海报：根据已经推断出的信息利用latex模板自动生成一个latex文件，然后编译生成学术海报的PDF文件。

步骤1中，学术论文自动摘要是对学术论文进行划分，然后针对不同的部分进行摘要，包括以下步骤：

步骤1-1，根据学术论文中的k个章节，将学术论文划分为对应的k个部分c1,c2,...,ck，分别对应学术论文的第1章，第2章，…，第k章；

步骤1-2，采用自动摘要算法TextRank对学术论文划分后的每个部分按照一定的比例进行摘要，记摘要比率为ω，一般取值1％～20％，在实践中，本发明设置的优选摘要比率为5％，用户可以自行从论文中选择图片作为摘要部分内容，每个部分c_i的摘要就是其所包含文字和图片摘要总和，i取值为1,2,...,k。

步骤2中，面板特征推断是针对划分好的每个部分利用概率图模型推断出学术海报中对应面板的大小和长宽比，包括以下步骤：

步骤2-1，统计学术论文的每个部分中文字占学术论文全部摘要的文字的比例t，和学术论文的每个部分中图片占学术论文全部摘要的图片的比例q；

步骤2-2，在给定文字比例t和图片比例q时，采用如下公式计算学术论文的每个部分对应的面板大小s的条件概率p(s|t,q)和长宽比r的条件概率p(r|t,q)：

p(s|t,q)＝N(s；w_s*[t,q,1]^T,σ_s ²)，

p(r|t,q)＝N(r；w_r*[t,q,1]^T,σ_r ²)，

其中N表示高斯分布，即：

p (s | t, q) = \frac{1}{2 {πσ}_{s}} e^{- \frac{{(s - w_{s} * {[t, q, 1]}^{T})}^{2}}{2 {σ_{s}}^{2}}},

p (r | t, q) = \frac{1}{2 {πσ}_{r}} e^{- \frac{{(r - w_{r} * {[t, q, 1]}^{T})}^{2}}{2 {σ_{r}}^{2}}},

其中w_s，σ_s，w_r和σ_r表示待求解的参数，求解得到的w_s和w_r为三维的行向量，即w_s＝[w_s1,w_s2,w_s3]，w_r＝[w_r1,w_r2,w_r3]，e表示自然常数；

步骤2-3，根据训练集，利用最大似然估计方法(参考文章：T.Minka.Bayesianlinearregression.Technicalreport,MIT,2000)求解出参数w_s，、σ_s、w_r和σ_r分别取何值时使得如下概率函数p(s,r|t,q)最大：

p(s,r|t,q)＝p(s|t,q)p(r|t,q)；

这里的训练集，通过收集的20对学术论文海报，整理并标注而得。

步骤2-4，根据步骤2-3中求出的参数：w_s、σ_s、w_r和σ_r，将学术论文的每个部分对应的文字比例t和图片比例q代入到步骤中2-3所述的公式中，求出学术论文的每个部分对应的面板大小s和面板长宽比r，正态分布时，s＝w_r*[t,q,1]^T，r＝w_r*[t,q,1]^T时概率最大。

步骤3中，整体排版是针对已经估计出的每个面板的大小和长宽比，将论文对应的不同面板拍列在海报页面上，排版方案的设计以一种递归的方法处理，包括以下步骤：

步骤3-1，学术论文的每个部分c₁，c₂，...，c_k对应一个面板，k个面板记为面板集合：{(s₁,r₁),(s₂,r₂),...,(s_k,r_k)}，s_k表示由步骤2估计出的第k个面板的大小，r_k表示第k个面板的长宽比，学术海报页面宽记为w，高度记为h，则整体排版问题转化为两个子问题：

第一个子问题为将面板集合前i个面板，即{(s₁,r₁),(s₂,r₂),...,(s_i,r_i)}排版在宽为w*ρ，高为h，或宽为w高为h*ρ的页面上；

第二个子问题为将面板后k-i个面板，即{(s_i+1,r_i+1),(s_i+2,r_i+2),...,(s_k,r_k)}排版在宽为w*(1-ρ)高为h，或宽为w*ρ，高为h的页面上；

其中ρ表示前i个面板应当占据的比例，i取值为1,2,...,k；

步骤3-2，步骤3-1中分解后的两个子问题与原问题形式相同只是在问题规模上变小了，于是对每个子问题使用递归的方式求解。具体而言，就是对于要k个面板排版的问题，可以分解为前i个面板的排版和后k-i个面板的排版两个规模更小的子问题，每个子问题又可进一步划分为规模更小的子问题，这样重复下去，直到需要处理的是1个面板排版的问题；

步骤3-3，当递归到面板集合中只有1个面板时，直接将该面板铺满在规定了长和宽的页面上(具体实现时留出5mm的空白边界)；

步骤3-4，根据步骤3-1中i的不同取值，步骤3-1至步骤3-3得到两个以上的面板排版方案，在这些排版方案中选择损失函数最小的解，其中损失函数L定义如下：

L = Σ_{i = 1}^{k} | r_{i} - {r_{i}}^{'} |,

其中r_i′为经过整体排版后第i个面板的长宽比。

步骤4包括以下步骤：

步骤4-1，对于面板p，根据步骤1中提取内容得到每个面板内的文字量l_p，根据步骤2能够估计出面板大小s_p，面板的长宽比r_p，在面板内部，对于图片g，本身的信息包括图片的大小s_g和图片的长宽比r_g；需要预测的信息为图片的缩放比μ_g以及图片在面板内的位置h_g，其中图片在面板内的位置h_g的取值范围为1,2,3，分别表示图片靠左放置，居中放置，靠右放置；

步骤4-2，在给定步骤4-1所述的每个面板内的文字量l_p，面板大小s_p，面板的长宽比r_p，面板内图片的大小s_g和图片的长宽比r_g的情况下，通过下式计算图片的缩放比μ_g的条件概率p(μ_g|l_p,s_p,s_g)：

p (μ_{g} | l_{p}, s_{p}, s_{g}) = \frac{1}{2 {πσ}_{μ}} e^{- \frac{{(μ_{g} - w_{μ} * {[l_{p}, s_{p}, s_{g}, 1]}^{T})}^{2}}{2 {σ_{μ}}^{2}}},

由于图片在面板内的位置h_g是离散变量，其概率分布p(h_g|r_p,s_g,r_g)定义为softmax函数，即软性最大函数，函数定义如下所示：

p (h_{g} | r_{p}, s_{g}, r_{g}) = \frac{e^{w_{h i} * {[r_{p}, s_{g}, r_{g}, 1]}^{T}}}{Σ_{j = 1}^{H} e^{w_{h j} * {[r_{p}, s_{g}, r_{g}, 1]}^{T}}},

其中w_μ，、σ_μ和w_h表示待求解的参数(w_μ对应μ_g，w_h对应h_g，w_hi和w_hj中的下标i表示的是行号)，w_hi表示参数w_h的第i行，w_hj表示参数w_h的第j行，H表示水平位置的可能取值行数，如步骤4-1所述，图片的水平位置有3种，分别为靠左，居中，靠右，因此H＝3；

步骤4-3，根据训练集，求解出参数w_μ，、σ_μ和w_h分别取何值时使得如下概率函数最大：

p(μ_g,h_g|r_p,s_g,r_g)＝p(μ_g|l_p,s_p,s_g)*p(h_g|r_p,s_g,r_g)；

步骤4-4，根据步骤4-3中求出的参数：w_μ，、σ_μ和w_h，对于每个面板，将该面板对应的面板内的文字量l_p、面板大小s_p、面板的长宽比r_p、面板内图片的大小s_g和图片的长宽比r_g，代入到步骤中4-3所述的公式中，(本文中，s和r分别表示大小size和长宽比ratio，用下标p表示panel，下标g表示graph以区分面板和图片)，采用最大似然估计likelihood-weighted(参考文章：Weighingandintegratingevidenceforstochasticsimulationinbayesiannetworks)采样方法，计算出对应的图片大小和位置，并且在采样求解的过程中去掉会产生相互遮挡的解。

步骤5包括：

根据步骤4预测得到的数据，将latex模板中的面板位置、大小填到相应的位置，然后利用WinEdt工具直接将latex文件编译转换为PDF文件。

排版印刷设备利用本发明编译生成学术海报PDF文件直接进行打印，即可获得学术海报。

有益效果：本发明的显著优点是：

(1)本发明提出的学术海报的自动生成方法在一定程度上弥补了该领域的空白，解决了人工排版效率低下的技术问题；

(2)本发明提出的排版算法具有一般性，对各种不懂海报页面尺寸要求，以及不同的论文结构均适用；

(3)本发明使用的海报特性的学习方法效率高，能够快速的根据已有数据集的到学习结果。

附图说明

图1为本发明方法的基本流程图。

图2为论文摘要示意图。

图3为面板特征学习结果示意图。

图4为整体排版结果示意图。

图5为局部排版结果示意图。

图6为结果示例。

具体实施方式

下面结合附图和具体实施方式对本发明做更进一步的具体说明。

本方法的流程图如图1所示，分为五大过程，首先是对学术论文的不同章节利用TextRank自动摘要出文本内容；然后是学习推断出每个章节对应的面板的大小和长宽比；然后是根据学习得到的面板属性自动适应出最优的面板排版方案；然后是学习推断出每个图片在面板中的位置和大小；最后是生成latex文件，进而转化为PDF文档。

具体的说，如图1所示，本发明公开了一种学术海报自动排版生成方法，主要包括以下几个步骤：

步骤1中，学术论文自动摘要是对学术论文进行划分，然后针对不同的k个部分进行摘要，包括以下步骤：

步骤1-1，根据学术论文中的k个章节，将学术论文划分为对应的部分c₁,c₂,...,c_k，分别对应学术论文的第1章，第2章，…，第k章；

步骤1-2，采用自动摘要算法TextRank对学术论文划分后的每个部分按照一定的比例进行摘要，摘要比率为ω，一般取值1％～20％，在实践中，本发明设置的优选摘要比率为5％，用户可以自行从论文中选择图片作为摘要部分内容，每个部分c_i的摘要就是其所包含文字和图片摘要总和，i取值为1,2,...,k。

本步骤完成结果如图2(由于本发明的特性，附图只能以图片形式表示)所示，其中图片摘要需要用户手动提取；

对于步骤2，面板特征推断的具体实施细节步骤如下：

p(s|t,q)＝N(s；w_s*[t,q,1]^T,σ_s ²)，

p(r|t,q)＝N(r；w_r*[t,q,1]^T,σ_r ²)，

其中N表示高斯分布，即：

p (s | t, q) = \frac{1}{2 {πσ}_{s}} e^{- \frac{{(s - w_{s} * {[t, q, 1]}^{T})}^{2}}{2 {σ_{s}}^{2}}},

p (r | t, q) = \frac{1}{2 {πσ}_{r}} e^{- \frac{{(r - w_{r} * {[t, q, 1]}^{T})}^{2}}{2 {σ_{r}}^{2}}},

其中w_s，、σ_s、w_r和σ_r表示待求解的参数，求解得到的w_s和w_r为三维的行向量，即w_s＝[w_s1,w_s2,w_s3]，w_r＝[w_r1,w_r2,w_r3]，e表示自然常数；

步骤2-3，根据训练集，使用最大似然估计采样方法估计参数w_s，、σ_s、w_r和σ_r分别取何值时使得如下概率函数p(s,r|t,g)最大：

p(s,r|t,q)＝p(s|t,q)p(r|t,q)；

步骤2-4，根据步骤2-3中求出的参数：w_s，、σ_s、w_r和σ_r，将学术论文的每个部分对应的文字比例t和图片比例q代入到步骤中2-3所述的公式中，采用最大似然估计likelihood-weighted采样方法，求出学术论文的每个部分对应的面板信息，包括面板大小s和面板长宽比r，正态分布时，s＝w_r*[t,q,1]^T，r＝w_r*[t,q,1]^T时概率最大。

本步骤完成后，中间结果如图3所示。

对于步骤3，在这一步骤以递归的进行行切割和列切割的方式在表达整个页面的整体布局，整体布局的具体实施细节以下步骤：

其中ρ表示前i个面板应当占据的比例，i取值为1,2,...,k；

步骤3-2，步骤3-1中分解后的两个子问题与原问题形式相同只是在问题规模上变小了，于是可以对每个子问题使用递归的方式求解。具体而言，就是对于要k个面板排版的问题，可以分解为前i个面板的排版和后k-i个面板的排版两个规模更小的子问题，每个子问题又可进一步划分为规模更小的子问题，这样重复下去，直到需要处理的是1个面板排版的问题；

L = Σ_{i = 1}^{k} | r_{i} - {r_{i}}^{'} |,

其中r_i′为经过整体排版后第i个面板的长宽比。

本步骤完成后，中间结果如图4所示。

对于步骤4，局部排版的具体实施细节步骤如下：

p (μ_{g} | l_{p}, s_{p}, s_{g}) = \frac{1}{2 {πσ}_{μ}} e^{- \frac{{(μ_{g} - w_{μ} * {[l_{p}, s_{p}, s_{g}, 1]}^{T})}^{2}}{2 {σ_{μ}}^{2}}},

由于图片在面板内的位置h_g是离散变量，其概率分布p(h_g|r_p,s_g,r_g)定义为softmax函数，即软性最大函数，具体定义如下：

p (h_{g} | r_{p}, s_{g}, r_{g}) = \frac{e^{w_{h i} * {[r_{p}, s_{g}, r_{g}, 1]}^{T}}}{Σ_{j = 1}^{H} e^{w_{h j} * {[r_{p}, s_{g}, r_{g}, 1]}^{T}}},

其中w_μ，、σ_μ和w_h表示待求解的参数，w_hi表示参数w_h的第i行，w_hj表示参数w_h的第j行，H表示水平位置的可能取值数，如步骤4-1所述，图片的水平位置有3种，分别为靠左，居中，靠右，故H＝3；

p(μ_g,h_g|r_p,s_g,r_g)＝p(μ_g|l_p,s_p,s_g)*p(h_g|r_p,s_g,r_g)；

本步骤实施完成后，中间结果如图5所示。

对于步骤5，海报生成的具体实施细节步骤如下：

实施例

本实施例的实验硬件环境是：Intel(R)Xero(R)CPUE5-26202.0GHz，144G内存，软件环境是MicrosoftVisualStudio2010、MicrosoftWindows7Professional和Matlab2012a。测试样例来自网络上公开的论文。

步骤1，学术论文摘要：读取学术论文的内容，采用TextRank(参考文章TextRank:BringingOrderintoTexts)对学术论文的每个章节自动摘要出文本内容；

步骤2，面板特征推断：通过机器学习得出学术论文的每个章节对应的面板信息；

步骤4，局部排版：根据每个章节的摘要，学习预测出面板内部每个图片在面板中的位置和大小；

步骤5，生成学术海报：采用latex模板自动生成一个latex文件，然后编译生成学术海报PDF文件。

对于输入样例，摘要提取比例设置在5％左右，边缘空白设置为5mm，生成结果如图6所示。

本发明提供了一种学术海报自动排版生成方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种学术海报自动排版生成方法，其特征在于，包括以下步骤：

步骤1，学术论文摘要：读取学术论文的内容，根据学术论文的章节，将学术论文划分为对应的部分，采用自动摘要算法TextRank对学术论文划分后的每个部分自动摘要出文本内容；

步骤4，局部排版：根据每个章节的摘要出的文本内容，学习推断出面板内部每个图片在面板内部的位置和大小；

2.如权利要求1所述的一种学术海报自动排版生成方法，其特征在于，步骤1包括以下步骤：

步骤1-1，根据学术论文中的k个章节，将学术论文划分为对应的k个部分c₁，c₂，…，c_k，分别对应学术论文的第1章，第2章，…，第k章；

步骤1-2，采用自动摘要算法TextRank对学术论文划分后的每个部分按照一定的比例进行摘要，每个部分c_i的摘要为其所包含文字和图片摘要总和，i取值为1,2,…,k。

3.如权利要求2所述的一种学术海报自动排版生成方法，其特征在于，步骤2，包括以下步骤：

步骤2-1，统计学术论文的每个部分文字占学术论文全部摘要的文字的比例t，和学术论文的每个部分图片占学术论文全部摘要的图片的比例q；

p(s|t,q)＝N(s；w_s*[t,q,1]^T,σ_s ²)，

p(r|t,q)＝N(r；w_r*[t,q,1]^T,σ_r ²)，

其中N表示高斯分布，即：

p (s | t, q) = \frac{1}{2 {πσ}_{s}} e^{- \frac{{(s - w_{s} * {[t, q, 1]}^{T})}^{2}}{2 {σ_{s}}^{2}}},

p (r | t, q) = \frac{1}{2 {πσ}_{r}} e^{- \frac{{(r - w_{r} * {[t, q, 1]}^{T})}^{2}}{2 {σ_{r}}^{2}}},

其中w_s，σ_s，w_r和σ_r表示待求解的参数，求解得到的w_s和w_r为三维的行向量，e表示自然常数；

步骤2-3，根据训练集，利用最大似然估计求解出参数w_s、σ_s、w_r和σ_r分别取何值时使得如下概率函数p(s,r|t,q)最大：

p(s,r|t,q)＝p(s|t,q)p(r|t,q)；

4.如权利要求3所述的一种学术海报自动排版生成方法，其特征在于，步骤3包括以下步骤：

步骤3-1，学术论文的每个部分c₁，c₂，…，c_k对应一个面板，k个面板记为面板集合：{(s₁,r₁),(s₂,r₂),…,(s_k,r_k)}，s_k表示由步骤2估计出的第k个面板的大小，r_k表示第k个面板的长宽比，学术海报页面宽记为w，高度记为h，则整体排版问题转化为两个子问题：

第一个子问题为将面板集合前i个面板，即{(s₁,r₁),(s₂,r₂),…,(s_i,r_i)}排版在宽为w*ρ，高为h，或宽为w高为h*ρ的页面上；

第二个子问题为将面板后k-i个面板，即{(s_i+1,r_i+1),(s_i+2,r_i+2),…,(s_k,r_k)}排版在宽为w*(1-ρ)高为h，或宽为w*ρ，高为h的页面上；

其中ρ表示前i个面板应当占据的比例，i取值为1,2,…,k；

步骤3-2，对每个子问题使用递归的方式求解；

步骤3-3，当递归到面板集合中只有1个面板时，直接将该面板铺满在规定了长和宽的页面上；

L = Σ_{i = 1}^{k} | r_{i} - {r_{i}}^{'} |,

其中r_i′为经过整体排版后第i个面板的长宽比。

5.如权利要求4所述的一种学术海报自动排版生成方法，其特征在于，步骤4包括以下步骤：

p (μ_{g} | l_{p}, s_{p}, s_{g}) = \frac{1}{2 {πσ}_{μ}} e - \frac{{(μ_{g} - w_{μ} * {[l_{p}, s_{p}, s_{g}, 1]}^{T})}^{2}}{2 {σ_{μ}}^{2}},

由于图片在面板内的位置h_g是离散变量，其概率分布p(h_g|r_p,s_g,r_g)定义为softmax函数：

p (h_{g} | r_{p}, s_{g}, r_{g}) = \frac{e^{w_{h i *} {[r_{p}, s_{g}, r_{g}, 1]}^{T}}}{Σ_{j = 1}^{H} e^{w_{h j *} {[r_{p}, s_{g}, r_{g}, 1]}^{T}}},

其中w_μ、μ_g和w_h表示待求解的参数，w_hi表示参数w_h的第i行，w_hj表示参数w_h的第j行，H表示水平位置的可能取值行数，H＝3；

步骤4-3，根据训练集，求解出参数w_μ、σ_u和w_h分别取何值时使得如下概率函数最大：

p(μ_g,h_g|r_p,s_g,r_g)＝p(μ_g|l_p,s_p,s_g)*p(h_g|r_p,s_g,r_g)；

步骤4-4，根据步骤4-3中求出的参数：w_μ、σ_u和w_h，对于每个面板，将该面板对应的面板内的文字量l_p、面板大小s_p、面板的长宽比r_p、面板内图片的大小s_g和图片的长宽比r_g，代入到步骤中4-3所述的公式中，采用最大似然估计采样方法，计算出对应的图片大小和位置，并且在采样求解的过程中去掉产生相互遮挡的解。

6.如权利要求5所述的一种学术海报自动排版生成方法，其特征在于，步骤5包括：

根据步骤4预测得到的数据，将latex模板中的面板位置、大小等信息填到相应的位置，然后利用WinEdt工具直接将latex文件编译转换为PDF文件。