CN105654534A - 一种学术海报自动排版生成方法 - Google Patents

一种学术海报自动排版生成方法 Download PDF

Info

Publication number
CN105654534A
CN105654534A CN201511016330.0A CN201511016330A CN105654534A CN 105654534 A CN105654534 A CN 105654534A CN 201511016330 A CN201511016330 A CN 201511016330A CN 105654534 A CN105654534 A CN 105654534A
Authority
CN
China
Prior art keywords
panel
academic
picture
typesetting
academic paper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511016330.0A
Other languages
English (en)
Other versions
CN105654534B (zh
Inventor
郭延文
强玉庭
付彦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201511016330.0A priority Critical patent/CN105654534B/zh
Publication of CN105654534A publication Critical patent/CN105654534A/zh
Application granted granted Critical
Publication of CN105654534B publication Critical patent/CN105654534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种学术海报自动排版生成方法,包括以下步骤:1)学术论文摘要,根据学术论文的不同章节对学术论文进行划分,进而对划分出的不同部分进行摘要;2)面板特征推断,根据每个章节的文字、图片等信息,利用概率图模型学习出学术海报中每个面板的特征,包括大小、形状;3)整体排版,根据机器学习得到的面板特征,自动设计出最适合的面板排版方案;4)局部排版,根据每个面板所应包含的文字和图片,推断每个图片在相应面板中的大小和位置信息;5)生成学术海报,根据前面步骤学习推断得到的信息,先生成latex文件,然后通过WinEdt工具编译生成PDF文件。

Description

一种学术海报自动排版生成方法
技术领域
本发明属于计算机视觉,人工智能,自动化等领域,涉及一种学术海报自动排版生成方法,更具体的是,涉及一种根据学术论文自动生成学术海报的自动化方法。
背景技术
随着科研工作的不断发展,越来越多的学术会议开展起来,越来越多的学术论文被发表。例如,仅IEEE国际计算机视觉与模式识别会议(2016)就接收了超过600篇文章。对于相关领域的研究者而言,阅读并理解这些文章本身是十分耗费时间和精力的,但学术海报往往简洁明了,逻辑清晰,整洁美观,使读者能够迅速的了解到关键信息,因此,如果文章作者能够提供对应的学术海报,那么无疑是有助于相关研究者阅读和理解文章内容的,这也是很多学术会议要求作者提供学术海报的原因。
在学术海报的多种优点的基础下,其发展趋势不言而喻,然而,对于科研工作者而言,制作美观实用的学术海报的过程不仅会消耗大量的人力成本和时间成本,并且还要求他们熟悉掌握相关的制作工具,如PowerPoint。虽然偶尔也能在互联网上找到他人提供的模板,但这些模板并非能够适应所有的学术论文。
基于以上这些原因,根据学术论文自动生成学术海报无疑会为科研工作者带来极大的帮助,这一领域的发明也无疑有广大的前景。
然而,就现阶段而言,根据学术论文自动生成学术海报的方法几乎没有。现有的相关发明如电子书的排版也大多是针对固定的内容去适应不同的电子屏幕,并不能直接用于学术海报的自动生成。因此设计一种自动化方法完成学术论文向学术海报的转化有着深刻的意义。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术领域的空白,提供一种根据学术论文自动生成学术海报的方法,从而将已有的学术论文转化为学术海报。
技术方案:本发明公开了一种学术海报自动排版生成方法,其核心在于通过已有数据学习学术海报中一些关键要素的计算,并提出了一种算法自动的进行排版,其特征在于,包括以下步骤:
步骤1,学术论文摘要:读取学术论文的内容,根据学术论文的章节,将学术论文划分为对应的部分,采用自动摘要算法TextRank(参考文章TextRank:BringingOrderintoTexts)对学术论文划分后的每个部分自动摘要出文本内容;
步骤2,面板特征推断:通过机器学习得出学术论文的每个部分对应的面板信息;
步骤3,整体排版:根据机器学习得到的面板信息自动设计出最优的面板排版方案;
步骤4,局部排版:根据每个章节的摘要出的文本内容,学习推断出面板内部每个步骤1中包含的图片在面板内部的位置和大小;
步骤5,生成学术海报:根据已经推断出的信息利用latex模板自动生成一个latex文件,然后编译生成学术海报的PDF文件。
步骤1中,学术论文自动摘要是对学术论文进行划分,然后针对不同的部分进行摘要,包括以下步骤:
步骤1-1,根据学术论文中的k个章节,将学术论文划分为对应的k个部分c1,c2,...,ck,分别对应学术论文的第1章,第2章,…,第k章;
步骤1-2,采用自动摘要算法TextRank对学术论文划分后的每个部分按照一定的比例进行摘要,记摘要比率为ω,一般取值1%~20%,在实践中,本发明设置的优选摘要比率为5%,用户可以自行从论文中选择图片作为摘要部分内容,每个部分ci的摘要就是其所包含文字和图片摘要总和,i取值为1,2,...,k。
步骤2中,面板特征推断是针对划分好的每个部分利用概率图模型推断出学术海报中对应面板的大小和长宽比,包括以下步骤:
步骤2-1,统计学术论文的每个部分中文字占学术论文全部摘要的文字的比例t,和学术论文的每个部分中图片占学术论文全部摘要的图片的比例q;
步骤2-2,在给定文字比例t和图片比例q时,采用如下公式计算学术论文的每个部分对应的面板大小s的条件概率p(s|t,q)和长宽比r的条件概率p(r|t,q):
p(s|t,q)=N(s;ws*[t,q,1]Ts 2),
p(r|t,q)=N(r;wr*[t,q,1]Tr 2),
其中N表示高斯分布,即:
p ( s | t , q ) = 1 2 πσ s e - ( s - w s * [ t , q , 1 ] T ) 2 2 σ s 2 ,
p ( r | t , q ) = 1 2 πσ r e - ( r - w r * [ t , q , 1 ] T ) 2 2 σ r 2 ,
其中ws,σs,wr和σr表示待求解的参数,求解得到的ws和wr为三维的行向量,即ws=[ws1,ws2,ws3],wr=[wr1,wr2,wr3],e表示自然常数;
步骤2-3,根据训练集,利用最大似然估计方法(参考文章:T.Minka.Bayesianlinearregression.Technicalreport,MIT,2000)求解出参数ws,、σs、wr和σr分别取何值时使得如下概率函数p(s,r|t,q)最大:
p(s,r|t,q)=p(s|t,q)p(r|t,q);
这里的训练集,通过收集的20对学术论文海报,整理并标注而得。
步骤2-4,根据步骤2-3中求出的参数:ws、σs、wr和σr,将学术论文的每个部分对应的文字比例t和图片比例q代入到步骤中2-3所述的公式中,求出学术论文的每个部分对应的面板大小s和面板长宽比r,正态分布时,s=wr*[t,q,1]T,r=wr*[t,q,1]T时概率最大。
步骤3中,整体排版是针对已经估计出的每个面板的大小和长宽比,将论文对应的不同面板拍列在海报页面上,排版方案的设计以一种递归的方法处理,包括以下步骤:
步骤3-1,学术论文的每个部分c1,c2,...,ck对应一个面板,k个面板记为面板集合:{(s1,r1),(s2,r2),...,(sk,rk)},sk表示由步骤2估计出的第k个面板的大小,rk表示第k个面板的长宽比,学术海报页面宽记为w,高度记为h,则整体排版问题转化为两个子问题:
第一个子问题为将面板集合前i个面板,即{(s1,r1),(s2,r2),...,(si,ri)}排版在宽为w*ρ,高为h,或宽为w高为h*ρ的页面上;
第二个子问题为将面板后k-i个面板,即{(si+1,ri+1),(si+2,ri+2),...,(sk,rk)}排版在宽为w*(1-ρ)高为h,或宽为w*ρ,高为h的页面上;
其中ρ表示前i个面板应当占据的比例,i取值为1,2,...,k;
步骤3-2,步骤3-1中分解后的两个子问题与原问题形式相同只是在问题规模上变小了,于是对每个子问题使用递归的方式求解。具体而言,就是对于要k个面板排版的问题,可以分解为前i个面板的排版和后k-i个面板的排版两个规模更小的子问题,每个子问题又可进一步划分为规模更小的子问题,这样重复下去,直到需要处理的是1个面板排版的问题;
步骤3-3,当递归到面板集合中只有1个面板时,直接将该面板铺满在规定了长和宽的页面上(具体实现时留出5mm的空白边界);
步骤3-4,根据步骤3-1中i的不同取值,步骤3-1至步骤3-3得到两个以上的面板排版方案,在这些排版方案中选择损失函数最小的解,其中损失函数L定义如下:
L = Σ i = 1 k | r i - r i ′ | ,
其中ri′为经过整体排版后第i个面板的长宽比。
步骤4包括以下步骤:
步骤4-1,对于面板p,根据步骤1中提取内容得到每个面板内的文字量lp,根据步骤2能够估计出面板大小sp,面板的长宽比rp,在面板内部,对于图片g,本身的信息包括图片的大小sg和图片的长宽比rg;需要预测的信息为图片的缩放比μg以及图片在面板内的位置hg,其中图片在面板内的位置hg的取值范围为1,2,3,分别表示图片靠左放置,居中放置,靠右放置;
步骤4-2,在给定步骤4-1所述的每个面板内的文字量lp,面板大小sp,面板的长宽比rp,面板内图片的大小sg和图片的长宽比rg的情况下,通过下式计算图片的缩放比μg的条件概率p(μg|lp,sp,sg):
p ( μ g | l p , s p , s g ) = 1 2 πσ μ e - ( μ g - w μ * [ l p , s p , s g , 1 ] T ) 2 2 σ μ 2 ,
由于图片在面板内的位置hg是离散变量,其概率分布p(hg|rp,sg,rg)定义为softmax函数,即软性最大函数,函数定义如下所示:
p ( h g | r p , s g , r g ) = e w h i * [ r p , s g , r g , 1 ] T Σ j = 1 H e w h j * [ r p , s g , r g , 1 ] T ,
其中wμ,、σμ和wh表示待求解的参数(wμ对应μg,wh对应hg,whi和whj中的下标i表示的是行号),whi表示参数wh的第i行,whj表示参数wh的第j行,H表示水平位置的可能取值行数,如步骤4-1所述,图片的水平位置有3种,分别为靠左,居中,靠右,因此H=3;
步骤4-3,根据训练集,求解出参数wμ,、σμ和wh分别取何值时使得如下概率函数最大:
p(μg,hg|rp,sg,rg)=p(μg|lp,sp,sg)*p(hg|rp,sg,rg);
步骤4-4,根据步骤4-3中求出的参数:wμ,、σμ和wh,对于每个面板,将该面板对应的面板内的文字量lp、面板大小sp、面板的长宽比rp、面板内图片的大小sg和图片的长宽比rg,代入到步骤中4-3所述的公式中,(本文中,s和r分别表示大小size和长宽比ratio,用下标p表示panel,下标g表示graph以区分面板和图片),采用最大似然估计likelihood-weighted(参考文章:Weighingandintegratingevidenceforstochasticsimulationinbayesiannetworks)采样方法,计算出对应的图片大小和位置,并且在采样求解的过程中去掉会产生相互遮挡的解。
步骤5包括:
根据步骤4预测得到的数据,将latex模板中的面板位置、大小填到相应的位置,然后利用WinEdt工具直接将latex文件编译转换为PDF文件。
排版印刷设备利用本发明编译生成学术海报PDF文件直接进行打印,即可获得学术海报。
有益效果:本发明的显著优点是:
(1)本发明提出的学术海报的自动生成方法在一定程度上弥补了该领域的空白,解决了人工排版效率低下的技术问题;
(2)本发明提出的排版算法具有一般性,对各种不懂海报页面尺寸要求,以及不同的论文结构均适用;
(3)本发明使用的海报特性的学习方法效率高,能够快速的根据已有数据集的到学习结果。
附图说明
图1为本发明方法的基本流程图。
图2为论文摘要示意图。
图3为面板特征学习结果示意图。
图4为整体排版结果示意图。
图5为局部排版结果示意图。
图6为结果示例。
具体实施方式
下面结合附图和具体实施方式对本发明做更进一步的具体说明。
本方法的流程图如图1所示,分为五大过程,首先是对学术论文的不同章节利用TextRank自动摘要出文本内容;然后是学习推断出每个章节对应的面板的大小和长宽比;然后是根据学习得到的面板属性自动适应出最优的面板排版方案;然后是学习推断出每个图片在面板中的位置和大小;最后是生成latex文件,进而转化为PDF文档。
具体的说,如图1所示,本发明公开了一种学术海报自动排版生成方法,主要包括以下几个步骤:
步骤1,学术论文摘要:读取学术论文的内容,根据学术论文的章节,将学术论文划分为对应的部分,采用自动摘要算法TextRank(参考文章TextRank:BringingOrderintoTexts)对学术论文划分后的每个部分自动摘要出文本内容;
步骤2,面板特征推断:通过机器学习得出学术论文的每个部分对应的面板信息;
步骤3,整体排版:根据机器学习得到的面板信息自动设计出最优的面板排版方案;
步骤4,局部排版:根据每个章节的摘要出的文本内容,学习推断出面板内部每个步骤1中包含的图片在面板内部的位置和大小;
步骤5,生成学术海报:根据已经推断出的信息利用latex模板自动生成一个latex文件,然后编译生成学术海报的PDF文件。
步骤1中,学术论文自动摘要是对学术论文进行划分,然后针对不同的k个部分进行摘要,包括以下步骤:
步骤1-1,根据学术论文中的k个章节,将学术论文划分为对应的部分c1,c2,...,ck,分别对应学术论文的第1章,第2章,…,第k章;
步骤1-2,采用自动摘要算法TextRank对学术论文划分后的每个部分按照一定的比例进行摘要,摘要比率为ω,一般取值1%~20%,在实践中,本发明设置的优选摘要比率为5%,用户可以自行从论文中选择图片作为摘要部分内容,每个部分ci的摘要就是其所包含文字和图片摘要总和,i取值为1,2,...,k。
本步骤完成结果如图2(由于本发明的特性,附图只能以图片形式表示)所示,其中图片摘要需要用户手动提取;
对于步骤2,面板特征推断的具体实施细节步骤如下:
步骤2-1,统计学术论文的每个部分中文字占学术论文全部摘要的文字的比例t,和学术论文的每个部分中图片占学术论文全部摘要的图片的比例q;
步骤2-2,在给定文字比例t和图片比例q时,采用如下公式计算学术论文的每个部分对应的面板大小s的条件概率p(s|t,q)和长宽比r的条件概率p(r|t,q):
p(s|t,q)=N(s;ws*[t,q,1]Ts 2),
p(r|t,q)=N(r;wr*[t,q,1]Tr 2),
其中N表示高斯分布,即:
p ( s | t , q ) = 1 2 πσ s e - ( s - w s * [ t , q , 1 ] T ) 2 2 σ s 2 ,
p ( r | t , q ) = 1 2 πσ r e - ( r - w r * [ t , q , 1 ] T ) 2 2 σ r 2 ,
其中ws,、σs、wr和σr表示待求解的参数,求解得到的ws和wr为三维的行向量,即ws=[ws1,ws2,ws3],wr=[wr1,wr2,wr3],e表示自然常数;
步骤2-3,根据训练集,使用最大似然估计采样方法估计参数ws,、σs、wr和σr分别取何值时使得如下概率函数p(s,r|t,g)最大:
p(s,r|t,q)=p(s|t,q)p(r|t,q);
这里的训练集,通过收集的20对学术论文海报,整理并标注而得。
步骤2-4,根据步骤2-3中求出的参数:ws,、σs、wr和σr,将学术论文的每个部分对应的文字比例t和图片比例q代入到步骤中2-3所述的公式中,采用最大似然估计likelihood-weighted采样方法,求出学术论文的每个部分对应的面板信息,包括面板大小s和面板长宽比r,正态分布时,s=wr*[t,q,1]T,r=wr*[t,q,1]T时概率最大。
本步骤完成后,中间结果如图3所示。
对于步骤3,在这一步骤以递归的进行行切割和列切割的方式在表达整个页面的整体布局,整体布局的具体实施细节以下步骤:
步骤3-1,学术论文的每个部分c1,c2,...,ck对应一个面板,k个面板记为面板集合:{(s1,r1),(s2,r2),...,(sk,rk)},sk表示由步骤2估计出的第k个面板的大小,rk表示第k个面板的长宽比,学术海报页面宽记为w,高度记为h,则整体排版问题转化为两个子问题:
第一个子问题为将面板集合前i个面板,即{(s1,r1),(s2,r2),...,(si,ri)}排版在宽为w*ρ,高为h,或宽为w高为h*ρ的页面上;
第二个子问题为将面板后k-i个面板,即{(si+1,ri+1),(si+2,ri+2),...,(sk,rk)}排版在宽为w*(1-ρ)高为h,或宽为w*ρ,高为h的页面上;
其中ρ表示前i个面板应当占据的比例,i取值为1,2,...,k;
步骤3-2,步骤3-1中分解后的两个子问题与原问题形式相同只是在问题规模上变小了,于是可以对每个子问题使用递归的方式求解。具体而言,就是对于要k个面板排版的问题,可以分解为前i个面板的排版和后k-i个面板的排版两个规模更小的子问题,每个子问题又可进一步划分为规模更小的子问题,这样重复下去,直到需要处理的是1个面板排版的问题;
步骤3-3,当递归到面板集合中只有1个面板时,直接将该面板铺满在规定了长和宽的页面上(具体实现时留出5mm的空白边界);
步骤3-4,根据步骤3-1中i的不同取值,步骤3-1至步骤3-3得到两个以上的面板排版方案,在这些排版方案中选择损失函数最小的解,其中损失函数L定义如下:
L = Σ i = 1 k | r i - r i ′ | ,
其中ri′为经过整体排版后第i个面板的长宽比。
本步骤完成后,中间结果如图4所示。
对于步骤4,局部排版的具体实施细节步骤如下:
步骤4-1,对于面板p,根据步骤1中提取内容得到每个面板内的文字量lp,根据步骤2能够估计出面板大小sp,面板的长宽比rp,在面板内部,对于图片g,本身的信息包括图片的大小sg和图片的长宽比rg;需要预测的信息为图片的缩放比μg以及图片在面板内的位置hg,其中图片在面板内的位置hg的取值范围为1,2,3,分别表示图片靠左放置,居中放置,靠右放置;
步骤4-2,在给定步骤4-1所述的每个面板内的文字量lp,面板大小sp,面板的长宽比rp,面板内图片的大小sg和图片的长宽比rg的情况下,通过下式计算图片的缩放比μg的条件概率p(μg|lp,sp,sg):
p ( μ g | l p , s p , s g ) = 1 2 πσ μ e - ( μ g - w μ * [ l p , s p , s g , 1 ] T ) 2 2 σ μ 2 ,
由于图片在面板内的位置hg是离散变量,其概率分布p(hg|rp,sg,rg)定义为softmax函数,即软性最大函数,具体定义如下:
p ( h g | r p , s g , r g ) = e w h i * [ r p , s g , r g , 1 ] T Σ j = 1 H e w h j * [ r p , s g , r g , 1 ] T ,
其中wμ,、σμ和wh表示待求解的参数,whi表示参数wh的第i行,whj表示参数wh的第j行,H表示水平位置的可能取值数,如步骤4-1所述,图片的水平位置有3种,分别为靠左,居中,靠右,故H=3;
步骤4-3,根据训练集,求解出参数wμ,、σμ和wh分别取何值时使得如下概率函数最大:
p(μg,hg|rp,sg,rg)=p(μg|lp,sp,sg)*p(hg|rp,sg,rg);
步骤4-4,根据步骤4-3中求出的参数:wμ,、σμ和wh,对于每个面板,将该面板对应的面板内的文字量lp、面板大小sp、面板的长宽比rp、面板内图片的大小sg和图片的长宽比rg,代入到步骤中4-3所述的公式中,(本文中,s和r分别表示大小size和长宽比ratio,用下标p表示panel,下标g表示graph以区分面板和图片),采用最大似然估计likelihood-weighted(参考文章:Weighingandintegratingevidenceforstochasticsimulationinbayesiannetworks)采样方法,计算出对应的图片大小和位置,并且在采样求解的过程中去掉会产生相互遮挡的解。
本步骤实施完成后,中间结果如图5所示。
对于步骤5,海报生成的具体实施细节步骤如下:
根据步骤4预测得到的数据,将latex模板中的面板位置、大小填到相应的位置,然后利用WinEdt工具直接将latex文件编译转换为PDF文件。
实施例
本实施例的实验硬件环境是:Intel(R)Xero(R)CPUE5-26202.0GHz,144G内存,软件环境是MicrosoftVisualStudio2010、MicrosoftWindows7Professional和Matlab2012a。测试样例来自网络上公开的论文。
步骤1,学术论文摘要:读取学术论文的内容,采用TextRank(参考文章TextRank:BringingOrderintoTexts)对学术论文的每个章节自动摘要出文本内容;
步骤2,面板特征推断:通过机器学习得出学术论文的每个章节对应的面板信息;
步骤3,整体排版:根据机器学习得到的面板信息自动设计出最优的面板排版方案;
步骤4,局部排版:根据每个章节的摘要,学习预测出面板内部每个图片在面板中的位置和大小;
步骤5,生成学术海报:采用latex模板自动生成一个latex文件,然后编译生成学术海报PDF文件。
对于输入样例,摘要提取比例设置在5%左右,边缘空白设置为5mm,生成结果如图6所示。
本发明提供了一种学术海报自动排版生成方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (6)

1.一种学术海报自动排版生成方法,其特征在于,包括以下步骤:
步骤1,学术论文摘要:读取学术论文的内容,根据学术论文的章节,将学术论文划分为对应的部分,采用自动摘要算法TextRank对学术论文划分后的每个部分自动摘要出文本内容;
步骤2,面板特征推断:通过机器学习得出学术论文的每个部分对应的面板信息;
步骤3,整体排版:根据机器学习得到的面板信息自动设计出最优的面板排版方案;
步骤4,局部排版:根据每个章节的摘要出的文本内容,学习推断出面板内部每个图片在面板内部的位置和大小;
步骤5,生成学术海报:根据已经推断出的信息利用latex模板自动生成一个latex文件,然后编译生成学术海报的PDF文件。
2.如权利要求1所述的一种学术海报自动排版生成方法,其特征在于,步骤1包括以下步骤:
步骤1-1,根据学术论文中的k个章节,将学术论文划分为对应的k个部分c1,c2,…,ck,分别对应学术论文的第1章,第2章,…,第k章;
步骤1-2,采用自动摘要算法TextRank对学术论文划分后的每个部分按照一定的比例进行摘要,每个部分ci的摘要为其所包含文字和图片摘要总和,i取值为1,2,…,k。
3.如权利要求2所述的一种学术海报自动排版生成方法,其特征在于,步骤2,包括以下步骤:
步骤2-1,统计学术论文的每个部分文字占学术论文全部摘要的文字的比例t,和学术论文的每个部分图片占学术论文全部摘要的图片的比例q;
步骤2-2,在给定文字比例t和图片比例q时,采用如下公式计算学术论文的每个部分对应的面板大小s的条件概率p(s|t,q)和长宽比r的条件概率p(r|t,q):
p(s|t,q)=N(s;ws*[t,q,1]Ts 2),
p(r|t,q)=N(r;wr*[t,q,1]Tr 2),
其中N表示高斯分布,即:
p ( s | t , q ) = 1 2 πσ s e - ( s - w s * [ t , q , 1 ] T ) 2 2 σ s 2 ,
p ( r | t , q ) = 1 2 πσ r e - ( r - w r * [ t , q , 1 ] T ) 2 2 σ r 2 ,
其中ws,σs,wr和σr表示待求解的参数,求解得到的ws和wr为三维的行向量,e表示自然常数;
步骤2-3,根据训练集,利用最大似然估计求解出参数ws、σs、wr和σr分别取何值时使得如下概率函数p(s,r|t,q)最大:
p(s,r|t,q)=p(s|t,q)p(r|t,q);
步骤2-4,根据步骤2-3中求出的参数:ws、σs、wr和σr,将学术论文的每个部分对应的文字比例t和图片比例q代入到步骤中2-3所述的公式中,求出学术论文的每个部分对应的面板大小s和面板长宽比r,正态分布时,s=wr*[t,q,1]T,r=wr*[t,q,1]T时概率最大。
4.如权利要求3所述的一种学术海报自动排版生成方法,其特征在于,步骤3包括以下步骤:
步骤3-1,学术论文的每个部分c1,c2,…,ck对应一个面板,k个面板记为面板集合:{(s1,r1),(s2,r2),…,(sk,rk)},sk表示由步骤2估计出的第k个面板的大小,rk表示第k个面板的长宽比,学术海报页面宽记为w,高度记为h,则整体排版问题转化为两个子问题:
第一个子问题为将面板集合前i个面板,即{(s1,r1),(s2,r2),…,(si,ri)}排版在宽为w*ρ,高为h,或宽为w高为h*ρ的页面上;
第二个子问题为将面板后k-i个面板,即{(si+1,ri+1),(si+2,ri+2),…,(sk,rk)}排版在宽为w*(1-ρ)高为h,或宽为w*ρ,高为h的页面上;
其中ρ表示前i个面板应当占据的比例,i取值为1,2,…,k;
步骤3-2,对每个子问题使用递归的方式求解;
步骤3-3,当递归到面板集合中只有1个面板时,直接将该面板铺满在规定了长和宽的页面上;
步骤3-4,根据步骤3-1中i的不同取值,步骤3-1至步骤3-3得到两个以上的面板排版方案,在这些排版方案中选择损失函数最小的解,其中损失函数L定义如下:
L = Σ i = 1 k | r i - r i ′ | ,
其中ri′为经过整体排版后第i个面板的长宽比。
5.如权利要求4所述的一种学术海报自动排版生成方法,其特征在于,步骤4包括以下步骤:
步骤4-1,对于面板p,根据步骤1中提取内容得到每个面板内的文字量lp,根据步骤2能够估计出面板大小sp,面板的长宽比rp,在面板内部,对于图片g,本身的信息包括图片的大小sg和图片的长宽比rg;需要预测的信息为图片的缩放比μg以及图片在面板内的位置hg,其中图片在面板内的位置hg的取值范围为1,2,3,分别表示图片靠左放置,居中放置,靠右放置;
步骤4-2,在给定步骤4-1所述的每个面板内的文字量lp,面板大小sp,面板的长宽比rp,面板内图片的大小sg和图片的长宽比rg的情况下,通过下式计算图片的缩放比μg的条件概率p(μg|lp,sp,sg):
p ( μ g | l p , s p , s g ) = 1 2 πσ μ e - ( μ g - w μ * [ l p , s p , s g , 1 ] T ) 2 2 σ μ 2 ,
由于图片在面板内的位置hg是离散变量,其概率分布p(hg|rp,sg,rg)定义为softmax函数:
p ( h g | r p , s g , r g ) = e w h i * [ r p , s g , r g , 1 ] T Σ j = 1 H e w h j * [ r p , s g , r g , 1 ] T ,
其中wμ、μg和wh表示待求解的参数,whi表示参数wh的第i行,whj表示参数wh的第j行,H表示水平位置的可能取值行数,H=3;
步骤4-3,根据训练集,求解出参数wμ、σu和wh分别取何值时使得如下概率函数最大:
p(μg,hg|rp,sg,rg)=p(μg|lp,sp,sg)*p(hg|rp,sg,rg);
步骤4-4,根据步骤4-3中求出的参数:wμ、σu和wh,对于每个面板,将该面板对应的面板内的文字量lp、面板大小sp、面板的长宽比rp、面板内图片的大小sg和图片的长宽比rg,代入到步骤中4-3所述的公式中,采用最大似然估计采样方法,计算出对应的图片大小和位置,并且在采样求解的过程中去掉产生相互遮挡的解。
6.如权利要求5所述的一种学术海报自动排版生成方法,其特征在于,步骤5包括:
根据步骤4预测得到的数据,将latex模板中的面板位置、大小等信息填到相应的位置,然后利用WinEdt工具直接将latex文件编译转换为PDF文件。
CN201511016330.0A 2015-12-29 2015-12-29 一种学术海报自动排版生成方法 Active CN105654534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511016330.0A CN105654534B (zh) 2015-12-29 2015-12-29 一种学术海报自动排版生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511016330.0A CN105654534B (zh) 2015-12-29 2015-12-29 一种学术海报自动排版生成方法

Publications (2)

Publication Number Publication Date
CN105654534A true CN105654534A (zh) 2016-06-08
CN105654534B CN105654534B (zh) 2018-01-09

Family

ID=56477964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511016330.0A Active CN105654534B (zh) 2015-12-29 2015-12-29 一种学术海报自动排版生成方法

Country Status (1)

Country Link
CN (1) CN105654534B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399156A (zh) * 2018-02-28 2018-08-14 北京仁和汇智信息技术有限公司 一种pdf文件中公式的排版方法及装置
CN111145310A (zh) * 2019-12-27 2020-05-12 北京奇艺世纪科技有限公司 一种海报生成方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008087A (zh) * 2014-06-05 2014-08-27 李梦依 一种针对具有标准格式的文案的自动排版方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008087A (zh) * 2014-06-05 2014-08-27 李梦依 一种针对具有标准格式的文案的自动排版方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ROBERT FUNG等: "Weighing and Integrating Evidence for Stochastic Simulation in Bayesian Networks", 《ACM TRANSACTIONS》 *
于洋 等: "基于视频序列的平面海报生成方法", 《计算机辅助设计与图形学学报》 *
潘若瑛等: "多模板多格式论文校验与自动排版系统的研究", 《研究与设计》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399156A (zh) * 2018-02-28 2018-08-14 北京仁和汇智信息技术有限公司 一种pdf文件中公式的排版方法及装置
CN111145310A (zh) * 2019-12-27 2020-05-12 北京奇艺世纪科技有限公司 一种海报生成方法及装置

Also Published As

Publication number Publication date
CN105654534B (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN108416384A (zh) 一种图像标签标注方法、系统、设备及可读存储介质
CN108073677A (zh) 一种基于人工智能的多级文本多标签分类方法及系统
CN106776534A (zh) 词向量模型的增量式学习方法
CN111626047A (zh) 智能化文本纠错方法、装置、电子设备及可读存储介质
CN105320642A (zh) 一种基于概念语义基元的文摘自动生成方法
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN104484433B (zh) 一种基于机器学习的图书本体匹配方法
US20120030206A1 (en) Employing Topic Models for Semantic Class Mining
CN105976056A (zh) 基于双向rnn的信息提取系统
CN106844345B (zh) 一种基于参数线性约束的多任务分词方法
CN103150383B (zh) 一种短文本数据的事件演化分析方法
CN106022392A (zh) 一种深度神经网络样本自动取舍的训练方法
CN104794455A (zh) 一种东巴象形文字识别方法
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN110209802A (zh) 一种提取摘要文本的方法及装置
CN106874397A (zh) 一种面向物联网设备的自动语义标注方法
CN105654534A (zh) 一种学术海报自动排版生成方法
CN105677639A (zh) 一种基于短语结构句法树的英文词义消歧方法
CN105512114A (zh) 平行句对的筛选方法和系统
CN110222737A (zh) 一种基于长短时记忆网络的搜索引擎用户满意度评估方法
Shao et al. Research on a new automatic generation algorithm of concept map based on text clustering and association rules mining
CN115391519A (zh) 一种基于nlp技术的企业自动打标签模型生成方法、系统、设备以及存储介质
CN106897436A (zh) 一种基于变分推断的学术研究热点关键词提取方法
CN111507098B (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质
CN110991160A (zh) 留学文书智能自动创作系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant