CN101419717B - 一种版式文件图文自动关联的方法及系统 - Google Patents

一种版式文件图文自动关联的方法及系统 Download PDF

Info

Publication number
CN101419717B
CN101419717B CN 200810239369 CN200810239369A CN101419717B CN 101419717 B CN101419717 B CN 101419717B CN 200810239369 CN200810239369 CN 200810239369 CN 200810239369 A CN200810239369 A CN 200810239369A CN 101419717 B CN101419717 B CN 101419717B
Authority
CN
China
Prior art keywords
article
picture block
piece
neighbour
literal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200810239369
Other languages
English (en)
Other versions
CN101419717A (zh
Inventor
徐剑波
董宁
王辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN 200810239369 priority Critical patent/CN101419717B/zh
Publication of CN101419717A publication Critical patent/CN101419717A/zh
Application granted granted Critical
Publication of CN101419717B publication Critical patent/CN101419717B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Controls And Circuits For Display Device (AREA)

Abstract

本发明公开了一种版式文件中的图文自动关联方法及系统,进行图片块与文章的自动匹配,使文章中引用的图片块与文章或者正文合并在一起,还原成为文章或者正文的附图,主要方法为:从版式文件中获取图片块集合和文章集合;文章集合中的文章存在以下情况:只有正文的文章;或者包含标题,引题,副题等一项或者多项相关信息,而没有正文的文章;或者包含标题,引题,副题等一项或者多项相关信息而又有正文的文章;从图片块集合中获取与文章集合中匹配的文章,将此图片块设置为该文章的附图,添加到文章对象中。采用本发明所述的方法,能够自动化的提取文章的附图,能够提高自动成文的准确性,减少人工标引文章的工作量。

Description

一种版式文件图文自动关联的方法及系统
技术领域
本发明涉及信息技术处理领域,尤其涉及一种版式文件中图文自动关联的方法及系统。
背景技术
现有技术中实现基于版式文件以及人工干预来提取和组合文章的方法。这种方法的优点是根据版式文件的版面信息结构提取版面信息和所有的稿件信息;缺点是:a)不同的版式文件都需要花时间理解其内部的信息存储格式,导致了不同的版式文件需要开发不同的插件,开发难度大且易用性和扩展性不是很好;b)版式文件的必须存储稿件内部之间的关联关系;通过分析PS文件以及Fit等文件,发现版式文件中记录的稿件关系并不能够有效的还原版式文件中文章中上下文的关系,造成了后端标引的时候工作量很大。
根据目前可以基于版式文件记录的信息来提取稿件的方法;这种方法的优点是高效的利用了版式文件提供的公共的信息,实现了自动化成块操作;缺点是该方法没有实现自动成文,需要在结合人工标引的方式来实现文章上下文的正确的组合。
综上,从版式文件中获取的文字块、图片块等数据信息并没有有效的组织在一起,而是分散开来的,比如一篇文章的引题,标题,副题是分离开的,标题和文章的正文之间也是分离开的;这样就需要人工进行相应的关联操作,还原文章的引题,标题,副题以及正文,以保证数据信息的正确性和完备性,存在着一定的工作量。
发明内容
一篇文章可能包含引题,标题,副题,正文,附图等相关内容。本发明的目的是通过图文自动关联的方法,进行图片块与文章的自动匹配,使文章中引用的图片块与文章或者正文合并在一起,还原成为文章或者正文的附图。
本发明的具体实现方法是:
A:从版式文件中获取图片块集合{P}和文章集合{A};
B:从反解版式文件后得到的图片块集合{P}中取出一个与已取图片块不同的图片块;
C:依次获取文章集合{A}中的文章,比较获取得到的文章是否与步骤B中取出的图片块近邻,如果没有文章与图片块近邻,直接转至步骤D;否则,则将此图片块设置为该文章的附图;
D:重复以上步骤,直至图片块集合{P}中的所有图片块被取过一次。
进一步的,在文章集合{A}中查找与图片块近邻的文章;判断文章与图片块是否近邻具体操作为:
设置获取得到的图片块为P1,获取得到的文章为A1;新建文字块集合{T},从文章A1中获取文章的引题,标题,副题所对应的文字块,放置在集合{T}中;
依次获取文字块集合{T}中的文字块,设为T1,查看图片块P1是否与文字块T1近邻;如果近邻条件成立,记录图片块P与文章的重叠度;如近邻条件不成立,继续从文字块集合{T}中获取下一个文字块,继续同该图片块进行比较是否近邻;如果图片块和文字块集合{T}中任何一个文字块都不存在近邻的关系,那么执行以下步骤;
比较图片块P1是否与文章正文近邻:新建文字块集合{L},如果文章正文对应的文字块的子块个数大于1,则获取得到该正文块的所有子块,并放置在集合{L}中,依次获取集合{L}中的文字块,设为T1,查看图片块P1与文字块T1是否近邻;否则比较文章正文对应的文字块同图片块P1是否近邻;如果近邻条件成立,表明图片块与文章近邻关系成立,记录图片块P1与文章的重叠度。
进一步的,还包括以下操作:
创建文章集合{N},筛选文章集合{A}中只存在正文的文章,添加到文章集合{N}中,并从文章集合{A}中删除;
创建文章集合{M},筛选文章集合{A}中正文为空的文章,添加到文章集合{M}中,并从文章集合{A}中删除;
将{N}中每篇文章正文对应的文字块与文章集合{M}比较,如果能找到匹配的文章,将此文章正文对应的文字块设置为匹配文章的正文,并从文章集合{N}中删除该文章;如找不到匹配的文章,则将该文章重新添加到文章集合{A}中,并从文章集合{N}中删除该文章;最后将文章集合{M}重新添加到文章集合{A}中。
本发明还提供一种版式文件中图文自动关联系统,所述图文自动关联系统包括:
图片块获取器,用于从版式文件中获取图片块,形成图片块集合;
文章获取器,用于从从版式文件中获取文章,形成文章集合;
图片块提取器,用于从反解版式文件后得到的图片块集合中取出一个与已取图片块不同的图片块,直至图片块集合中的所有图片块被取过一次;
近邻比较器,用于比较文章集合中的文章是否与图片块提取器中取出的图片块近邻,如果没有文章与图片块近邻,继续提取下一个图片;否则,则将此图片块设置为该文章的附图;如果有两个或者两个以上的文章与图片块近邻,则筛选出图片块与文章重叠度最大的一篇文章,将此图片块设置为该文章的附图;
图文关联器,用于将图片块在文章集合中匹配的文章进行关联,将此图片块设置为该文章的附图,并添加到文章对象中。
进一步的,还包括:文章正文生成器;用于将只有正文的文章和没有正文的文章进行匹配;如果匹配成功,将只有正文的文章的正文对应的文字块设置为没有正文的文章的正文。
进一步的,还包括:图片块判断器,用于查看经图片块提取器和近邻比较器处理后图片块集合中是否存在图片块,若存在,则所述图文关联器还包括以下功能:依次获取该图片块,并为之单独创建一篇文章,设置该图片块为文章的附图,添加到文章对象中。
通过本发明进行图片块与文章的自动匹配,使文章中引用的图片块与文章或者正文合并在一起,还原成为文章或者正文的附图,提高了自动成文的准确性。
附图说明
图1为本发明的流程图;
图2是图片块与文章的标题,副题对应的文字块近邻关系得到满足示意图;
图3是筛选出的只有正文的文章找到了匹配的文章示意图;
图4是图片块单独创建了一篇文章示意图;
图5是图片块与文章的标题,副题对应的文字块近邻关系得到满足示意图;
图6是图片块与文章的正文近邻关系得到满足示意图。
具体实施方式
下面结合实例图和附图,对本发明的技术方案做进一步的阐述,结合图1所述,本发明的主要方法如下:
第一步:从版式文件获取图片块集合{P}和文章集合{A};
从版式文件中获取图片块和文章的技术方案可以在专利200610112710.9名为“一种提取见报资料数据信息的方法”的公开专利方案中得到;取出的多个图片稿件组合成图片块的集合。在专利200710179938.4名为“一种基于PDF的复杂版面的标引方法”的公开专利方案中得到,在此不再详细描述。
第二步:从图片块集合{P}中依次获取图片块;图片块与文章的集合{A}进行聚类,查看图片块是否能够在文章集合{A}中找到匹配的文章;能够找到匹配的文章,设置为文章的附图,添加到文章对象中,并从图片块集合{P}中删除图片块。具体为:
(1)从反解版式文件后得到的图片块集合{P}中取出一个与已取图片块不同的图片块;
(2)依次获取文章集合{A}中的文章,比较获取得到的文章是否与步骤(1)中取出的图片块近邻,如果没有文章与图片块近邻,直接转至步骤(3);如果有文章与图片块近邻,则将此图片块设置为该文章的附图,如果有两个或者两个以上的文章与图片块近邻,则筛选出图片块与文章重叠度最大的一篇文章,将此图片块设置为该文章的附图;
(3)重复以上步骤,直至图片块集合{P}中的所有图片块被取过一次。
第三步:查看图片块集合{P}中是否仍存在图片块,若存在,依次获取该图片块,并为之单独创建一篇文章,设置该图片块为文章的附图,添加到文章对象中,并从图片块集合{P}中删除所述图片;将此文章添加到文章集合{A}中。
实施例1:
参照图2所示的图片块与文章的标题,副题对应的文字块近邻关系得到满足示意图,具体实现方法如下:
获取得到文章包含了标题“我国开建东北首个核电站”和副题“政府首次同意一次建4台百万千瓦级核电机组”;将这两个标题和副题对应的文字块添加到文字块集合{T}中;依次获取文字块集合中{T}中的这两个文字块,设置为T1;如图2所示的图片块,获取的图片块设置为P1;
判断图片块P1与文字块T1是否为近邻的方法如下:
版面平均字体大小为所有的文字块的字号的平均值,设置为AvgFontSize;
此时获取的版面的平均字体为AvgFontSize=8.47;取到的图片块P1的左上角坐标为(155,164),右下角坐标为(401,540);图片块P1的宽度为W1=246,图片块P1的高度H1=376;
而此时获取到的文字块T1为左上角坐标为(162,134),右下角坐标为(522,152);文字块T1的宽度为W2=360,文字块T1的高度H2=18,文字块T1的字体大小为f=18.04;
然后进行如下操作:
(2.2.1)计算图片块P1与文字块T1紧邻的有效距离:
DistThreshold=C1*AvgFontSize+f*C2;
其中C1和C2为图片块与文字块紧邻的调节系数,1<C1<5,C2的取值范围为0.1<C2<0.5;在实际的应用过程中,可以根据实际的需要调节C1和C2,得到图片块与文字块紧邻的有效距离;
在本实施方式中C1=2,C2=0.2;计算得到DistThreshold=20.48;
(2.2.2)计算图片块P1与文字块T1重叠度:
垂直方向上的重叠度:
OverlapY=(min(Y1’,Y2’)-max(Y1,Y2))/(max(Y1’,Y2’)-min(Y1,Y2))。
水平方向上的重叠度:
OverlapX=(min(X1’,X2’)-max(X1,X2))/(max(X1’,X2’)-min(X1,X2))。
通过计算分别得到:OverlapY=-0.029,OverlapX=0.648;
(2.2.3)计算图片块P1与文字块T1最小重叠度:
水平方向上的最小重叠是:
OverlapXMin=(min(X1’,X2’)-max(X1,X2))/min(X1’-X1,X2’-X2)。
垂直方向上的最小重叠度:
OverlapYMin=(min(Y1’,Y2’)-max(Y1,Y2))/min(Y1’-Y1,Y2’-Y2)。
通过计算分别得到:OverlapXMin=0.969,OverlapYMin=-0.68;
(2.2.4)计算文字块T1与图片块P1的重叠距离:
水平方向上的重叠距离DistX:
DistX=max(X1,X2)-min(X1’,X2’);
垂直方向上的重叠距离DistY:
DistY=max(Y1,Y2)-min(Y1’,Y2’);
其中max(a,b)表示取两者的较大值,min(a,b)表示取两者的较小值。
此时DistY=12.028;
(2.2.5)判定如下条件是否其中一项成立:
A.OverlapX>Dx且OverlapY>Dy;
B.OverlapXMin>Dxmin且OverlapY>Dy;
C.OverlapYMin>Dymin且OverlapX>Dx;
D.OverlapYMin>Dymin且OverlapXMin>Dxmin且(X2’-X2)>C*AvgFontSize;其中C为文字块与图片块近邻的调节系数,2<C<8;
E.文章标题对应的文字块的排版类型为水平排版时,且OverlapX>0且OverlapXMin>Dxmin且DistY<DistThreshold且Y2<Y1;
F.文章标题对应的文字块的排版类型为垂直排版时,且OverlapY>0且OverlapYMin>Dymin且DistX<DistThreshold;
上述中Dx和Dy为文字块与图片块之间水平和垂直方向上的近邻重叠系数,0<Dx<1,0<Dy<1;Dxmin和Dymin为文字块与图片块之间水平和垂直方向上的最小近邻重叠系数,0<Dxmin<1,0<Dymin<1;在实际的应用过程中,可以根据实际的需要调节以上系数;
如果以上条件任何一项都成立,则表示两个块近邻;近邻成立的时候记录两个文字块的重叠度;文章A1标题对应的文字块的排版类型为水平排版时,那么图片块P1与文章对象的重叠度为OverlapX,文章A1标题对应的文字块的排版类型为垂直排版时,图片块P1与文章对象的重叠度为OverlapY。
在本实施例中A条件中Dx=0.8和Dy=0.8;B条件中Dxmin=0.95,Dy=0.2;C条件中Dymin=0.95,Dx=0.2;D条件中Dxmin=0.95,Dymin=0.95,C=6;E条件中Dxmin=0.8;F条件中Dymin=0.8;
此时文章标题对应的文字块的排版类型为水平排版且Y2的值为文字块T1左上角的Y方向坐标,Y2=134,Y1的值为图片块P1左上角的Y方向坐标,Y1=164;满足了上面条件中的E条件;因此,图片块P1与文字块T1近邻关系成立;记录的图片块与文章的重叠度为0.648。图片块P1与所有文章近邻比较结束后,发现与此文章的重叠度最大,将此图片块设置为该文章的附图。
若图片块与文章的标题对应的文字块近邻的关系没有成立,需要比较图片块P1是否与文章正文近邻,具体操作为:新建文字块集合{L},如果文章正文对应的文字块的子块个数大于1,则获取得到该正文块的所有子块,并放置在集合{L}中,依次获取集合{L}中的文字块,设为T1,查看图片块P1与文字块T1是否近邻;否则比较文章正文对应的文字块同图片块P1是否近邻;如果近邻条件成立,表明图片块与文章近邻关系成立,记录图片块P1与文章的重叠度。
当然,同样的,图5也给出了图片块与文章的标题,副题对应的文字块近邻关系得到满足示意图,在此不在细述。
实施例2:
如图6所示,图片块与文章的标题对应的文字块近邻的关系没有成立,所以需要查看文章的正文对应的文字块与图片块的近邻关系是否成立;具体操作如下:
此时获取的版面的平均字体为AvgFontSize=8.36;取到的图片块P1的左上角坐标为(282,603),右下角坐标为(393,676);图片块P1的宽度为W1=111,图片块P1的高度H1=73;
而此时获取到的文字块T1为左上角坐标为(31,489),右下角坐标为(393,700);文字块T1的宽度为W2=362,文字块T1的高度H2=211,文字块T1的字体大小为f=8.34;
然后进行如下操作:
(2.3.1)计算图片块P1与文字块T1紧邻的有效距离:
DistThreshold=C1*AvgFontSize;
其中C1为图片块与文字块紧邻的调节系数,1<C1<5;在实际的应用过程中,可以根据实际的需要调节C1,得到图片块与文字块紧邻的有效距离;在本实施方式中C1取值为2,计算得到的DistThreshold=16.72;
(2.3.2)利用上述步骤(2.2.2)的方法,计算图片块P1与文字块T1重叠度,得到OverlapY=0.34和OverlapX=0.30;
(2.3.3)利用步骤(2.2.3)的方法,计算图片块P1与文字块T1最小重叠度,得到OverlapXMin=1.0和OverlapYMin=1.0;
(2.3.4)判定如下条件是否其中一项成立:
A.OverlapX>Dx且OverlapY>Dy;
B.OverlapXMin>Dxmin且OverlapY>Dy;
C.OverlapYMin>Dymin  且OverlapX>Dx;
D.OverlapX>Dx且OverlapY>Dy且OverlapXMin*OverlapYMin>Dxymin且OverlapX*OverlapY>Dxy;
E.OverlapXMin>Dxmin且OverlapYMin>Dymin;
上述中Dx和Dy为文字块与图片块之间水平和垂直方向上的近邻重叠系数,0<Dx<1,0<Dy<1;Dxmin和Dymin为文字块与图片块之间水平和垂直方向上的最小近邻重叠系数,0<Dxmin<1,0<Dymin<1;其中Dxymin为最小公共重叠系数,0<Dxymin<1;Dxy为公共重叠系数,0<Dxymin<1;在实际的应用过程中,可以根据实际的需要调节以上系数;
如果以上条件任何一项都成立,则表示两个块近邻;近邻成立的时候记录两个文字块的重叠度;重叠度为OverlapX和OverlapY中最大的一个。
在本实施例中A条件中Dx=0.8和Dy=0.8;B条件中Dxmin=0.95,Dy=0.2;C条件中Dymin=0.95,Dx=0.2;D条件中Dx=0.2和Dy=0.2,Dxymin=0.3,Dxy=0.12;E条件中Dxmin=0.9,Dymin=0.9;
通过上面的计算,满足了B条件或者C条件,图片块与文章的近邻关系成立;记录的图片块与文章的重叠度为0.34;图片块P1与所有文章近邻比较结束后,发现与此文章的重叠度最大,将此图片块设置为该文章的附图。
上述近邻的判定标准可以根据实际的情况调整或者去除。
查看图片块集合{P}中是否仍存在图片块,若存在,依次获取该图片块,并为之单独创建一篇文章,设置该图片块为文章的附图,添加到文章对象中,并从图片块集合{P}中删除所述图片;将此文章添加到文章集合{A}中。
实施例3:
如图4所示,此图片块对文章集合中的所有文章的近邻关系都没有得到满足,所以单独为此图片块创建了一篇文章,这篇文章中只有当前图片块。
实施例4:
当然,对于文章集合中,可能会存在只有正文或者正文为空的文章,本发明为了达到更佳的效果,还可以包括以下操作:
(4.1)创建文章集合{N},筛选文章集合{A}中只存在正文的文章,添加到文章集合{N}中,并从文章集合{A}中删除;
(4.2)创建文章集合{M},筛选文章集合{A}中正文为空的文章,添加到文章集合{M}中,并从文章集合{A}中删除;
(4.3)将{N}中每篇文章正文对应的文字块与文章集合{M}比较,如果能找到匹配的文章,将此文章正文对应的文字块设置为匹配文章的正文,并从文章集合{N}中删除该文章;如找不到匹配的文章,则将该文章重新添加到文章集合{A}中,并从文章集合{N}中删除该文章;最后将文章集合{M}重新添加到文章集合{A}中。
上述操作的主要目的是将只存在正文的文章同没有正文的文章进行匹配;使没有正文的文章吸纳“只存在正文的文章”的正文对应的文字块,设置为“没有正文的文章”的正文,是对自动成文的一个补充和扩展;在具体的实施方式中可以根据实际的需要或需求来判断是否需要执行此步骤。
文字块查找匹配的文章步骤如下:
(4.3.1)从文章集合{N}中取出一个与已取文章不同的文章;获取该文章正文所对应的文字块的矩形区域RectT;
(4.3.2)从文章集合{M}中取出一个与已取文章不同的文章;合并文章所包含的文字块的矩形区域,得到包含所有文字块的外包矩形区域RectM;
(4.3.3)求其矩形区域RectT与矩形区域RectM的交集,得到RectInsect;
(4.3.4)计算矩形区域RectT的面积AreaRectT,矩形区域RectM的面积AreaRectM,矩形区域RectInsect的面积AreaRectInsect;
(4.3.5)如果AreaRectInsect/AreaRectT>0.5或AreaRectInsect/AreaRectM>0.5成立,表示文字块找到了匹配的文章;否则执行4.3.2步骤;文章集合{M}遍历结束后,重新执行4.3.1步骤,以保证文章集合{N}中的文章被遍历一次;
如图3所示,根据上述操作,筛选获取当前文章只有正文的文字块,并找到了同该正文块最佳匹配的文章;此正文块被合并到匹配的文章正文中;提高了图文自动关联的应用性;
此外,本发明的技术方案也可通过系统的方式实施,该图文自动关联系统包括:
图片块获取器,用于从版式文件中获取图片块,形成图片块集合;
文章获取器,用于从从版式文件中获取文章,形成文章集合;
图片块提取器,用于从反解版式文件后得到的图片块集合中取出一个与已取图片块不同的图片块,直至图片块集合中的所有图片块被取过一次;
近邻比较器,用于比较文章集合中的文章是否与图片块提取器中取出的图片块近邻,如果没有文章与图片块近邻,继续提取下一个图片;否则,则将此图片块设置为该文章的附图;如果有两个或者两个以上的文章与图片块近邻,则筛选出图片块与文章重叠度最大的一篇文章,将此图片块设置为该文章的附图;
图文关联器,用于将图片块在文章集合中匹配的文章进行关联,将此图片块设置为该文章的附图,并添加到文章对象中。
为了使图文的自动关联的适应性和扩展性以及自动文章自动关联的准确性得到提高,还可以对图文自动关联系统进行扩展,本发明具体实施还可能包括:
文章正文生成器;用于将只有正文的文章和没有正文的文章进行匹配;如果匹配成功,将只有正文的文章的正文对应的文字块设置为没有正文的文章的正文。
上述文章正文生成器的主要目的是将只存在正文的文章同没有正文的文章进行匹配;使没有正文的文章吸纳“只存在正文的文章”的正文对应的文字块,设置为“没有正文的文章”的正文,是对自动成文的一个补充和扩展;
因此,本发明具体实施中还包括:图片块判断器,用于查看经图片块提取器和近邻比较器处理后图片块集合中是否存在图片块,若存在,则所述图文关联器还包括以下功能:依次获取该图片块,并为之单独创建一篇文章,设置该图片块为文章的附图,添加到文章对象中。
进行匹配以及是否近邻的操作与本发明方法实施例的实现方式是一一对应的,在此不再重复叙述。
进行图片块与文章的自动匹配,使文章中引用的图片块与文章或者正文合并在一起,还原成为文章或者正文的附图,提高了自动成文的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种版式文件图文自动关联方法,其特征在于,该方法包括:
A:从版式文件中获取图片块集合{P}和文章集合{A};
B:从反解版式文件后得到的图片块集合{P}中取出一个与已取图片块不同的图片块;
C:依次获取文章集合{A}中的文章,比较获取得到的文章是否与步骤B中取出的图片块近邻,如果没有文章与图片块近邻,直接转至步骤D;否则,则将此图片块设置为该文章的附图;
D:重复以上步骤,直至图片块集合{P}中的所有图片块被取过一次;
其中,在文章集合{A}中查找与图片块近邻的文章;比较获取得到的文章是否与取出的图片块近邻具体操作为:
(1.1)设置获取得到的图片块为P1,获取得到的文章为A1;新建文字块集合{T},从文章A1中获取文章的引题,标题,副题所对应的文字块,放置在文字块集合集合{T}中;
(1.2)依次获取文字块集合{T}中的文字块,设为T1,查看图片块P1是否与文字块T1近邻;如果近邻条件成立,记录图片块P1与文章的重叠度;如果近邻条件不成立,继续从文字块集合{T}中获取下一个文字块,继续同该图片块P1进行比较是否近邻;如果图片块P1和文字块集合{T}中任何一个文字块都不存在近邻的关系,那么执行步骤(1.3);
(1.3)比较图片块P1是否与文章正文近邻:新建文字块集合{L},如果文章正文对应的文字块的子块个数大于1,则获取得到该正文对应的文字块的所有子块,并放置在集合{L}中,依次获取集合{L}中的文字块,设为T1,查看图片块P1与文字块T1是否近邻;否则比较文章正文对应的文字块T1同图片块P1是否近邻;如果近邻条件成立,记录图片块P1与文章的重叠度;
其中,步骤(1.2)中查看图片块P1是否与文字块T1近邻的方法如下:
版面平均字体大小为所有的文字块的字号的平均值,设置为AvgFontSize; 
设取到的图片块P1的左上角坐标为(X1,Y1),右下角坐标为(X1’,Y1’);图片块P1的宽度为W1=X1’X1,图片块P1的高度H1=Y1’-Y1;
获取到的文字块T1左上角坐标为(X2,Y2),右下角坐标为(X2’,Y2’);文字块T1的宽度为W2=X2’-X2,文字块T1的高度H2=Y2’-Y2,文字块T1的字体大小为f;
然后进行如下操作:
(1.2.1)计算图片块P1与文字块T1近邻的有效距离:
DistThreshold=C1*AvgFontSize+f*C2;
其中C1和C2为图片块P1与文字块T1近邻的调节系数,1<C1<5,0.1<C2<0.5;在实际的应用过程中,根据实际的需要调节C1和C2,得到图片块P1与文字块T1近邻的有效距离;
(1.2.2)计算图片块P1与文字块T1的重叠度:
垂直方向上的重叠度:
OverlapY=(min(Y1’,Y2’)-max(Y1,Y2))/(max(Y1’,Y2’)-min(Y1,Y2));
水平方向上的重叠度:
OverlapX=(min(X1’,X2’)-max(X1,X2))/(max(X1’,X2’)-min(X1,X2));
(1.2.3)计算图片块P1与文字块T1最小重叠度:
水平方向上的最小重叠是:
OverlapXMin=(min(X1’,X2’)-max(X1,X2))/min(X1’-X1,X2’-X2);
垂直方向上的最小重叠度:
OverlapYMin=(min(Y1’,Y2’)-max(Y1,Y2))/min(Y1’Y1,Y2’-Y2);
(1.2.4)计算文字块T1与图片块P1的重叠距离:
水平方向上的重叠距离DistX:
DistX=max(X1,X2)-min(X1’,X2’);
垂直方向上的重叠距离DistY:
DistY=max(Y1,Y2)-min(Y1’,Y2’); 
其中max(a,b)表示取两者的较大值,min(a,b)表示取两者的较小值;
(1.2.5)判定如下条件是否其中一项成立:
a 1.OverlapX>Dx且OverlapY>Dy;
b 1.OverlapXMin>Dxmin且OverlapY>Dy;
c 1.OverlapYMin>Dymin且OverlapX>Dx;
d 1.OverlapYMin>Dymin  且OverlapXMin  >Dxmin  且(X2’-X2)>C*AvgFontSize;其中C为文字块T1与图片块P1近邻的调节系数,2<C<8;
e1.文章标题对应的文字块的排版类型为水平排版时,且OverlapX>0且OverlapXMin>Dxmin且DistY<DistThreshold且Y2<Y1;
f1.文章标题对应的文字块的排版类型为垂直排版时,且OverlapY>0且OverlapYMin>Dymin且DistY<DistThreshold;
如果以上条件任何一项都成立,则表示图片块P1与文字块T1近邻;近邻成立的时候记录图片块P1与文章的重叠度;文章A1标题对应的文字块的排版类型为水平排版时,那么图片块P1与文章的重叠度为OverlapX,文章A1标题对应的文字块的排版类型为垂直排版时,图片块P1与文章的重叠度为OverlapY;
其中,步骤(1.3)中查看图片块P1与文字块T1是否近邻的方法具体为:
(1.3.1)计算图片块P1与文字块T1近邻的有效距离:
DistThreshold=C1*AvgFontSize;
其中C1为图片块P1与文字块T1近邻的调节系数,1<C1<5;在实际的应用过程中,根据实际的需要调节C1,得到图片块P1与文字块T1近邻的有效距离;
(1.3.2)利用步骤(1.2.2)的方法,计算图片块P1与文字块T1重叠度,得到OverlapY和OverlapX;
(1.3.3)利用步骤(1.2.3)的方法,计算图片块P1与文字块T1最小重叠 度,得到OverlapXMin和OverlapYMin;
(1.3.4)判定如下条件是否其中一项成立:
a2.OverlapX>Dx且OverlapY>Dy;
b2.OverlapXMin>Dxmin且OverlapY>Dy;
c2.OverlapYMin>Dymin且OverlapX>Dx;
d2.OverlapX>Dx且OverlapY>Dy且OverlapXMin*OverlapYMin>Dxymin且OverlapX*OverlapY>Dxy;
e2.OverlapXMin>Dxmin且OverlapYMin>Dymin;
如果以上条件任何一项都成立,则表示图片块P1与文字块T1近邻;近邻成立的时候记录图片块P1与文章的重叠度;重叠度为OverlapX和OverlapY中最大的一个;
所述步骤(1.2.5)和(1.3.4)中,Dx和Dy为文字块T1与图片块P1之间水平和垂直方向上的近邻重叠系数,0<Dx<1,0<Dy<1;Dxmin和Dymin为文字块T1与图片块P1之间水平和垂直方向上的最小近邻重叠系数,0<Dxmin<1,0<Dymin<1;所述步骤(1.3.4)中,Dxymin为最小公共重叠系数,0<Dxymin<1;Dxy为公共重叠系数,0<Dxy<1;在实际的应用过程中,根据实际的需要调节以上系数。
2.如权利要求1所述的图文自动关联方法,其特征在于,如果有两个或者两个以上的文章与图片块近邻,则筛选出图片块与文章重叠度最大的一篇文章,将此图片块设置为该文章的附图。
3.如权利要求1所述的图文自动关联方法,其特征在于,还包括以下操作:
(2.1)创建文章集合{N},筛选文章集合{A}中只存在正文的文章,添加到文章集合{N}中,并从文章集合{A}中删除;
(2.2)创建文章集合{M},筛选文章集合{A}中正文为空的文章,添加到文章集合{M}中,并从文章集合{A}中删除; 
(2.3)将文章集合{N}中每篇文章正文对应的文字块与文章集合{M}比较,如果能找到匹配的文章,将此文章正文对应的文字块设置为匹配文章的正文,并从文章集合{N}中删除该文章;如找不到匹配的文章,则将该文章重新添加到文章集合{A}中,并从文章集合{N}中删除该文章;最后将文章集合{M}重新添加到文章集合{A}中,其中,文章集合{N}中每篇文章正文对应的文字块与文章集合{M}比较,查找匹配的文章步骤如下:
(2.3.1)从文章集合{N}中取出一个与已取文章不同的文章;获取该不同的文章正文所对应的文字块的矩形区域RectT;
(2.3.2)从文章集合{M}中取出一个与已取文章不同的文章;合并文章所包含的文字块的矩形区域,得到包含所有文字块的外包矩形区域RectM;
(2.3.3)求矩形区域RectT与矩形区域RectM的交集,得到RectInsect;
(2.3.4)计算矩形区域RectT的面积AreaRectT,矩形区域RectM的面积AreaRectM,矩形区域RectInsect的面积AreaRectInsect;
(2.3.5)如果AreaRectInsect/AreaRectT>0.5或者AreaRectInsect/AreaRectM>0.5成立,表示文章集合{N}中文章正文对应的文字块找到了文章集合{M}中匹配的文章;否则执行(2.3.2)步骤;文章集合{M}遍历结束后,重新执行(2.3.1)步骤,以保证文章集合{N}中的文章被遍历一次。
4.如权利要求1所述的图文自动关联方法,其特征在于,该方法还包括以下操作:查看图片块集合{P}中是否仍存在图片块,若存在,依次获取该存在的图片块,并为之单独创建一篇文章,设置该存在的图片块为单独创建的文章的附图。
5.如权利要求4所述的图文自动关联方法,其特征在于,该方法还包括以下操作:从图片块集合{P}中删除该存在的图片,并将此单独创建的文章添加到文章集合{A}中。
6.一种版式文件图文自动关联系统,其特征在于,该图文自动关联系统包括: 
图片块获取器,用于从版式文件中获取图片块,形成图片块集合{P};
文章获取器,用于从从版式文件中获取文章,形成文章集合{A};
图片块提取器,用于从反解版式文件后得到的图片块集合{P}中取出一个与已取图片块不同的图片块,直至图片块集合{P}中的所有图片块被取过一次;
近邻比较器,用于比较文章集合{A}中的文章是否与图片块提取器中取出的图片块近邻,如果没有文章与图片块近邻,继续提取下一个图片;否则,则将此图片块设置为该文章的附图;如果有两个或者两个以上的文章与图片块近邻,则筛选出图片块与文章重叠度最大的一篇文章,将此图片块设置为该文章的附图;
图文关联器,用于将图片块在文章集合{A}中匹配的文章进行关联,将此图片块设置为该文章的附图,并添加到文章中;
其中,在文章集合{A}中查找与图片块近邻的文章;比较获取得到的文章是否与取出的图片块近邻具体操作为:
(1.1)设置获取得到的图片块为P1,获取得到的文章为A1;新建文字块集合{T},从文章A1中获取文章的引题,标题,副题所对应的文字块,放置在文字块集合{T}中;
(1.2)依次获取文字块集合{T}中的文字块,设为T1,查看图片块P1是否与文字块T1近邻;如果近邻条件成立,记录图片块P1与文章的重叠度;如果近邻条件不成立,继续从文字块集合{T}中获取下一个文字块,继续同该图片块P1进行比较是否近邻;如果图片块P1和文字块集合{T}中任何一个文字块都不存在近邻的关系,那么执行步骤(1.3);
(1.3)比较图片块P1是否与文章正文近邻:新建文字块集合{L},如果文章正文对应的文字块的子块个数大于1,则获取得到该正文对应的文字块的所有子块,并放置在集合{L}中,依次获取集合{L}中的文字块,设为T1,查看图片块P1与文字块T1是否近邻;否则比较文章正文对应的文字块T1同图片块P1是否近邻;如果近邻条件成立,记录图片块P1与文章的重叠度; 
其中,步骤(1.2)中查看图片块P1是否与文字块T1近邻的方法如下:
版面平均字体大小为所有的文字块的字号的平均值,设置为AvgFontSize;
设取到的图片块P1的左上角坐标为(X1,Y1),右下角坐标为(X1’,Y1’);图片块P1的宽度为W1=X1’X1,图片块P1的高度H1=Y1’-Y1;
获取到的文字块T1左上角坐标为(X2,Y2),右下角坐标为(X2’,Y2’);文字块T1的宽度为W2=X2’-X2,文字块T1的高度H2=Y2’-Y2,文字块T1的字体大小为f;
然后进行如下操作:
(1.2.1)计算图片块P1与文字块T1近邻的有效距离:
DistThreshold=C1*AvgFontSize+f*C2;
其中C1和C2为图片块P1与文字块T1近邻的调节系数,1<C1<5,0.1<C2<0.5;在实际的应用过程中,根据实际的需要调节C1和C2,得到图片块P1与文字块T1近邻的有效距离;
(1.2.2)计算图片块P1与文字块T1的重叠度:
垂直方向上的重叠度:
OverlapY=(min(Y1’,Y2’)-max(Y1,Y2))/(max(Y1’,Y2’)-min(Y1,Y2));
水平方向上的重叠度:
OverlapX=(min(X1’,X2’)-max(X1,X2))/(max(X1’,X2’)-min(X1,X2));
(1.2.3)计算图片块P1与文字块T1最小重叠度:
水平方向上的最小重叠是:
OverlapXMin=(min(X1’,X2’)-max(X1,X2))/min(X1’-X1,X2’-X2);
垂直方向上的最小重叠度:
OverlapYMin=(min(Y1’,Y2’)-max(Y1,Y2))/min(Y1’Y1,Y2’-Y2);
(1.2.4)计算文字块T1与图片块P1的重叠距离:
水平方向上的重叠距离DistX:
DistX=max(X1,X2)-min(X1’,X2’); 
垂直方向上的重叠距离DistY:
DistY=max(Y1,Y2)-min(Y1’,Y2’);
其中max(a,b)表示取两者的较大值,min(a,b)表示取两者的较小值;
(1.2.5)判定如下条件是否其中一项成立:
a1.OverlapX>Dx且OverlapY>Dy;
b 1.OverlapXMin>Dxmin且OverlapY>Dy;
c 1.OverlapYMin>Dymin且OverlapX>Dx;
d 1.OverlapYMin>Dymin且OverlapXMin>Dxmin且(X2’-X2)>C*AvgFontSize;其中C为文字块T1与图片块P1近邻的调节系数,2<C<8;
e1.文章标题对应的文字块的排版类型为水平排版时,且OverlapX>0且OverlapXMin>Dxmin且DistY<DistThreshold且Y2<Y 1;
f1.文章标题对应的文字块的排版类型为垂直排版时,且OverlapY>0且OverlapYMin>Dymin且DistY<DistThreshold;
如果以上条件任何一项都成立,则表示图片块P1与文字块T1近邻;近邻成立的时候记录图片块与文章的重叠度;文章A1标题对应的文字块的排版类型为水平排版时,那么图片块P1与文章的重叠度为OverlapX,文章A1标题对应的文字块的排版类型为垂直排版时,图片块P1与文章的重叠度为OverlapY;
其中,步骤(1.3)中查看图片块P1与文字块T1是否近邻的方法具体为:
(1.3.1)计算图片块P1与文字块T1近邻的有效距离:
DistThreshold=C 1*AvgFontSize;
其中C1为图片块P1与文字块T1近邻的调节系数,1<C1<5;在实际的应用过程中,根据实际的需要调节C1,得到图片块P1与文字块T1近邻的有效距离;
(1.3.2)利用步骤(1.2.2)的方法,计算图片块P1与文字块T1重叠度, 得到OverlapY和OverlapX;
(1.3.3)利用步骤(1.2.3)的方法,计算图片块P1与文字块T1最小重叠度,得到OverlapXMin和OverlapYMin;
(1.3.4)判定如下条件是否其中一项成立:
a2.OverlapX>Dx且OverlapY>Dy;
b2.OverlapXMin>Dxmin且OverlapY>Dy;
c2.OverlapYMin>Dymin且OverlapX>Dx;
d2.OverlapX>Dx  且OverlapY>Dy  且OverlapXMin*OverlapYMin>Dxymin且OverlapX*OverlapY>Dxy;
e2.OverlapXMin>Dxmin且OverlapYMin>Dymin;
如果以上条件任何一项都成立,则表示图片块P1与文字块T1近邻;近邻成立的时候记录图片块P1与文章的重叠度;重叠度为OverlapX和OverlapY中最大的一个;
所述步骤(1.2.5)和(1.3.4)中,Dx和Dy为文字块T1与图片块P1之间水平和垂直方向上的近邻重叠系数,0<Dx<1,0<Dy<1;Dxmin和Dymin为文字块T1与图片块P1之间水平和垂直方向上的最小近邻重叠系数,0<Dxmin<1,0<Dymin<1;所述步骤(1.3.4)中,Dxymin为最小公共重叠系数,0<Dxymin<1;Dxy为公共重叠系数,0<Dxy<1;在实际的应用过程中,根据实际的需要调节以上系数。
7.如权利要求6所述的图文自动关联系统,其特征在于,还包括:
文章正文生成器,用于将只有正文的文章和没有正文的文章进行匹配;如果匹配成功,将只有正文的文章的正文对应的文字块设置为没有正文的文章的正文,具体操作是:
(2.1)创建文章集合{N},筛选文章集合{A}中只存在正文的文章,添加到文章集合{N}中,并从文章集合{A}中删除;
(2.2)创建文章集合{M},筛选文章集合{A}中正文为空的文章,添加到 文章集合{M}中,并从文章集合{A}中删除;
(2.3)将文章集合{N}中每篇文章正文对应的文字块与文章集合{M}比较,如果能找到匹配的文章,将此文章正文对应的文字块设置为匹配文章的正文,并从文章集合{N}中删除该文章;如找不到匹配的文章,则将该文章重新添加到文章集合{A}中,并从文章集合{N}中删除该文章;最后将文章集合{M}重新添加到文章集合{A}中,其中,文章集合{N}中每篇文章正文对应的文字块与文章集合{M}比较,查找匹配的文章步骤如下:
(2.3.1)从文章集合{N}中取出一个与已取文章不同的文章;获取该不同的文章正文所对应的文字块的矩形区域RectT;
(2.3.2)从文章集合{M}中取出一个与已取文章不同的文章;合并文章所包含的文字块的矩形区域,得到包含所有文字块的外包矩形区域RectM;
(2.3.3)求矩形区域RectT与矩形区域RectM的交集,得到RectInsect;
(2.3.4)计算矩形区域RectT的面积AreaRectT,矩形区域RectM的面积AreaRectM,矩形区域RectInsect的面积AreaRectInsect;
(2.3.5)如果AreaRectInsect/AreaRectT>0.5或者AreaRectInsect/AreaRectM>0.5成立,表示文章集合{N}中文章正文对应的文字块找到了文章集合{M}中匹配的文章;否则执行(2.3.2)步骤;文章集合{M}遍历结束后,重新执行(2.3.1)步骤,以保证文章集合{N}中的文章被遍历一次。
8.如权利要求6或7所述的图文自动关联系统,其特征在于,还包括:图片块判断器,用于查看经图片块提取器和近邻比较器处理后图片块集合中是否仍存在图片块,若存在,则所述图文关联器还包括以下功能:依次获取该存在的图片块,并为之单独创建一篇文章,设置该存在的图片块为单独创建的文章的附图,添加到文章中。
CN 200810239369 2008-12-11 2008-12-11 一种版式文件图文自动关联的方法及系统 Expired - Fee Related CN101419717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810239369 CN101419717B (zh) 2008-12-11 2008-12-11 一种版式文件图文自动关联的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810239369 CN101419717B (zh) 2008-12-11 2008-12-11 一种版式文件图文自动关联的方法及系统

Publications (2)

Publication Number Publication Date
CN101419717A CN101419717A (zh) 2009-04-29
CN101419717B true CN101419717B (zh) 2011-01-05

Family

ID=40630495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810239369 Expired - Fee Related CN101419717B (zh) 2008-12-11 2008-12-11 一种版式文件图文自动关联的方法及系统

Country Status (1)

Country Link
CN (1) CN101419717B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102280104B (zh) * 2010-06-11 2013-05-01 北大方正集团有限公司 一种基于智能标引的文件语音化处理方法和系统
CN102591845B (zh) * 2011-01-06 2014-06-04 北大方正集团有限公司 一种重叠文字的处理方法和装置
CN104424174B (zh) * 2013-09-11 2017-11-07 北京大学 文档处理系统和文档处理方法
CN104571833A (zh) * 2013-10-29 2015-04-29 镇江睿泰信息科技有限公司 移动阅读器
CN105183708A (zh) * 2014-06-05 2015-12-23 北大方正集团有限公司 一种基于微博内容的书籍制作方法及系统
CN107193792B (zh) * 2017-05-18 2020-10-02 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN110688508B (zh) * 2019-09-03 2022-09-02 北京字节跳动网络技术有限公司 图文数据扩充方法、装置及电子设备
US20230315980A1 (en) * 2022-03-30 2023-10-05 International Business Machines Corporation Content association in file editing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0753833B1 (en) * 1995-06-30 1999-11-24 Océ-Technologies B.V. Apparatus and method for extracting articles from a document
CN1503160A (zh) * 2002-11-20 2004-06-09 英业达股份有限公司 计算机可执行的电子书阅读界面的自动排版方法
CN101123002A (zh) * 2007-09-14 2008-02-13 北大方正集团有限公司 一种图文的自动排版方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0753833B1 (en) * 1995-06-30 1999-11-24 Océ-Technologies B.V. Apparatus and method for extracting articles from a document
CN1503160A (zh) * 2002-11-20 2004-06-09 英业达股份有限公司 计算机可执行的电子书阅读界面的自动排版方法
CN101123002A (zh) * 2007-09-14 2008-02-13 北大方正集团有限公司 一种图文的自动排版方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JP特开2003-308313A 2003.10.31
JP特开2005-63364A 2005.03.10
JP特开平8-194828A 1996.07.30
房毅等.方正飞腾4.0系统的特点及在期刊编排中的应用.《农业图书情报学刊》.2005,第17卷(第9期),全文. *

Also Published As

Publication number Publication date
CN101419717A (zh) 2009-04-29

Similar Documents

Publication Publication Date Title
CN101419717B (zh) 一种版式文件图文自动关联的方法及系统
CN108614898B (zh) 文档解析方法与装置
CN102156751B (zh) 一种提取视频指纹的方法及装置
CN101441621B (zh) 一种版式文件自动成文的方法及系统
JP5271667B2 (ja) メタデータ抽出装置およびその方法
US8693790B2 (en) Form template definition method and form template definition apparatus
CN104516891A (zh) 一种版面分析方法及系统
CN107203574A (zh) 数据管理和数据分析的聚合
CN102859525A (zh) 图像处理装置以及图像处理方法
US20200210746A1 (en) Floating form processing based on topological structures of documents
Praczyk et al. Automatic extraction of figures from scientific publications in high-energy physics
EP2884425B1 (en) Method and system of extracting structured data from a document
KR102147582B1 (ko) 속성 지식 확장 시스템 및 속성 지식 확장 방법
CN101663665B (zh) 导出原理图的方法
CN105488471B (zh) 一种字形识别方法及装置
CN103093213A (zh) 视频文件分类方法及终端
JP2013206280A (ja) 削除ファイル検出プログラム、削除ファイル検出方法、及び、削除ファイル検出装置
CN106202130A (zh) 一种镜头分割的方法及装置
CN101714149A (zh) 一种反解版式文件后得到的图片和图说的自动关联方法
JP2013015907A (ja) 画像分類装置、画像分類装置の制御方法及びプログラム
JP4628278B2 (ja) 表認識装置、及びコンピュータプログラム
JP6325472B2 (ja) データ構造抽出装置、データ構造抽出方法およびデータ構造抽出プログラム
Srividhya et al. Deep Learning based Telugu Video Text Detection using Video Coding Over Digital Transmission
RU2647671C2 (ru) Сегментация многостолбцового документа
KR102530657B1 (ko) 이미지에서 인식된 텍스트를 계층화하는 방법, 시스템, 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220615

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110105