CN102567291A - 一种删除版式文档中的花边字符的方法及装置 - Google Patents

一种删除版式文档中的花边字符的方法及装置 Download PDF

Info

Publication number
CN102567291A
CN102567291A CN2010106241802A CN201010624180A CN102567291A CN 102567291 A CN102567291 A CN 102567291A CN 2010106241802 A CN2010106241802 A CN 2010106241802A CN 201010624180 A CN201010624180 A CN 201010624180A CN 102567291 A CN102567291 A CN 102567291A
Authority
CN
China
Prior art keywords
block
cur
character
original block
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010106241802A
Other languages
English (en)
Other versions
CN102567291B (zh
Inventor
徐剑波
董宁
黄文娟
朱兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fangzheng Apapi Technology Co Ltd
New Founder Holdings Development Co ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201010624180.2A priority Critical patent/CN102567291B/zh
Publication of CN102567291A publication Critical patent/CN102567291A/zh
Application granted granted Critical
Publication of CN102567291B publication Critical patent/CN102567291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Controls And Circuits For Display Device (AREA)

Abstract

本发明涉及文档处理技术,公开了一种删除版式文档中的花边字符的方法及装置,用以提高版式文档的反解质量。该方法为:导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符,依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息,根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;将包含花边字符的原始块从所述原始块集合中删除;便去除了花边字符对版面文档的文章内容的影响,最大程序地还原了文章内容的阅读顺序,从而提高了文章内容的反解质量和标引效率,并且在一定程度上节省了数据加工成本。

Description

一种删除版式文档中的花边字符的方法及装置
技术领域
本发明涉及版式文档处理技术,特别涉及一种删除版式文档中的花边字符的方法及装置。
背景技术
花边字符是一种下载字符,通常被普遍运用在版式文档的排版中,使版面显得新颖、美观,增加版面的灵活性和促进版面的完整性。
在数字出版行业中,使用排版软件对版式文档进行排版后,需要对版式文档内记录的文章信息进行重构和标引,即从版式文档中提取文章的内容信息,但版式文档中存在的花边字符会对文章的内容信息的提取产生干扰,从而影响文章版面的阅读顺序。
发明内容
本发明实施例提供一种删除版式文档中的花边字符的方法及装置,用以提高版式文档的反解质量。
本发明实施例提供的具体技术方案如下:
一种删除版式文档中的花边字符的方法,包括:
导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符;
依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息;
根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;
将包含花边字符的原始块从所述原始块集合中删除。
一种删除版式文档中的花边字符的装置,包括:
导入单元,用于导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符;
第一确定单元,用于依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息;
第二确定单元,用于根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;
删除单元,用于将包含花边字符的原始块从所述原始块集合中删除。
本发明实施例中,通过对版式文档中包含的文字或/字符的排版方向及相应的字形相关信息的比对,准确地识别出版式文档的版面中存在的花边字符,并进行过滤删除,这样,便去除了花边字符对版面文档的文章内容的影响,最大程序地还原了文章内容的阅读顺序,使版式文档的版面显得新颖、美观,增加版面的灵活性和促进版面的完整性,从而提高了文章内容的反解质量和标引效率,并且在一定程度上节省了数据加工成本。
附图说明
图1为本发明实施例中用于删除花边字符的装置功能结构图;
图2为本发明实施例中在版式文档中删除花边字符整体流程图;
图3为本发明实施例中识别花边字符流程图;
图4为本发明实施例中对花边字符进行删除详细流程图。
具体实施方式
下面结合附图对本发明优选的实施方式进行详细说明。
参阅图1所示,本发明实施例中,用于删除版式文档中的花边字符的文档处理装置包括导入单元10、第一确定单元11、第二确定单元12和删除单元13,其中,
导入单元10,用于导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符;
第一确定单元11,用于依次确定原始块集合中每一个原始块的排版方向及字形相关信息;
第二确定单元12,用于根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;
删除单元13,用于将包含花边字符的原始块从原始块集合中删除。
参阅图2所示,本发明实施例中,文档处理装置对版式文档中的花边字符进行删除的详细流程如下:
步骤200:导入版式文档,并基于版式文档获取原始块集合S。
本实施例中,原始块集合S中记录了排版后,版式文档中文章内容包含的所有文字和符号,一个原始块块中包含至少一个文字或字符,即也可以包含多个文字或字符,同时,集合S中还记录了每个原始块的字形相关信息,所谓字形相关信息包含但不限于:原始块中包含的文字或字符的字体类型、字符类型、字号大小、序号、以及该原始块的坐标信息,其中,序号是指原始块输出时的顺序。
同时,本发明实施例中,为了更清楚的阐述技术方案,设置下述变量:当前原始块的排版方向CurBlockdir,初始值为未知类型,前一个原始块的排版方向PreBlockdir,初始值为未知类型;从第StartIndex个原始块开始,其后的原始块的字符与之相同,StartIndex初始值为0,用于记录删除字符的字体类型的字体集合F,初始为空集合,用于记录删除字符的字符类型的字符集合C,初始为空集合。
步骤210:将集合S中的原始块按照序号进行排序。
步骤220:依次确定集合S中每一个原始块的排版方向及相应的字形相关信息。
本实施例中,确定任意一个原始块的排版方向时,执行以下操作,
从集合S中读取出需要确定排版方向的当前原始块,以及与当前原始块相邻的下一个原始块,分别记为Blockcur和Blocknext,并且,采用CurBlockdir表示当前原始块的排版方向,采用PreBlockdir表示当前原始块的上一个原始块的排版方向,那么,
首先,若出现以下情况中的一种或任意组合,则确定CurBlockdir为未知类型:
1)Blocknext和Blockcur的字体不同;
2)Blocknext和Blockcur的序号不连续,即序号差值不为1;
将集合S中的原始块按照序号进行排序,这样就可以使原始块按照排版输出时的顺序排列,若排版时在两个原始块之间补充一个块,就会产生序号不连续的情况。
3)Blocknext和Blockcur的块间距小于设定阈值A,较佳的,设定阈值A=0.1;
4)Blocknext和Blockcur的字号差值大于设定阈值B,较佳的,设定阈值B=0.01;
Blocknext和Blockcur的字号差值超过设定阈值B,说明两者字号不近似,因此难以确定CurBlockdir
5)Blocknext和Blockcur的高度差值大于设定阈值C,较佳的,设定阈值C=0.01;
Blocknext和Blockcur的高度差值超过设定阈值C,说明两者高度不近似,因此难以确定CurBlockdir
6)Blocknext和Blockcur的宽度差值大于设定阈值D,较佳的,设定阈值D=0.01;
Blocknext和Blockcur的宽度差值超过设定阈值D,说明两者宽度不近似,因此难以确定CurBlockdir
7)Blocknext和Blockcur的显示字符数目不同;或者,Blocknext和Blockcur的显示字符数目相同,但每个显示字符的编码不相同。
其次,若Blocknext和Blockcur的上边界(即外切矩形的上边沿)的坐标差值未超过设定阈值E,较佳的,E=0.01,且Blockcur的右边界(即外切矩形的右边沿)和Blocknext的左边界(即外切矩形的左边沿)的坐标差值未超过设定阈值F,较佳的,F=0.2则CurBlockdir为横排从左到右的类型;
若Blocknext和Blockcur的上边界的坐标差值未超过设定阈值E,较佳的,E=0.01,且Blockcur的左边界和Blocknext的右边界的坐标差值未超过设定阈值G,较佳的,G=0.2,则CurBlockdir为横排从右到左的类型;
在上述两种情况下,原始块的排版方向为横排方式,且排列密集;
若Blocknext和Blockcur的上边界的坐标差值未超过设定阈值E,且上述两种情况均不符合,则CurBlockdir为未知类型。
再次,若Blocknext和Blockcur的左边界的坐标差值未超过设定阈值H,较佳的,H=0.01,且Blockcur的上边界的坐标大于Blocknext的上边界的坐标,则CurBlockdir为竖排从下到上的类型;
若Blocknext和Blockcur的左边界的坐标差值未超过设定阈值H,较佳的,I=0.01,且Blocknext的上边界的坐标大于Blockcur的上边界的坐标,则CurBlockdir为竖排从下到上的类型。
在上述两种情况下,原始块的排版方向为竖排方式,且排列不密集。
若Blocknext和Blockcur的左边界的坐标差值未超过设定阈值H,且上述两种情况均不符合,则CurBlockdir为未知类型。
步骤230:根据每个原始块的排版方向及相应的字形相关信息,确定包含花边字符的原始块。
步骤240:将包含花边字符的原始块从集合S中删除。
参阅图3所示,本实施例中,执行步骤230过程中,判断任意一个原始块是否为花边字符时,执行以下操作:
步骤2300:判断PreBlockdir和CurBlockdir是否相同,若相同,则执行步骤2308;否则,执行步骤2301。
步骤2301:判断是否PreBlockdir不是未知类型,且Blocknext的序号与StartIndex的序号的差值大于设定阈值Dvalue,本实施例中,较佳的,Dvalue=10;若是,则执行步骤2302;否则,执行步骤2307。
步骤2302:判断是否同时满足PreBlockdir是竖排从下到上或竖排从上到下的类型、与Blockcur的字符相同的原始块的数目nSameCharCount大于设定阈值Nount、以及Blocknext的序号与StartIndex的序号差值大于设定阈值Nvalue,本发明中,本实施例中,较佳的,Nount=25、Dvalue=25;若是,则进行步骤2303;否则,执行步骤2304。
步骤2303:确定Blockcur为花边签字,并在集合C中记录Blockcur的字符,以及设置nSameCharCount为0,接着执行步骤2306。
本实施例中,在执行步骤2303时,若字符集合C中不存在Blockcur的字符,保存Blockcur的字符,并将其出现次数记为1,若字符集合C中已存在Blockcur的字符,则将其出现次数+1。
步骤2304:判断是否满足PreBlockdir是竖排从下到上或竖排从上到下的类型,且Blockcur的显示字符数目大于1,若是,执行步骤2305,否则,执行步骤2306。
步骤2305:确定Blockcur为非花边签字,并将StartIndex设置为Blockcur的序号,以及设置nSameCharCount为0。
步骤2306:确定Blockcur为花边签字,并将Blockcur的字体记录在字体集合F中,以及更新其出现次数。
步骤2307:将CurBlockdir设置为PreBlockdir,将StartIndex设置为Blockcur的序号。
步骤2308:若Blockcur与Blocknext的字符相同,记录其连续相同字符的数目nSameCharCount。
接着,将会继续判断下一个原始块是否为花边字符,直到识别出所有花边字符,再对其进行删除。
参阅图4所示,本发明实施例中,执行步骤240的过程中,从集合S中删除任意一个包含花边字符的原始块的具体操作如下:
步骤2400:根据字体集合F中记录的字体及相应的出现次数,确定集合S中对应字体集合F中每一种字体的原始块数目。
具体实现步骤为:设置变量SameIdCount,用来记录原始块的字体和字体集合F中记录的字体相同的原始块数目,依次取出字体集合F中记录的字体,若集合S中的原始块的字体和相应的记录字体相同,则SameIdCount加1。
同时,还要设置变量nSameCharCount,用来表示连续的包含相同字符的原始块数目,初始值设为0,此时,集合S的原始块已按照序号进行了排序,后续将依次读取各个原始块。
步骤2401:从集合S中读取出需要处理的当前原始块,及与该当前原始块相邻的下一个原始块,分别记为Blockcur’和Blocknext’。
步骤2402:判断Blockcur’的字体记录是否在字体集合F中?若是,则执行步骤2403;否则,执行步骤2409。
步骤2403:判断Blockcur’的字符与Blocknext’的字符是否相同?若是,则执行步骤2404;否则,执行步骤2405。
步骤2404:将nSameCharCount加1,并设置Blockcur’的序号为花边字符的开始位置StartPos。
步骤2405:判断是否满足nSameCharCount加1大于设定阈值Samecount,并且Blockcur’的字符记录在字符集合C中,若是,则进行步骤2408;否则,执行步骤2406;本发明实施例中,较佳的,Samecount设置为25。
步骤2406:查看Blockcur’的字体出现的次数Count。
步骤2407:判断count是否大于设定阈值Maxcount,若是,则执行步骤2409;否则,执行步骤2408。
执行步骤2407的目的是,花边字符的字体和文字的字体有时会相同,为了避免文字被误当作花边删除,基于一个版面中的花边字符的数目较少的特点,设置一阈值Maxcount,若超过此阈值,则不认为是花边字符。
步骤2408:将序号在闭区间[StartPos,Blockcur’的序号]之间的原始块从集合S中删除,接着执行步骤2409。
步骤2409:将Blocknext’作为下一个需处理的当前原始块Blockcur’,并读取出与新的Blockcur’相邻的下一个新的Blocknext’,接着,返回步骤2402。
例如,实际应用中,假设存在如下内容的文档:
■现状:24日11时30分
■许,记者来到花园社区南
■门附近时,东湖路通往居
■民区的路口及道路两侧满
是积水,积水还夹杂着各
■种生活垃圾。骑行电动车
■或摩托车的市民都行驶在
■道路中央,与机动车抢道
而行。花园社区30号楼居
■民黄先生得知记者正在了
■解道路积水的事情,拉着
■记者说:“你看看,雨水排
■不出去都积在路上,居民
■出行都是问题。我曾经和
其他居民查看过积水原
■因,发现排水口都被堵上
■了,导致排水缓慢。”
■附近一位居民用木枝
■捅了捅排水口说:“你看,
■水根本不向排水道内淌,
■怎么能指望这些积水尽快
■排完呢?
则可以采用上述实施例中记载的技术方案,将花边字符■进行删除。
综上所述,本发明实施例中,通过对版式文档中包含的文字或/字符的排版方向及相应的字形相关信息的比对,准确地识别出版式文档的版面中存在的花边字符,并进行过滤删除,这样,便去除了花边字符对版面文档的文章内容的影响,最大程序地还原了文章内容的阅读顺序,从而提高了文章内容的反解质量和标引效率,使版式文档的版面显得新颖、美观,增加版面的灵活性和促进版面的完整性,并且在一定程度上节省了数据加工成本。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (15)

1.一种删除版式文档中的花边字符的方法,其特征在于,包括:
导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符;
依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息;
根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;
将包含花边字符的原始块从所述原始块集合中删除。
2.如权利要求1所述的方法,其特征在于,所述字形相关信息包括原始块中包含的文字或字符的字体类型、字符类型、字号大小、以及该原始块的序号和坐标信息。
3.如权利要求1或2所述的方法,其特征在于,确定任意一个原始块的排版方向时,若出现以下情况中的一种或任意组合,则确定所述任意一个原始块的排版方向CurBlockdir为未知类型,其中,Blockcur为当前读取的一个原始块,Blocknext为当前读取的Blockcur的下一个原始块:
Blocknext和Blockcur的字体不同;
Blocknext和Blockcur的序号不连续;
Blocknext和Blockcur的块间距小于设定阈值A;
Blocknext和Blockcur的字号差值大于设定阈值B;
Blocknext和Blockcur的高度差值大于设定阈值C;
Blocknext和Blockcur的宽度差值大于设定阈值D;
Blocknext和Blockcur的显示字符数目不同,或者,Blocknext和Blockcur的显示字符数目相同,但每个显示字符的编码不相同。
4.如权利要求1或2所述的方法,其特征在于,确定任意一个原始块的排版方向时,包括:
若Blocknext和Blockcur的外切矩形的上边沿的坐标差值未超过设定阈值E,且Blockcur的外切矩形的右边沿和Blocknext的外切矩形的左边沿的坐标差值未超过设定阈值F,则CurBlockdir为横排从左到右的类型;
若Blocknext和Blockcur的外切矩形的上边沿的坐标差值未超过设定阈值E,且Blockcur的左边界和Blocknext的外切矩形的右边沿的坐标差值未超过设定阈值G,则CurBlockdir为横排从右到左的类型;
若Blocknext和Blockcur的外切矩形的上边沿的坐标差值未超过设定阈值E,且上述两种情况均不符合,则CurBlockdir为未知类型;
其中,Blockcur为当前读取的任意一个原始块,Blocknext为当前读取的任意一个原始块的下一个原始块,CurBlockdir为Blockcur的排版方向。
5.如权利要求1或2所述的方法,其特征在于,确定任意一个原始块的排版方向时,包括:
若Blocknext和Blockcur的外切矩形左边沿的坐标差值未超过设定阈值H,且Blockcur的外切矩形上边沿的坐标大于Blocknext的外切矩形上边沿的坐标,则CurBlockdir为竖排从下到上的类型;
若Blocknext和Blockcur的外切矩形左边沿的坐标差值未超过设定阈值H,且Blocknext的外切矩形上边沿的坐标大于Blockcur的外切矩形上边沿的坐标,则CurBlockdir为竖排从下到上的类型;
若Blocknext和Blockcur的外切矩形左边沿的坐标差值未超过设定阈值H,且上述两种情况均不符合,则CurBlockdir为未知类型;
其中,Blockcur为当前读取的任意一个原始块,Blocknext为当前读取的任意一个原始块的下一个原始块,CurBlockdir为Blockcur的排版方向。
6.如权利要求2所述的方法,其特征在于,根据各原始块的排版方向及相应的字形相关信息,确定包含花边字符的原始块时,包括:
若同时满足:PreBlockdir和CurBlockdir不相同、PreBlockdir不是未知类型且Blocknext的序号与StartIndex的序号的差值大于设定阈值Dvalue、PreBlockdir是竖排从下到上或竖排从上到下的类型、与Blockcur的字符相同的原始块的数目大于设定阈值Nount、以及Blocknext的序号与StartIndex的序号差值大于设定阈值Nvalue,则确定Blockcur为花边字符,记录Blockcur的字符并更新该字符出现次数,以及记录Blockcur的字体并更新该字体的出现次数;
其中,PreBlockdir为读取的当前原始块的上一个原始块的排版类型,StartIndex为字符连续相同的原始块的起始位置。
7.如权利要求2所述的方法,其特征在于,根据各原始块的排版方向及相应的字形相关信息,确定包含花边字符的原始块时,包括:
若仅满足:PreBlockdir和CurBlockdir不相同、PreBlockdir不是未知类型且Blocknext的序号与StartIndex的序号的差值大于设定阈值Dvalue,则进一步判断是否满足:PreBlockdir是竖排从下到上或竖排从上到下的类型,且Blockcur的显示字符数目大于1时,若是,则确定Blockcur为非花边字符,并将StartIndex设置为Blockcur的序号,否则,确定Blockcur为花边字符,并记录Blockcur的字体并更新该字体的出现次数;
其中,PreBlockdir为读取的当前原始块的上一个原始块的排版类型,StartIndex为字符连续相同的原始块的起始位置。
8.如权利要求6或7所述的方法,其特征在于,将包含花边字符的任意一个原始块从所述原始块集合中删除,包括:
若确定当前读取的原始块Blockcur’包含的字体已被记录,且Blockcur’和与Blockcur’相邻的下一个原始块Blocknext’包含的字符不相同,则在进一步确定满足nSameCharCount大于设定阈值Samecount,且Blockcur’包含的字符已被记录时,将序号在[StartPos,Blockcur’的序号]之间的原始块从所述原始块集合中删除;
其中,StartPos为花边字符的起始位置,nSameCharCount为字符连续相同的原始块的数目。
9.如权利要求6或7所述的方法,其特征在于,将包含花边字符的任意一个原始块从所述原始块集合中删除,包括:
若确定当前读取的原始块Blockcur’包含的字体已被记录,且Blockcur’和与Blockcur’相邻的下一个原始块Blocknext’包含的字符不相同,则在进一步确定不满足nSameCharCount大于设定阈值Samecount,且Blockcur’包含的字符已被记录时,获取已记录的Blockcur’的字体出现的次数Count,并在确定Count不大于设定阈值Maxcount时,将序号在[StartPos,Blockcur’的序号]之间的原始块从所述原始块集合中删除;
其中,StartPos为花边字符的起始位置,nSameCharCount为字符连续相同的原始块的数目。
10.一种删除版式文档中的花边字符的装置,其特征在于,包括:
导入单元,用于导入版式文档,并获取包含版式文档中全部文字和符号的原始块集合,一个原始块中包含至少一个文字或字符;
第一确定单元,用于依次确定所述原始块集合中每一个原始块的排版方向及字形相关信息;
第二确定单元,用于根据每个原始块的排版方向及字形相关信息,确定包含花边字符的原始块;
删除单元,用于将包含花边字符的原始块从所述原始块集合中删除。
11.如权利要求10所述的装置,其特征在于,所述第一确定单元确定所述字形相关信息时,确定原始块中包含的文字或字符的字体类型、字符类型、字号大小、以及该原始块的序号和坐标信息。
12.如权利要求11所述的装置,其特征在于,所述第二确定单元根据各原始块的排版方向及相应的字形相关信息,确定包含花边字符的原始块时,
若同时满足:PreBlockdir和CurBlockdir不相同、PreBlockdir不是未知类型且Blocknext的序号与StartIndex的序号的差值大于设定阈值Dvalue、PreBlockdir是竖排从下到上或竖排从上到下的类型、与Blockcur的字符相同的原始块的数目大于设定阈值Nount、以及Blocknext的序号与StartIndex的序号差值大于设定阈值Nvalue,则确定Blockcur为花边字符,记录Blockcur的字符并更新该字符出现次数,以及记录Blockcur的字体并更新该字体的出现次数。
13.如权利要求11所述的装置,其特征在于,所述删除单元根据各原始块的排版方向及相应的字形相关信息,确定包含花边字符的原始块时,
若仅满足:PreBlockdir和CurBlockdir不相同、PreBlockdir不是未知类型且Blocknext的序号与StartIndex的序号的差值大于设定阈值Dvalue,则进一步判断是否满足:PreBlockdir是竖排从下到上或竖排从上到下的类型,且Blockcur的显示字符数目大于1时,若是,则确定Blockcur为非花边字符,并将StartIndex设置为Blockcur的序号,否则,确定Blockcur为花边字符,并记录Blockcur的字体并更新该字体的出现次数;
其中,PreBlockdir为读取的当前原始块的上一个原始块的排版类型,StartIndex为文档起始位置,StartIndex为字符连续相同的原始块的起始位置。
14.如权利要求12或13所述的装置,其特征在于,所述删除单元将包含花边字符的任意一个原始块从所述原始块集合中删除时,若确定当前读取的原始块Blockcur’包含的字体已被记录,且Blockcur’和与Blockcur’相邻的下一个原始块Blocknext’包含的字符不相同,则再进一步确定满足nSameCharCount大于设定阈值Samecount,且Blockcur’包含的字符已被记录时,将序号在[StartPos,Blockcur’的序号]之间的原始块从所述原始块集合中删除;
其中,StartPos为花边字符的起始位置,nSameCharCount为字符连续相同的原始块的数目。
15.如权利要求12或13所述的装置,其特征在于,所述删除单元将包含花边字符的任意一个原始块从所述原始块集合中删除时,若确定当前读取的原始块Blockcur’包含的字体已被记录,且Blockcur’和与Blockcur’相邻的下一个原始块Blocknext’包含的字符不相同,则在进一步确定不满足nSameCharCount大于设定阈值Samecount,且Blockcur’包含的字符已被记录时,获取已记录的Blockcur’的字体出现的次数Count,并在确定Count不大于设定阈值Maxcount时,将序号在[StartPos,Blockcur’的序号]之间的原始块从所述原始块集合中删除;
其中,StartPos为花边字符的起始位置,nSameCharCount为字符连续相同的原始块的数目。
CN201010624180.2A 2010-12-31 2010-12-31 一种删除版式文档中的花边字符的方法及装置 Active CN102567291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010624180.2A CN102567291B (zh) 2010-12-31 2010-12-31 一种删除版式文档中的花边字符的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010624180.2A CN102567291B (zh) 2010-12-31 2010-12-31 一种删除版式文档中的花边字符的方法及装置

Publications (2)

Publication Number Publication Date
CN102567291A true CN102567291A (zh) 2012-07-11
CN102567291B CN102567291B (zh) 2014-09-10

Family

ID=46412736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010624180.2A Active CN102567291B (zh) 2010-12-31 2010-12-31 一种删除版式文档中的花边字符的方法及装置

Country Status (1)

Country Link
CN (1) CN102567291B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912874A (zh) * 2006-08-30 2007-02-14 北京大学 一种提取见报资料数据信息的方法
CN101021841A (zh) * 2007-03-23 2007-08-22 北京北大方正电子有限公司 一种维文排版中自动添加连音符控制行格式撑满的方法
CN101114281A (zh) * 2007-08-30 2008-01-30 上海交通大学 开放式文档同构引擎系统
CN101183357A (zh) * 2007-11-13 2008-05-21 北大方正集团有限公司 带有可变文字的版面输出方法和装置
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
CN101231633A (zh) * 2007-01-23 2008-07-30 北京北大方正电子有限公司 一种包括嵌套框对象的排版方法和装置
CN101271463A (zh) * 2007-06-22 2008-09-24 北大方正集团有限公司 版式文件逻辑结构信息的表示方法和系统
WO2010001979A1 (en) * 2008-06-30 2010-01-07 Canon Kabushiki Kaisha Information processing apparatus, method of controlling the same, and storage medium
CN101714149A (zh) * 2008-10-08 2010-05-26 北大方正集团有限公司 一种反解版式文件后得到的图片和图说的自动关联方法
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1912874A (zh) * 2006-08-30 2007-02-14 北京大学 一种提取见报资料数据信息的方法
CN101231633A (zh) * 2007-01-23 2008-07-30 北京北大方正电子有限公司 一种包括嵌套框对象的排版方法和装置
CN101021841A (zh) * 2007-03-23 2007-08-22 北京北大方正电子有限公司 一种维文排版中自动添加连音符控制行格式撑满的方法
CN101271463A (zh) * 2007-06-22 2008-09-24 北大方正集团有限公司 版式文件逻辑结构信息的表示方法和系统
CN101114281A (zh) * 2007-08-30 2008-01-30 上海交通大学 开放式文档同构引擎系统
CN101183357A (zh) * 2007-11-13 2008-05-21 北大方正集团有限公司 带有可变文字的版面输出方法和装置
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
WO2010001979A1 (en) * 2008-06-30 2010-01-07 Canon Kabushiki Kaisha Information processing apparatus, method of controlling the same, and storage medium
CN101714149A (zh) * 2008-10-08 2010-05-26 北大方正集团有限公司 一种反解版式文件后得到的图片和图说的自动关联方法
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YANG M ET AL: "Extracting mathematical expressions from postscript documents", 《PROCEEDINGS OF THE INTERNATIONAL SYMPOSIUM ON SYMBOLIC AND ALGEBRAIC COMPUTATION》, 30 December 2004 (2004-12-30), pages 305 - 311 *
张伯: "基于PDF文字流的表格识别技术研究", 《中国优秀硕士学位论文全文数据库》, 23 July 2010 (2010-07-23), pages 17 - 52 *
张志伟 等: "Postscript格式科技文献中数学表达式的提取方法", 《计算机应用与软件》, vol. 25, no. 11, 30 November 2008 (2008-11-30), pages 157 - 159 *
王宇: "中文版面分析与重构研究", 《中国优秀硕士学位论文全文数据库》, 24 February 2004 (2004-02-24), pages 10 - 44 *

Also Published As

Publication number Publication date
CN102567291B (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
CN103336690A (zh) 基于html5的文字元素绘制方法及装置
CN107977346B (zh) 一种pdf文档编辑方法及终端设备
CN103077183A (zh) 一种分布式顺序表的数据导入方法及其系统
CN105577719B (zh) 一种数据压缩方法和装置
CN105260464A (zh) 数据存储结构的转换方法及装置
CN112732191B (zh) 基于日志结构合并树合并数据的方法、系统、设备及介质
CN104778222A (zh) 基于usb存储设备的媒体库建立及更新方法
CN101551820B (zh) 兴趣点属性的索引数据库的生成方法和装置
CN105404472A (zh) 一种压缩日志时间数据的存储空间的方法及装置
CN104866610A (zh) 一种基于相似类型匹配估算的SQLite删除数据恢复方法
CN108197204B (zh) 文件处理方法及装置
CN103294953A (zh) 一种手机恶意代码检测方法及系统
CN107704341A (zh) 文件恢复方法、装置及电子设备
CN105488471A (zh) 一种字形识别方法及装置
CN102567291B (zh) 一种删除版式文档中的花边字符的方法及装置
CN106155572B (zh) 数据储存装置以及数据存取方法
CN108491209B (zh) 一种html页面中公共代码的提取方法及装置
CN106708713A (zh) 日志文件的写入方法及装置
CN112131202B (zh) 一种分布式文件存储和读取方法、终端设备及存储介质
CN104636119A (zh) 用于处理混编指令的方法和设备
CN104834549B (zh) 移动终端的应用程序文件更新方法及装置
CN108846039B (zh) 数据流向确定方法及装置
CN102236688A (zh) 一种大型软件边下载边运行应用中的压缩方法
CN108108467B (zh) 数据删除方法及装置
CN105302889A (zh) 数据存储结构的转换方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220708

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Beijing Fangzheng apapi Technology Co., Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Beijing Fangzheng apapi Technology Co., Ltd.

TR01 Transfer of patent right