CN101980133A - 双层电子文件文本选择区域偏差的检测方法和系统 - Google Patents

双层电子文件文本选择区域偏差的检测方法和系统 Download PDF

Info

Publication number
CN101980133A
CN101980133A CN2010105311511A CN201010531151A CN101980133A CN 101980133 A CN101980133 A CN 101980133A CN 2010105311511 A CN2010105311511 A CN 2010105311511A CN 201010531151 A CN201010531151 A CN 201010531151A CN 101980133 A CN101980133 A CN 101980133A
Authority
CN
China
Prior art keywords
character
double
layer
file
deck
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105311511A
Other languages
English (en)
Other versions
CN101980133B (zh
Inventor
周长岭
赵海涛
兰荣春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Founder International Co Ltd
Original Assignee
Founder International Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder International Co Ltd filed Critical Founder International Co Ltd
Priority to CN2010105311511A priority Critical patent/CN101980133B/zh
Publication of CN101980133A publication Critical patent/CN101980133A/zh
Application granted granted Critical
Publication of CN101980133B publication Critical patent/CN101980133B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明公开了一种双层电子文件文本选择区域偏差的检测方法和系统,以解决现有技术中双层电子文件的文本选择区域的视觉效果不佳的问题。该方法包括:获取双层电子文件文字层的单个字符的字块范围,并且获取所述双层电子文件图像层的单个字形图像的外接矩形范围;计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异,在其中至少一项差异大于预设值的情况下生成提示信息。根据本发明的技术方案,能够向用户提示对文本选择区域的偏差状态,供其参考以及对字体的尺寸进行调整,使在双层电子文件中作出的文本选择区域与字体区域对位准确,提高用户的体验。

Description

双层电子文件文本选择区域偏差的检测方法和系统
技术领域
本发明涉及一种双层电子文件文本选择区域偏差的检测方法和系统。
背景技术
可移植文档格式(Portable Document Format,PDF)的双层电子文件例如书籍、文件,是有图像层与文字层的PDF文件,图像层在上显示原书例如纸书的版面,上面每一个字实际上是一个字形图像;文字层在图像层下面,并不显示出来,文字层中包含文件的电子版文本,通常是使用光学字符识别(Optical Character Recognition,OCR)的方式获得。文字层的文本与图像层的字形图像按字对位,图像层的每个字的下方就是该字在文字层中的文本。
用户在使用双层电子文件的阅读软件的选择工具时,因为上述的对位的关系,所以根据图像层的显示就能够选择到文字层的用户需要的文本。图1是根据现有技术中使双层电子文件的阅读软件进行文本选择的示意图。如图1所示,在方框10中的文本块内,双层电子文件的阅读软件使用户选择时被选的区域变为黑色,但黑色区域与显示的文本的区域重合度较低,例如方框11和方框12中的黑色区域没有完全覆盖被选字符,这样视觉效果较差,特别是在行间距较小的情况下,更影响了用户的使用体验。
现有的双层电子文件的文本选择区域的视觉效果不佳,对于该问题,目前尚未提出有效解决方案。
发明内容
本发明的主要目的是提供一种双层电子文件文本选择区域偏差的检测方法和系统,用以解决现有技术中双层电子文件的文本选择区域的视觉效果不佳的问题。
为解决上述问题,根据本发明的一个方面,提供了一种双层电子文件文本选择区域偏差的检测方法。
本发明的双层电子文件文本选择区域偏差的检测方法包括:获取双层电子文件文字层的单个字符的字块范围,并且获取所述双层电子文件图像层的单个字形图像的外接矩形范围;计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异,在其中至少一项差异大于预设值的情况下生成提示信息。
进一步地,获取双层电子文件文字层的单个字符的字块范围包括:获取双层电子文件文字层的单个字符在文字层的坐标;将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;根据转化后的单个字符在所述图像层的坐标确定所述单个字符的字块范围。
进一步地,获取所述双层电子文件图像层的单个字形图像的外接矩形范围包括:搜索所述单个字形图像的边界;根据所述边界确定所述双层电子文件图像层的单个字形图像的外接矩形范围。
进一步地,生成提示信息包括:在所述图像层的字形图像上添加矩形框,该矩形框的大小与所述文字层中对位于该字形图像的字符的字块范围相同。
进一步地,所述双层电子文件为可移植文档格式(Portable Document Format)的文件。
为解决上述问题,根据本发明的另一方面,提供了一种双层电子文件文本选择区域偏差的检测系统。
本发明的双层电子文件文本选择区域偏差的检测系统包括:第一获取模块,用于获取双层电子文件文字层的单个字符的字块范围;第二获取模块,用于获取所述双层电子文件图像层的单个字形图像的外接矩形范围;计算模块,用于计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异;输出模块,用于在所述计算模块得出的两项差异中至少一项差异大于预设值的情况下生成提示信息。
进一步地,所述第一获取模块还用于:获取双层电子文件文字层的单个字符在文字层的坐标;将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;根据转化后的单个字符在所述图像层的坐标确定所述单个字符的字块范围。
进一步地,所述第二获取模块还用于:搜索所述单个字形图像的边界;根据所述边界确定所述双层电子文件图像层的单个字形图像的外接矩形范围。
进一步地,所述输出模块还用于:在所述图像层的字形图像上添加矩形框,该矩形框的大小与所述文字层中对位于该字形图像的字符的字块范围相同。
根据本发明的技术方案,根据双层电子文件文字层的单个字符的字块范围和图像层的单个字形图像的外接矩形范围,确定对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异,这样就可以根据该差异提示用户,供其参考以及对字体的尺寸进行调整,使在双层电子文件中作出的文本选择区域与字体区域对位准确,提高用户的体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据现有技术中使双层电子文件的阅读软件进行文本选择的示意图;
图2是根据本发明实施例的双层电子文件文本选择区域偏差的检测方法的主要步骤的示意图;
图3是根据本发明实施例的输出文本选择区域偏差提示信息的示意图;以及
图4是根据本发明实施例的双层电子文件文本选择区域偏差的检测系统的主要模块的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图2是根据本发明实施例的双层电子文件文本选择区域偏差的检测方法的主要步骤的示意图。如图2所示,该方法包括如下的步骤S21至步骤S24。
步骤S21:获取双层电子文件文字层的单个字符的字块范围,并且获取双层电子文件图像层的单个字形图像的外接矩形范围。
在本步骤中,获取双层电子文件文字层的单个字符的字块范围具体可以采用如下步骤:获取双层电子文件文字层的单个字符在文字层的坐标;将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;根据转化后的单个字符在图像层的坐标确定所述单个字符的字块范围。
在本步骤中,获取双层电子文件图像层的单个字形图像的外接矩形范围具体可以采用如下步骤:搜索单个字形图像的边界;根据所述边界确定所述双层电子文件图像层的单个字形图像的外接矩形范围。
步骤S22:计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异。因为图像层的每个字块下方对应于该字在文字层中的文本,因此可以确定对应于同一字符的所述字块范围和所述外接矩形范围。
步骤S23:判断步骤S22中得出的两项差异是否大于预设值,若其中至少一项差异大于预设值,则进入步骤S24;否则返回步骤S21,不重复地获取下一个字符的字块范围。这里的预设值可以是两个值,分别于用于与两项差异比较,也可以是一个值。预设值可以根据显示时的字符大小和用户观察的敏锐程度来设定,例如设定为1.5mm或2mm,此时用户能够明显看到选择区域与字体区域存在偏差。
步骤S24:生成提示信息。生成提示信息可以是在图像层的字形图像上添加矩形框,该矩形框的大小与文字层中对位于该字形图像的字符的字块范围相同。在生成提示信息之后,可以根据用户的指令输出该提示信息。以上述的添加矩形框的方式为例,提示信息的输出如图3所示,图3是根据本发明实施例的输出文本选择区域偏差提示信息的示意图。
在图3中,方框30中的文本块经过检测,确认其中有若干文本的选择区域存在偏差,具体例如方框31、方框32、方框33、方框34、方框35所示。方框30中是图像层的状态,方框31至方框35则框出了文本层文字的范围。从图3中可以清晰地看到有哪些文本在选择之后存在选择区域偏差,这样用户可以参考类似于图3中的提示将这些文本的尺寸在文字层中进行调整。
图4是根据本发明实施例的双层电子文件文本选择区域偏差的检测系统的主要模块的示意图。如图4所示,双层电子文件文本选择区域偏差的检测系统40主要包括第一获取模块、第二获取模块、计算模块、输出模块。
第一获取模块,用于获取双层电子文件文字层的单个字符的字块范围;第二获取模块,用于获取所述双层电子文件图像层的单个字形图像的外接矩形范围;计算模块,用于计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异;输出模块,用于在所述计算模块得出的两项差异中至少一项差异大于预设值的情况下生成提示信息。
另外,第一获取模块还可以用于:获取双层电子文件文字层的单个字符在文字层的坐标;将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;根据转化后的单个字符在所述图像层的坐标确定所述单个字符的字块范围。
第二获取模块还可以用于:搜索所述单个字形图像的边界;根据所述边界确定双层电子文件图像层的单个字形图像的外接矩形范围。
输出模块还可以用于:在所述图像层的字形图像上添加矩形框,该矩形框的大小与文字层中对位于该字形图像的字符的字块范围相同。
根据本发明实施例的技术方案,根据双层电子文件文字层的单个字符的字块范围和图像层的单个字形图像的外接矩形范围,确定对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异,这样就可以根据该差异提示用户,供其参考以及对字体的尺寸进行调整,使双层电子文件的阅读软件的文本选择工具作出的文本选择区域与字体区域对位准确,提高用户的体验。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种双层电子文件文本选择区域偏差的检测方法,其特征在于,包括:
获取双层电子文件文字层的单个字符的字块范围,并且获取所述双层电子文件图像层的单个字形图像的外接矩形范围;
计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异,在其中至少一项差异大于预设值的情况下生成提示信息。
2.根据权利要求1所述的检测方法,其特征在于,获取双层电子文件文字层的单个字符的字块范围包括:
获取双层电子文件文字层的单个字符在文字层的坐标;
将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;
根据转化后的单个字符在所述图像层的坐标确定所述单个字符的字块范围。
3.根据权利要求1所述的检测方法,其特征在于,获取所述双层电子文件图像层的单个字形图像的外接矩形范围包括:
搜索所述单个字形图像的边界;
根据所述边界确定所述双层电子文件图像层的单个字形图像的外接矩形范围。
4.根据权利要求1所述的检测方法,其特征在于,生成提示信息包括:在所述图像层的字形图像上添加矩形框,该矩形框的大小与所述文字层中对位于该字形图像的字符的字块范围相同。
5.根据权利要求1至4中任一项所述的检测方法,其特征在于,所述双层电子文件为可移植文档格式的文件。
6.一种双层电子文件文本选择区域偏差的检测系统,其特征在于,包括:
第一获取模块,用于获取双层电子文件文字层的单个字符的字块范围;
第二获取模块,用于获取所述双层电子文件图像层的单个字形图像的外接矩形范围;
计算模块,用于计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异;
输出模块,用于在所述计算模块得出的两项差异中至少一项差异大于预设值的情况下生成提示信息。
7.根据权利要求6所述的检测系统,其特征在于,所述第一获取模块还用于:
获取双层电子文件文字层的单个字符在文字层的坐标;
将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;
根据转化后的单个字符在所述图像层的坐标确定所述单个字符的字块范围。
8.根据权利要求6所述的检测系统,其特征在于,所述第二获取模块还用于:
搜索所述单个字形图像的边界;
根据所述边界确定所述双层电子文件图像层的单个字形图像的外接矩形范围。
9.根据权利要求6所述的检测系统,其特征在于,所述输出模块还用于:在所述图像层的字形图像上添加矩形框,该矩形框的大小与所述文字层中对位于该字形图像的字符的字块范围相同。
CN2010105311511A 2010-10-29 2010-10-29 双层电子文件文本选择区域偏差的检测方法和系统 Expired - Fee Related CN101980133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105311511A CN101980133B (zh) 2010-10-29 2010-10-29 双层电子文件文本选择区域偏差的检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105311511A CN101980133B (zh) 2010-10-29 2010-10-29 双层电子文件文本选择区域偏差的检测方法和系统

Publications (2)

Publication Number Publication Date
CN101980133A true CN101980133A (zh) 2011-02-23
CN101980133B CN101980133B (zh) 2012-07-04

Family

ID=43600639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105311511A Expired - Fee Related CN101980133B (zh) 2010-10-29 2010-10-29 双层电子文件文本选择区域偏差的检测方法和系统

Country Status (1)

Country Link
CN (1) CN101980133B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968407A (zh) * 2011-08-31 2013-03-13 汉王科技股份有限公司 双层pdf文件的构造方法及装置
CN103176957A (zh) * 2011-12-21 2013-06-26 北大方正集团有限公司 文件的处理方法和装置
CN104166849A (zh) * 2013-05-17 2014-11-26 北大方正集团有限公司 一种电子文档识别方法及装置
CN109298819A (zh) * 2018-09-21 2019-02-01 Oppo广东移动通信有限公司 选择对象的方法、装置、终端及存储介质
CN112667115A (zh) * 2020-12-22 2021-04-16 科大讯飞股份有限公司 文字显示方法以及电子设备、存储装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4440513A (en) * 1981-03-12 1984-04-03 Fuji Xerox Co., Ltd. Character shaping device
CN1383516A (zh) * 2000-07-05 2002-12-04 八万系统有限公司 采用一对一比较的汉字校对系统
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4440513A (en) * 1981-03-12 1984-04-03 Fuji Xerox Co., Ltd. Character shaping device
CN1383516A (zh) * 2000-07-05 2002-12-04 八万系统有限公司 采用一对一比较的汉字校对系统
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968407A (zh) * 2011-08-31 2013-03-13 汉王科技股份有限公司 双层pdf文件的构造方法及装置
CN102968407B (zh) * 2011-08-31 2015-09-09 汉王科技股份有限公司 双层pdf文件的构造方法及装置
CN103176957A (zh) * 2011-12-21 2013-06-26 北大方正集团有限公司 文件的处理方法和装置
CN103176957B (zh) * 2011-12-21 2016-08-03 北大方正集团有限公司 文件的处理方法和装置
CN104166849A (zh) * 2013-05-17 2014-11-26 北大方正集团有限公司 一种电子文档识别方法及装置
CN104166849B (zh) * 2013-05-17 2017-04-19 北大方正集团有限公司 一种电子文档识别方法及装置
CN109298819A (zh) * 2018-09-21 2019-02-01 Oppo广东移动通信有限公司 选择对象的方法、装置、终端及存储介质
CN109298819B (zh) * 2018-09-21 2021-03-16 Oppo广东移动通信有限公司 选择对象的方法、装置、终端及存储介质
CN112667115A (zh) * 2020-12-22 2021-04-16 科大讯飞股份有限公司 文字显示方法以及电子设备、存储装置

Also Published As

Publication number Publication date
CN101980133B (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN101980133B (zh) 双层电子文件文本选择区域偏差的检测方法和系统
US7100110B2 (en) System for filling in documents using an electronic pen
CN101656024A (zh) 一种电子学习装置及其实现方法
CN105868171B (zh) 一种Excel文件的校验方法及装置
US20070129887A1 (en) Map information system and map information processing method and program
CN102201009A (zh) 一种表单生成方法和装置
JP2018037087A (ja) 手書き装置の文書の入力領域に用いる方法およびシステム
CN102693253A (zh) 图像管理和呈现
CN104036060A (zh) 一种工程图在线审核方法和系统
CN110457973A (zh) 一种票据识别的方法及系统
CN103186510A (zh) 一种转换文档格式的方法和装置
CN103729457A (zh) 基于互联网的数字化图书辅助阅读系统及其方法
CN102467653A (zh) 一种图文识别方法及系统
US10152472B2 (en) Apparatus and method for generating summary data of E-book or E-note
CN101017486A (zh) 通过名片扫描找到公司位置的方法
CN104679430A (zh) 可信电子笔迹产生方法、系统及电子签名笔
CN104679453A (zh) 一种信息录入、储存及排版打印的通用系统及方法
CN205318553U (zh) 数据处理装置和系统以及打印机
KR101516213B1 (ko) 도큐먼트를 반응형 웹으로 변환하는 반응형 웹 생성 방법
CN103488440A (zh) 单据打印装置和单据打印方法
JP4542050B2 (ja) ディジタルペン入力システム
CN114467123A (zh) 用于光学字符识别的电子设备、方法和非暂时性存储介质
CN106708801A (zh) 用于文本的校对方法
CN102442047B (zh) 用于拼版的标记处理方法和装置
CN102542074B (zh) 一种元素间拓扑关系的展示和搜索工具

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

Termination date: 20141029

EXPY Termination of patent right or utility model