CN101980133A - 双层电子文件文本选择区域偏差的检测方法和系统 - Google Patents
双层电子文件文本选择区域偏差的检测方法和系统 Download PDFInfo
- Publication number
- CN101980133A CN101980133A CN2010105311511A CN201010531151A CN101980133A CN 101980133 A CN101980133 A CN 101980133A CN 2010105311511 A CN2010105311511 A CN 2010105311511A CN 201010531151 A CN201010531151 A CN 201010531151A CN 101980133 A CN101980133 A CN 101980133A
- Authority
- CN
- China
- Prior art keywords
- character
- double
- layer
- file
- deck
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title abstract description 4
- 238000001514 detection method Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 abstract description 4
- 238000009795 derivation Methods 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
本发明公开了一种双层电子文件文本选择区域偏差的检测方法和系统,以解决现有技术中双层电子文件的文本选择区域的视觉效果不佳的问题。该方法包括:获取双层电子文件文字层的单个字符的字块范围,并且获取所述双层电子文件图像层的单个字形图像的外接矩形范围;计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异,在其中至少一项差异大于预设值的情况下生成提示信息。根据本发明的技术方案,能够向用户提示对文本选择区域的偏差状态,供其参考以及对字体的尺寸进行调整,使在双层电子文件中作出的文本选择区域与字体区域对位准确,提高用户的体验。
Description
技术领域
本发明涉及一种双层电子文件文本选择区域偏差的检测方法和系统。
背景技术
可移植文档格式(Portable Document Format,PDF)的双层电子文件例如书籍、文件,是有图像层与文字层的PDF文件,图像层在上显示原书例如纸书的版面,上面每一个字实际上是一个字形图像;文字层在图像层下面,并不显示出来,文字层中包含文件的电子版文本,通常是使用光学字符识别(Optical Character Recognition,OCR)的方式获得。文字层的文本与图像层的字形图像按字对位,图像层的每个字的下方就是该字在文字层中的文本。
用户在使用双层电子文件的阅读软件的选择工具时,因为上述的对位的关系,所以根据图像层的显示就能够选择到文字层的用户需要的文本。图1是根据现有技术中使双层电子文件的阅读软件进行文本选择的示意图。如图1所示,在方框10中的文本块内,双层电子文件的阅读软件使用户选择时被选的区域变为黑色,但黑色区域与显示的文本的区域重合度较低,例如方框11和方框12中的黑色区域没有完全覆盖被选字符,这样视觉效果较差,特别是在行间距较小的情况下,更影响了用户的使用体验。
现有的双层电子文件的文本选择区域的视觉效果不佳,对于该问题,目前尚未提出有效解决方案。
发明内容
本发明的主要目的是提供一种双层电子文件文本选择区域偏差的检测方法和系统,用以解决现有技术中双层电子文件的文本选择区域的视觉效果不佳的问题。
为解决上述问题,根据本发明的一个方面,提供了一种双层电子文件文本选择区域偏差的检测方法。
本发明的双层电子文件文本选择区域偏差的检测方法包括:获取双层电子文件文字层的单个字符的字块范围,并且获取所述双层电子文件图像层的单个字形图像的外接矩形范围;计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异,在其中至少一项差异大于预设值的情况下生成提示信息。
进一步地,获取双层电子文件文字层的单个字符的字块范围包括:获取双层电子文件文字层的单个字符在文字层的坐标;将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;根据转化后的单个字符在所述图像层的坐标确定所述单个字符的字块范围。
进一步地,获取所述双层电子文件图像层的单个字形图像的外接矩形范围包括:搜索所述单个字形图像的边界;根据所述边界确定所述双层电子文件图像层的单个字形图像的外接矩形范围。
进一步地,生成提示信息包括:在所述图像层的字形图像上添加矩形框,该矩形框的大小与所述文字层中对位于该字形图像的字符的字块范围相同。
进一步地,所述双层电子文件为可移植文档格式(Portable Document Format)的文件。
为解决上述问题,根据本发明的另一方面,提供了一种双层电子文件文本选择区域偏差的检测系统。
本发明的双层电子文件文本选择区域偏差的检测系统包括:第一获取模块,用于获取双层电子文件文字层的单个字符的字块范围;第二获取模块,用于获取所述双层电子文件图像层的单个字形图像的外接矩形范围;计算模块,用于计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异;输出模块,用于在所述计算模块得出的两项差异中至少一项差异大于预设值的情况下生成提示信息。
进一步地,所述第一获取模块还用于:获取双层电子文件文字层的单个字符在文字层的坐标;将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;根据转化后的单个字符在所述图像层的坐标确定所述单个字符的字块范围。
进一步地,所述第二获取模块还用于:搜索所述单个字形图像的边界;根据所述边界确定所述双层电子文件图像层的单个字形图像的外接矩形范围。
进一步地,所述输出模块还用于:在所述图像层的字形图像上添加矩形框,该矩形框的大小与所述文字层中对位于该字形图像的字符的字块范围相同。
根据本发明的技术方案,根据双层电子文件文字层的单个字符的字块范围和图像层的单个字形图像的外接矩形范围,确定对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异,这样就可以根据该差异提示用户,供其参考以及对字体的尺寸进行调整,使在双层电子文件中作出的文本选择区域与字体区域对位准确,提高用户的体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据现有技术中使双层电子文件的阅读软件进行文本选择的示意图;
图2是根据本发明实施例的双层电子文件文本选择区域偏差的检测方法的主要步骤的示意图;
图3是根据本发明实施例的输出文本选择区域偏差提示信息的示意图;以及
图4是根据本发明实施例的双层电子文件文本选择区域偏差的检测系统的主要模块的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图2是根据本发明实施例的双层电子文件文本选择区域偏差的检测方法的主要步骤的示意图。如图2所示,该方法包括如下的步骤S21至步骤S24。
步骤S21:获取双层电子文件文字层的单个字符的字块范围,并且获取双层电子文件图像层的单个字形图像的外接矩形范围。
在本步骤中,获取双层电子文件文字层的单个字符的字块范围具体可以采用如下步骤:获取双层电子文件文字层的单个字符在文字层的坐标;将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;根据转化后的单个字符在图像层的坐标确定所述单个字符的字块范围。
在本步骤中,获取双层电子文件图像层的单个字形图像的外接矩形范围具体可以采用如下步骤:搜索单个字形图像的边界;根据所述边界确定所述双层电子文件图像层的单个字形图像的外接矩形范围。
步骤S22:计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异。因为图像层的每个字块下方对应于该字在文字层中的文本,因此可以确定对应于同一字符的所述字块范围和所述外接矩形范围。
步骤S23:判断步骤S22中得出的两项差异是否大于预设值,若其中至少一项差异大于预设值,则进入步骤S24;否则返回步骤S21,不重复地获取下一个字符的字块范围。这里的预设值可以是两个值,分别于用于与两项差异比较,也可以是一个值。预设值可以根据显示时的字符大小和用户观察的敏锐程度来设定,例如设定为1.5mm或2mm,此时用户能够明显看到选择区域与字体区域存在偏差。
步骤S24:生成提示信息。生成提示信息可以是在图像层的字形图像上添加矩形框,该矩形框的大小与文字层中对位于该字形图像的字符的字块范围相同。在生成提示信息之后,可以根据用户的指令输出该提示信息。以上述的添加矩形框的方式为例,提示信息的输出如图3所示,图3是根据本发明实施例的输出文本选择区域偏差提示信息的示意图。
在图3中,方框30中的文本块经过检测,确认其中有若干文本的选择区域存在偏差,具体例如方框31、方框32、方框33、方框34、方框35所示。方框30中是图像层的状态,方框31至方框35则框出了文本层文字的范围。从图3中可以清晰地看到有哪些文本在选择之后存在选择区域偏差,这样用户可以参考类似于图3中的提示将这些文本的尺寸在文字层中进行调整。
图4是根据本发明实施例的双层电子文件文本选择区域偏差的检测系统的主要模块的示意图。如图4所示,双层电子文件文本选择区域偏差的检测系统40主要包括第一获取模块、第二获取模块、计算模块、输出模块。
第一获取模块,用于获取双层电子文件文字层的单个字符的字块范围;第二获取模块,用于获取所述双层电子文件图像层的单个字形图像的外接矩形范围;计算模块,用于计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异;输出模块,用于在所述计算模块得出的两项差异中至少一项差异大于预设值的情况下生成提示信息。
另外,第一获取模块还可以用于:获取双层电子文件文字层的单个字符在文字层的坐标;将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;根据转化后的单个字符在所述图像层的坐标确定所述单个字符的字块范围。
第二获取模块还可以用于:搜索所述单个字形图像的边界;根据所述边界确定双层电子文件图像层的单个字形图像的外接矩形范围。
输出模块还可以用于:在所述图像层的字形图像上添加矩形框,该矩形框的大小与文字层中对位于该字形图像的字符的字块范围相同。
根据本发明实施例的技术方案,根据双层电子文件文字层的单个字符的字块范围和图像层的单个字形图像的外接矩形范围,确定对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异,这样就可以根据该差异提示用户,供其参考以及对字体的尺寸进行调整,使双层电子文件的阅读软件的文本选择工具作出的文本选择区域与字体区域对位准确,提高用户的体验。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种双层电子文件文本选择区域偏差的检测方法,其特征在于,包括:
获取双层电子文件文字层的单个字符的字块范围,并且获取所述双层电子文件图像层的单个字形图像的外接矩形范围;
计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异,在其中至少一项差异大于预设值的情况下生成提示信息。
2.根据权利要求1所述的检测方法,其特征在于,获取双层电子文件文字层的单个字符的字块范围包括:
获取双层电子文件文字层的单个字符在文字层的坐标;
将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;
根据转化后的单个字符在所述图像层的坐标确定所述单个字符的字块范围。
3.根据权利要求1所述的检测方法,其特征在于,获取所述双层电子文件图像层的单个字形图像的外接矩形范围包括:
搜索所述单个字形图像的边界;
根据所述边界确定所述双层电子文件图像层的单个字形图像的外接矩形范围。
4.根据权利要求1所述的检测方法,其特征在于,生成提示信息包括:在所述图像层的字形图像上添加矩形框,该矩形框的大小与所述文字层中对位于该字形图像的字符的字块范围相同。
5.根据权利要求1至4中任一项所述的检测方法,其特征在于,所述双层电子文件为可移植文档格式的文件。
6.一种双层电子文件文本选择区域偏差的检测系统,其特征在于,包括:
第一获取模块,用于获取双层电子文件文字层的单个字符的字块范围;
第二获取模块,用于获取所述双层电子文件图像层的单个字形图像的外接矩形范围;
计算模块,用于计算对应于同一字符的所述字块范围和所述外接矩形范围在高度方向和宽度方向的差异;
输出模块,用于在所述计算模块得出的两项差异中至少一项差异大于预设值的情况下生成提示信息。
7.根据权利要求6所述的检测系统,其特征在于,所述第一获取模块还用于:
获取双层电子文件文字层的单个字符在文字层的坐标;
将所述单个字符在文字层的坐标转换为在所述双层电子文件的图像层的坐标;
根据转化后的单个字符在所述图像层的坐标确定所述单个字符的字块范围。
8.根据权利要求6所述的检测系统,其特征在于,所述第二获取模块还用于:
搜索所述单个字形图像的边界;
根据所述边界确定所述双层电子文件图像层的单个字形图像的外接矩形范围。
9.根据权利要求6所述的检测系统,其特征在于,所述输出模块还用于:在所述图像层的字形图像上添加矩形框,该矩形框的大小与所述文字层中对位于该字形图像的字符的字块范围相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105311511A CN101980133B (zh) | 2010-10-29 | 2010-10-29 | 双层电子文件文本选择区域偏差的检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105311511A CN101980133B (zh) | 2010-10-29 | 2010-10-29 | 双层电子文件文本选择区域偏差的检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101980133A true CN101980133A (zh) | 2011-02-23 |
CN101980133B CN101980133B (zh) | 2012-07-04 |
Family
ID=43600639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105311511A Expired - Fee Related CN101980133B (zh) | 2010-10-29 | 2010-10-29 | 双层电子文件文本选择区域偏差的检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101980133B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968407A (zh) * | 2011-08-31 | 2013-03-13 | 汉王科技股份有限公司 | 双层pdf文件的构造方法及装置 |
CN103176957A (zh) * | 2011-12-21 | 2013-06-26 | 北大方正集团有限公司 | 文件的处理方法和装置 |
CN104166849A (zh) * | 2013-05-17 | 2014-11-26 | 北大方正集团有限公司 | 一种电子文档识别方法及装置 |
CN109298819A (zh) * | 2018-09-21 | 2019-02-01 | Oppo广东移动通信有限公司 | 选择对象的方法、装置、终端及存储介质 |
CN112667115A (zh) * | 2020-12-22 | 2021-04-16 | 科大讯飞股份有限公司 | 文字显示方法以及电子设备、存储装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4440513A (en) * | 1981-03-12 | 1984-04-03 | Fuji Xerox Co., Ltd. | Character shaping device |
CN1383516A (zh) * | 2000-07-05 | 2002-12-04 | 八万系统有限公司 | 采用一对一比较的汉字校对系统 |
CN101782896A (zh) * | 2009-01-21 | 2010-07-21 | 汉王科技股份有限公司 | 结合ocr技术的pdf文字提取方法 |
-
2010
- 2010-10-29 CN CN2010105311511A patent/CN101980133B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4440513A (en) * | 1981-03-12 | 1984-04-03 | Fuji Xerox Co., Ltd. | Character shaping device |
CN1383516A (zh) * | 2000-07-05 | 2002-12-04 | 八万系统有限公司 | 采用一对一比较的汉字校对系统 |
CN101782896A (zh) * | 2009-01-21 | 2010-07-21 | 汉王科技股份有限公司 | 结合ocr技术的pdf文字提取方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968407A (zh) * | 2011-08-31 | 2013-03-13 | 汉王科技股份有限公司 | 双层pdf文件的构造方法及装置 |
CN102968407B (zh) * | 2011-08-31 | 2015-09-09 | 汉王科技股份有限公司 | 双层pdf文件的构造方法及装置 |
CN103176957A (zh) * | 2011-12-21 | 2013-06-26 | 北大方正集团有限公司 | 文件的处理方法和装置 |
CN103176957B (zh) * | 2011-12-21 | 2016-08-03 | 北大方正集团有限公司 | 文件的处理方法和装置 |
CN104166849A (zh) * | 2013-05-17 | 2014-11-26 | 北大方正集团有限公司 | 一种电子文档识别方法及装置 |
CN104166849B (zh) * | 2013-05-17 | 2017-04-19 | 北大方正集团有限公司 | 一种电子文档识别方法及装置 |
CN109298819A (zh) * | 2018-09-21 | 2019-02-01 | Oppo广东移动通信有限公司 | 选择对象的方法、装置、终端及存储介质 |
CN109298819B (zh) * | 2018-09-21 | 2021-03-16 | Oppo广东移动通信有限公司 | 选择对象的方法、装置、终端及存储介质 |
CN112667115A (zh) * | 2020-12-22 | 2021-04-16 | 科大讯飞股份有限公司 | 文字显示方法以及电子设备、存储装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101980133B (zh) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101980133B (zh) | 双层电子文件文本选择区域偏差的检测方法和系统 | |
US7100110B2 (en) | System for filling in documents using an electronic pen | |
CN101656024A (zh) | 一种电子学习装置及其实现方法 | |
CN105868171B (zh) | 一种Excel文件的校验方法及装置 | |
US20070129887A1 (en) | Map information system and map information processing method and program | |
CN102201009A (zh) | 一种表单生成方法和装置 | |
JP2018037087A (ja) | 手書き装置の文書の入力領域に用いる方法およびシステム | |
CN102693253A (zh) | 图像管理和呈现 | |
CN104036060A (zh) | 一种工程图在线审核方法和系统 | |
CN110457973A (zh) | 一种票据识别的方法及系统 | |
CN103186510A (zh) | 一种转换文档格式的方法和装置 | |
CN103729457A (zh) | 基于互联网的数字化图书辅助阅读系统及其方法 | |
CN102467653A (zh) | 一种图文识别方法及系统 | |
US10152472B2 (en) | Apparatus and method for generating summary data of E-book or E-note | |
CN101017486A (zh) | 通过名片扫描找到公司位置的方法 | |
CN104679430A (zh) | 可信电子笔迹产生方法、系统及电子签名笔 | |
CN104679453A (zh) | 一种信息录入、储存及排版打印的通用系统及方法 | |
CN205318553U (zh) | 数据处理装置和系统以及打印机 | |
KR101516213B1 (ko) | 도큐먼트를 반응형 웹으로 변환하는 반응형 웹 생성 방법 | |
CN103488440A (zh) | 单据打印装置和单据打印方法 | |
JP4542050B2 (ja) | ディジタルペン入力システム | |
CN114467123A (zh) | 用于光学字符识别的电子设备、方法和非暂时性存储介质 | |
CN106708801A (zh) | 用于文本的校对方法 | |
CN102442047B (zh) | 用于拼版的标记处理方法和装置 | |
CN102542074B (zh) | 一种元素间拓扑关系的展示和搜索工具 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120704 Termination date: 20141029 |
|
EXPY | Termination of patent right or utility model |