CN105718437A - 电子档版式文件在小屏幕设备智能分版的方法及装置 - Google Patents
电子档版式文件在小屏幕设备智能分版的方法及装置 Download PDFInfo
- Publication number
- CN105718437A CN105718437A CN201610034988.2A CN201610034988A CN105718437A CN 105718437 A CN105718437 A CN 105718437A CN 201610034988 A CN201610034988 A CN 201610034988A CN 105718437 A CN105718437 A CN 105718437A
- Authority
- CN
- China
- Prior art keywords
- information
- layout files
- electronics shelves
- text message
- intelligence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
Abstract
本发明公开了一种电子档版式文件在小屏幕设备阅读的方法及装置。通过分析版式文件中版面上内容的位置和排版信息,重新对版面中的信息进行切分和重组,能快速高效的对版面进行重排,使重排后的版面更适合在小屏幕上阅读。从宏观上看整个文档版面重排了,更适合小屏幕阅读,从微观上看,切出来的每一块内容都和原始版面一模一样,避免了信息的丢失。这也为小屏幕设备上阅读电子文档提供了一种新的思路。
Description
技术领域
本发明涉及一种计算机信息处理领域的模式识别和版面分析技术,具体涉及一种电子档版式文件在小屏幕设备智能分版的方法及装置。
背景技术
目前,电子档版式文件在小屏幕设备上进行阅读时,由于可视区域较小而原始文档版面较大,为了方便阅读一般都采用转成流式文档(比如EPub)后再进行阅读。但是将版式文档转成流式文档的过程中会不可避免地发生信息丢失,而且一些排版比较复杂、严谨的文档在转换过程信息丢失尤甚。
如果只对版式文档进行放大再阅读,则需要在阅读过程中不断左右上下拖动,阅读体验很差,而且也不便于用户积极读取所需要的信息。
发明内容
本发明是为了解决上述课题而进行的,目的在于提供一种电子档版式文件在小屏幕设备阅读的方法及装置。
本发明提供了一种电子档版式文件在小屏幕设备智能分版的方法,具有这样的特征,包括以下步骤:(i)从电子档版式文件的版面中提取文件的基本内容的信息;(ii)从信息中分别识别出文件中的版心信息、页眉页脚信息、页码信息以及分隔符信息,版心信息包括文本信息、图像信息、表格信息以及公式信息;(iii)过滤掉页眉页脚信息、页码信息以及分隔符信息,保留版心信息;(iv)使用阅读顺序排序算法对版心信息进行阅读顺序的排序;(v)版心信息为母信息,根据设定将母信息切割成子信息;(vi)将子信息进行二次排序后输出。
在本发明提供的电子档版式文件在小屏幕设备智能分版的方法中,还可以具有这样的特征:其中,步骤(v)中,切割母信息的设定为:(a)识别出公式信息、图像信息以及表格信息,并对其采取不切割处理;(b)对文本信息进行切割:依照文本信息中的段落,切割文本信息,得到文本信息的段落子信息。
在本发明提供的电子档版式文件在小屏幕设备智能分版的方法中,还可以具有这样的特征:其中,对文本信息的段落子信息还可进行二次切割:对段落子信息中行的宽度超过设定阈值的文本信息依照顺序进行拆行、断行处理,使其拆分后的宽度小于设定阈值。
在本发明提供的电子档版式文件在小屏幕设备智能分版的方法中,还可以具有这样的特征:其中,设定阈值是人工设定或系统自动设定。
本发明提供了一种在小屏幕设备使用电子档版式文件的装置,具有这样的特征,包括:识别电子档版式文件模块,用于读取电子档版式文件所承载的信息;智能分版模块,用于对电子档版式文件进行智能分版;阅读终端,用于呈现智能分版模块重新分版后的信息。其中,智能分版模块对电子档版式文件智能分版采用以上任意一种方法。
发明的作用和效果
本发明所涉及的电子档版式文件在小屏幕设备智能分版的方法,因为通过分析版式文件中版面上内容的位置和排版信息,重新对版面中的元素进行切分和重组,快速高效的对版面进行重排,所以,本发明的电子档版式文件在小屏幕设备智能分版的方法保证了在小屏幕上阅读版式文件既不遗失主要信息又提高阅读体验的目的。
附图说明
图1是本发明的实施例的流程示意图;
图2是本发明的实施例中电子档版式文件图;
图3是本发明的实施例中提取版心信息的示意图;
图4是本发明的实施例中第一次切割版心信息的示意图;
图5是本发明的实施例中第二次切割版心信息的示意图;以及
图6(a)和图6(b)是本发明的实施例中最后输出的文件示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本发明电子档版式文件在小屏幕设备智能分版的方法及装置作具体阐述。
图1是本实施例的流程示意图。
如图1所示,本实施例包含以下步骤:
(i)从电子档版式文件的版面中提取文件的基本内容的信息;
(ii)从信息中分别识别出文件中的版心信息、页眉页脚信息、页码信息以及分隔符信息,版心信息包括文本信息、图像信息、表格信息以及公式信息;
(iii)过滤掉页眉页脚信息、页码信息以及分隔符信息,保留版心信息;
(iv)使用阅读顺序排序算法对版心信息进行阅读顺序的排序;
(v)版心信息为母信息,根据设定将母信息切割成子信息:
(a)识别出所述公式信息、图像信息以及表格信息,并对其采取不切割处理;
(b)对所述文本信息进行切割:依照所述文本信息中的段落,切割所述文本信息,得到所述文本信息的段落子信息,然后对文本信息的段落子信息进行二次切割,对段落子信息中行的宽度超过设定阈值的文本信息依照顺序进行拆行、断行处理,使其拆分后的宽度小于设定阈值;
(vi)将子信息进行二次排序后输出。
图2是本实施例中电子档版式文件图;图3是本实施例中提取版心信息的示意图;图4是本实施例中第一次切割版心信息的示意图;图5是本实施例中第二次切割版心信息的示意图;以及图6(a)和图6(b)是本实施例中最后输出的文件示意图。
如图2~6所示,读取电子档版式文件的基本内容的信息;
从信息中分别识别出文件中的版心信息、页眉页脚信息、页码信息以及分隔符信息,版心信息包括文本信息、图像信息、表格信息以及公式信息;
过滤掉页眉页脚信息、页码信息以及分隔符信息,保留版心信息;
使用阅读顺序排序算法对版心信息进行阅读顺序的排序;
以版心信息为母信息,根据设定将母信息切割成子信息:
(a)识别出所述公式信息、图像信息以及表格信息,并对其采取不切割处理;(b)对所述文本信息进行切割:依照所述文本信息中的段落,切割所述文本信息,得到所述文本信息的段落子信息,然后对文本信息的段落子信息进行二次切割,对段落子信息中行的宽度超过设定阈值的文本信息依照顺序进行拆行、断行处理,使其拆分后的宽度小于设定阈值(设定阈值可以是系统自动设定,也可以是根据使用者的习惯人工设定,本实施例中设定的阈值为每行不超过19个字);
将子信息进行整合,二次排序后输出。
此外,本实施例的方法可以用在小屏幕设备使用电子档版式文件的装置上。该装置包括:识别电子档版式文件模块,用于读取电子档版式文件所承载的信息;智能分版模块,用于对电子档版式文件进行智能分版;阅读终端,用于呈现智能分版模块重新分版后的信息。智能分版模块采用本实施例方法处理电子档版式文件。
实施例的作用与效果
本实施例所涉及的电子档版式文件在小屏幕设备智能分版的方法,因为通过分析版式文件中版面上内容的位置和排版信息,重新对版面中的元素进行切分和重组,快速高效的对版面进行重排,所以,本实施例的电子档版式文件在小屏幕设备智能分版的方法保证了在小屏幕上阅读版式文件既不遗失主要信息又提高阅读体验的目的。
以上实施例仅为本发明构思下的基本说明,不对本发明进行限制。而依据本发明的技术方案所作的任何等效变换,均属于本发明的保护范围。
Claims (5)
1.一种电子档版式文件在小屏幕设备智能分版的方法,其特征在于,包括以下步骤:
(i)从所述电子档版式文件的版面中提取文件的基本内容的信息;
(ii)从所述信息中分别识别出所述文件中的版心信息、页眉页脚信息、页码信息以及分隔符信息,所述版心信息包括文本信息、图像信息、表格信息以及公式信息;
(iii)过滤掉页眉页脚信息、页码信息以及分隔符信息,保留所述版心信息;
(iv)使用阅读顺序排序算法对所述版心信息进行阅读顺序的排序;
(v)所述版心信息为母信息,根据设定将所述母信息切割成子信息;
(vi)将所述子信息进行二次排序后输出。
2.根据权利要求1所述的电子档版式文件在小屏幕设备智能分版的方法,其特征在于:
其中,步骤(v)中,切割母信息的设定为:
(a)识别出所述公式信息、图像信息以及表格信息,并对其采取不切割处理;
(b)对所述文本信息进行切割:依照所述文本信息中的段落,切割所述文本信息,得到所述文本信息的段落子信息。
3.根据权利要求2所述的电子档版式文件在小屏幕设备智能分版的方法,其特征在于:
其中,对所述文本信息的段落子信息还可进行二次切割:对所述段落子信息中行的宽度超过设定阈值的文本信息依照顺序进行拆行、断行处理,使其拆分后的宽度小于设定阈值。
4.根据权利要求3所述的电子档版式文件在小屏幕设备智能分版的方法,其特征在于:
其中,所述设定阈值是人工设定或系统自动设定。
5.一种在小屏幕设备使用电子档版式文件的装置,其特征在于,包括:
识别电子档版式文件模块,用于读取所述电子档版式文件所承载的信息;
智能分版模块,用于对所述电子档版式文件进行智能分版;
阅读终端,用于呈现所述智能分版模块重新分版后的信息,
其中,所述智能分版模块对所述电子档版式文件智能分版采用权利要求1~4中任意一种方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610034988.2A CN105718437A (zh) | 2016-01-19 | 2016-01-19 | 电子档版式文件在小屏幕设备智能分版的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610034988.2A CN105718437A (zh) | 2016-01-19 | 2016-01-19 | 电子档版式文件在小屏幕设备智能分版的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105718437A true CN105718437A (zh) | 2016-06-29 |
Family
ID=56147260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610034988.2A Pending CN105718437A (zh) | 2016-01-19 | 2016-01-19 | 电子档版式文件在小屏幕设备智能分版的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105718437A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874565A (zh) * | 2018-06-28 | 2018-11-23 | 中国建设银行股份有限公司 | 挡板服务方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479173A (zh) * | 2010-11-25 | 2012-05-30 | 北京大学 | 识别版面阅读顺序的方法及装置 |
JP2014041482A (ja) * | 2012-08-22 | 2014-03-06 | Dainippon Printing Co Ltd | 組版装置、組版方法、および、組版装置用プログラム |
CN104834645A (zh) * | 2014-02-11 | 2015-08-12 | 阿里巴巴集团控股有限公司 | 用于展示版式文档的方法和装置 |
-
2016
- 2016-01-19 CN CN201610034988.2A patent/CN105718437A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479173A (zh) * | 2010-11-25 | 2012-05-30 | 北京大学 | 识别版面阅读顺序的方法及装置 |
JP2014041482A (ja) * | 2012-08-22 | 2014-03-06 | Dainippon Printing Co Ltd | 組版装置、組版方法、および、組版装置用プログラム |
CN104834645A (zh) * | 2014-02-11 | 2015-08-12 | 阿里巴巴集团控股有限公司 | 用于展示版式文档的方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874565A (zh) * | 2018-06-28 | 2018-11-23 | 中国建设银行股份有限公司 | 挡板服务方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334346B (zh) | 一种pdf文件的信息抽取方法和装置 | |
CN101770446B (zh) | 一种版式文件中表格识别方法及系统 | |
CN107977346B (zh) | 一种pdf文档编辑方法及终端设备 | |
CN110163030B (zh) | 一种基于图像信息的pdf有边框表格抽取方法 | |
CN104572735B (zh) | 一种图片标注词推荐方法及装置 | |
CN105094775B (zh) | 网页生成方法和装置 | |
JP2016042349A (ja) | 章・セクションの自動分割方法 | |
CN105701134A (zh) | 电子书快速预览方法及有快速预览阅读模式的电子书 | |
CN104933074A (zh) | 新闻排序方法、装置和终端设备 | |
JP2012022575A5 (zh) | ||
CN106446116A (zh) | 应用于规则引擎中的业务规则参数交互方法及装置 | |
US11308029B2 (en) | File saving method and electronic device | |
CN104794106A (zh) | 一种批注方法及装置 | |
CN105718437A (zh) | 电子档版式文件在小屏幕设备智能分版的方法及装置 | |
CN105893500A (zh) | 课堂智能实时录制系统及方法 | |
CN106776527B (zh) | 电子书数据的显示方法、装置及终端设备 | |
CN106296249A (zh) | 一种基于lbs与兴趣的用户分类方法及系统 | |
CN106855852B (zh) | 语句情感的确定方法及装置 | |
CN105512647A (zh) | 扫描版文件在小屏幕设备智能分版的方法及装置 | |
CN109815473A (zh) | 一种文档编辑辅助方法 | |
CN114663874A (zh) | 模型训练方法、包装图像的识别方法及其装置 | |
CN104714934A (zh) | 便捷编辑的实现方法及客户端 | |
Wallenberg et al. | Leaf segmentation using the Kinect | |
Komesaroff et al. | Ethical issues in cochlear implantation | |
US20150095314A1 (en) | Document search apparatus and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160629 |