CN102479215A - 文件自动导出的方法及电子阅读装置 - Google Patents

文件自动导出的方法及电子阅读装置 Download PDF

Info

Publication number
CN102479215A
CN102479215A CN2010105658207A CN201010565820A CN102479215A CN 102479215 A CN102479215 A CN 102479215A CN 2010105658207 A CN2010105658207 A CN 2010105658207A CN 201010565820 A CN201010565820 A CN 201010565820A CN 102479215 A CN102479215 A CN 102479215A
Authority
CN
China
Prior art keywords
branch
character
current
paragraph
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105658207A
Other languages
English (en)
Other versions
CN102479215B (zh
Inventor
楼永植
陈峻峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN 201010565820 priority Critical patent/CN102479215B/zh
Publication of CN102479215A publication Critical patent/CN102479215A/zh
Application granted granted Critical
Publication of CN102479215B publication Critical patent/CN102479215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文件自动导出的方法及一种电子阅读装置,属于数据加工领域。该方法包括,将文件中获取的字符插入建立的多个页面;按照各页面对应的页面编号的顺序取得所述多个页面中的一个页面,根据所述字符的字符信息,依照第一重组方式将所述页面中的字符重组成多个分行;遍历所述页面内的多个分行,依照第二重组方式将所述分行重组成至少一个段落;依照所述页面编号的顺序重复上述步骤,遍历至所有页面的段落重组结束;并将重组的结果按所述页面编号的顺序合并而导出。本发明将每一个页面依照二次重组的方式,可以有效自动区分行与段落,并且自动导出流式文件,能大量节省加工版式文件所需的时间。

Description

文件自动导出的方法及电子阅读装置
 
技术领域
本发明属于数据加工领域,更具体地,涉及一种文件自动导出的方法及电子阅读装置。
 
背景技术
在版式文件当中,所有字符都可以以离散方式描述,即可以描述为每个字符的编码,以及位置和大小,所用字体以及样式等信息。这种描述方式在渲染的时候无需经过换行或者间隔计算即可获得正确显示效果。但版式文件也保存大量用于显示的数据,因此其文件也较大,不利于移动终端(例如电纸书、智能型手机、个人数字助理等)阅读。此外,这种描述方式在渲染的时候,也造成内容拷贝时段落不能还原的的问题。
为了便于移动终端的应用,必须把版式文件加工变成流式文件,例如把PDF转换为TXT。如图1所示即为一PDF软件显示的PDF文件,其选中部分的字符在写字板上的效果为图2所示,其中一个段落被分成若干行。而在字符处理软件当中,一个行就是一个段落,其正确的分段落应该是整个段落为一行,渲染时候段落中间的换行由软件来确定。现有的加工方式是在文本拷贝出来之后,再经过手工合并段落。因此加工一本流式文件书籍需要花费大量时间。
 
发明内容
本发明所要解决的技术问题是提供一种文件自动导出的方法及电子阅读装置,将字符重组为分行后进一步重组为段落,将重组的结果合并而导出为流式文件,大量节省了加工版式文件所需的时间。
本发明公开了一种文件自动导出的方法,将文件中获取的字符插入建立的多个页面,更包含有下列步骤:
(1)按照页面对应的页面编号的顺序取得所述多个页面中的一个页面,根据所述字符的字符信息,依照第一重组方式将所述页面中的字符重组成多个分行;
(2)遍历所述页面内的多个分行,依照第二重组方式将所述分行重组成至少一个段落;
(3)依照所述页面编号的顺序重复上述步骤(1)和步骤(2),遍历至所有页面的段落重组结束;并将重组的结果按所述页面编号的顺序合并而导出。
本发明还公开了一种电子阅读装置,具有一个主机与和所述主机相配置的屏幕,所述主机具有文件自动导出的方法,将文件导出而显示于所述屏幕上。
本发明提供了一种文件自动导出的方法和电子阅读装置,将字符重组成多个分行,然后再将多个分行重组成段落后再合并得到流式文档。其优点在于,每一个页面依照二次重组的方式,可以有效自动区分行与段落,并且自动导出流式文件,能大量节省加工版式文件所需的时间。
 
附图说明
读者在参照附图阅读本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中:
图1是现有技术中的版式文件的段落。
图2是现有技术中的版式文件的段落转换成流式文件后的情况。
图3是本发明所提出的版式文件自动导出流式文件的方法流程图。
图4至图5是本发明所提出的版式文件自动导出流式文件的方法当中,字符信息的示意图。
图6是本发明所提出的版式文件自动导出流式文件的方法当中,段落重组方式流程图。
图7至图10是本发明所提出的一种版式文件自动导出流式文件的方法的字符信息示意图。
 
具体实施方式
下面结合附图对本发明作进一步详细的描述。由于本发明公开了一种文件自动导出的方法及电子阅读装置,故以下文中的说明,不再作完整描述。同时,以下文中所对照的附图,意在表达与本发明特征有关的结构的含义,并未亦不需要依据实际尺寸完整绘制,在此先予以声明。
第一实施例:版式文件自动导出流式文件的方法
首先,请参考图3,为本发明所提出的第一实施例,为一种版式文件自动导出流式文件的方法流程图,包含以下步骤:
步骤101:将文件中获取的字符插入建立的多个页面。
首先获取一个版式文件中的所有字符,然后提供多个页面,将获取的字符插入多个页面,其中各个字符配置有与其对应的字符信息,字符信息可做为之后重组分行与段落的根据,而各个页面配置有与其对应的页面编号,页面编号可作为之后合并页面的根据,其中所使用的字符信息至少包含字符的编码信息、字符的位置信息与字符的大小信息,字符的大小信息更包含字符高度与字符宽度。
字符信息可以定义如下:char(code, x, y, w, h),其中,char表示字符内容,code表示字符的编码,x表示字符的水平位置,y表示字符的垂直位置,w表示字符宽度,h表示字符高度。如图4所示,是字符信息示意图,两个字符“A”与“你”都是宋体,字符“A”的字符宽度为w1,水平位置为x1,垂直位置为y;字符“你”的字符宽度为w2,水平位置为x2,垂直位置亦为y。两个字符信息分别是char1(“A”, x1, y, w1, h ),char2(“你”,x2, y, w2, h ),其中h为字体基准线11以上部份和基准线11以下的部份之和。
步骤102:按照各页面对应的页面编号的顺序取得多个页面中的一个页面,根据字符对应的字符信息,依照第一重组方式将页面中的字符重组成多个分行,第一重组方式如下:
情况102-1:若当前分行是空的时候,把当前字符按照水平位置排序插入此分行内。
情况102-2:若当前分行内有字符而不是空的时候,则取得当前字符及当前字符的前一个字符的公共高度(请参考图5中的h3),若所述两个字符的公共高度大于两个字符中任一字符的第一特定比例,则认定两个字符在同一个分行,并将当前字符按照水平位置排序插入当前分行;否则认定所述两个字符不在同一分行,将当前字符新建一个分行。上述第一特定比例可以设定为0.5~0.7,优选值为0.6。
采用公共高度为判断准则的理由是,当两个字符的公共高度较大,则这两个字符在垂直位置的视线上会感觉在一个分行内;当两个字符的公共高度较小,则表示这两个字符在垂直位置有明显的偏移,在视线上就感觉不在一个分行内,所以应该加以分行。
如图5所示,当前字符“好”的高度为h2,前一个字符“你”的高度为h1,若“好”和“你”的公共高度为h3大于“你”的字符高度h1的第一特定比例(即h3> h1×0.5~0.7)或者大于“好”的字符高度h2的第一特定比例(即h3 > h2×0.5~0.7),则认定“好”及“你”在同一个分行,并将“好”按照水平位置排序插入当前分行。若“你”与“好”的公共高度h3小于或等于“你”的字符高度h1的第一特定比例(即h3<=h1×0.5~0.7)、或者小于或等于“好”的字符高度h2的第一特定比例(即当h3<=h2×0.5~0.7),则认定“好”及“你”不在同一分行,将“好”新建一个分行。
步骤103:遍历所述页面内的多个分行,依照第二重组方式将所述分行重组成至少一个段落。请参考图6,第二重组方式考虑下列几种情况:
情况103-1:若当前分行的前一个分行少于10个字符,则新建一个段落,并把当前分行插入到一个新建的段落中。以正常的显示字体而言,一个分行大约有20个左右的字符,若前一个分行少于10个字符,则明显表示段落已经结束,故新建一个后续的段落。
情况103-2:若当前分行的前一个分行与当前分行的行间距dy过大,则新建一个段落并把当前分行插入到新建的段落中。本实施例中,若当前分行的前一个分行及当前分行之间的行间距大于前一个分行高度的第二特定比例并且大于当前分行高度的第二特定比例,则前一个分行及当前分行的行间距过大。其中第二特定比例可以设定为0.7~0.9,优选值为0.8。如图7所示,当前分行L2的高度为dy4,当前分行的前一个分行L1的高度为dy3,当前分行L2及当前分行的前一个分行L1之间的行间距为dy,由图7中可见,行间距dy明显大于当前分行L2的高度dy4以及当前分行的前一个分行L1的高度dy3,故当前分行L2及当前分行的前一个分行L1应区分为不同的段落。故此时新建一个段落,并把当前分行L2插入到新建段落中。
情况103-3:若当前分行的前一个分行与当前分行两者的高度相差过大,则新建一个段落,并把当前分行插入到新建的段落中。高度相差过大是指两分行相互间的高度的比例大于第三特定比例,其中第三特定比例可以设定为1.3~1.5,优选值为1.4。如图8所示,当前分行L4的高度为dy6,当前分行的前一个分行L3的高度为dy5。当前分行的前一个分行L3的高度dy5与当前分行L4的高度dy6两者的高度有明显的差异,以分成两个不同的段落为宜。因此,判断dy6/dy5 (或dy5/dy6)是否大于第三特定比例,若大于第三特定比例1.4,则新建一个段落,并将当前分行L4插入到新建的段落中。
情况103-4:若当前分行的长度比当前分行的前一个分行的长度少于第一特定长度,并且当前分行以换行字符结尾,则把当前分行插入当前的段落,并新建一个段落供当前分行的下一个分行插入,其中第一特定长度的为当前分行的前一个分行中字符宽度的平均值的三倍,字符宽度的平均值为分行的总长度除以分行内的全部字符数所得到的平均值,其中,换行字符可以设定为一些特定的标点符号,例如句号与惊叹号,甚至是引号、问号、顿号、冒号、括号等。
如图9所示,当前分行L6的长度为dx1,当前分行的前一个分行L5的长度为dx,字符宽度的平均值为w3 (dx除以字数)。若当前分行L6的长度dx1比当前分行的前一个分行L5的长度dx为少,且少于字符宽度的平均值w3的三倍以上,并且当前分行L6以结束符号句号“。”结尾,很明显地,当前分行L6与当前分行的前一个分行L5宜属于同一个段落。故把当前分行L6插入当前段落,并新建段落供当前分行的下一个分行插入。
情况103-5:若当前分行的起始位置比前一个分行的起始位置右偏第二特定长度,则新建一个段落,并把当前分行插入到新建的段落中,其中第二特定长度可以设定为是当前分行的前一个分行的字符宽度的平均值的二倍。如图10所示,当前分行L8的起始位置为x4。当前分行的前一个分行L7的起始位置为x3,其字符宽度的平均值为w4。如图10所示,当前分行L8的起始位置x4比当前分行的前一个分行L7的起始位置为x3更往后偏移字符宽度的平均值w4的二倍,为新建段落的开始,故新建一个段落,并把当前分行L8插入到新建的段落中.
情况103-6:当情况103-1至103-5的重组方式都不满足时,则不新建段落,将当前分行直接插入当前段落中。
步骤104:当一个页面通过分行重组与段落重组完成之后,再依照页面编号的顺序针对各个页面重复上述步骤102与步骤103,遍历至所有页面重组结束,并将重组的结果按所述页面编号的顺序合并而导出。由于每一个页面字符都已经重组成段落,故只需依照页面编号顺序自动合并所有页面,即能自动导出流式文件。
本发明所提出的文件自动导出的方法,针对版式文件通过第一重组方式将字符重组成多个分行,然后再通过第二重组方式将多个分行重组成段落,透过二次重组的方式,有效自动区分段落,并且自动导出流式文件,大量节省加工版式文件所需的时间。
第二实施例:电子阅读装置
本发明另提出第二实施例,为一种电子阅读装置,具有一个主机和与所述主机相配置的屏幕,主机具有本发明所提出的针对版式文件进行自动导出流式文件的方法,将版式文件导出为流式文件而显示于所述屏幕上。
以上所述仅为本发明较佳实施例,并非用以限定本发明申请的权利范围;同时以上的描述对于本领域普通技术人员应可明了与实施,因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含于权利要求书的范围中。

Claims (11)

1.一种文件自动导出的方法,将文件中获取的字符插入建立的多个页面,其特征在于,所述方法还包含有下列步骤:
按照各页面对应的页面编号的顺序取得所述多个页面中的一个页面,根据所述字符的字符信息,依照第一重组方式将所述页面中的字符重组成多个分行;
遍历所述页面内的多个分行,依照第二重组方式将所述分行重组成至少一个段落;
依照所述页面编号的顺序重复上述步骤(1)与(2),遍历至所有页面的段落重组结束;并将重组的结果按所述页面编号的顺序合并而导出。
2.根据权利要求1所述的方法,其特征在于:所述字符信息至少包含字符的编码信息、字符的位置信息与字符的大小信息,字符的大小信息还包含字符高度与字符宽度。
3.根据权利要求1所述的方法,其特征在于:步骤(1)中所述第一重组方式如下:
(a) 当所述分行是空的时候,把当前字符按照水平位置排序插入此分行内;
(b) 当所述分行不是空的时候,则取得当前字符及当前字符的前一字符的公共高度,若所述两个字符的公共高度大于其中任一字符的第一特定比例,则所述两个字符在同一个分行,并将当前字符按照水平位置排序插入当前分行;否则将当前字符新建一个分行。
4.根据权利要求3所述的方法,其特征在于:所述第一特定比例为0.5~0.7。
5.根据权利要求1所述的方法,其特征在于:步骤(2)中所述第二重组方式如下:
(a”) 若当前分行的前一个分行少于10个字符,则新建一个段落,并把当前分行插入所述新建的段落;
(b”) 若当前分行的前一个分行与当前分行的行间距过大,则新建一个段落,并把当前分行插入所述新建的段落;所述行间距过大为行间距大于前一个分行高度和当前分行高度的第二特定比例; 
(c”) 若当前分行的前一个分行与当前分行的高度相差过大,则新建一个段落,并把当前分行插入所述新建的段落;所述高度相差过大为两分行间的高度的比例大于第三特定比例;
(d”) 若当前分行比当前分行的前一个分行的长度小于第一特定长度,并且当前分行以换行字符结尾,则把当前分行插入当前段落,并新建段落供当前分行的下一个分行插入;及
(e”) 若当前分行的起始位置比前一个分行的起始位置右偏第二特定长度,则新建段落供当前分行插入。
6.根据权利要求5所述的方法,其特征在于:步骤(b”)中,所述第二特定比例为0.7~0.9。
7.根据权利要求5所述的方法,其特征在于:步骤(c”)中,所述第三特定比例为1.3~1.5。
8.根据权利要求5所述的方法,其特征在于:步骤(d”)中,所述第一特定长度为当前分行的前一个分行中字符宽度的平均值的三倍。
9.根据权利要求5所述的方法,其特征在于:步骤(e”)中,所述第二特定长度是当前分行的前一个分行中字符宽度的平均值的二倍。
10.根据权利要求5所述的方法,其特征在于:第二重组方式包括,将当前分行直接插入当前段落中。
11.一种电子阅读装置,具有一个主机与和所述主机相配置的屏幕,其特征在于:所述主机具有权利要求1至10其中任一项的文件自动导出的方法,将文件导出而显示于所述屏幕上。
CN 201010565820 2010-11-30 2010-11-30 文件自动导出的方法及电子阅读装置 Active CN102479215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010565820 CN102479215B (zh) 2010-11-30 2010-11-30 文件自动导出的方法及电子阅读装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010565820 CN102479215B (zh) 2010-11-30 2010-11-30 文件自动导出的方法及电子阅读装置

Publications (2)

Publication Number Publication Date
CN102479215A true CN102479215A (zh) 2012-05-30
CN102479215B CN102479215B (zh) 2013-10-30

Family

ID=46091863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010565820 Active CN102479215B (zh) 2010-11-30 2010-11-30 文件自动导出的方法及电子阅读装置

Country Status (1)

Country Link
CN (1) CN102479215B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346322A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN104834645A (zh) * 2014-02-11 2015-08-12 阿里巴巴集团控股有限公司 用于展示版式文档的方法和装置
CN109783810A (zh) * 2018-12-26 2019-05-21 北京明略软件系统有限公司 一种文本处理方法、装置及计算机可读存储介质
CN111832262A (zh) * 2019-03-29 2020-10-27 珠海金山办公软件有限公司 一种文档处理方法、装置、电子设备及存储介质
CN116090417A (zh) * 2023-04-11 2023-05-09 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择渲染方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
CN101876967A (zh) * 2010-03-25 2010-11-03 深圳市万兴软件有限公司 一种pdf文本段落生成的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206639A (zh) * 2007-12-20 2008-06-25 北大方正集团有限公司 一种基于pdf的复杂版面的标引方法
CN101876967A (zh) * 2010-03-25 2010-11-03 深圳市万兴软件有限公司 一种pdf文本段落生成的方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346322A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN104346322B (zh) * 2013-08-08 2018-07-10 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN104834645A (zh) * 2014-02-11 2015-08-12 阿里巴巴集团控股有限公司 用于展示版式文档的方法和装置
CN104834645B (zh) * 2014-02-11 2019-04-02 阿里巴巴集团控股有限公司 用于展示版式文档的方法和装置
CN109783810A (zh) * 2018-12-26 2019-05-21 北京明略软件系统有限公司 一种文本处理方法、装置及计算机可读存储介质
CN109783810B (zh) * 2018-12-26 2022-11-11 北京明略软件系统有限公司 一种文本处理方法、装置及计算机可读存储介质
CN111832262A (zh) * 2019-03-29 2020-10-27 珠海金山办公软件有限公司 一种文档处理方法、装置、电子设备及存储介质
CN111832262B (zh) * 2019-03-29 2023-06-20 珠海金山办公软件有限公司 一种文档处理方法、装置、电子设备及存储介质
CN116090417A (zh) * 2023-04-11 2023-05-09 福昕鲲鹏(北京)信息科技有限公司 版式文档文本选择渲染方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN102479215B (zh) 2013-10-30

Similar Documents

Publication Publication Date Title
CN102479215B (zh) 文件自动导出的方法及电子阅读装置
CN101025738B (zh) 一种免模板动态网站生成方法
CN108470021A (zh) Pdf文档中表格的定位方法及装置
WO2002019176A8 (en) Data list transmutation and input mapping
CN102147790A (zh) 文本排版方法及排版引擎
CN103076889A (zh) 一种位置感应的系统输入方法
CN102902678A (zh) 文本内容排版方法和终端
CN103577861A (zh) 条形码的结构以及条形码的编码方法
CN110598187A (zh) 电缆铭牌批量制作方法
US20130322759A1 (en) Method and device for identifying font
CN105844679A (zh) 复杂盲文点阵图形绘制和内嵌文字输入的方法及装置
CN117371446A (zh) 一种病历文本排版方法、系统、存储介质及电子设备
CN102934064A (zh) 一种主题显示方法以及相关装置
CN103136166B (zh) 字体确定方法和设备
CN105739985B (zh) 导入选中的Excel表格到白板软件中的方法
CN103136186B (zh) 拼音排版方法和装置
CN109740125B (zh) 用于文件比较的更新查找方法、装置、存储介质和设备
CN101673406B (zh) 字体设置方法和装置
CN107943760B (zh) Pdf文档编辑的字体优化方法、装置、终端设备和存储介质
CN102158825A (zh) 一种手写体多媒体彩信实现方法
CN102375723B (zh) 软键盘皮肤体积优化方法及系统
CN103488619A (zh) 一种用于进行文档文件处理的方法及装置
CN113727117A (zh) 基于dp的压缩数据流传输方法、装置、设备及存储介质
CN112437354B (zh) 一种字幕显示控制方法及显示设备
CN103400319A (zh) 电子菜谱显示方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant