CN109815473A - 一种文档编辑辅助方法 - Google Patents
一种文档编辑辅助方法 Download PDFInfo
- Publication number
- CN109815473A CN109815473A CN201910078191.6A CN201910078191A CN109815473A CN 109815473 A CN109815473 A CN 109815473A CN 201910078191 A CN201910078191 A CN 201910078191A CN 109815473 A CN109815473 A CN 109815473A
- Authority
- CN
- China
- Prior art keywords
- text
- cells
- location information
- document object
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims description 42
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000005194 fractionation Methods 0.000 abstract description 8
- 238000003780 insertion Methods 0.000 description 8
- 230000037431 insertion Effects 0.000 description 8
- 238000005192 partition Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000003362 replicative effect Effects 0.000 description 2
- 238000004026 adhesive bonding Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种文档编辑辅助方法,包括:将当前页面划分为若干小区,并记录每一小区的位置信息;查找并记录每一小区中的文档对象及其对应的位置信息;该文档对象分为文本类对象和非文本类对象;依据划分的各小区的位置信息,构建出文本区域;将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,载入到文本区域中;保留文档对象的非文本部分。本发明基于文档的文本和非文本类型进行分层拆分,可避免对任一种对象的编辑造成对其它对象的影响的情况,对于文档的编辑有着极好的支撑作用。
Description
技术领域
本发明涉及文档编辑工具领域,尤其是一种文档编辑辅助方法。
背景技术
新闻采集员、编辑、译员及有文章排版需求人员在实际工作中会遇到各种格式复杂的文档(如示例图1,包含较多的分节符、分栏符和图片),如果修改其中的内容,可能会产生牵一发而动全身的效果,无法保持原有的排版格式。或者需要处理的文档篇幅太长,全文格式修改将耗费大量的时间和人力。现有的相关技术—排版助手支持将文本粘贴进应用中进行简易快捷操作,如合并换行、段首缩进等。因需要将文本先进行粘贴处理,操作不太方便;其也并非在文档中进行的处理,即每次编辑文本均需先将文本复制转移;同时,排版助手并不能处理格式复杂的文档。
CN105468577A(公开日:2016.04.06)公开了一种文档拆分方法及系统,其主要是在文档中的换页位置、结尾位置、章、节、段等位置插入拆分标记,在根据插入的拆分标记对文档进行拆分。该种方案所拆分的结果属于基于位置的拆分,而非基于对象种类的拆分,并不能避免对一处文档的修改而不影响其它对象的效果。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种文档编辑辅助方法。实现对文档内容基于文档中对象种类的拆分,以解决在对文档中任一种对象进行编辑时,不影响其它种类对象的格式、排版等。
本发明采用的技术方案如下:
一种文档编辑辅助方法,包括:
A.将当前页面划分为若干小区,并记录每一小区的位置信息;
B.查找并记录每一小区中的文档对象及其对应的位置信息;该文档对象分为文本类对象和非文本类对象;
C.依据划分的各小区的位置信息,构建出文本区域;将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,载入到文本区域中;保留文档对象的非文本部分。
上述方法将文档内容分为文本类和非文本类;再将各中文本部分载入到文本区域,实现对文档内容基于文本和非文本的拆分。这样,后续对于文本内容的编辑不会影响到非文本部分,反之亦然。由于划分了小区,对于各小区内各对象的处理也不会相互影响;并且对于整篇文档的处理也具备条理性。
进一步的,上述步骤A中所划分出的每个小区,均至少包含当前页面一段的内容。
即限定了各小区的范围。基于段落进行小区划分,可以达到快捷分区的效果。同时,也使得分区结果便于处理。对于小区范围的限定与处理能力相匹配,可以使得对于各小区的对象处理快捷、高效。
进一步的,上述步骤A中,划分小区的方法为:将当前页面中,每个回车符与上一回车符间的内容划分为一个小区。
将每一段作为一个小区,划区快捷、简便、具有条理性、不相互影响。划区结果也便于对文档对象的处理。
进一步的,上述步骤C中,所述将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,载入到文本区域中具体为:依次将各小区的文档对象中的文本部分,依据所属文档对象的位置信息,载入到文本区域中。
依次对每一个小区进行处理,可以确保处理的条理性,防止各小区间相互影响;并且,依次处理可以将处理工具的开销限定在一定的范围,而不受文档篇幅的影响,使得处理工具长期处在一个相对稳定的功耗状态下,不会引起过载而宕机的现象。
进一步的,上述步骤C包括:
依据划分的各小区的位置信息,构建出文本区域;
将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,复制到文本区域中,保留文档对象中的非文本部分;
删除当前页面中,所有小区的文档对象中的文本部分。
即通过转移文本(复制后删除原文本)的方式,将文本和非文本进行拆分。这样,将文本和非文本进行了层次分离,避免了后续编辑过程中的相互影响。通过复制的方式,可以避免直接在文档中进行处理而导致拆分不彻底、拆分不当的情况。
进一步的,文本对象仅包含文本内容,所述非文本对象包含文本框、图像和表格三种对象。
该三种非文本对象涵盖了所有非文本格式,将所有非文本格式进行归类,便于制定相应的大类对象处理方案。
进一步的,上述将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,复制到文本区域中具体为:
查找所有小区的非文本对象中的文本框,将文本框中的文本部分对应于其位置信息进行暂存;
过滤所有小区的非文本对象中的表格和图形,将进行过滤处理的小区的文档对象中的文本部分对应于其位置信息进行暂存;
将所有小区的文本对象对应其位置信息进行暂存;
将暂存的文本部分依据对应的位置信息,复制到构建的文本区域中的对应位置。
通过文本暂存的方式,将文档中文本复制到文本区域中,即在提取出所有文本后,一次性复制到文本区域中,可以避免同时调用多个/所有处理区(即原文档、暂存区和文本区域),降低处理负荷峰值,文档处理工具的负荷。同时,对各非文本对象分别进行处理,采用对应的处理方法(过滤或文本提取),使得处理更具针对性,提供处理效果。
进一步的,上述删除当前页面中,所有小区的文档对象中的文本部分具体为:
过滤所有小区的非文本对象中的表格和图形,删除进行过滤处理的小区的文档对象中的文本部分;
保留所有小区的非文本对象中的文本框,删除文本框中的文本部分;
删除所有小区的文本对象。
分别对各种非文本对象进行过滤,分别对各小区中的文本内容进行删除,可以避免一次性删除而导致处理困难或删除不当(过多或不足)的情况。
进一步的,对于所有小区中的非文本对象的处理,具有预定的处理顺序。
按顺序对各小区的非文本对象进行处理,可以增加处理的条理性,防止处理混乱而增大系统负荷。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明的文档编辑辅助方法,将文档中的文本与非文本进行拆分,对于视觉上,没有任何影响。拆分结果对于后续文档的编辑有着极好的辅助作用,对于文本的编辑不会影响文档中非文本的格式或排版,反之亦然。
2、本发明通过将文本先复制、再删除的方式,将文档文本和非文本进行层次划分,而非在文档中直接对文本和非文本划区。可以避免拆分的不彻底情况;并且避免两类间的相互影响。
3、本发明对文档进行划区处理,对各小区、各类文档对象进行顺序处理,可以保证处理过程的条理性,确保处理过程保持在一个相对稳定的负荷状态。对于各类文档对象的针对性处理,可以确保对于文本和非文本内容的处理更为彻底,使得拆分结果更为精确。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是文档编辑辅助方法的流程图。
图2是文档编辑辅助方法的一个实施例。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1所示,本实施例公开了一种文档编辑辅助方法,根据该方法,可以分别提取出文档中的对象,且保证对于任何文档对象的编辑不会影响到其它文档对象的格式和排版。方法包括:
A.依据预定分区方法,将当前页面划分为若干小区,并记录每一小区的位置信息。
所划分出的每个小区,均至少包含当前页面一段的内容。此处以一个回车符为一段的结尾。在一个实施例中,将当前页面中,每个回车符与上一回车符间的内容划分为一个小区。显然,所划分的每一个小区均对应与当前页面中的具体位置。
B.查找并记录每一小区中的文档对象及其对应的位置信息;该文档对象分为文本类对象和非文本类对象。
对于文本对象来讲,其仅包含文本内容。对于非文本对象而言,其就包含多种对象,如文本框、图形(例如SmartArt、条形图、图片等)、表格等。一个小区内,可以同时包含文本对象和非文本对象。所查找出的各种文档对象对其位置信息存在记录。
C.依据划分的各小区的位置信息,构建出文本区域;将所有小区的文档对象中的文本部分(包括非文本对象中的文本部分及文本对象),依据所属文档对象的位置信息,载入到文本区域中,保留文档对象的非文本部分(即非文本对象中的非文本部分)。
即将每个小区中的文本部分载入到文本区域中的对应位置,保持非文本对象中的非文本部分不变,不进行处理。这样,就将文档中的对象进行了拆分。对于文本部分的编辑,不会影响到其它部分格式或排版的改动;同样的,对于图表等非文本对象的改动,也不会影响到文本部分格式或排版的变动。这样对于文档的后期编辑起到很好的辅助作用。
当前页面可以指完档的所有页面或者某一单页。对于单页而言,在对当前页处理完成后,接着对下一页面进行处理,直到处理完所有页面。在对当前页面进行处理时,可以通过获取当前页面的页码以及文档总页码,来判断当前页面是否为结束页,若是,则在处理完当前页面后,结束对文档的处理,否则,继续处理下一页。
在一个实施例中,将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,载入到文本区域中时,具有相应的处理顺序。在一种实施方式中,为依次对划分的每一个小区进行处理,即依次将各小区的文档对象中的文本部分,依据文本部分所述的文档对象的位置信息,载入到文本区域中。所谓的文本区域,在一个实施例中,为文本框。在另一个实施例中,也可以是其它具备限定符的区域。
如图2所示,本实施例公开了上述实施例中的步骤C的详细步骤,其包括:
依据划分的各小区的位置信息,构建出文本区域;
将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,复制到文本区域中,保留文档对象中的非文本部分;
删除当前页面中,所有小区的文档对象中的文本部分。
在一个实施例中,上述将文档对象中的文本部分,依据所属文档对象的位置信息,复制到文本区域中,保留文档对象中的非文本部分具体实现为:
查找所有小区的非文本对象中的文本框,将文本框中的文本部分对应于其位置信息进行暂存;
过滤所有小区的非文本对象中的表格和图形,将进行过滤处理的小区的文档对象中的文本部分对应于其位置信息进行暂存;
将所有小区的文本对象对应其位置信息进行暂存;
将暂存的文本部分依据对应的位置信息,复制到构建的文本区域中的对应位置。
在具体实施时,对于文本框、表格和图形的处理,具有相应的处理顺序。在一个实施例中,处理顺序为上述撰写的顺序(即先处理文本框,再处理表格,最后处理图形)。在另一个实施例中,也可以是非同时处理的其它顺序。
在一个具体实施方式中,上一实施例的具体流程为:
a.将查找出的文本框中的文本部分存入预定义的列表中;
b.遍历各小区,判断各小区中是否包含表格,若是,则过滤各小区中的表格;
c.判断各小区中是否包含图形,若是,则过滤小区中的图形,将相应小区中的文本部分存入到所定义的列表中;此处的文本部分指相应小区所在的插入点信息;插入点是要在其中插入文本或图形的点,通常显示为一条闪烁的竖直线,每一个字占据一个插入点,例如,第60个插入点与第90个插入点之间代表有30个字符;将存入列表中的文本部分依据对应的位置信息复制到文本区域中;
d.若小区即不含表格,也不含图形,则属于仅含文本对象的小区,则直接将该小区中的所有内容依据对应的位置信息复制到文本区域中。
在一个实施例中,上述删除当前页面中,所有小区的文档对象中的文本部分具体为:
过滤所有小区的非文本对象中的表格和图形,删除进行过滤处理的小区的文档对象中的文本部分;
保留所有小区的非文本对象中的文本框,删除文本框中的文本部分;此处文本框是限定其内文本内容的限定符,不指代其内包含的文本内容;
删除所有小区的文本对象。
本文中的过滤指不进行处理。同样的,在上述方案中,对于文本框、表格和图形的处理,具有相应的处理顺序。在一个实施例中,处理顺序为先处理表格,再处理文本框,最后处理图形)。具体如下:
a.选中当前页面所有文档对象,依次获取各小区的文本内容;
b.过滤所有小区中的表格;
c.过滤所有小区中的文本框,删除文本框中的文本内容;
d.过滤所有小区中的图形,计算含图形小区中文本的区域范围,再删除相应小区中的文本内容;
e.删除所有小区的文本对象。
在另一个实施例中,也可以是非同时处理的其它顺序。
将本发明的方法对应的产品通过Microsoft Office Interop的API接口进行设计,按本发明设计的业务逻辑,使用inno setup compiler打包程序,以插件形式安装到word中,即可成为快捷工具,并且可以直接调用,而无需再打开其它应用,无需将文本复制到其它应用中,实现对文档的快捷处理。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
Claims (9)
1.一种文档编辑辅助方法,其特征在于,包括:
A.将当前页面划分为若干小区,并记录每一小区的位置信息;
B.查找并记录每一小区中的文档对象及其对应的位置信息;该文档对象分为文本类对象和非文本类对象;
C.依据划分的各小区的位置信息,构建出文本区域;将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,载入到文本区域中;保留文档对象的非文本部分。
2.如权利要求1所述的文档编辑辅助方法,其特征在于,所述步骤A中所划分出的每个小区,均至少包含当前页面一段的内容。
3.如权利要求1所述的文档编辑辅助方法,其特征在于,所述步骤A中,划分小区的方法为:将当前页面中,每个回车符与上一回车符间的内容划分为一个小区。
4.如权利要求1所述的文档编辑辅助方法,其特征在于,所述步骤C中,所述将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,载入到文本区域中具体为:依次将各小区的文档对象中的文本部分,依据所属文档对象的位置信息,载入到文本区域中。
5.如权利要求1所述的文档编辑辅助方法,其特征在于,所述步骤C包括:
依据划分的各小区的位置信息,构建出文本区域;
将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,复制到文本区域中,保留文档对象中的非文本部分;
删除当前页面中,所有小区的文档对象中的文本部分。
6.如权利要求1-5之一所述的文档编辑辅助方法,其特征在于,
所述文本对象仅包含文本内容,所述非文本对象包含文本框、图像和表格三种对象。
7.如权利要求6所述的文档编辑辅助方法,其特征在于,所述将所有小区的文档对象中的文本部分,依据所属文档对象的位置信息,复制到文本区域中具体为:
查找所有小区的非文本对象中的文本框,将文本框中的文本部分对应于其位置信息进行暂存;
过滤所有小区的非文本对象中的表格和图形,将进行过滤处理的小区的文档对象中的文本部分对应于其位置信息进行暂存;
将所有小区的文本对象对应其位置信息进行暂存;
将暂存的文本部分依据对应的位置信息,复制到构建的文本区域中的对应位置。
8.如权利要求6所述的文档编辑辅助方法,其特征在于,所述删除当前页面中,所有小区的文档对象中的文本部分具体为:
过滤所有小区的非文本对象中的表格和图形,删除进行过滤处理的小区的文档对象中的文本部分;
保留所有小区的非文本对象中的文本框,删除文本框中的文本部分;
删除所有小区的文本对象。
9.如权利要求7或8所述的文档编辑辅助方法,其特征在于,对于所有小区中的非文本对象的处理,具有预定的处理顺序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910078191.6A CN109815473A (zh) | 2019-01-28 | 2019-01-28 | 一种文档编辑辅助方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910078191.6A CN109815473A (zh) | 2019-01-28 | 2019-01-28 | 一种文档编辑辅助方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815473A true CN109815473A (zh) | 2019-05-28 |
Family
ID=66605432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910078191.6A Pending CN109815473A (zh) | 2019-01-28 | 2019-01-28 | 一种文档编辑辅助方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815473A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489733A (zh) * | 2019-07-31 | 2019-11-22 | 联想(北京)有限公司 | 一种信息处理方法、电子设备和计算机可读存储介质 |
CN117649673A (zh) * | 2024-01-30 | 2024-03-05 | 陕西巨微图书文化传播有限公司 | 一种图书编校中的图片处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927533A (zh) * | 2014-04-11 | 2014-07-16 | 北京工业大学 | 一种针对早期专利文档扫描件中图文信息的智能处理方法 |
CN105468577A (zh) * | 2014-09-23 | 2016-04-06 | 北大方正集团有限公司 | 一种文档拆分方法及系统 |
CN106126659A (zh) * | 2016-06-28 | 2016-11-16 | 合肥酷睿网络科技有限公司 | 一种基于文本分类技术的信息处理方法 |
CN106257496A (zh) * | 2016-07-12 | 2016-12-28 | 华中科技大学 | 海量网络文本与非文本图像分类方法 |
-
2019
- 2019-01-28 CN CN201910078191.6A patent/CN109815473A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927533A (zh) * | 2014-04-11 | 2014-07-16 | 北京工业大学 | 一种针对早期专利文档扫描件中图文信息的智能处理方法 |
CN105468577A (zh) * | 2014-09-23 | 2016-04-06 | 北大方正集团有限公司 | 一种文档拆分方法及系统 |
CN106126659A (zh) * | 2016-06-28 | 2016-11-16 | 合肥酷睿网络科技有限公司 | 一种基于文本分类技术的信息处理方法 |
CN106257496A (zh) * | 2016-07-12 | 2016-12-28 | 华中科技大学 | 海量网络文本与非文本图像分类方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489733A (zh) * | 2019-07-31 | 2019-11-22 | 联想(北京)有限公司 | 一种信息处理方法、电子设备和计算机可读存储介质 |
CN117649673A (zh) * | 2024-01-30 | 2024-03-05 | 陕西巨微图书文化传播有限公司 | 一种图书编校中的图片处理方法 |
CN117649673B (zh) * | 2024-01-30 | 2024-04-26 | 陕西巨微图书文化传播有限公司 | 一种图书编校中的图片处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101206639B (zh) | 一种基于pdf的复杂版面的标引方法 | |
CN101770446B (zh) | 一种版式文件中表格识别方法及系统 | |
CN107358208B (zh) | 一种pdf文档结构化信息提取方法及装置 | |
US5396588A (en) | Data processing using digitized images | |
CN105808528B (zh) | 一种文档文字的处理方法 | |
CN109815473A (zh) | 一种文档编辑辅助方法 | |
CN108959254A (zh) | 一种用于期刊pdf文件中文章内容的解析方法 | |
US7046847B2 (en) | Document processing method, system and medium | |
CN107885715A (zh) | 代码信息的排版方法、电子设备及计算机存储介质 | |
CN103176956B (zh) | 用于提取文档结构的方法和装置 | |
WO2009087999A1 (ja) | 目次構造特定装置 | |
CN106021196A (zh) | 一种公式转换方法及系统 | |
CN106446046B (zh) | 一种在关系数据库中及时快速分析记录的方法 | |
CN112446373A (zh) | 识别转换图像文件的方法、系统、计算机设备及存储介质 | |
Futrelle | Handling figures in document summarization | |
CN106156314A (zh) | 一种数据操作方法及装置、数据查找方法及装置 | |
CN106874242B (zh) | 一种排版方法和系统 | |
CN109636476A (zh) | 一种品牌名称数据标准化处理方法及装置 | |
Sudarma | Identifying of the Cielab Space Color for the Balinese Papyrus Characters | |
Summerlin | Using the ‘Old Law’in Twelfth-Century Decretal Collections | |
CN112149646B (zh) | 版面分析方法、装置、设备及存储介质 | |
JP2001155017A (ja) | タグ付き文書作成装置およびそのプログラムを記録した記録媒体 | |
CN113986854A (zh) | 字体文件的压缩方法、装置、存储介质及处理器 | |
JPH04241618A (ja) | 帳票作成装置 | |
CN110516219A (zh) | 一种基于产品集生产报告的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190528 |