CN107704439B - 一种多层图像文字编辑方法及实现其方法的系统 - Google Patents

一种多层图像文字编辑方法及实现其方法的系统 Download PDF

Info

Publication number
CN107704439B
CN107704439B CN201610651884.6A CN201610651884A CN107704439B CN 107704439 B CN107704439 B CN 107704439B CN 201610651884 A CN201610651884 A CN 201610651884A CN 107704439 B CN107704439 B CN 107704439B
Authority
CN
China
Prior art keywords
file
module
image
layer
editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610651884.6A
Other languages
English (en)
Other versions
CN107704439A (zh
Inventor
沈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science And Technology Beijing Technology Co ltd
Original Assignee
China Science And Technology Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science And Technology Beijing Technology Co ltd filed Critical China Science And Technology Beijing Technology Co ltd
Priority to CN201610651884.6A priority Critical patent/CN107704439B/zh
Publication of CN107704439A publication Critical patent/CN107704439A/zh
Application granted granted Critical
Publication of CN107704439B publication Critical patent/CN107704439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/146Coding or compression of tree-structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种用于多层图像文字编辑方法及实现其方法的系统,该系统包括文件解析模块、编辑器模块、文件合并模块、数据存储模块和显示模块。文件解析模块能够将多层图像文件解析成不同的数据图层,将其中的文字图层传送至编辑器模块进行文字编辑,编辑后生成的新文字图层传送至文件合并模块与其余图层进行合并,生成新多层图像文件。本发明能够方便的修改、编辑多层图像文件中的文字内容,并且能够完成的保留图像文件的原始特征,不破坏文件的图像属性。

Description

一种多层图像文字编辑方法及实现其方法的系统
技术领域
本发明涉及多层图像文字编辑领域,具体涉及一种多层图像文字编辑方法及实现其方法的系统。
背景技术
在互联网、大数据时代,各种数据类型爆炸式产生,如文本、图像、音频、视频、程序、以及各类数据库等等。在多媒体文档方面,越来越多的文档以多层图像加文字层的形式保存(例如双层图像文档PDF格式,多层图像文档HQC,DJVU格式等)。这种说错图像的保存形式一方面可以最大程度的保留文件图像的原始内容,另一方面可以在图像的基础之上使文档内有文本的可读属性。
目前,多层图像文档在电子文档、电子档案、电子书中运用越来越广泛。多层图像文档的编辑也就成了一个重要课题。由于文件是属于图像文件,并且文件由多个内容层组成,所以文件的编辑具有较大的难度和不便利性。目前对于多层图像文字内容编辑的技术,行业内很少,类似的有对于双层图像文档的编辑技术如:adobe acrobat里面的pdf编辑。但是,对于多层图像文件文字内容的编辑,目前市场上还没有相关的成熟技术。
发明内容
本发明是为了克服现有技术对多层图像文件中文字部分编辑困难的技术问题,提供一种多层图像文字编辑方法及实现其方法的系统,能够非常方便的修改、编辑多层图像文件中的文字内容,并且能够完成的保留图像文件的原始特征,不破坏文件的图像属性。
本发明提供一种多层图像文字编辑方法,包括以下步骤:
S1、用户向服务器发送多层图像编辑请求;
S2、服务器查找数据存储模块中是否存在相应的多层图像文件,如果是,执行步骤S3,如果否,则直接结束,并通过显示模块向用户反馈错误信息;
S3、数据存储模块将多层图像文件发送至文件解析模块;
S4、文件解析模块将多层图像文件解析成单独的图层并记录每个图层的位置信息;
S5、文件解析模块查找经过步骤S4解析后的图层中是否存在文字图层,如果是,则执行步骤S6,如果否,则直接结束,并通过显示模块向用户反馈错误信息;
S6、文件解析模块将文字图层解析成XML标签文件;
S7、文件解析模块将解析后的XML标签文件传送至编辑器模块,将其余图层发送至文件合并模块;
S8、用户通过编辑器模块对XML标签文件进行编辑、修改和保存,生成新XML标签文件;
S9、编辑器模块将新XML标签文件发送至文件合并模块;
S10、文件合并模块将新XML标签文件合并成新文字图层,并根据每个图层的位置信息对新文字图层和其余图层进行合并,生成新多层图像文件。
本发明所述的一种多层图像文字编辑方法,作为优选方式,步骤S6中XML标签文件包括Page、Zone、Paragraph、Line、word、Character以及每个Item在图像中的座标信息。
本发明所述的一种多层图像文字编辑方法,作为优选方式,步骤S8中对XML标签文件的编辑、修改包括以下方式或其组合
行句编辑模式:以整行整句的方式编辑文字图层中的文字信息;
字词编辑模式:以单个字词的方式编辑文字图层中的文字信息。
本发明所述的一种多层图像文字编辑方法,作为优选方式,步骤S8进一步包括以下步骤:
S81、编辑器模块根据座标信息将XML标签文件以Label的形式图形化还原每个文字;
S82、用户通过编辑器模块以行句编辑模式和/或所述字词编辑模式对文字信息进行编辑;
S83、将经过步骤S82编辑后的文字信息保存成新XML标签文件。
本发明提供一种用于实现多层图像文字编辑方法的系统,包括
文件解析模块:用于将多层图像文件解析成单独的图层并记录每个图层的位置信息,将文字图层解析成XML标签文件,将XML标签文件传送至编辑器模块,将除文字图层之外的图层及每个图层的位置信息传送至文件合并模块;
编辑器模块:用于将XML标签文件进行编辑、修改和保存,生成新XML标签文件;
文件合并模块:用于将新XML标签文件合并成新文字图层,将新文字图层和其余图层合并成新多层图像文件;
数据存储模块:用于存储所述多层图像文件和新多层图像文件;
显示模块:用于将XML标签文件、新XML标签文件和错误信息反馈至用户。
本发明所述的一种多层图像文字编辑方法的系统,作为优选方式,编辑器模块包括
文字编辑模块:用于对XML标签文件进行编辑;
数据保存模块:用于对编辑、修改后的新XML标签文件进行保存;
数据加载模块:用于加载新XML标签文件。
用户可以在编辑过程中随时对文件进行保存,当需要再次修改时,仅需将保存之后的XML标签文件通过数据加载模块进行加载即可。
本发明可以将多层图像文件的文字层单独取出编辑,并将编辑好的新文字层保存至原多层图像文件中,达到对多层图像文件进行文字编辑的功能。同时将运算量大的文件解析和合并设置在服务端进行,能够减少用户端的计算量,减轻用户设备的运算负担。
附图说明
图1为一种多层图像文字编辑方法的流程图;
图2为一种多层图像文字编辑方法步骤S8的流程图;
图3为一种一种用于实现多层图像文字编辑方法的系统组成图;
图4为一种一种用于实现多层图像文字编辑方法的系统编辑器模块组成图;
图5为一种多层图像文字编辑方法实施例1的流程图;
图6为一种多层图像文字编辑方法实施例2的流程图。
具体实施方式
下面结合说明书附图来说明本发明的具体实施方式。
本发明提供一种多层图像文字编辑方法,如图1~2所示,包括以下步骤:
S1、用户向服务器发送多层图像编辑请求;
S2、服务器查找数据存储模块中是否存在相应的多层图像文件,如果是,执行步骤S3,如果否,则直接结束,并通过显示模块向用户反馈错误信息;
S3、数据存储模块将多层图像文件发送至文件解析模块;
S4、文件解析模块将多层图像文件解析成单独的图层并记录每个图层的位置信息;
S5、文件解析模块查找经过步骤S4解析后的图层中是否存在文字图层,如果是,则执行步骤S6,如果否,则直接结束,并通过显示模块向用户反馈错误信息;
S6、文件解析模块将文字图层解析成XML标签文件,XML标签文件包括Page、Zone、Paragraph、Line、word、Character以及每个Item在图像中的座标信息;
S7、文件解析模块将解析后的XML标签文件传送至编辑器模块,将其余图层发送至文件合并模块;
S8、用户通过编辑器模块对XML标签文件通过行句编辑模式和/或字词编辑模式进行编辑、修改和保存,生成新XML标签文件;具体包括
S81、编辑器模块根据座标信息将XML标签文件以Label的形式图形化还原每个文字;
S82、用户通过编辑器模块以行句编辑模式和/或所述字词编辑模式对文字信息进行编辑;
S83、将经过步骤S82编辑后的文字信息保存成新XML标签文件。
S9、编辑器模块将新XML标签文件发送至文件合并模块;
S10、文件合并模块将新XML标签文件合并成新文字图层,并根据每个图层的位置信息对新文字图层和其余图层进行合并,生成新多层图像文件。
本发明提供一种多层图像文字编辑方法的系统,如图3~4所示,包括
文件解析模块100:用于将多层图像文件解析成单独的图层并记录每个图层的位置信息,将文字图层解析成XML标签文件,将XML标签文件传送至编辑器模块,将除文字图层之外的图层及每个图层的位置信息传送至文件合并模块;
编辑器模块200:用于将XML标签文件进行编辑、修改和保存,生成新XML标签文件;
文字编辑模块210:用于对XML标签文件进行编辑;
数据保存模块220:用于对编辑、修改后的新XML标签文件进行保存;
数据加载模块230:用于加载新XML标签文件;
文件合并模块300:用于将新XML标签文件合并成新文字图层,将新文字图层和其余图层合并成新多层图像文件;
数据存储模块400:用于存储所述多层图像文件和新多层图像文件;
显示模块500:用于将XML标签文件、新XML标签文件和错误信息反馈至用户。
实施例1
如图5所示,用于编辑扫描文件中的文字信息,包括以下步骤:
S11、用户向服务器发送编辑请求;
S12、系统开启socket监听外部请求;
S13、服务器查找数据存储模块400中是否存在相应的扫描文件,如果是,执行步骤S14,如果否,则直接结束,并通过显示模块500向用户反馈错误信息;
S14、数据存储模块400将扫描文件发送至文件解析模块100;
S15、文件解析模块100将扫描文件解析成文字图层和图像图层,并记录每个图层的位置信息;
S16、文件解析模块100查找经过步骤S15解析后的图层中是否存在文字图层,如果是,则执行步骤S17,如果否,则直接结束,并通过显示模块500向用户反馈错误信息;
S17、文件解析模块100将文字图层解析成XML标签文件,XML标签文件包括Page、Zone、Paragraph、Line、word、Character以及每个Item在图像中的座标信息;
S18、文件解析模块100将解析后的XML标签文件传送至编辑器模块200,将图像图层发送至文件合并模块300;
S19、编辑器模块200根据座标信息将XML标签文件以Label的形式图形化还原每个文字;
S110、用户通过编辑器模块200以行句编辑模式对文字信息进行编辑;
S111、将经过步骤S110编辑后的文字信息保存成新XML标签文件。
S112、编辑器模块200将新XML标签文件发送至文件合并模块300;
S113、文件合并模块300将新XML标签文件合并成新文字图层,并根据每个图层的位置信息对新文字图层和图像图层进行合并,生成新多层图像文件。
本实施例能够对通过扫描得到的PDF、JPG等形式的文件进行文字编辑,方便用户对于文件的修改,同时能够完成的保留图像文件的原始特征,不破坏文件的图像属性。
实施例2
如图6所示,用于HQC文件中的文字信息,包括以下步骤:
S21、用户向服务器发送编辑请求;
S22、系统开启socket监听外部请求;
S23、服务器查找数据存储模块400中是否存在相应的HQC文件,如果是,执行步骤S24,如果否,则直接结束,并通过显示模块500向用户反馈错误信息;
S24、数据存储模块400将HQC文件发送至文件解析模块100;
S25、文件解析模块100将HQC文件解析成前景图层、背景图层、模板图层、文字图层、水印图层,并记录每个图层的位置信息;
S26、文件解析模块100查找经过步骤S25解析后的图层中是否存在文字图层,如果是,则执行步骤S27,如果否,则直接结束,并通过显示模块500向用户反馈错误信息;
S27、文件解析模块100将文字图层解析成XML标签文件,XML标签文件包括Page、Zone、Paragraph、Line、word、Character以及每个Item在图像中的座标信息;
S28、文件解析模块100将解析后的XML标签文件传送至编辑器模块200,将图像图层发送至文件合并模块300;
S29、编辑器模块200根据座标信息将XML标签文件以Label的形式图形化还原每个文字;
S210、用户通过编辑器模块200以字词编辑模式对文字信息进行编辑;
S211、将经过步骤S210编辑后的文字信息保存成新XML标签文件。
S212、编辑器模块200将新XML标签文件发送至文件合并模块300;
S213、文件合并模块300将新XML标签文件合并成新文字图层,并根据每个图层的位置信息对新文字图层和其余图层进行合并,生成新多层图像文件。
HQC图层是指高质量图像压缩文件(High Quarlity Compression),由多层图层组成,每个图层通过不同的压缩算法进行最优化压缩,最终形成一个高清晰,高压缩比、文件文字内容可以检索的HQC图像文件。本实施例能够对通过HQC图像文件进行文字编辑,方便用户对于文件的修改,同时能够完成的保留图像文件的原始特征,不破坏文件的图像属性。
以上说明对本发明而言只是说明性的,而非限制性的,本领域普通技术人员理解,在不脱离权利要求所限定的精神和范围的情况下,可作出的任何修改、变化或等效,都将落入本发明的保护范围之内。

Claims (4)

1.一种多层图像文字编辑方法,其特征在于:包括以下步骤:
S1、用户向服务器发送多层图像编辑请求;
S2、服务器查找数据存储模块中是否存在相应的多层图像文件,如果是,执行步骤S3,如果否,则直接结束,并通过显示模块向用户反馈错误信息;
S3、所述数据存储模块将所述多层图像文件发送至文件解析模块;
S4、所述文件解析模块将所述多层图像文件解析成单独的图层并记录每个所述图层的位置信息;
S5、所述文件解析模块查找经过步骤S4解析后的所述图层中是否存在文字图层,如果是,则执行步骤S6,如果否,则直接结束,并通过所述显示模块向用户反馈错误信息;
S6、所述文件解析模块将所述文字图层解析成XML标签文件;
S7、所述文件解析模块将解析后的所述XML标签文件传送至编辑器模块,将其余图层发送至文件合并模块;
S8、用户通过所述编辑器模块对所述XML标签文件进行编辑、修改和保存,生成新XML标签文件;
S81、所述编辑器模块根据座标信息将所述XML标签文件以Label的形式图形化还原每个文字;
S82、用户通过所述编辑器模块以行句编辑模式和/或字词编辑模式对文字信息进行编辑;
S83、将经过步骤S82编辑后的文字信息保存成所述新XML标签文件;
S9、所述编辑器模块将所述新XML标签文件发送至所述文件合并模块;
S10、所述文件合并模块将所述新XML标签文件合并成新文字图层,并根据每个图层的所述位置信息对所述新文字图层和其余图层进行合并,生成新多层图像文件;
用于实现多层图像文字编辑方法的系统包括:
文件解析模块:用于将所述多层图像文件解析成单独的图层并记录每个图层的位置信息,将所述文字图层解析成所述XML标签文件,将所述XML标签文件传送至所述编辑器模块,将除所述文字图层之外的图层及每个图层的所述位置信息传送至所述文件合并模块;
编辑器模块:用于将所述XML标签文件进行编辑、修改和保存,生成所述新XML标签文件;
文件合并模块:用于将所述新XML标签文件合并成所述新文字图层,将所述新文字图层和其余图层合并成所述新多层图像文件;
数据存储模块:用于存储所述多层图像文件和所述新多层图像文件;
显示模块:用于将所述XML标签文件、所述新XML标签文件和所述错误信息反馈至用户。
2.根据权利要求1所述的一种多层图像文字编辑方法,其特征在于:步骤S6中所述XML标签文件包括Page、Zone、Paragraph、Line、word、Character以及每个Item在图像中的座标信息。
3.根据权利要求2所述的一种多层图像文字编辑方法,其特征在于:步骤S8中所述对XML标签文件的编辑、修改包括以下方式或其组合
行句编辑模式:以整行整句的方式编辑文字图层中的文字信息;
字词编辑模式:以单个字词的方式编辑文字图层中的文字信息。
4.根据权利要求1所述的一种多层图像文字编辑方法的系统,其特征在于:所述编辑器模块包括
文字编辑模块:用于对所述XML标签文件进行编辑;
数据保存模块:用于对编辑、修改后的所述新XML标签文件进行保存;
数据加载模块:用于加载所述新XML标签文件。
CN201610651884.6A 2016-08-09 2016-08-09 一种多层图像文字编辑方法及实现其方法的系统 Active CN107704439B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610651884.6A CN107704439B (zh) 2016-08-09 2016-08-09 一种多层图像文字编辑方法及实现其方法的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610651884.6A CN107704439B (zh) 2016-08-09 2016-08-09 一种多层图像文字编辑方法及实现其方法的系统

Publications (2)

Publication Number Publication Date
CN107704439A CN107704439A (zh) 2018-02-16
CN107704439B true CN107704439B (zh) 2021-08-10

Family

ID=61168443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610651884.6A Active CN107704439B (zh) 2016-08-09 2016-08-09 一种多层图像文字编辑方法及实现其方法的系统

Country Status (1)

Country Link
CN (1) CN107704439B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312155A (zh) * 2018-03-27 2019-10-08 青岛海信传媒网络技术有限公司 一种用户界面的显示方法、装置和智能电视
CN110210010A (zh) * 2019-05-20 2019-09-06 掌阅科技股份有限公司 基于分层技术实现的psd文件编辑方法、电子设备
CN112748839A (zh) * 2020-02-17 2021-05-04 腾讯科技(深圳)有限公司 图片处理方法、装置、计算机可读存储介质和计算机设备
TW202209159A (zh) * 2020-08-19 2022-03-01 萬潤科技股份有限公司 電路板檢查設備及其圖層編修教導方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4143566B2 (ja) * 2004-04-16 2008-09-03 キヤノン株式会社 文書処理装置及びその制御方法、並びにコンピュータプログラム
US20090004410A1 (en) * 2005-05-12 2009-01-01 Thomson Stephen C Spatial graphical user interface and method for using the same
CN101727674B (zh) * 2008-10-30 2012-02-29 北大方正集团有限公司 一种文档中图片标注及再现标注的方法
CN102169589A (zh) * 2010-02-26 2011-08-31 深圳富泰宏精密工业有限公司 图像处理系统及方法
CN104063380B (zh) * 2013-03-18 2018-06-05 北京百度网讯科技有限公司 将图片类文件转换为网页文件的方法和装置
CN104346615B (zh) * 2013-08-08 2019-02-19 北大方正集团有限公司 版式文档中复合图的提取装置和提取方法
CN104123112B (zh) * 2014-07-29 2018-12-14 联想(北京)有限公司 一种图像处理方法及电子设备
CN104918097B (zh) * 2015-06-01 2018-05-08 无锡天脉聚源传媒科技有限公司 一种字幕生成方法及装置

Also Published As

Publication number Publication date
CN107704439A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
CN107704439B (zh) 一种多层图像文字编辑方法及实现其方法的系统
US8347206B2 (en) Interactive image tagging
CN111767254B (zh) 基于版式数据流文件技术的多文件阅读装置及其方法
US7305612B2 (en) Systems and methods for automatic form segmentation for raster-based passive electronic documents
US7162691B1 (en) Methods and apparatus for indexing and searching of multi-media web pages
US20090144614A1 (en) Document layout extraction
US20080320387A1 (en) Information displaying device and information displaying method
WO2016008347A1 (zh) 版式文档的重排方法、系统及电子阅读终端
KR20080005491A (ko) 리소스들 간의 효율적 관계 설명
CN1801149A (zh) 用于将格式化文档转化为网页的系统和方法
JPH08255155A (ja) 全文登録語検索装置および方法
EP1887473A4 (en) MONITORING PROCEDURE, MONITORING SYSTEM, SYSTEM PROGRAM AND RECORDING MEDIUM CONTAINING THE PROGRAM
CA2508500A1 (en) An architecture for ink annotations on web documents
US20080091699A1 (en) Method of converting structured data
US10366051B2 (en) Method and system for file conversion
US20150071542A1 (en) Automated redaction
US20200175268A1 (en) Systems and methods for extracting and implementing document text according to predetermined formats
US20050187899A1 (en) Structured document processing method, structured document processing system, and program for same
US20070185832A1 (en) Managing tasks for multiple file types
US20050132285A1 (en) System and method for generating webpages
CN111881651A (zh) 一种uot流式文档转换成ofd版式文档的方法
US20110270862A1 (en) Information processing apparatus and information processing method
US8984397B2 (en) Architecture for arbitrary extensible markup language processing engine
CN116340259A (zh) 文档管理方法、文档管理系统和计算设备
CN108984676B (zh) 一种基于xml的电子书跨终端自适应显示系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant