CN112528593B - 文档处理方法、装置、电子设备及存储介质 - Google Patents

文档处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112528593B
CN112528593B CN202011458429.7A CN202011458429A CN112528593B CN 112528593 B CN112528593 B CN 112528593B CN 202011458429 A CN202011458429 A CN 202011458429A CN 112528593 B CN112528593 B CN 112528593B
Authority
CN
China
Prior art keywords
format
data structure
key information
shape
graphic element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011458429.7A
Other languages
English (en)
Other versions
CN112528593A (zh
Inventor
邹涛
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011458429.7A priority Critical patent/CN112528593B/zh
Publication of CN112528593A publication Critical patent/CN112528593A/zh
Application granted granted Critical
Publication of CN112528593B publication Critical patent/CN112528593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了文档处理方法、装置、电子设备及存储介质,涉及信息处理领域,尤其涉及文档排版、文档渲染中的图形信息处理等领域。具体实现方案为:响应图形元素的在线渲染操作,对所述图形元素支持不同的数据格式显示的待处理文档进行解析处理,得到所述图形元素分别对应的不同源数据结构;将所述图形元素由所述不同源数据结构分别转换为第一数据结构及第二数据结构,所述第一数据结构及第二数据结构与统一输出模式相匹配;将所述图形元素根据所述统一的数据格式进行在线渲染处理,得到不同数据格式下图形相同的显示结果。采用本申请,对于多种不同数据格式的同一图形元素,可以统一输出并得到图形相同的显示结果。

Description

文档处理方法、装置、电子设备及存储介质
技术领域
本申请涉及信息处理领域,本申请尤其涉及文档排版、文档渲染中的图形信息处理等领域。
背景技术
相关技术中,文档(如word、wps、excel、ppt、pdf等)处理中如果涉及图形元素,文档支持不同数据格式会导致同一图形元素,最终渲染后显示不同的图形。
以文档为word为例,微软公司开发的word有两种数据格式,一种是二进制数据格式,后缀为[.doc]。另一种是OOXML(微软公司为Office2007产品开发的技术规范)标准的数据格式,后缀为[.docx]。doc与docx是两种完全不同的数据格式标准,从文档要素的定义到数据的组织关系都不一样,导致了对同一图形元素(支持不同数据格式,如分别支持doc及docx格式)渲染后显示不同的图形,兼容性不好、不通用。
发明内容
本申请提供了一种文档处理方法、装置、电子设备及存储介质。
根据本申请的一方面,提供了一种文档处理方法,包括:
响应图形元素的在线渲染操作,对所述图形元素支持不同的数据格式显示的待处理文档进行解析处理,得到所述图形元素分别对应的不同源数据结构;
将所述图形元素由所述不同源数据结构分别转换为第一数据结构及第二数据结构,所述第一数据结构及第二数据结构与统一输出模式相匹配;
将所述图形元素分别根据所述第一数据结构及所述第二数据格式进行所述统一输出模式的匹配处理,得到统一的数据格式;
将所述图形元素根据所述统一的数据格式进行在线渲染处理,得到不同数据格式下图形相同的显示结果。
根据本申请的另一方面,提供了一种文档处理方法,包括:
获取待处理文档,所述待处理文档中的图形元素支持不同的数据格式显示;
将所述待处理文档基于不同的数据格式进行不同的解析处理,得到解析结果,所述解析结果包括:所述图形元素分别对应的不同源数据结构、及构成所述图形元素的不同关键信息;
将所述解析结果应用于在线渲染处理,得到不同数据格式下图形相同的显示结果。
根据本申请的另一方面,提供了一种文档处理装置,包括:
解析模块,用于响应图形元素的在线渲染操作,对所述图形元素支持不同的数据格式显示的待处理文档进行解析处理,得到所述图形元素分别对应的不同源数据结构;
转换模块,用于将所述图形元素由所述不同源数据结构分别转换为第一数据结构及第二数据结构,所述第一数据结构及第二数据结构与统一输出模式相匹配;
匹配模块,用于将所述图形元素分别根据所述第一数据结构及所述第二数据格式进行所述统一输出模式的匹配处理,得到统一的数据格式;
格式统一模块,用于将所述图形元素根据所述统一的数据格式进行在线渲染处理,得到不同数据格式下图形相同的显示结果。
根据本申请的另一方面,提供了一种文档处理装置,包括:
获取模块,用于获取待处理文档,所述待处理文档中的图形元素支持不同的数据格式显示;
文档解析模块,用于将所述待处理文档基于不同的数据格式进行不同的解析处理,得到解析结果,所述解析结果包括:所述图形元素分别对应的不同源数据结构、及构成所述图形元素的不同关键信息;
渲染模块,用于将所述解析结果应用于在线渲染处理,得到不同数据格式下图形相同的显示结果。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现本申请任意一实施例所提供的方法所述的方法。
采用本申请,响应图形元素的在线渲染操作,对所述图形元素支持不同的数据格式显示的待处理文档进行解析处理,得到所述图形元素分别对应的不同源数据结构;将所述图形元素由所述不同源数据结构分别转换为第一数据结构及第二数据结构,所述第一数据结构及第二数据结构与统一输出模式相匹配;将所述图形元素根据所述统一的数据格式进行在线渲染处理,得到不同数据格式(如文档为word场景中的doc或docx)下图形相同的显示结果。对于多种不同数据格式的同一图形元素,可以统一输出并得到图形相同的显示结果。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的doc数据格式显示的形状示意图;
图2是根据本申请实施例的docx数据格式显示的形状示意图;
图3是根据本申请实施例的doc数据格式在线解析后显示的形状示意图;
图4是根据本申请实施例的docx数据格式在线解析后显示的形状示意图;
图5是根据本申请实施例的文档处理方法的流程示意图;
图6是根据本申请实施例的文档处理方法的流程示意图;
图7是根据本申请实施例的doc文档存储格式的示意图;
图8是根据本申请实施例的doc文档容器式的层级结构示意图;
图9是根据本申请实施例的docx文档存储格式的示意图;
图10是根据本申请实施例的双数据文档统一格式的示意图;
图11是根据本申请实施例的双数据文档的统一格式节点定义示意图;
图12是根据本申请实施例的文档处理装置的组成结构示意图;
图13是根据本申请实施例的文档处理装置的组成结构示意图;
图14是用来实现本申请实施例的文档处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
以文档为word文档为例,由于doc与docx是两种完全不同的数据格式标准,从文档要素的定义到数据的组织关系都不一样,需要更有效地处理双数据格式(doc与docx并存场景的兼容性及通用性)的差异。
在实现本申请的过程中,实现了一种通用的图形元素处理方案,降低了因多种不同数据格式带来的差异,且利用终端越来越智能化且高效的图像处理技术,在线解析word文档,不仅使在线应用更加便捷,而且使得双数据格式具备通用性,该通用性指:双数据格式的图形的通用性,即同一个图形或称形状,哪怕支持双数据格式,但是排版及渲染后可以得到图形相同的显示结果,从而得到最好的渲染显示效果。通过终端即可在线解析word文档,提高了用户的处理效率,还能简化本地或服务器的处理逻辑,即不需要为每一个数据格式分别设计对应的处理逻辑,而是采用一个处理逻辑(如本申请S101-S104)支持双数据格式具备通用性。
需要指出的是,本文中的形状,表示office绘制图形中的形状。
图1是根据本申请实施例的doc数据格式显示的形状示意图,图2是根据本申请实施例的docx数据格式显示的形状示意图,如图1-图2所示,虽然数据的组织不同,但doc格式文档中的形状预览效果与docx格式文档中的形状预览效果是一致的。
图3是根据本申请实施例的doc数据格式在线解析后显示的形状示意图,图4是根据本申请实施例的docx数据格式在线解析后显示的形状示意图,如图3-4所示,支持双数据格式的文档显示中,在线渲染后,doc格式文档中的形状预览效果与docx格式文档中的形状预览效果不一致,且图3中,doc格式文档在线渲染后无法生成任何形状,与图1中doc格式文档渲染后的形状预览效果也完全不同。
有鉴于此,仍以wor文档为例,本申请支持对多种数据格式(至少双数据格式doc及docx)的解析,将多种数据格式转换后统一输出,即便数据格式不同,仍然可以达到同样的图形显示效果。本申请可以为在线实时的解决方案,比如,在线解析word文档,识别出构成图形元素的至少一个关键信息,并存储为不同数据格式支持的该至少一个关键信息(doc格式,对应容器式的层级结构;docx格式,对应xml节点结构),以便根据该至少一个关键信息匹配统一的输出模式后,将支持多种数据格式显示的该图形元素统一到一个数据格式上,最终得到不同数据格式下图形相同的显示结果。
根据本申请的实施例,提供了一种文档处理方法,图5是根据本申请实施例的文档处理方法的流程示意图,该方法可以应用于文档处理装置,例如,该装置可以部署于终端或服务器或其它处理设备执行的情况下,可以执行解析处理、数据转换处理、统一数据格式输出及渲染处理等等。其中,终端可以为用户设备(UE,User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA,Personal Digital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示,该文档处理方法应用于终端的情况下,包括:
S101、响应图形元素的在线渲染操作,对所述图形元素支持不同数据格式显示的待处理文档进行解析处理,得到所述图形元素分别对应的不同源数据结构。
S102、将所述图形元素由所述不同源数据结构分别转换为第一数据结构及第二数据结构,所述第一数据结构及第二数据结构与统一输出模式相匹配。
S103、将所述图形元素分别根据所述第一数据结构及所述第二数据格式进行所述统一输出模式的匹配处理,得到统一的数据格式。
S104、将所述图形元素根据所述统一的数据格式进行在线渲染处理,得到不同数据格式下图形相同的显示结果。
上述S101中,可以响应文档图形元素的在线渲染操作,实现多数据格式的解析,一示例中,获取不同数据格式显示的至少两个待处理文档,比如,第一个待处理文档支持doc格式显示,第二个待处理文档支持docx格式显示,对第一个待处理文档和第二个待处理文档分别进行源数据格式的解析,分别得到上述图形元素分别对应的不同源数据结构。
上述S102中,可以实现图形转换,包括:
在上述数据格式为第一格式的情况下,可以将上述图形元素由所述源数据结构转换为与统一输出模式相匹配的第一数据结构。比如,第一格式为待处理文档支持doc格式显示的情况,将图形元素由所述源数据结构(如微软配置的原始数据结构)转换为与统一输出模式相匹配的第一数据结构(容器式的结构,包含各个图像元素(或称形状对象)具有的形状、形状属性、记录标头、形状类型等)。
在上述数据格式为第二格式的情况下,将所述图形元素由所述源数据结构转换为与统一输出模式相匹配的第二数据结构。比如,第二格式为待处理文档支持docx格式显示的情况,将图形元素由所述源数据结构(如微软配置的原始数据结构)转换为与统一输出模式相匹配的第二数据结构(XML的节点树结构,包含父节点、子节点、兄弟节点等)。
上述S103-S104中,可以实现统一输出模式的匹配处理后将多数据格式变换到统一数据格式上,比如,第一格式为待处理文档支持doc格式显示的情况,第二格式为待处理文档支持docx格式显示的情况,经匹配处理后,可以将支持doc格式显示的图像元素,与支持docx格式显示的图像元素在统一输出模型下实现数据格式的统一,从而可以得到相同的图像处理结果。
需要指出的是,上述多种数据格式,以word文档为例,除了上述doc格式、上述docx格式、还可以包括wps格式等。
需要指出的是,上述文档包括:word文档、wps文档、excel文档、ppt文档及pdf文档中的至少一种。
采用本申请,可以将上述S101-S104构成的处理逻辑直接部署于终端,也可以部署在云端。其中,部署在终端的情况下,可以利用终端越来越智能化且高效的图像处理技术,在线解析word文档,不仅使在线应用更加便捷,而且使得双数据格式具备通用性(即双数据格式的图形的通用性,即同一个图形或称形状,哪怕支持双数据格式,但是排版及渲染后可以得到图形相同的显示结果),方便终端、云端的在线排版和渲染,从而得到最好的渲染显示效果,且提高了解析及渲染的处理速度,能更快的响应在线渲染操作。
一实施方式中,所述图形元素包括:支持不同的数据格式显示的同一图形元素。比如,支持不同数据格式(如doc或docx或wps)的同一图形元素,是圆形、是三角形,是矩形等规则图形,或者其他自定义的不规则图形。采用本实施方式,使得支持多数据格式的同一图形元素具备通用性,同一个图形或称形状,哪怕支持多数据格式,但是排版及渲染后可以得到图形相同的显示结果。
一实施方式中,所述对所述图形元素支持不同的数据格式显示的待处理文档进行解析处理,得到所述图形元素分别对应的不同源数据结构,还包括:所述数据格式为第一格式的情况下,通过所述解析处理,识别出第一源数据结构中构成所述图形元素的至少一个第一关键信息;和/或,所述数据格式为第二格式的情况下,通过所述解析处理,识别出第二源数据结构中构成所述图形元素的至少一个第二关键信息。采用本实施方式,可以分别识别出构成所述图形元素的至少一个第一关键信息和/或至少一个第二关键信息,如果只解析其中一种关键信息,则可以只在线解析一个或一类文档(doc或docx或wps),还可以同时解析多种关键信息,则采用批处理方式同时转多个或多类文档(doc+docx+wps),在支持多数据格式的同一图形元素具备通用性的基础上,提高了处理速度更快。
一实施方式中,所述将所述图形元素由所述不同源数据结构分别转换为第一数据结构及第二数据结构,所述第一数据结构及第二数据结构与统一输出模式相匹配,包括:所述数据格式为第一格式的情况下,将所述图形元素由第一源数据结构转换为与统一输出模式相匹配的所述第一数据结构;和/或,所述数据格式为第二格式的情况下,将所述图形元素由第二源数据结构转换为与统一输出模式相匹配的所述第二数据结构。采用本实施方式,可以分别转换图像元素为对应的数据格式,如果只转换为其中一种数据格式(doc或docx或wps),则可以只在线解析一个或一类文档(doc或docx或wps),还可以同时解析多种数据格式(doc+docx+wps),则采用批处理方式同时转多个或多类文档(doc+docx+wps),在支持多数据格式的同一图形元素具备通用性的基础上,提高了处理速度更快。
一实施方式中,所述第一数据结构包括:容器式的层次结构,其中,所述容器式的层次结构,包括:在容器中预先配置的各个图像元素(或称形状对象)具有的形状、形状属性、记录标头及形状类型。采用本实施方式,可以基于容器式的层次结构进行解析,从而提取出上述至少一个关键信息(如第一关键信息)。
一实施方式中,所述第二数据结构包括:流式排版(XML)的节点结构,其中,所述XML的节点结构,包括:父节点、子节点、兄弟节点。采用本实施方式,可以基于XML的节点结构进行解析,从而提取出上述至少一个关键信息(如第二关键信息)。
一实施方式中,还包括:所述数据格式为第一格式的情况下,将构成所述图形元素的至少一个第一关键信息由第一源数据结构中提取出来;和/或,所述数据格式为第二格式的情况下,将构成所述图形元素的至少一个第二关键信息由第二源数据结构中提取出来。采用本实施方式,可以实现关键信息(如第一关键信息和/或第二关键信息)的提取。提取到该关键信息,还可以将该关键信息与上述数据结构(容器式的层次结构、XML的节点结构)转换结合,比如,先生成空结构,再将该关键信息放入空结构的对应位置,实现结构+关键信息,从而得到完整的数据结构。
一实施方式中,所述将所述图形元素根据所述统一的数据格式进行在线渲染处理,得到不同数据格式下图形相同的显示结果,包括:将构成所述图形元素的至少一个第一关键信息、及构成所述图形元素的至少一个第二关键信息分别基于所述统一的数据格式进行在线渲染处理,得到所述不同数据格式下图形相同的显示结果。采用本实施方式,将构成图形元素的关键信息(第一关键信息和/或第二关键信息),基于统一数据格式,得到不同数据格式下图形相同的显示结果。
一实施方中,所述将构成所述图形元素的至少一个第一关键信息、及构成所述图形元素的至少一个第二关键信息分别基于所述统一的数据格式进行在线渲染处理,得到所述不同数据格式下图形相同的显示结果,包括:所述至少一个第一关键信息为至少一个第一形状属性及对应的第一形状类型;所述至少一个第二关键信息为至少一个第二形状属性及对应的第二形状类型;将所述至少一个第一形状属性及对应的第一形状类型、所述至少一个第二形状属性及对应的第二形状类型输出到所述统一的数据格式上,得到所述不同数据格式下图形相同的显示结果。
一示例中,可以响应文档图形元素的在线渲染处理,执行针对至少一类数据格式的待处理文档进行解析处理,针对第一待处理文档(doc格式的文档),将以第一数据格式存储的至少一个第一形状对象,基于预配置的容器式层次结构进行解析,得到描述所述至少一个第一形状对象的第一形状属性及第一形状类型。针对第二待处理文档(docx格式的文档),将以第二数据格式存储的所述至少一个第二形状对象,基于预配置的xml节点结构进行解析,得到描述所述至少一个第二形状对象的第二形状属性及第二形状类型。将所述第一形状属性及第一形状类型、所述第二形状属性及第二形状类型输出到统一的数据格式上,排版及渲染后得到的所述第一形状对象与所述第二形状对象显示相同的图形处理结果。
采用本实施方式,无论是基于容器式层次结构进行解析,还是基于xml节点结构进行解析,可以分别提取到所关心的关键信息(比如,形状对象的节点和属性)并存储于内存,从内存结构中读取上述提取后的关键信息,统一输出到自定义的数据格式上,排版及渲染后,得到不同数据格式中一致的形状显示效果。
本申请的实施例,提供了一种文档处理方法,图6是根据本申请实施例的文档处理方法的流程示意图,该方法可以应用于文档处理装置,例如,该装置可以部署于终端或服务器或其它处理设备执行的情况下,可以执行解析处理,将该解析处理得到的解析结果作为中间处理结果,并可以存储于终端本地、或将所述中间处理结果发送给云端去存储,以便提供给用户自身,或在多个用户间共享该中间处理结果,从而基于该共享的中间处理结果实现数据转换处理、统一数据格式输出及渲染处理等等。其中,终端可以为用户设备(UE,UserEquipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA,Personal DigitalAssistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图6所示,该文档处理方法应用于终端的情况下,包括:
S201、获取待处理文档,所述待处理文档中的图形元素支持不同的数据格式显示。
其中,所述图形元素包括:支持不同的数据格式显示的同一图形元素。
S202、将所述待处理文档基于不同的数据格式进行不同的解析处理,得到解析结果,所述解析结果包括:所述图形元素分别对应的不同源数据结构、及构成所述图形元素的不同关键信息。
其中,以第一数据格式(doc格式的文档)为例,可以从第一源数据结构中识别出该第一关键信息;以第二数据格式(doc格式的文档)为例,可以从第二源数据结构中识别出该第二关键信息。
S203、将所述解析结果应用于在线渲染处理,得到不同数据格式下图形相同的显示结果。
采用本申请,可以将上述S101-S104构成的处理逻辑直接部署于终端,也可以部署在云端。其中,部署在终端的情况下,可以利用终端越来越智能化且高效的图像处理技术,在线解析word文档,不仅使在线应用更加便捷,而且使得双数据格式具备通用性(即双数据格式的图形的通用性,即同一个图形或称形状,哪怕支持双数据格式,但是排版及渲染后可以得到图形相同的显示结果),方便终端、云端的在线排版和渲染,从而得到最好的渲染显示效果,且提高了解析及渲染的处理速度,能更快的响应在线渲染操作。
一实施方式中,所述将所述待处理文档基于不同的数据格式进行不同的解析处理,得到解析结果,包括:所述数据格式为第一格式的情况下,将基于容器式的层次结构进行第一解析处理,得到所述图形元素对应的第一源数据结构,将构成所述图形元素的至少一个第一关键信息由所述第一源数据结构中识别出来;和/或,所述数据格式为第二格式的情况下,将基于流式排版XML的节点结构进行第二解析处理,得到所述图形元素对应的第二源数据结构,将构成所述图形元素的至少一个第二关键信息由所述第二源数据结构中识别出来。采用本实施方式,可以分别识别出构成所述图形元素的至少一个第一关键信息和/或至少一个第二关键信息,如果只解析其中一种关键信息,则可以只在线解析一个或一类文档(doc或docx或wps),还可以同时解析多种关键信息,则采用批处理方式同时转多个或多类文档(doc+docx+wps),在支持多数据格式的同一图形元素具备通用性的基础上,提高了处理速度更快。
一实施方式中,所述容器式的层次结构,包括:在容器中预先配置的各个图像元素具有的形状、形状属性、记录标头及形状类型。其中,所述数据格式为第一格式的情况下,将基于容器式的层次结构进行第一解析处理,得到所述图形元素对应的第一源数据结构,将构成所述图形元素的至少一个第一关键信息由所述第一源数据结构中识别出来,包括:在所述容器中查找关键字段(如.groupShape字段),得到以数组记录的所述图形元素,所述图形元素为一个所述形状、或多个所述形状构成的形状组;根据所述记录标头,得到所述容器的长度,以所述容器的长度为读取边界,得到所述数组中记录的所述图形元素;根据所述记录标头,查找构成所述图形元素的至少一个第一关键信息,将构成所述图形元素的至少一个第一关键信息由所述第一源数据结构中识别出来。所述第一关键信息为至少一个第一形状属性及对应的第一形状类型。采用本实施方式,可以根据该容器式的层次结构,得到包含至少一个第一形状属性及对应的第一形状类型的第一关键信息,以便根据该第一关键信息匹配统一的输出模式后,将支持多种数据格式显示的该图形元素统一到一个数据格式上,最终得到不同数据格式下图形相同的显示结果。
一实施方式中,所述XML的节点结构中,包括:父节点、子节点、兄弟节点。其中,所述数据格式为第二格式的情况下,将基于XML的节点结构进行第二解析处理,得到所述图形元素对应的第二源数据结构,将构成所述图形元素的至少一个第二关键信息由所述第二源数据结构中识别出来,包括:在所述XML中查找文字段落中的预设锚点或者预设内嵌位置;根据所述预设锚点或者所述预设内嵌位置,得到所述图形元素,所述图形元素为一个所述形状、或多个所述形状构成的形状组;根据所述父节点、子节点、兄弟节点中至少一种节点,查找构成所述图形元素的至少一个第二关键信息,将构成所述图形元素的至少一个第二关键信息由所述第二源数据结构中识别出来。所述第二关键信息为至少一个第二形状属性及对应的第二形状类型。采用本实施方式,可以根据该XML的节点结构,得到包含至少一个第一形状属性及对应的第一形状类型的第二关键信息,以便根据该第二关键信息匹配统一的输出模式后,将支持多种数据格式显示的该图形元素统一到一个数据格式上,最终得到不同数据格式下图形相同的显示结果。
一实施方式中,还包括:将所述解析结果作为用于文档处理的中间处理结果;将所述中间处理结果存储于终端本地、或将所述中间处理结果发送给云端去存储。采用本实施方式,将该解析结果作为中间处理结果,保存在终端本地或者云服务器,后续可以直接使用该中间处理结果,从而提高了处理速度。
应用示例:
应用本申请实施例一处理流程包括如下内容:
一、doc文档存储
图7是根据本申请实施例的doc文档存储格式的示意图,如图7所示,doc格式文档中的正文(包括图形元素)存储在该结构中,需要从该doc格式的文档数据结构中读取图形元素等。
就doc格式文档中图形元素(或称形状对象)的存储形式而言,在doc格式中的图形元素(包含图片、形状和艺术字及其关联的格式)使用MS-ODRAW(Office Drawing BinaryFile Format)的二进制文件格式存储的,可包含在其他绘图中,或包含在图表、关系图、表和控件中。可能显示为文件中的独立组件,由主机程序(如MSWord)创建。
各个图像元素(或称各个形状对象)具有形状、形状属性、记录标头及形状类型,由一系列记录组成。包含其他记录的记录称为容器,而存储数据的记录称为Atom。所有记录共享一个通用记录标头,通过该记录标头指定记录类型和容器长度。各个形状具有属性,用于确定形状类型(例如圆角矩形或双箭头)、它与其他形状的关系、大小、位置以及有关其呈现方式的各种详细信息(例如线型和填充)。单个形状在记录中定义。
所有形状类型排列在MSOSPT枚举中,在定义形状的OfficeArtSpContainer记录内,有一个形状属性,该形状属性是一个OfficeArtFSP记录。OfficeArtFSP记录标头的recInstance字段存储用于设置形状类型的MSOSPT枚举值。
图8是根据本申请实施例的doc文档容器式的层级结构示意图,如图8所示,为容器式的层次结构所定义的四角星的方式,包括:在容器中预先配置的各个图像元素具有的形状(在容器式的层级结构中定义为OfficeArtSpContainer)、形状属性(在容器式的层级结构中定义为OfficeArtFSP)、记录标头(在容器式的层级结构中定义为OfficeArtRecordHeader)、及形状类型(在容器式的层级结构中定义为MSOPT.msoptSeal4(0x000000BB)),根据形状、记录标头、形状属性、形状类型可以得到形状对象,形状对象为四角星。
二、docx文档存储
就docx格式的文档中图形元素(或称形状对象)的存储形式而言,docx文件是一个zip文件,其中包含许多“部分”——通常是UTF-8或UTF-16编码的XML文件。图9是根据本申请实施例的docx文档存储格式的示意图,如图9所示,其形状可以存放在word/document.xml中,此处也是文档内容(如:文字)的核心存储文件。xml文档的特点为:该形状,可以根据其锚点或者内嵌位置散落到文字段落中,其存储方式是DrawingML(DrawingML是用于定义ooxml文档中的图形对象,包含图片、形状、图表和图表)语言描述的xml节点结构,不做赘述。根据DrawingML语言描述的xml节点结构,可以得到形状对象,形状对象为五角星。
三、doc格式文档中形状的解析
1、场景1:构造形状组或唯一形状
1)在文件中查找OfficeArtDgContainer记录,以获得包含相关形状组的绘图,或循环访问所有绘图,直至找到符合条件的绘图为止。
2)读取记录标头以获取绘图末尾的字节数。
3)检查容器中的每个记录标头,直至找到记录类型为OfficeArtSpgrContainer(0xf003)的记录为止。如果没有OfficeArtSpgrContainer记录,表明绘图中没有任何形状。
4)OfficeArtSpgrContainer记录表示:“.groupShape”字段。该记录以OfficeArtSpgrContainerFileBlock记录数组的形式包含绘图中的所有活动形状。
5)读取记录标头以获取容器长度,然后开始读取第一个OfficeArtSpgrContainerFileBlock记录。因为这是数组中的第一个OfficeArtSpgrContainerFileBlock记录,所以它必须包含OfficeArtSpContainer记录,该记录必须对应于当前组的组合形状。
6)如“构造单个形状”的如下场景2中所述,读取OfficeArtSpContainer记录。
7)开始读取下一个OfficeArtSpgrContainerFileBlock记录,从记录标头开始。
8)如果“.recType”为0xF004,则当前文件块的其余部分为OfficeArtSpContainer记录。如“构造单个形状”的如下场景2中根据步骤4)“采用MS-ODRAW格式”重新构造单个形状中的情况下读取该记录。
9)如果“.recType”为0xF003,则当前文件块的其余部分为OfficeArtSpgrContainer记录,这表示下属形状组,则读取该记录。
10)以同一方式读取其余的OfficeArtSpgrContainerFileBlock记录。
11)查找表示文件的绘图组的OfficeArtDggContainer。
12)在OfficeArtDggContainer内,通过检查每个记录标头来查找属性表,读取OfficeArtFOPT和OfficeArtTertiaryFOPT类型的记录,并跳过其余记录。
13)这些属性表,用于表示整个文件中的默认属性。像以前一样分析这些属性表,但仅将这些表中的属性应用于尚未指定相关属性的形状。
14)在应用程序中根据收集的信息呈现形状组。
2、场景2:构造单个形状
从OfficeArtSPContainer记录开始,读取容器中每个记录的记录标头,并按如下所示继续操作:
1)如果记录类型为OfficeArtFSPGR(0xF009),且这是绘图中的第一个形状(因此是组合形状),则该记录表示“.shapeGroup”字段。跳过记录标头,将其余16个字节作为四个4字节的带符号整数读取到内存中,这些整数指定顶级组合形状的左、上、右和下坐标。
2)如果记录类型为OfficeArtChildAnchor(0xF00F)且当前形状不是组合形状,则该记录表示“.childAnchor”字段。跳过记录标头并将其余16个字节作为四个带符号整数读取到内存中,这些整数指定当前形状相对于其父组合形状的左、上、右和下坐标。
3)如果记录类型为OfficeArtFSP(0xF00A),则该记录表示.shapeProp字段,其长度为16字节。将该记录读取到内存中。位4-15指定一个用于定义形状类型的MSOSPT枚举值。位101和102指定形状相对于其默认方向是水平翻转还是垂直翻转。
4)如果记录类型为OfficeArtFOPT(0xF00B)、OfficeArtSecondaryFOPT(0xF121)或OfficeArtTertiaryFOPT(0xF122),则该记录为属性表。采用MS-ODRAW格式分析属性来分析该属性表中的属性。
5)跳过其他所有记录。
四、docx文档中形状解析
由于xml文档的特点为:该形状,可以根据其锚点或者内嵌位置散落到文字段落中,其存储方式是DrawingML(DrawingML是用于定义ooxml文档中的图形对象,包含图片、形状、图表和图表)语言描述的xml节点结构,因此,可以根据DrawingML语言描述的xml节点结构,得到形状对象。
五、统一的自定义数据格式
word中的形状在doc和docx格式上存在较大差异,将两种数据格式中关心的关键信息(如针对节点和属性)解析出来,并提取关键信息后存放到内存结构中。图10是根据本申请实施例的双数据文档统一格式的示意图,如图10所示,双数据文档统一的格式为基于JSON的自定义数据格式。从所述内存结构中提取关键信息,之后统一输出到图10所示的自定义格式上,方便Web端的排版和渲染,从而达到不同格式中一致的形状显示效果。其中,该自定义的数据格式,由于基于JSON,因此,不仅将形状数据中基本要素可以定义出来,更利于后续扩展。
图10为针对形状对象为五角星的统一输入格式,宽高分别是1552575和987425(EMU:Englist Metrical Unit,360000EMU per cm),同时记录了三个调整参考点信息,形状可以是预设或者自定义的,预设使用prstGeom元素及其属性prst指定的。可以通过在avLst中指定形状调整值列表来调整预设几何体,该值是prstGeom的子元素。
六、数据节点定义
图11是根据本申请实施例的双数据文档的统一格式节点定义示意图,如图11所示,对应上述图10的自定义数据格式,在各个数据节点中可加入上述提取的关键信息。
图11中各个数据节点含义的对照说明如下:
Drawing:office文档中的图形对象,如pic、shape、charts、diagrams;
Inline:内联到段落等容器里面的绘制对象;
Extent:绘制对象的尺寸范围(EMU单位);
graphic/graphicData:图形对象/图形对象数据;
sp:shape形状类型;
spPr:shape的属性;
xfrm:单个对象的属性;
rot:旋转角度(rotation);
off:起始点位置(offset);
ext:范围(extents);
prstGeom:预定义的几何对象(Preset Geometry);
prst:预定义几何对象的类型(Preset Shape type name);
avlst:形状调整值列表(List of Shape Adjust Values);
gd:形状参考信息(Shape Guide)。
根据本申请的实施例,提供了一种文档处理装置,图12是根据本申请实施例的文档处理装置的组成结构示意图,如图12所示,包括:解析模块41,用于响应图形元素的在线渲染操作,对所述图形元素支持不同的数据格式显示的待处理文档进行解析处理,得到所述图形元素分别对应的不同源数据结构;转换模块42,用于将所述图形元素由所述不同源数据结构分别转换为第一数据结构及第二数据结构,所述第一数据结构及第二数据结构与统一输出模式相匹配;匹配模块43,用于将所述图形元素分别根据所述第一数据结构及所述第二数据格式进行所述统一输出模式的匹配处理,得到统一的数据格式;格式统一模块44,用于将所述图形元素根据所述统一的数据格式进行在线渲染处理,得到不同数据格式下图形相同的显示结果。
一实施方式中,所述图形元素包括:支持不同的数据格式显示的同一图形元素。
一实施方式中,所述解析模块,用于所述数据格式为第一格式的情况下,通过所述解析处理,识别出第一源数据结构中构成所述图形元素的至少一个第一关键信息;和/或,所述数据格式为第二格式的情况下,通过所述解析处理,识别出第二源数据结构中构成所述图形元素的至少一个第二关键信息。
一实施方式中,所述转换模块,用于所述数据格式为第一格式的情况下,将所述图形元素由第一源数据结构转换为与统一输出模式相匹配的所述第一数据结构;和/或,所述数据格式为第二格式的情况下,将所述图形元素由第二源数据结构转换为与统一输出模式相匹配的所述第二数据结构。
一实施方式中,所述第一数据结构包括:容器式的层次结构;其中,所述容器式的层次结构,包括:在容器中预先配置的各个图像元素具有的形状、形状属性、记录标头及形状类型。
一实施方式中,所述第二数据结构包括:流式排版XML的节点结构;其中,所述XML的节点结构,包括:父节点、子节点、兄弟节点。
一实施方式中,还包括提取模块,用于所述数据格式为第一格式的情况下,将构成所述图形元素的至少一个第一关键信息由第一源数据结构中提取出来;和/或,所述数据格式为第二格式的情况下,将构成所述图形元素的至少一个第二关键信息由第二源数据结构中提取出来。
一实施方式中,所述格式统一模块,用于将构成所述图形元素的至少一个第一关键信息、及构成所述图形元素的至少一个第二关键信息分别基于所述统一的数据格式进行在线渲染处理,得到所述不同数据格式下图形相同的显示结果。
一实施方式中,所述格式统一模块,用于所述至少一个第一关键信息为至少一个第一形状属性及对应的第一形状类型;所述至少一个第二关键信息为至少一个第二形状属性及对应的第二形状类型;将所述至少一个第一形状属性及对应的第一形状类型、所述至少一个第二形状属性及对应的第二形状类型输出到所述统一的数据格式上,得到所述不同数据格式下图形相同的显示结果。
根据本申请的实施例,提供了一种文档处理装置,图13是根据本申请实施例的文档处理装置的组成结构示意图,如图13所示,包括:获取模块51,用于获取待处理文档,所述待处理文档中的图形元素支持不同的数据格式显示;文档解析模块52,用于将所述待处理文档基于不同的数据格式进行不同的解析处理,得到解析结果,所述解析结果包括:所述图形元素分别对应的不同源数据结构、及构成所述图形元素的不同关键信息;渲染模块53,用于将所述解析结果应用于在线渲染处理,得到不同数据格式下图形相同的显示结果。
一实施方式中,所述图形元素包括:支持不同的数据格式显示的同一图形元素。
一实施方式中,所述文档解析模块,用于所述数据格式为第一格式的情况下,将基于容器式的层次结构进行第一解析处理,得到所述图形元素对应的第一源数据结构,将构成所述图形元素的至少一个第一关键信息由所述第一源数据结构中识别出来;和/或,所述数据格式为第二格式的情况下,将基于流式排版XML的节点结构进行第二解析处理,得到所述图形元素对应的第二源数据结构,将构成所述图形元素的至少一个第二关键信息由所述第二源数据结构中识别出来。
一实施方式中,所述容器式的层次结构,包括:在容器中预先配置的各个图像元素具有的形状、形状属性、记录标头及形状类型。
一实施方式中,所述文档解析模块,用于在所述容器中查找关键字段,得到以数组记录的所述图形元素,所述图形元素为一个所述形状、或多个所述形状构成的形状组;根据所述记录标头,得到所述容器的长度,以所述容器的长度为读取边界,得到所述数组中记录的所述图形元素;根据所述记录标头,查找构成所述图形元素的至少一个第一关键信息,将构成所述图形元素的至少一个第一关键信息由所述第一源数据结构中识别出来;其中,所述第一关键信息为至少一个第一形状属性及对应的第一形状类型。
一实施方式中,所述XML的节点结构中,包括:父节点、子节点、兄弟节点。
一实施方式中,所述文档解析模块,用于在所述XML中查找文字段落中的预设锚点或者预设内嵌位置;根据所述预设锚点或者所述预设内嵌位置,得到所述图形元素,所述图形元素为一个所述形状、或多个所述形状构成的形状组;根据所述父节点、子节点、兄弟节点中至少一种节点,查找构成所述图形元素的至少一个第二关键信息,将构成所述图形元素的至少一个第二关键信息由所述第二源数据结构中识别出来;其中,所述第二关键信息为至少一个第二形状属性及对应的第二形状类型。
一实施方式中,还包括将所述解析结果作为用于文档处理的中间处理结果;将所述中间处理结果存储于终端本地、或将所述中间处理结果发送给云端去存储。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质和一种计算机程序产品。
如图14所示,是用来实现本申请实施例的文档处理方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本申请的实现。
如图14所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元80执行上文所描述的各个方法和处理,例如文档处理方法。例如,在一些实施例中,文档处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的文档处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文档处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (21)

1.一种文档处理方法,所述方法包括:
响应图形元素的在线渲染操作,对所述图形元素支持不同的数据格式显示的待处理文档进行解析处理,得到所述图形元素分别对应的不同源数据结构;
将所述图形元素由所述不同源数据结构分别转换为第一数据结构及第二数据结构,所述第一数据结构及所述第二数据结构与统一输出模式相匹配,其中,所述第一数据结构包括:容器式的层次结构,所述容器式的层次结构包括:在容器中预先配置的各个图像元素具有的形状、形状属性、记录标头及形状类型,所述第二数据结构包括:流式排版XML的节点结构,所述XML的节点结构包括:父节点、子节点、兄弟节点;
将所述图形元素分别根据所述第一数据结构及所述第二数据结构进行所述统一输出模式的匹配处理,得到统一的数据格式;
将所述图形元素根据所述统一的数据格式进行在线渲染处理,得到不同数据格式下图形相同的显示结果;
其中,所述对所述图形元素支持不同的数据格式显示的待处理文档进行解析处理,得到所述图形元素分别对应的不同源数据结构包括:所述数据格式为第一格式的情况下,通过所述解析处理,识别出第一源数据结构中构成所述图形元素的至少一个第一关键信息,其中,所述第一关键信息为至少一个第一形状属性及对应的第一形状类型;和/或,所述数据格式为第二格式的情况下,通过所述解析处理,识别出第二源数据结构中构成所述图形元素的至少一个第二关键信息,其中,所述第二关键信息为至少一个第二形状属性及对应的第二形状类型。
2.根据权利要求1所述的方法,所述图形元素包括:支持不同的数据格式显示的同一图形元素。
3.根据权利要求1所述的方法,其中,所述将所述图形元素由所述不同源数据结构分别转换为第一数据结构及第二数据结构,所述第一数据结构及所述第二数据结构与统一输出模式相匹配,包括:
所述数据格式为第一格式的情况下,将所述图形元素由第一源数据结构转换为与统一输出模式相匹配的所述第一数据结构;和/或,
所述数据格式为第二格式的情况下,将所述图形元素由第二源数据结构转换为与统一输出模式相匹配的所述第二数据结构。
4.根据权利要求1所述的方法,还包括:
所述数据格式为第一格式的情况下,将构成所述图形元素的至少一个第一关键信息由第一源数据结构中提取出来;和/或,
所述数据格式为第二格式的情况下,将构成所述图形元素的至少一个第二关键信息由第二源数据结构中提取出来。
5.根据权利要求4所述的方法,所述将所述图形元素根据所述统一的数据格式进行在线渲染处理,得到不同数据格式下图形相同的显示结果,包括:
将构成所述图形元素的至少一个第一关键信息、及构成所述图形元素的至少一个第二关键信息分别基于所述统一的数据格式进行在线渲染处理,得到所述不同数据格式下图形相同的显示结果。
6.根据权利要求5所述的方法,其中,所述将构成所述图形元素的至少一个第一关键信息、及构成所述图形元素的至少一个第二关键信息分别基于所述统一的数据格式进行在线渲染处理,得到所述不同数据格式下图形相同的显示结果,包括:
所述至少一个第一关键信息为至少一个第一形状属性及对应的第一形状类型;
所述至少一个第二关键信息为至少一个第二形状属性及对应的第二形状类型;
将所述至少一个第一形状属性及对应的第一形状类型、所述至少一个第二形状属性及对应的第二形状类型输出到所述统一的数据格式上,得到所述不同数据格式下图形相同的显示结果。
7.一种文档处理方法,所述方法包括:
获取待处理文档,所述待处理文档中的图形元素支持不同的数据格式显示;
将所述待处理文档基于不同的数据格式进行不同的解析处理,得到解析结果,所述解析结果包括:所述图形元素分别对应的不同源数据结构、及构成所述图形元素的不同关键信息;
将所述解析结果应用于在线渲染处理,得到不同数据格式下图形相同的显示结果;
其中,所述将所述待处理文档基于不同的数据格式进行不同的解析处理,得到解析结果,包括:所述数据格式为第一格式的情况下,将基于容器式的层次结构进行第一解析处理,得到所述图形元素对应的第一源数据结构,将构成所述图形元素的至少一个第一关键信息由所述第一源数据结构中识别出来,其中,所述容器式的层次结构包括:在容器中预先配置的各个图像元素具有的形状、形状属性、记录标头及形状类型,所述第一关键信息为至少一个第一形状属性及对应的第一形状类型;和/或,所述数据格式为第二格式的情况下,将基于流式排版XML的节点结构进行第二解析处理,得到所述图形元素对应的第二源数据结构,将构成所述图形元素的至少一个第二关键信息由所述第二源数据结构中识别出来,其中,所述XML的节点结构包括:父节点、子节点、兄弟节点,所述第二关键信息为至少一个第二形状属性及对应的第二形状类型。
8.根据权利要求7所述的方法,所述图形元素包括:支持不同的数据格式显示的同一图形元素。
9.根据权利要求7所述的方法,其中,所述数据格式为第一格式的情况下,将基于容器式的层次结构进行第一解析处理,得到所述图形元素对应的第一源数据结构,将构成所述图形元素的至少一个第一关键信息由所述第一源数据结构中识别出来,包括:
在所述容器中查找关键字段,得到以数组记录的所述图形元素,所述图形元素为一个所述形状、或多个所述形状构成的形状组;
根据所述记录标头,得到所述容器的长度,以所述容器的长度为读取边界,得到所述数组中记录的所述图形元素;
根据所述记录标头,查找构成所述图形元素的至少一个第一关键信息,将构成所述图形元素的至少一个第一关键信息由所述第一源数据结构中识别出来。
10.根据权利要求7所述的方法,其中,所述数据格式为第二格式的情况下,将基于XML的节点结构进行第二解析处理,得到所述图形元素对应的第二源数据结构,将构成所述图形元素的至少一个第二关键信息由所述第二源数据结构中识别出来,包括:
在所述XML中查找文字段落中的预设锚点或者预设内嵌位置;
根据所述预设锚点或者所述预设内嵌位置,得到所述图形元素,所述图形元素为一个形状、或多个形状构成的形状组;
根据所述父节点、子节点、兄弟节点中至少一种节点,查找构成所述图形元素的至少一个第二关键信息,将构成所述图形元素的至少一个第二关键信息由所述第二源数据结构中识别出来。
11.根据权利要求7-10中任一项所述的方法,还包括:
将所述解析结果作为用于文档处理的中间处理结果;
将所述中间处理结果存储于终端本地、或将所述中间处理结果发送给云端去存储。
12.一种文档处理装置,所述装置包括:
解析模块,用于响应图形元素的在线渲染操作,对所述图形元素支持不同的数据格式显示的待处理文档进行解析处理,得到所述图形元素分别对应的不同源数据结构;
转换模块, 用于将所述图形元素由所述不同源数据结构分别转换为第一数据结构及第二数据结构,所述第一数据结构及第二数据结构与统一输出模式相匹配,其中,所述第一数据结构包括:容器式的层次结构,所述容器式的层次结构包括:在容器中预先配置的各个图像元素具有的形状、形状属性、记录标头及形状类型,所述第二数据结构包括:流式排版XML的节点结构,所述XML的节点结构包括:父节点、子节点、兄弟节点;
匹配模块,用于将所述图形元素分别根据所述第一数据结构及所述第二数据结构进行所述统一输出模式的匹配处理,得到统一的数据格式;
格式统一模块,用于将所述图形元素根据所述统一的数据格式进行在线渲染处理,得到不同数据格式下图形相同的显示结果;
其中,所述解析模块,还用于:所述数据格式为第一格式的情况下,通过所述解析处理,识别出第一源数据结构中构成所述图形元素的至少一个第一关键信息,其中,所述第一关键信息为至少一个第一形状属性及对应的第一形状类型;和/或,所述数据格式为第二格式的情况下,通过所述解析处理,识别出第二源数据结构中构成所述图形元素的至少一个第二关键信息,其中,所述第二关键信息为至少一个第二形状属性及对应的第二形状类型。
13.根据权利要求12所述的装置,所述图形元素包括:支持不同的数据格式显示的同一图形元素。
14.根据权利要求12所述的装置,其中,所述转换模块,用于:
所述数据格式为第一格式的情况下,将所述图形元素由第一源数据结构转换为与统一输出模式相匹配的所述第一数据结构;和/或,
所述数据格式为第二格式的情况下,将所述图形元素由第二源数据结构转换为与统一输出模式相匹配的所述第二数据结构。
15.根据权利要求12所述的装置,还包括提取模块,用于:
所述数据格式为第一格式的情况下,将构成所述图形元素的至少一个第一关键信息由第一源数据结构中提取出来;和/或,
所述数据格式为第二格式的情况下,将构成所述图形元素的至少一个第二关键信息由第二源数据结构中提取出来。
16.根据权利要求15所述的装置,所述格式统一模块,用于:
将构成所述图形元素的至少一个第一关键信息、及构成所述图形元素的至少一个第二关键信息分别基于所述统一的数据格式进行在线渲染处理,得到所述不同数据格式下图形相同的显示结果。
17.根据权利要求16所述的装置,其中,所述格式统一模块,用于:
所述至少一个第一关键信息为至少一个第一形状属性及对应的第一形状类型;
所述至少一个第二关键信息为至少一个第二形状属性及对应的第二形状类型;
将所述至少一个第一形状属性及对应的第一形状类型、所述至少一个第二形状属性及对应的第二形状类型输出到所述统一的数据格式上,得到所述不同数据格式下图形相同的显示结果。
18.一种文档处理装置,所述装置包括:
获取模块,用于获取待处理文档,所述待处理文档中的图形元素支持不同的数据格式显示;
文档解析模块,用于将所述待处理文档基于不同的数据格式进行不同的解析处理,得到解析结果,所述解析结果包括:所述图形元素分别对应的不同源数据结构、及构成所述图形元素的不同关键信息;
渲染模块,用于将所述解析结果应用于在线渲染处理,得到不同数据格式下图形相同的显示结果;
其中,所述文档解析模块,还用于:所述数据格式为第一格式的情况下,将基于容器式的层次结构进行第一解析处理,得到所述图形元素对应的第一源数据结构,将构成所述图形元素的至少一个第一关键信息由所述第一源数据结构中识别出来,其中,所述容器式的层次结构包括:在容器中预先配置的各个图像元素具有的形状、形状属性、记录标头及形状类型,所述第一关键信息为至少一个第一形状属性及对应的第一形状类型;和/或,所述数据格式为第二格式的情况下,将基于流式排版XML的节点结构进行第二解析处理,得到所述图形元素对应的第二源数据结构,将构成所述图形元素的至少一个第二关键信息由所述第二源数据结构中识别出来,其中,所述XML的节点结构包括:父节点、子节点、兄弟节点,所述第二关键信息为至少一个第二形状属性及对应的第二形状类型。
19.根据权利要求18所述的装置,所述图形元素包括:支持不同的数据格式显示的同一图形元素。
20.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
21.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行权利要求1-11中任一项所述的方法。
CN202011458429.7A 2020-12-11 2020-12-11 文档处理方法、装置、电子设备及存储介质 Active CN112528593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011458429.7A CN112528593B (zh) 2020-12-11 2020-12-11 文档处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011458429.7A CN112528593B (zh) 2020-12-11 2020-12-11 文档处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112528593A CN112528593A (zh) 2021-03-19
CN112528593B true CN112528593B (zh) 2023-09-01

Family

ID=74999222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011458429.7A Active CN112528593B (zh) 2020-12-11 2020-12-11 文档处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112528593B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361239B (zh) * 2021-06-01 2024-06-25 北京百度网讯科技有限公司 文档测试方法及其装置、电子设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980183A (zh) * 2010-09-17 2011-02-23 深圳市万兴软件有限公司 一种解析Word文件信息的方法及其系统
CN104346322A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN107515845A (zh) * 2017-08-25 2017-12-26 闫健 一种基于文件内容识别的互动虚拟教具转换与实现方法
CN108153717A (zh) * 2017-12-29 2018-06-12 北京仁和汇智信息技术有限公司 一种科技期刊论文word文档的结构化处理方法及装置
CN108763171A (zh) * 2018-04-20 2018-11-06 中国船舶重工集团公司第七〇九研究所 一种基于格式模板的文档自动化生成方法
CN110196966A (zh) * 2018-02-27 2019-09-03 北大方正集团有限公司 Word文档中组图的识别方法及装置
CN110727478A (zh) * 2019-10-16 2020-01-24 腾讯科技(深圳)有限公司 一种基于混合模式渲染页面的方法、装置、设备及介质
CN110750961A (zh) * 2019-09-12 2020-02-04 北京真视通科技股份有限公司 一种文件格式转换方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779063B1 (en) * 2013-03-15 2017-10-03 Not Invented Here LLC Document processor program having document-type dependent interface

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980183A (zh) * 2010-09-17 2011-02-23 深圳市万兴软件有限公司 一种解析Word文件信息的方法及其系统
CN104346322A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN107515845A (zh) * 2017-08-25 2017-12-26 闫健 一种基于文件内容识别的互动虚拟教具转换与实现方法
CN108153717A (zh) * 2017-12-29 2018-06-12 北京仁和汇智信息技术有限公司 一种科技期刊论文word文档的结构化处理方法及装置
CN110196966A (zh) * 2018-02-27 2019-09-03 北大方正集团有限公司 Word文档中组图的识别方法及装置
CN108763171A (zh) * 2018-04-20 2018-11-06 中国船舶重工集团公司第七〇九研究所 一种基于格式模板的文档自动化生成方法
CN110750961A (zh) * 2019-09-12 2020-02-04 北京真视通科技股份有限公司 一种文件格式转换方法、装置、计算机设备和存储介质
CN110727478A (zh) * 2019-10-16 2020-01-24 腾讯科技(深圳)有限公司 一种基于混合模式渲染页面的方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kyle G.等.Cross Domain Assessment of Document to HTML Conversion Tools to Quantify Text and Structural Loss during Document Analysis.2013 European Intelligence and Security Informatics Conference.2013,全文. *

Also Published As

Publication number Publication date
CN112528593A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN109582909B (zh) 网页自动生成方法、装置、电子设备和存储介质
CN108717437B (zh) 搜索结果展示方法、装置及存储介质
CN112966469A (zh) 文档中的图表处理方法、装置、设备及存储介质
CN106776994B (zh) 一种工程符号在工程报表和网页中的应用方法及系统
CN112905178B (zh) 业务功能页面生成方法、装置、设备及介质
CN112528593B (zh) 文档处理方法、装置、电子设备及存储介质
CN113873013B (zh) 一种离线包重组方法及系统
CN114816578A (zh) 基于配置表的程序配置文件生成方法、装置及设备
CN112947900A (zh) web应用开发方法、装置、服务器及开发终端
CN111178025A (zh) 核电站运行导则的编辑方法、装置、计算机设备及存储介质
CN110647327A (zh) 基于卡片的用户界面动态控制的方法和装置
CN115756452A (zh) 目标页面代码的生成方法、设备、存储介质及程序产品
CN115344718B (zh) 跨区域文档内容识别方法、装置、设备、介质和程序产品
CN113110837B (zh) 一种处理页面信息的方法和装置
CN113110874B (zh) 用于生成代码结构图的方法和装置
CN115329720A (zh) 一种文档展示方法、装置、设备及存储介质
CN112540958B (zh) 文件处理方法、装置、设备及计算机存储介质
CN111507079B (zh) 一种多语言文档生成方法及系统和设备
CN111831179B (zh) 签约方法、装置及计算机可读介质
CN114489639A (zh) 文件生成方法、装置、设备及存储介质
CN113987118A (zh) 语料的获取方法、装置、设备及存储介质
CN113051504A (zh) 文档预览方法、装置、设备、存储介质及程序产品
CN112861504A (zh) 文本交互方法、装置、设备、存储介质及程序产品
CN111179164A (zh) 一种生成缩略图的方法和装置
CN114500505B (zh) 文本处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant