CN113591434A - 一种ofd文档合并携带语义标引信息的方法 - Google Patents
一种ofd文档合并携带语义标引信息的方法 Download PDFInfo
- Publication number
- CN113591434A CN113591434A CN202110895371.0A CN202110895371A CN113591434A CN 113591434 A CN113591434 A CN 113591434A CN 202110895371 A CN202110895371 A CN 202110895371A CN 113591434 A CN113591434 A CN 113591434A
- Authority
- CN
- China
- Prior art keywords
- ofd
- document
- semantic
- merged
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种OFD文档合并携带语义标引信息的方法,包括:S10:打开目标OFD文档,所述设置所述OFD文档相关信息;S20:在所述目标OFD文档上新建页面设备对象,将所述新建页面设备对象为用于作为页面渲染的画布;S30:打开待合并OFD文档,读取所述待合并文档的语义标引信息,接着解析所述语义标引的信息,建立映射hash表;S40:解析待合并OFD文件的图元对象;S50:保存目标OFD文档得到最终携带有语义标引的合并文档,通过本发明实现了对OFD文档的通用、快捷和准确的合并。
Description
技术领域
本发明涉及OFD文档处理技术领域,具体是一种OFD文档合并携带语义标引信息的方法。
背景技术
OFD为开放版式文档(Open Fixed-layout Document )的英文缩写,是我国国家版式文档格式标准——《GB/T 33190-2016电子文件存储与交换格式-版式文档》。
GB/T33190—2016中定义了通用、可扩展的自定义标引机制,OFD文件应用于具体行业时,可依据该机制形成和嵌入各行业的语义标引。语义标引文件使用XML格式,其结构可自定义。语义标引文件的叶子节点“引用”OFD版面描述文件中的图元内容,一个叶子节点可与多个图元内容相对应。以公文语义标引举例说明语义标引与OFD图元的引用关系。
OFD是以ZIP包方式管理包内XML文件。现有的OFD文件合并可能是解压OFD版式文件获取OFD文件夹下的文件数据然后逐文件合并。这种方式合并可能有以下几方面问题:
(1)现阶段处于OFD标准推广阶段,OFD文件可能有各种来源,这导致OFD包内结构和数据千差万别,逐文件合并需要考虑各种情况,这容易导致合并后的文件不符合标准降低合并成功率。
(2)OFD图元都有唯一的ID号关联,合并的动作需要能保证合并后的ID唯一性
(3)语义标引是以非接触方式引用OFD的图元对象,合并后的文件在页号页ID以及图元ID上都发生了改变使得语义检索及语义位置跳转功能失效。
本发明的目的就是期望找到一种方法能以通用的方式合并各种来源的OFD文档,并且保证合并后的文档原有的语义检索及语义定位功能正常。
发明内容
本发明的目的是提供一种OFD文档合并携带语义标引信息的方法,本发明实现发明目的采用如下技术方案:
一种OFD文档合并携带语义标引信息的方法,其特征在于:所述方法包括步骤如下:
S10:打开目标OFD文档;
S20:在所述目标OFD文档上新建页面设备对象,将所述新建页面设备对象为用于作为页面渲染的画布;
S30:打开待合并OFD文档,读取所述待合并文档的语义标引信息,接着解析所述语义标引的信息,建立映射hash表;
S40: 解析待合并OFD文件的图元对象;
S50:保存目标OFD文档得到最终携带有语义标引的合并文档。
其中,所述步骤S40包括以下步骤:
S41:获取图元的位置信息,然后在所述映射hash表中查找此位置是否有语义标引。如果查找到有对应语义标引,取出语义标引名称。
S42:以步骤S20中新建的页面设备对象为目标,将所述待合并OFD文件的图元对象渲染到所述新建页面设备目标对象上完成合并功能。与此同时获取渲染完成后的新的页面及图元的位置信息,以步骤S41中获取的语义标引的节点名称作为新的语义标引,完成语义标引信息的携带。
其中,所述目标OFD文档指在合并过程中作为画布的OFD文档,所述语义标引指OFD文档中语义标引的节点与OFD图元的引用关系,所述映射hash表指的是是根据关键码值而直接进行访问的数据结构,所述映射hash表指语义标引的节点到OFD文档图元的位置信息。
本发明与现有技术相比,其有益效果体现在:
本发明的合并及携带语义标引方案,通用、准确、快捷。
其中,通用是指只要能正常渲染的OFD文档都能使用此方案,不需要关心OFD的来源;准确是指渲染的写入的是同一个图元对象,所以不存在位置错乱的问题;快捷是指此方案重用现有渲染逻辑及代码,改造成本低。
附图说明
图1是本发明的工作流程图;
图2是本发明的语义标引与OFD图元的引用关系图。
具体实施方式
实施例
参阅图2,语义标引的节点可与多个OFD文档的图元对象,进行对应,以此作为本申请的背景。
参阅图1,一种OFD文档合并携带语义标引信息的方法,其特征在于:所述方法包括步骤如下:
S10:打开目标OFD文档;
S20:在所述目标OFD文档上新建页面设备对象,将所述新建页面设备对象为用于作为页面渲染的画布;
S30:打开待合并OFD文档,读取所述待合并文档的语义标引信息,接着解析所述语义标引的信息,建立映射hash表;
S40: 解析待合并OFD文件的图元对象;
S50:保存目标OFD文档得到最终携带有语义标引的合并文档。
其中,所述步骤S40包括以下步骤:
S41:获取图元的位置信息,然后在所述映射hash表中查找此位置是否有语义标引。如果查找到有对应语义标引,取出语义标引名称。
S42:以步骤S20中新建的页面设备对象为目标,将所述待合并OFD文件的图元对象渲染到所述新建页面设备目标对象上完成合并功能。与此同时获取渲染完成后的新的页面及图元的位置信息,以步骤S41中获取的语义标引的节点名称作为新的语义标引,完成语义标引信息的携带。
其中,所述目标OFD文档指在合并过程中作为画布的OFD文档,所述语义标引指OFD文档中语义标引的节点与OFD图元的引用关系,所述映射hash表指的是是根据关键码值而直接进行访问的数据结构,所述映射hash表指语义标引的节点到OFD文档图元的位置信息。
本发明通过将目标OFD文档作为画布,在不破坏其语义标引的前提下,将被合并OFD文档的语义标引信息建立映射hash表,将被合并OFD文档的图元对象信息渲染进画布后,根据建立好的映射hash表信息以及新的图元位置信息更新语义标引信息,从而达到在合并OFD文档后其合并文件的原有语义标引信息不丢失。
Claims (3)
1.一种OFD文档合并携带语义标引信息的方法,其特征在于:所述方法包括步骤如下:
S10:打开目标OFD文档; S20:在所述目标OFD文档上新建页面设备对象,将所述新建页面设备对象为用于作为页面渲染的画布;
S30:打开待合并OFD文档,读取所述待合并文档的语义标引信息,接着解析所述语义标引的信息,建立映射hash表;
S40: 解析待合并OFD文件的图元对象;
S50:保存目标OFD文档得到最终携带有语义标引的合并文档。
2.根据权利要求1所述的一种OFD文档合并携带语义标引信息的方法,其特征在于:所述步骤S40包括以下步骤:
S41:获取图元的位置信息,然后在所述映射hash表中查找此位置是否有语义标引;
如果查找到有对应语义标引,取出语义标引名称;
S42:以步骤S20中新建的页面设备对象为目标,将所述待合并OFD文件的图元对象渲染到所述新建页面设备目标对象上完成合并功能;
与此同时获取渲染完成后的新的页面及图元的位置信息,以步骤S41中获取的语义标引的节点名称作为新的语义标引,完成语义标引信息的携带。
3.根据权利要求1所述的一种OFD文档合并携带语义标引信息的方法,其特征在于:所述目标OFD文档指在合并过程中作为画布的OFD文档,所述语义标引指OFD文档中语义标引的节点与OFD图元的引用关系,所述映射hash表指的是是根据关键码值而直接进行访问的数据结构,所述映射hash表指语义标引的节点到OFD文档图元的位置信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895371.0A CN113591434A (zh) | 2021-08-05 | 2021-08-05 | 一种ofd文档合并携带语义标引信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895371.0A CN113591434A (zh) | 2021-08-05 | 2021-08-05 | 一种ofd文档合并携带语义标引信息的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113591434A true CN113591434A (zh) | 2021-11-02 |
Family
ID=78255311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110895371.0A Pending CN113591434A (zh) | 2021-08-05 | 2021-08-05 | 一种ofd文档合并携带语义标引信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591434A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961531A (zh) * | 2021-11-05 | 2022-01-21 | 江苏中威科技软件系统有限公司 | 多格式文件合并为一个ofd文件的方法及装置 |
CN115934653A (zh) * | 2023-01-04 | 2023-04-07 | 百望股份有限公司 | 一种在ofd文件中添加外部ofd页面内容的方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294283A1 (en) * | 2006-06-06 | 2007-12-20 | Julie MaCkay | System, method and software application for managing meta-language documents |
US20110184933A1 (en) * | 2010-01-28 | 2011-07-28 | International Business Machines Corporation | Join algorithms over full text indexes |
CN103390005A (zh) * | 2012-05-11 | 2013-11-13 | 北大方正集团有限公司 | 一种合并文档的方法与系统 |
US20130304769A1 (en) * | 2012-01-27 | 2013-11-14 | International Business Machines Corporation | Document Merge Based on Knowledge of Document Schema |
CN107122433A (zh) * | 2017-04-18 | 2017-09-01 | 广州视源电子科技股份有限公司 | 一种复合文档的合并方法及实现该方法的系统 |
CN109165198A (zh) * | 2018-09-09 | 2019-01-08 | 江西金格科技股份有限公司 | 一种基于ofd文档的增量修改方法 |
CN110008178A (zh) * | 2019-01-04 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 分布式文件系统元数据的组织方法及装置 |
CN111753500A (zh) * | 2020-07-07 | 2020-10-09 | 江苏中威科技软件系统有限公司 | 版式化后的电子表单与ofd合并展现及目录生成的方法 |
CN111897776A (zh) * | 2020-06-22 | 2020-11-06 | 百望股份有限公司 | 一种ofd文档的处理方法、电子设备及计算机可读存储介质 |
-
2021
- 2021-08-05 CN CN202110895371.0A patent/CN113591434A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070294283A1 (en) * | 2006-06-06 | 2007-12-20 | Julie MaCkay | System, method and software application for managing meta-language documents |
US20110184933A1 (en) * | 2010-01-28 | 2011-07-28 | International Business Machines Corporation | Join algorithms over full text indexes |
US20130304769A1 (en) * | 2012-01-27 | 2013-11-14 | International Business Machines Corporation | Document Merge Based on Knowledge of Document Schema |
CN103390005A (zh) * | 2012-05-11 | 2013-11-13 | 北大方正集团有限公司 | 一种合并文档的方法与系统 |
CN107122433A (zh) * | 2017-04-18 | 2017-09-01 | 广州视源电子科技股份有限公司 | 一种复合文档的合并方法及实现该方法的系统 |
CN109165198A (zh) * | 2018-09-09 | 2019-01-08 | 江西金格科技股份有限公司 | 一种基于ofd文档的增量修改方法 |
CN110008178A (zh) * | 2019-01-04 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 分布式文件系统元数据的组织方法及装置 |
CN111897776A (zh) * | 2020-06-22 | 2020-11-06 | 百望股份有限公司 | 一种ofd文档的处理方法、电子设备及计算机可读存储介质 |
CN111753500A (zh) * | 2020-07-07 | 2020-10-09 | 江苏中威科技软件系统有限公司 | 版式化后的电子表单与ofd合并展现及目录生成的方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961531A (zh) * | 2021-11-05 | 2022-01-21 | 江苏中威科技软件系统有限公司 | 多格式文件合并为一个ofd文件的方法及装置 |
CN113961531B (zh) * | 2021-11-05 | 2022-08-30 | 江苏中威科技软件系统有限公司 | 多格式文件合并为一个ofd文件的方法及装置 |
WO2023078407A1 (zh) * | 2021-11-05 | 2023-05-11 | 江苏中威科技软件系统有限公司 | 多格式文件合并为一个ofd文件的方法及装置 |
CN115934653A (zh) * | 2023-01-04 | 2023-04-07 | 百望股份有限公司 | 一种在ofd文件中添加外部ofd页面内容的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570018B (zh) | 序列化与反序列化的方法、装置、系统以及电子设备 | |
CN111984597B (zh) | 文件存储方法、装置、设备和介质 | |
CN101430714B (zh) | 一种基于样式的内容结构化加工方法及系统 | |
US20070061706A1 (en) | Mapping property hierarchies to schemas | |
CN113591434A (zh) | 一种ofd文档合并携带语义标引信息的方法 | |
CN103810212A (zh) | 一种数据库索引的自动创建方法及系统 | |
CN108334609B (zh) | Oracle中实现JSON格式数据存取的方法、装置、设备及存储介质 | |
US8321421B2 (en) | Storage device having full-text search function | |
CN100338605C (zh) | 一种可扩展标记语言文档修改痕迹的记录方法 | |
CN115061990A (zh) | 日志存储方法、日志检索方法、装置、设备及存储介质 | |
CN112783482B (zh) | 一种可视化表单生成方法、装置、设备及存储介质 | |
US8700676B2 (en) | System and method for appending metadata to objects | |
CN116303625B (zh) | 一种数据查询的方法、装置、存储介质及电子设备 | |
CN102855283A (zh) | 一种办公自动化系统文件归档保存方法 | |
CN109189728B (zh) | 智能硬件设备、磁盘数据处理方法和存储介质 | |
CN105786478A (zh) | 用于数据处理的方法及设备 | |
CN113407538B (zh) | 一种多源异构关系型数据库数据的增量采集方法 | |
KR101828466B1 (ko) | 파일시스템을 기반으로 하는 저장장치에서 객체기반 스토리지 인터페이스를 제공하는 방법 및 장치 | |
CN115114297A (zh) | 数据轻量存储及查找方法、装置、电子设备及存储介质 | |
CN114118944A (zh) | 一种取证实验室分级管理方法、终端设备及存储介质 | |
US20220075720A1 (en) | Tri-color bitmap array for garbage collection | |
US10261980B2 (en) | Method and system for persisting add-in data in documents | |
WO2008047975A1 (en) | Migration apparatus which convert sam/vsam files of mainframe system into sam/vsam files of open system and method for thereof | |
CN117520606B (zh) | 一种异构数据源导入图数据库的方法及装置 | |
CN110928847B (zh) | 一种文件的批量抽样方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |