CN110909114B - 一种非结构化航海书表与电子海图的关联方法 - Google Patents

一种非结构化航海书表与电子海图的关联方法 Download PDF

Info

Publication number
CN110909114B
CN110909114B CN201911105497.2A CN201911105497A CN110909114B CN 110909114 B CN110909114 B CN 110909114B CN 201911105497 A CN201911105497 A CN 201911105497A CN 110909114 B CN110909114 B CN 110909114B
Authority
CN
China
Prior art keywords
chapter
navigation
name
unstructured
book table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911105497.2A
Other languages
English (en)
Other versions
CN110909114A (zh
Inventor
陈长林
贾俊涛
陈长清
陈超
赵健
张博
王耿峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
92859 TROOPS PLA
Original Assignee
92859 TROOPS PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 92859 TROOPS PLA filed Critical 92859 TROOPS PLA
Priority to CN201911105497.2A priority Critical patent/CN110909114B/zh
Publication of CN110909114A publication Critical patent/CN110909114A/zh
Application granted granted Critical
Publication of CN110909114B publication Critical patent/CN110909114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/156Query results presentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种非结构化航海书表与电子海图的关联方法,其技术特点是:按照章节的层级结构对非结构化航海书表PDF文件进行拆分和编号;以航海书表名称作为数据库名称,建立名称为主表的表格,添加章节编号、章节名称、章节内容、位置、纬度、经度和海图字段,实现章节编号、章节名称、章节内容的自动入库功能,手动补上其它字段内容;结合使用树列表和PDF组件,实现非结构航海书表的还原显示功能;利用位置和章节编号属性,实现非结构化航海书表内容与图形显示的关联互动。本发明利用PDF文件拆分、入库和双向检索,实现航海书表数据的精确定位和空间关联,有效提升了航海信息查询检索效率,促进了航海导航的信息化能力。

Description

一种非结构化航海书表与电子海图的关联方法
技术领域
本发明属于海洋测绘技术领域,尤其是一种非结构化航海书表与电子海图的关联方法。
背景技术
航海书表通常是指一系列用于航海的官方参考资料,主要发行形式为纸质(图书)和电子(PDF文件)两种,两种形式对应内容一致。
有些航海书表具有结构化特征,例如潮汐表、航标表、里程表和日月出没时刻表等;还有些航海书表不具有结构化特征,例如港口指南和航路指南,其采用多级章节形式,以文字、图形、表格等为主要内容。
一直以来,航海书表与海图分别采用各自的生产和应用体系,两者之间相互独立,缺乏关联,难以融为一体。在当今信息化时代,多源信息集成与关联是推进智能航海和智慧海洋建设的重点研究方向,如何实现航海书表和电子海图的关联互动成为一个亟需解决的问题之一。
目前,对于结构化的航海书表,可建立对应关系表并通过空间点位信息,实现图上定位显示和查询检索。对于非结构化的航海书表,存在多层级性、结构不固定性、内容多样性等特征,无法直接与关系表格对应;如果选用非关系数据库(NoSQL),则需要将PDF文件中的文字图表提取出来,还要进行大量编排校对工作。如何在不改变现有航海书表数据生产和保障模式的情况下,实现电子航海图书中关键信息的快速提取和检索,是实现航海图书与电子海图关联互动的关键问题。
发明内容
本发明的目的在于克服上述现有技术存在的不足,提供一种设计合理且能有效提升航海信息查询检索效率的非结构化航海书表与电子海图的关联方法,
本发明解决其技术问题是采取以下技术方案实现的:
一种非结构化航海书表与电子海图的关联方法,包括以下步骤:
步骤1、按照章节的层级结构对非结构化航海书表PDF文件进行拆分和编号;
步骤2、以航海书表名称作为数据库名称,建立名称为主表的表格,添加章节编号、章节名称、章节内容、位置、纬度、经度和海图字段,实现章节编号、章节名称、章节内容的自动入库功能,手动补上其它字段内容;
步骤3、结合使用树列表和PDF组件,实现非结构航海书表的还原显示功能;
步骤4、利用位置和章节编号属性,实现非结构化航海书表内容与图形显示的关联互动。
进一步,所述步骤1进行拆分和编号处理时,编号使用数字,每两位数字表示一个章节层次,实际不足两位前头补0,编号长度固定为拟处理最深层级数×2,前两位表示一级章节号,接下来两位表示二级章节号,以此类推,如果当前章节没有包含子章节,则后续编码赋值为00;当前章节对应的拆分内容不包含子章节;按照涵盖当前章节拆分内容的最少页面进行PDF文件导出,保存在以航海书表名称为文件夹的目录中。
进一步,所述步骤2在添加字段时:对于港口指南,海图字段为空;对于航路指南,位置、纬度和经度字段为空;位置字段内容为从PDF直接拷贝得来,对其进行规范化后可以得到纬度字段和经度字段内容;章节内容字段对应于拆分数据,按照Blob字段类型存储。
进一步,所述步骤2章节编号、章节名称、章节内容的自动入库方法包括以下步骤:
⑴连接目标数据库;
⑵依次获得拆分数据目录中的文件;
⑶对于每一个文件,通过文件名提取章节编号和章节名称,按照二进制流读取当前文件作为一个对象,将上述信息组成一条记录插入表格。
进一步,所述步骤3的具体实现方法为:从数据库中查询章节编号和章节名称,并按照章节编号进行排序;计算章节编号的数字长度,除以2得到章节总层级;对每条查询结果,判断章节编号的非零数字特征,计算当前记录的章节层级,创建新节点,使用章节编号作为该节点的关联名称,使用章节名称作为该节点的显示文本,同时将该节点挂接到上一级节点中;在PDF组件中显示封面信息。
进一步,所述步骤4的具体实现方法为:当用户加载某一航海书表时,根据所有记录包含的位置信息,在海图上相应位置显示图标;当用户鼠标双击树列表节点时,根据节点的关联名称,从数据库中查询相应的纬度和经度,在海图中实现定位显示;当用户在海图上点击航海书表对应的某个图标时,根据其章节编号,在树列表节点中自动定位,并在PDF组件中显示。
本发明的优点和积极效果是:
本发明设计合理,其利用PDF文件拆分、入库和双向检索,进行非结构化航海图书数据的半结构化处理,实现航海书表数据的精确定位和空间关联功能,既不改变现有航海图书生产和保障模式,还可以与电子海图的关联互动,具有直观和互动性特点,丰富了航海书表的展现方式,提升了航海资料的集成能力和航海信息查询检索效率,促进了航海导航的信息化能力。
附图说明
图1为航海书表拆分文件夹示意图;
图2为“位置”字段的规则化处理原理图;
图3为航路指南入库后示例图;
图4为港口指南入库后示例图;
图5为航海书表数据显示界面;
图6为树列表的构造流程图;
图7为利用港口指南进行港口定位
具体实施方式
以下结合附图对本发明的实施做进一步详述。
一种非结构化航海书表与电子海图的关联方法,包括以下步骤:
步骤1、按照章节的层级结构对航海书表PDF文件进行拆分和编号。编号使用数字,每两位数字表示一个章节层次,实际不足两位前头补0;编号长度固定为拟处理最深层级数×2,即前两位表示一级章节号,接下来两位表示二级章节号,以此类推;如果当前章节没有包含子章节,则后续编码赋值为“00”;当前章节对应的拆分内容不包含子章节;按照涵盖当前章节拆分内容的最少页面进行PDF文件导出,保存在以航海书表名称为文件夹的目录中。
以《中国港口指南(东海海区)2009》为例,该书籍为三级目录,因此编号为6位数字,即按照“一级章节编号:[AA]0000,二级章节编号:[AABB]00,三级章节编号:[AABBCC]”的规则进行编号。书籍正文之前的内容视为第0章,即以“00”开头,第一个章则以“01”开头。实际处理部分结果如图1所示。
步骤2、利用关系数据库实现对航海书表拆分数据进行入库。
以航海书表名称作为数据库名称,建立名称为“主表”的表格,添加“章节编号、章节名称、章节内容、位置、纬度、经度、海图”等字段。对于港口指南而言,“海图”字段为空,对于航路指南而言,“位置、纬度、经度”字段为空;“位置”字段内容为从PDF直接拷贝得来,对其进行规范化后可以得到“纬度、经度”字段内容;“章节内容”对应于拆分数据,按照Blob字段类型存储。
其中“章节编号、章节名称、章节内容”字段采用自动入库方式实现,其他字段内容通过手动补上。
“章节编号、章节名称、章节内容”的自动入库方法如下:
⑴连接目标数据库。
⑵依次获得拆分数据目录中的文件。
⑶对于每一个文件,通过文件名提取“章节编号”和“章节名称”两个字段,按照二进制流读取当前文件作为一个对象,将上述信息组成一条记录插入表格。
在数据库中新增相应记录时,如果该文件数据非空,则更新该行记录对应的“章节内容”字段。需要从原始PDF文件中手动拷贝并添加到相应记录中。“位置”字段内容拷贝自原始PDF,带有特殊字符,无法直接用于查询定位,保留其格式是为了便于核对。通过图2所示的规则化处理后,提取纬度和经度信息,拷贝至相应记录中。图3和图4分别给出了航海指南和港口指南入库后的示例数据。
步骤3、结合使用树列表和PDF组件,实现航海书表的还原显示。以数据库名称作为树列表的根节点;从数据库中查询“章节编号”和“章节名称”,并按照“章节编号”进行排序;计算“章节编号”的数字长度,除以2得到章节总层级;对每条查询结果,判断“章节编号”的非零数字特征,计算当前记录的章节层级,创建新节点,使用“章节编号”作为该节点的关联名称,使用“章节名称”作为该节点的显示文本,同时将该节点挂接到上一级节点中;在PDF组件中显示封面信息。
如图5所示,左侧为树列表,右侧为Adobe PDF插件。在树列表上方放置了文本输入框和“查找”和“加载”功能按钮。用户根据需要,可多次查找并加载拆分后的航海书表数据库;按照图6所示流程,可实现树列表的正确构造。
步骤4、利用“位置”和“章节编号”属性,实现航海书表内容与图形显示的关联互动。当用户加载某一航海书表时,根据所有记录包含的位置信息,在海图上相应位置显示图标;当用户鼠标双击树列表节点时,根据节点的关联名称(即:章节编号),从数据库中查询相应的纬度和经度,在海图中实现定位显示;当用户在海图上点击航海书表对应的某个图标时,根据其“章节编号”,在树列表节点中自动定位,并在PDF组件中显示。
在本步骤中,点击树列表中某一节点,如果通过该节点能够在数据库中查询到有效的经度和纬度,则在海图中定位到该港口处,并以圆圈标注显示,如图7所示;如果查询不到经度和纬度,但是能够查询到关联到的海图集合,则将海图集合中的第一个进行居中显示;如果上述两个信息都查询不到,则不进行处理。从海图上查询关联到的航海书表记录与上述过程相反,根据鼠标点击的空间位置查询数据库中最靠近的记录,然后在树列表中选中相应节点,并在PDF插件中显示相应数据。
本发明未述及之处适用于现有技术。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (3)

1.一种非结构化航海书表与电子海图的关联方法,其特征在于包括以下步骤:
步骤1、按照章节的层级结构对非结构化航海书表PDF文件进行拆分和编号;
步骤2、以航海书表名称作为数据库名称,建立名称为主表的表格,添加章节编号、章节名称、章节内容、位置、纬度、经度和海图字段,实现章节编号、章节名称、章节内容的自动入库功能,手动补上其它字段内容;
步骤3、结合使用树列表和PDF组件,实现非结构航海书表的还原显示功能;
步骤4、利用位置和章节编号属性,实现非结构化航海书表内容与图形显示的关联互动;
所述步骤1进行拆分和编号处理时,编号使用数字,每两位数字表示一个章节层次,实际不足两位前头补0,编号长度固定为拟处理最深层级数×2,前两位表示一级章节号,接下来两位表示二级章节号,以此类推,如果当前章节没有包含子章节,则后续编码赋值为00;当前章节对应的拆分内容不包含子章节;按照涵盖当前章节拆分内容的最少页面进行PDF文件导出,保存在以航海书表名称为文件夹的目录中;
所述步骤3的具体实现方法为:从数据库中查询章节编号和章节名称,并按照章节编号进行排序;计算章节编号的数字长度,除以2得到章节总层级;对每条查询结果,判断章节编号的非零数字特征,计算当前记录的章节层级,创建新节点,使用章节编号作为该节点的关联名称,使用章节名称作为该节点的显示文本,同时将该节点挂接到上一级节点中;在PDF组件中显示封面信息;
所述步骤4的具体实现方法为:当用户加载某一航海书表时,根据所有记录包含的位置信息,在海图上相应位置显示图标;当用户鼠标双击树列表节点时,根据节点的关联名称,从数据库中查询相应的纬度和经度,在海图中实现定位显示;当用户在海图上点击航海书表对应的某个图标时,根据其章节编号,在树列表节点中自动定位,并在PDF组件中显示。
2.根据权利要求1所述的一种非结构化航海书表与电子海图的关联方法,其特征在于:所述步骤2在添加字段时:对于港口指南,海图字段为空;对于航路指南,位置、纬度和经度字段为空;位置字段内容为从PDF直接拷贝得来,对其进行规范化后得到纬度字段和经度字段内容;章节内容字段对应于拆分数据,按照Blob字段类型存储。
3.根据权利要求1所述的一种非结构化航海书表与电子海图的关联方法,其特征在于:所述步骤2章节编号、章节名称、章节内容的自动入库方法包括以下步骤:
⑴连接目标数据库;
⑵依次获得拆分数据目录中的文件;
⑶对于每一个文件,通过文件名提取章节编号和章节名称,按照二进制流读取当前文件作为一个对象,将上述信息组成一条记录插入表格。
CN201911105497.2A 2019-11-13 2019-11-13 一种非结构化航海书表与电子海图的关联方法 Active CN110909114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911105497.2A CN110909114B (zh) 2019-11-13 2019-11-13 一种非结构化航海书表与电子海图的关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911105497.2A CN110909114B (zh) 2019-11-13 2019-11-13 一种非结构化航海书表与电子海图的关联方法

Publications (2)

Publication Number Publication Date
CN110909114A CN110909114A (zh) 2020-03-24
CN110909114B true CN110909114B (zh) 2023-04-25

Family

ID=69817091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911105497.2A Active CN110909114B (zh) 2019-11-13 2019-11-13 一种非结构化航海书表与电子海图的关联方法

Country Status (1)

Country Link
CN (1) CN110909114B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005043971A (ja) * 2003-07-22 2005-02-17 Fuji Electric Holdings Co Ltd 電子文書作成装置、その方法、プログラム、記録媒体
CN102289492A (zh) * 2011-08-15 2011-12-21 彭认灿 航海通告数字化编辑处理方法
CN102332023A (zh) * 2011-09-27 2012-01-25 北京中科希望软件股份有限公司 一种对电子图书进行快速语义标注的方法和系统
CN103631913A (zh) * 2013-11-28 2014-03-12 东莞中国科学院云计算产业技术创新与育成中心 一种基于地理信息技术的应急知识库维护系统及实现方法
CN106056514A (zh) * 2016-05-27 2016-10-26 广东南方海岸科技服务有限公司 一种移动电子通关系统及方法
CN110364027A (zh) * 2019-06-27 2019-10-22 中国人民解放军92859部队 一种提供航海通告信息的方法及其系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005043971A (ja) * 2003-07-22 2005-02-17 Fuji Electric Holdings Co Ltd 電子文書作成装置、その方法、プログラム、記録媒体
CN102289492A (zh) * 2011-08-15 2011-12-21 彭认灿 航海通告数字化编辑处理方法
CN102332023A (zh) * 2011-09-27 2012-01-25 北京中科希望软件股份有限公司 一种对电子图书进行快速语义标注的方法和系统
CN103631913A (zh) * 2013-11-28 2014-03-12 东莞中国科学院云计算产业技术创新与育成中心 一种基于地理信息技术的应急知识库维护系统及实现方法
CN106056514A (zh) * 2016-05-27 2016-10-26 广东南方海岸科技服务有限公司 一种移动电子通关系统及方法
CN110364027A (zh) * 2019-06-27 2019-10-22 中国人民解放军92859部队 一种提供航海通告信息的方法及其系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐岩 ; 王斌 ; 郭晋宁 ; 李爱峰 ; .航标信息全球化保障条件下的编码设计研究.海洋测绘.2017,(第02期),全文. *
崔广海 ; 唐岩 ; 窦洪林 ; 郑明伟 ; .航海书表数据库设计思路探讨.天津航海.2010,(第02期),全文. *
韩范畴 ; 李春菊 ; 贾建军 ; .海洋测绘数据库支撑下的航海图书生产与保障.测绘科学技术学报.2012,(第03期),全文. *

Also Published As

Publication number Publication date
CN110909114A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN103605706B (zh) 一种基于知识地图的资源检索方法
CN110929042B (zh) 一种基于电力企业的知识图谱构建和查询方法
CN106933833B (zh) 一种基于空间索引技术的位置信息快速查询方法
CN102207948B (zh) 一种事件陈述句素材库的生成方法
CN101882163A (zh) 一种基于匹配规则的模糊中文地址地理赋值方法
CN106202292B (zh) 一种基于结构化数据模型的标准信息分析方法
CN102982103A (zh) 一种olap海量多维数据维存储方法
CN101799808A (zh) 一种数据处理方法及其系统
CN102193906A (zh) Word格式试卷自动导入数据库系统的方法
CN103970842A (zh) 一种面向防洪减灾领域的水利大数据存取系统及方法
CN102566945A (zh) 一种实现图书自动组稿按需印刷的方法和系统
CN102867065B (zh) 基于关系型数据库的数据汇总装置和方法
CN101916260A (zh) 一种灾害本体和关系数据库间语义映射构建的方法
CN101393551B (zh) 专利全文检索的索引建立系统及方法
US7747628B2 (en) System and method for automated construction, retrieval and display of multiple level visual indexes
CN106294575A (zh) 一种基于Lucene的林地图斑矢量数据查询方法
CN110909114B (zh) 一种非结构化航海书表与电子海图的关联方法
CN103294791A (zh) 一种可扩展标记语言模式匹配方法
CN112416992A (zh) 基于大数据和关键词的行业类型识别方法、系统及设备
Weingart From trees to webs: uprooting knowledge through visualization
CN101882164A (zh) 用于存储多维知识的数据仓库模型
CN112214494B (zh) 检索方法及装置
CN103488757A (zh) 一种基于云计算的聚类特征等值直方图的维护方法
Li et al. Extraction and integration information in HTML tables
CN102262676A (zh) 可扩展标记语言文件转换器及其转换方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant