CN111914538A - 一种航道通告信息智能空间匹配方法及系统 - Google Patents
一种航道通告信息智能空间匹配方法及系统 Download PDFInfo
- Publication number
- CN111914538A CN111914538A CN202010756207.7A CN202010756207A CN111914538A CN 111914538 A CN111914538 A CN 111914538A CN 202010756207 A CN202010756207 A CN 202010756207A CN 111914538 A CN111914538 A CN 111914538A
- Authority
- CN
- China
- Prior art keywords
- channel
- information
- announcement
- spatial
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 19
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 238000012423 maintenance Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000009193 crawling Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000012800 visualization Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000011144 upstream manufacturing Methods 0.000 claims description 6
- 238000011068 loading method Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 210000004907 gland Anatomy 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000006424 Flood reaction Methods 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000414 obstructive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000009418 renovation Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种航道通告信息智能空间匹配方法及系统,进行航道信息获取,包括获取并存储航道相关信息,所述航道相关信息包括航道通告、计划水深和维护尺度;关键信息提取,包括根据航道相关信息进行中文分词和地理实体识别,进行中文分词时根据航道要素图层构建电子航道图物标名称分词词典作为登录词典,进行地理实体识别时,将航道通告信息中对用户具有实际意义的元素进行划分,构建航道通告的文本语义提取模型,在文本语义提取模型约束下采用BiLSTM‑CRF模型进行训练,并提取关键信息;空间信息可视化,包括基于识别所得标签为地点的地理实体,与电子航道图进行空间匹配,并以空间位置为中心生成地理围栏,标注显示实时的航道通告信息。
Description
技术领域
本发明涉及空间信息可视化和航道通告智能化领域,尤其是涉及一种航道通告信息智能空间匹配方法及系统。
背景技术
航道通告信息是航道部门为保障航道畅通安全面向公众发布的周知性内容,通过航道通告内容,船舶可以提前知悉航道的开放、关闭或调整情况,掌握航道中各个水道的开放尺度,从而更好地规划航行路线,尽可能避免由于搁浅、水下障碍物等引起的安全隐患及财产损失。
当前航道通告信息多以网站形式进行发布,随着移动互联网技术发展,长江航道测量中心推出了长江航道图APP,并成为长江航道局当前以及今后提供信息服务最重要的途径。在电子航道图上以可视化形式展示航道通告,能让用户在知晓航道通告信息的同时,更加直观、便捷地在电子航道图上定位、浏览、查询通告中的相关内容,如水道、航标、重点通航区域等。但是,如何将时效性强的航道通告信息匹配到电子航道图APP指定位置,提供实时准确的航道信息,是现阶段亟待解决的问题。
Python是一种结合了解释性、编译性、互动性,面向对象的跨平台脚本语言,可以通过程序模拟浏览器请求站点行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频)爬取到本地,进而提取航道通告信息,这也使得上述问题的解决成为可能。
但是,目前数字航道信息化建设中,航道通告信息尚未形成固定的结构化模板,通过Python程序爬取的数据主要以非结构化文本的形式呈现,其内容时效性强、数据量大、涉及航道地名及设施名称众多、专业化程度高。传统匹配方法受技术限制,多采用人工手段进行空间数据与属性数据的关联,耗时费力,难以从海量的航道通告数据中高效提取空间位置信息,而空间位置信息能够大幅提升航道通告数据的使用价值,为航道信息的智能空间匹配打下坚实的基础。
因此,本领域亟待提出新的实用技术,以将非结构化的航道通告数据转换成具有空间标识的结构化数据,实现航道通告信息与长江航道图APP或其他实时应用工具中电子航道图的智能空间匹配。
发明内容
本发明的目的在于,实现基于深度学习的航道通告信息智能空间匹配,提高航道通告信息的实用性、便捷性及空间认知度,并建立稳定的匹配模型。
本发明的技术方案提供一种航道通告信息智能空间匹配方法,包括以下步骤:
步骤1,航道信息获取,包括获取并存储航道相关信息,所述航道相关信息包括航道通告、计划水深和维护尺度;
步骤2,关键信息提取,包括根据步骤1所得航道相关信息进行中文分词和地理实体识别;进行中文分词时,根据航道要素图层构建电子航道图物标名称分词词典,以作为登录词典;进行地理实体识别时,将航道通告信息中对用户具有实际意义的元素按照机构O、地点L、主题S、事件E和时间T进行划分,构建航道通告的文本语义提取模型,在文本语义提取模型约束下采用BiLSTM-CRF模型进行训练,并提取关键信息;
步骤3,空间信息可视化,包括基于步骤2识别所得标签为地点的地理实体,与电子航道图进行空间匹配,并以空间位置为中心生成地理围栏,标注显示实时的航道通告信息。
而且,获取航道相关信息采用聚焦网络爬虫方式实现。
而且,爬取页面时,按“重要”、“上游”、“中游”、“下游”的优先级,将过滤后的链接依次放到URL队列中。
而且,根据航道要素图层构建电子航道图物标名称分词词典的实现方式如下,
步骤1.1,批量加载航道要素图层;
步骤1.2,读取要素,根据属性字段来提取要素名称,并将结果保存至已读属性名称列表;
步骤1.3,判断当前是否存在未读要素,若是则继续读取要素,返回步骤1.2,若否则结束读取过程并进入步骤1.4;
步骤1.4,根据步骤1.2获取的最终名称列表,按照中文分词词典的“名称+换行”格式依次写入文本文件中,并将最终的文件输出作为分词词典。
而且,航道通告的文本语义提取模型中,
机构O,用于标识航道通告的发布机构;
地点L,用于标识航道通告中包含的位置相关信息,包括具有明确空间位置特征的典型航道地物;
主题S,用于标识航道通告中包含的主旨性内容,其中包括航道特殊要素对象和航道的运行状态;
事件E,用于标识航道通告中具有过程性的内容,包括自然事件和人工事件;
时间T,用于标识航道通告的发布时间。
而且,在文本语义提取模型约束下采用BiLSTM-CRF模型进行训练,包括使用Bakeoff-3评测中所采用的BIO标注集对文本语义提取模型进行标注,在BiLSTM-CRF模型的CRF层为最后预测的标签添加约束。
而且,步骤3的实现包括以下
步骤3.1,基于AIS数据或移动端GPS数据,解析获取当前位置经纬度,判断是否位于显示的图幅范围内,若不在则漫游至当前位置所在图幅;
步骤3.2,提取航道要素地物中心,包括以当前图幅范围进行叠加分析,获取具有明确空间位置特征的典型航道地物,并计算中心位置;
步骤3.3,根据当前移动设备分辨率及步骤3.2获取的中心位置确定缓冲区半径或多边形范围,并依次构建地理围栏;
步骤3.4,基于步骤3.3构建的地理围栏来计算是否存在压盖,如果是则调整地理围栏范围或进行偏移处理;
步骤3.5,基于步骤3.2获取的地物名称,依次请求获取步骤2所得对应的关键信息;
步骤3.6,基于步骤3.2获取的地物中心位置及步骤3.5获取的关键信息,按预设格式组织简化航道通告信息,并在步骤3.4确定的地理围栏范围内进行绘制标注。
而且,本发明还提供一种航道通告信息智能空间匹配系统,用于执行如上所述的航道通告信息智能空间匹配方法。
而且,包括航道信息获取模块(10)、关键信息提取模块(20)及空间信息可视化模块(30),
所述航道信息获取模块(10),用于获取并存储航道相关信息,所述航道相关信息包括航道通告、计划水深和维护尺度;
所述关键信息提取模块(20),用于根据航道信息获取模块(10)所得航道相关信息进行中文分词和地理实体识别;进行中文分词时,根据航道要素图层构建电子航道图物标名称分词词典,以作为登录词典;进行地理实体识别时,将航道通告信息中对用户具有实际意义的元素按照机构O、地点L、主题S、事件E和时间T进行划分,构建航道通告的文本语义提取模型,在文本语义提取模型约束下采用BiLSTM-CRF模型进行训练,并提取关键信息;
所述空间信息可视化模块(30),用于基于关键信息提取模块(20)识别所得标签为地点的地理实体,与电子航道图进行空间匹配,并以空间位置为中心生成地理围栏,标注显示实时的航道通告信息。
本发明提出通过基于深度学习的航道通告信息智能空间匹配方法,实现航道通告信息的快速匹配。该方法首先利用网络爬虫技术将航道局网站上的航道相关信息爬取并存储,然后对爬取的数据进行智能化处理,包括:中文分词、命名实体识别。最后将识别的命名实体中的地理实体与电子航道图进行匹配,实现航道通告信息的空间可视化。本发明利用电子航道图物标名称构建分词词典,较常规词典更能够准确提取航道信息,该方案不仅适用于航道通告的信息要素提取,同时对于航运其他信息的地理空间化与可视化同样适用,并且随着机器学习模型的运行和完善,其识别准确率、召回率等指标也将不断提升。
附图说明
图1为本发明实施例的系统结构图;
图2为本发明实施例的航道信息获取示意图;
图3为本发明实施例的关键信息提取示意图;
图4为本发明实施例的中文分词词典构建流程示意图;
图5为本发明实施例的中文分词处理流程示意图;
图6为本发明实施例的BiLSTM-CRF模型结构示意图;
图7为本发明实施例的空间信息可视化示意图。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案。
本发明提供一种航道通告信息智能空间匹配方法。具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,运行方法的系统装置也应当在本发明的保护范围内。
如图1,实施例所提供基于深度学习的航道通告信息智能空间匹配系统,包括航道信息获取模块(10)、关键信息提取模块(20)及空间信息可视化模块(30)。以下分别说明各模块实现,以供实施参考。
航道信息获取模块(10)用于获取并存储航道相关信息,实施例利用聚焦网络爬虫(Focused Crawler)技术从长江航道局网站上爬取航道通告、计划水深、维护尺度等航道相关信息,所得结果可存储在数据库中。实施例爬取过程如图2,详细实施步骤描述如下:
步骤1,对爬取目标的定义和描述:聚焦网络爬虫中,首先要依据爬取需求定义好该聚焦网络爬虫爬取的目标及其描述,即长江航道局航道服务网页,包括周航道尺度预报、航道通告、水位、潮位、安全预警、综合服务信息、月度水深计划、年度水深计划等内容;
步骤2,获取初始的URL(http://www.cjhdj.com.cn/hdfw/);
步骤3,根据初始的URL爬取页面,并获得新的URL;
步骤4,从新的URL中过滤掉与爬取目标无关的链接,例如爬取航道通告时,URL地址的过滤关键字为“channel_notice”,即所有的网页地址需以“http://www.cjhdj.com.cn/hdfw/channel_notice/”作为开头;
步骤5,将过滤后的链接依次放到URL队列中:
具体实施时,基于长江航道局业务划分,航道通告网页有重点、上游、中游、下游、汇总等子栏目,重点栏包括对船舶航行具有重要参考意义和价值的航道信息,如航道的开放关闭,航道的调整,以及一些航道突发事件等,上游、中游、下游栏提供对应航道地理区段划分的通告信息,通常按地理位置划分。由此,优选建议可以按“重要”、“上游”、“中游”、“下游”的优先级,将过滤后的链接依次放到URL队列中,例如:
①“重要”(http://www.cjhdj.com.cn/hdfw/channel_notice/hdtgzy/)、
②“上游”(http://www.cjhdj.com.cn/hdfw/channel_notice/hdtgsy/)、
③“中游”(http://www.cjhdj.com.cn/hdfw/channel_notice/hdtgzy1/)、
④“下游”(http://www.cjhdj.com.cn/hdfw/channel_notice/hdtgxy/);
步骤6,对过滤后的链接采用广度优先爬行策略,获取网页内容;
步骤7,获取下一个需要爬取的URL地址作为初始URL地址,并重复步骤3-7;
步骤8,无法获取需要爬取的URL地址时,停止爬行。
关键信息提取模块(20),用于接收航道信息获取模块(10)输入的航道相关信息,并进行中文分词、地理实体识别,提取过程如图3,详细实施步骤描述如下:
(1)中文分词
由于电子航道图上含有航道相关地名及航标、整治建筑物等航道设施名称等常规词典中未涉及的专有名词,故实施例采用电子航道图物标名称构建分词词典,处理流程如图4所示,并采用python环境下开源分词工具jieba分词对航道通告标题进行分词处理,处理流程如图5,详细实施步骤描述如下:
步骤1,构建电子航道图物标名称分词词典,参见图4,具体过程描述如下:
步骤1.1,批量加载航道要素图层。
步骤1.2,读取要素,根据属性字段(例如NOBJNM)来提取要素名称,并将结果保存至已读属性名称列表。
步骤1.3,判断当前是否存在未读要素,若是则继续读取要素,重复步骤1.2,若否则结束读取过程并进入步骤1.4。
步骤1.4,根据步骤1.2获取的最终名称列表,按照中文分词词典常用的“名称+换行”格式依次写入文本文件中,并将最终的文件输出作为分词词典。
步骤2,对于待处理的语句进行句子清洗,分离出诸如拉丁符号等基于utf8编码的与分词无关的特殊字符,并将特殊字符标识为未知词性。
步骤3,将构建的电子航道图物标名称分词词典作为登录词典进行加载,以建立trie树分词模型(前缀词典)。
步骤4,基于前缀词典进行词图扫描,生成文本中汉字所有可能成词情况所构成的有向无环图(DAG);
步骤5,采用动态规划查找最大概率路径Route,找出基于词频的最大切分组合;
步骤6,对于收录于分词词典中的登录词,按词典标注标识;
步骤7,对于未收录于分词词典中的词,按中英文分开识别,英文、数字及时间形式的组合给予相应标注,中文采用基于汉字成词能力的隐马尔可夫(Hidden Markov Model,HMM)模型计算成词概率;
步骤8,基于Viterbi算法进行词性标注;
步骤9,基于TF-IDF和TextRank模型抽取关键词。
(2)命名实体识别
步骤1,当前航道通告信息虽呈现非结构化的特征,但仍包含特定要素单元,如机构、地点、主题、事件及时间等,这就允许把航道通告信息的地理实体识别转换为序列标注问题,从而将问题简化为结构化分类,为下一步深度学习做铺垫。将航道通告信息中对用户具有实际意义的元素按照机构(Organization)、地点(Location)、主题(Subject)、事件(Event)和时间(Time)进行划分,从而构建航道通告“机构-地点-主题-事件-时间”(OLSET)的文本语义提取模型,其中:
(1)O(Organization)为机构:用于标识航道通告的发布机构,如长江XX航道局\处等。
(2)L(Location)为地点:用于标识航道通告中包含的位置相关信息,如XX水道\水域\河段\浅滩……(只标记XX,不标记水道\水域\河段\浅滩等后缀内容)以及桥梁、码头等具有明确空间位置特征的典型航道地物。
(3)S(Subject)为主题:用于标识航道通告中包含的主旨性内容,其中既包括航道特殊要素对象,如控制河段、浅滩、桥区、信号台、专用航道\航标等,也包括航道的运行状态,如禁航\非禁航、收班\开班、航标调整\撤除\恢复\布设\失常\异动……等内容。
(4)E(Event)为事件:用于标识航道通告中具有过程性的内容,如洪峰、洪水、枯水、汛期\非汛期等自然事件或者航道维护\疏浚\采砂\施工\作业\勘察……等人工事件。
(5)T(Time)为时间:用于标识航道通告的发布时间,如XX年X月X日等。
步骤2,采用双向长短期记忆门控结构-离散随机场(BiLSTM-CRF)模型进行机器学习训练,并提取关键信息,模型结构图如图6,处理流程描述如下:
1)基于步骤1构建的文本语义提取模型,使用Bakeoff-3评测中所采用的BIO标注集对模型进行标注,即B-ORG代表机构首字,I-ORG代表机构非首字,B-LOC代表地点首字,I-LOC代表地点非首字,B-SUB代表主题首字,I-SUB代表主题非首字,B-EVE代表事件首字,I-EVE代表事件非首字,B-TM代表事件首字,I-TM代表时间非首字,O代表该字不属于命名实体的一部分。
本发明提出,地理实体识别实际是一个分类问题,因此根据业务需求将目标进行划分,后续步骤将通过机器学习进行识别。实施例中以航道信息获取模块(10)爬取的“重要”航道通告信息作为训练数据集,对文本语义提取模型进行标注。
2)以句子为单位,将一个含有n个字的句子(字的序列)记作:
x=(x1,x2,...,xn)
其中xi表示句子中第i个字在字典中的id,进而可以得到每个字的词向量,维数是字典大小。
3)利用预训练或随机初始化的嵌入向量矩阵将句子中的每个字xi由词向量映射为低维稠密的字向量xi(xi∈Rd,R是词向量,d是向量的维度),并设置过拟合参数dropout以缓解过拟合。dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。
4)自动提取句子特征。将一个句子的各个字的嵌入向量序列(x1,x2,...,xn)作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列(h1,h2...,hn)与反向LSTM输出的隐状态序列(h'1,h'2...,h'n)在各个位置输出的隐状态进行按位置拼接ht=[ht;h't]∈Rm(m是位置的维度),得到完整的隐状态序列(h1,h2...,hn)∈Rn*m。
5)在设置dropout后,接入一个线性层,将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的句子特征,记作LSTM输出矩阵P=(p1,p2,...,pn)∈Rn*k。Rn*k为降维后的词向量集,pi为LSTM输出矩阵的秩。
可以把pi∈Rk的每一维pij都视作将字xi分类到第j个标签的打分值,如果再对P进行Softmax的话,就相当于对各个位置独立进行k类分类。但是这样对各个位置进行标注时无法利用已经标注过的信息,所以接下来将接入一个条件随机场CRF层来进行标注。
6)进行句子级的序列标注。CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签,之所以要加2是要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列y=(y1,y2,...,yn),那么模型对于句子x的标签等于y的打分为:
其中Pi,yi为第i字分类到第yi个标签的打分值,Ayi-1,yi表示从第yi-1个标签到第yi个标签的转移得分。
可以看出整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM输出的pi决定,另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率:
其中,yn为标签序列y的子序列,即可能出现的标签。score(x,y)为句子x的标签等于y的打分,score(x,yn)为句子x的标签等于yn的打分。
7)最大化对数似然估计。下式给出了对一个训练样本(x,y)的对数似然:
8)获取每个字的预测标签。使用动态规划的Viterbi算法来求解最优路径:
Viterbi算法是动态规划求解最优路径的经典算法,本发明不予赘述。
9)CRF层规则约束。通过B-LSTM可以得到句子中每个词的标签,但是不能保证标签每次都是预测正确的。CRF层可以为最后预测的标签添加一些约束来保证预测的标签是符合规则的,这些约束可以在训练数据训练过程中,通过CRF层自动学习到。接入CRF层来做句子级别的标签预测,使得标注过程不再是对各个词独立分类,引入序列的转移概率,最终计算出函数损失反馈回网络。在CRF的作用下,序列能根据转移概率做出符合常理的调整。
实施例中,在模型训练学习完成后,以航道信息获取模块(10)爬取的“上游”、“中游”、“下游”航道通告信息作为测试数据集对模型处理结果进行验证评价。
空间信息可视化模块(30),用于将关键信息提取模块(20)识别的地理实体,即在命名实体识别步骤中标注(标签)为“地点”(Location)的实体与电子航道图进行空间匹配,并以空间位置为中心生成地理围栏,标注实时的航道通告信息,可视化过程如图7,详细实施步骤描述如下:
步骤1,基于AIS数据或移动端GPS数据,解析获取当前位置经纬度,判断是否位于相关APP图幅范围内,若不在则漫游至当前位置所在图幅。
步骤2,提取航道要素地物中心,以便将通告信息绘制在地物的中心位置:以当前图幅范围进行叠加分析,获取水道、航标以及桥梁、码头等具有明确空间位置特征的典型航道地物,并依次计算其中心位置,使得航道通告信息可以居中绘制。对于航标、碍航物等点状地物,其中心位置由实际位置表示;对于桥梁、码头、水道等线状或面状地物,其中心位置可表示为:
其中xi和yi是组成线、面要素的点要素i的坐标,n等于组成线、面要素的点要素总数。
步骤3,根据当前移动设备分辨率及步骤2获取的中心位置计算合适(如屏幕宽度的三分之一)的缓冲区半径或多边形范围,并依次构建地理围栏。
步骤4,基于步骤3构建的地理围栏来计算彼此之间是否压盖,对于简单多边形的地理围栏来说,“射线法”具有较高的查询效率,依次从地理围栏A每个点出发沿X轴画一条射线,判断该射线与地理围栏B每条边的交点,并统计交点个数,如果出现的交点数均为偶数,则地理围栏A与B发生未出现压盖,反之则出现压盖,此时需要调整地理围栏范围或进行偏移处理。
步骤5,基于步骤2获取的地物名称,依次通过WebService服务请求关键信息提取模块来获取对应的关键信息。
步骤6,基于步骤2获取的地物中心位置及步骤5获取的关键信息,按预设的特定格式(如地物名称+事件+时间)组织以简化航道通告信息,并在步骤4确定的地理围栏范围内进行绘制标注。
为便于实施参考起见,提供本发明实施例所提供航道通告信息智能空间匹配方法总体过程如下:
步骤1,航道信息获取,用于获取并存储航道相关信息,包括航道通告、计划水深、维护尺度等。
步骤2,关键信息提取,包括根据步骤1所得航道相关信息进行中文分词和地理实体识别;进行中文分词时,根据航道要素图层构建电子航道图物标名称分词词典,以作为登录词典;进行地理实体识别时,将航道通告信息中对用户具有实际意义的元素按照机构O、地点L、主题S、事件E和时间T进行划分,构建航道通告的文本语义提取模型,在文本语义提取模型约束下采用BiLSTM-CRF模型进行训练,并提取关键信息;实施例采用的是python环境下开源分词工具jieba分词对航道通告标题进行分词处理,并利用双向长短期记忆门控结构-离散随机场(BiLSTM-CRF)方法进行机器学习训练来识别地理实体。
步骤3,空间信息可视化,包括基于步骤2识别所得标签为地点的地理实体,与电子航道图进行空间匹配,并以空间位置为中心生成地理围栏,标注显示实时的航道通告信息。
具体实施时,各步骤实现可参见以上系统实施例工作方式。
存储本发明技术方案相应计算机程序的计算机可读存储介质,以及包括运行相应计算机程序的计算机设备,都应当在本发明的保护范围内。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.一种航道通告信息智能空间匹配方法,其特征在于,包括以下步骤:
步骤1,航道信息获取,包括获取并存储航道相关信息,所述航道相关信息包括航道通告、计划水深和维护尺度;
步骤2,关键信息提取,包括根据步骤1所得航道相关信息进行中文分词和地理实体识别;进行中文分词时,根据航道要素图层构建电子航道图物标名称分词词典,以作为登录词典;进行地理实体识别时,将航道通告信息中对用户具有实际意义的元素按照机构O、地点L、主题S、事件E和时间T进行划分,构建航道通告的文本语义提取模型,在文本语义提取模型约束下采用BiLSTM-CRF模型进行训练,并提取关键信息;
步骤3,空间信息可视化,包括基于步骤2识别所得标签为地点的地理实体,与电子航道图进行空间匹配,并以空间位置为中心生成地理围栏,标注显示实时的航道通告信息。
2.根据权利要求1所述航道通告信息智能空间匹配方法,其特征在于:获取航道相关信息采用聚焦网络爬虫方式实现。
3.根据权利要求2所述航道通告信息智能空间匹配方法,其特征在于:爬取页面时,按“重要”、“上游”、“中游”、“下游”的优先级,将过滤后的链接依次放到URL队列中。
4.根据权利要求1或2或3所述航道通告信息智能空间匹配方法,其特征在于:根据航道要素图层构建电子航道图物标名称分词词典的实现方式如下,
步骤1.1,批量加载航道要素图层;
步骤1.2,读取要素,根据属性字段来提取要素名称,并将结果保存至已读属性名称列表;
步骤1.3,判断当前是否存在未读要素,若是则继续读取要素,返回步骤1.2,若否则结束读取过程并进入步骤1.4;
步骤1.4,根据步骤1.2获取的最终名称列表,按照中文分词词典的“名称+换行”格式依次写入文本文件中,并将最终的文件输出作为分词词典。
5.根据权利要求1或2或3所述航道通告信息智能空间匹配方法,其特征在于:航道通告的文本语义提取模型中,
机构O,用于标识航道通告的发布机构;
地点L,用于标识航道通告中包含的位置相关信息,包括具有明确空间位置特征的典型航道地物;
主题S,用于标识航道通告中包含的主旨性内容,其中包括航道特殊要素对象和航道的运行状态;
事件E,用于标识航道通告中具有过程性的内容,包括自然事件和人工事件;
时间T,用于标识航道通告的发布时间。
6.根据权利要求1或2或3所述航道通告信息智能空间匹配方法,其特征在于:在文本语义提取模型约束下采用BiLSTM-CRF模型进行训练,包括使用Bakeoff-3评测中所采用的BIO标注集对文本语义提取模型进行标注,在BiLSTM-CRF模型的CRF层为最后预测的标签添加约束。
7.根据权利要求1或2或3所述航道通告信息智能空间匹配方法,其特征在于:步骤3的实现包括以下
步骤3.1,基于AIS数据或移动端GPS数据,解析获取当前位置经纬度,判断是否位于显示的图幅范围内,若不在则漫游至当前位置所在图幅;
步骤3.2,提取航道要素地物中心,包括以当前图幅范围进行叠加分析,获取具有明确空间位置特征的典型航道地物,并计算中心位置;
步骤3.3,根据当前移动设备分辨率及步骤3.2获取的中心位置确定缓冲区半径或多边形范围,并依次构建地理围栏;
步骤3.4,基于步骤3.3构建的地理围栏来计算是否存在压盖,如果是则调整地理围栏范围或进行偏移处理;
步骤3.5,基于步骤3.2获取的地物名称,依次请求获取步骤2所得对应的关键信息;
步骤3.6,基于步骤3.2获取的地物中心位置及步骤3.5获取的关键信息,按预设格式组织简化航道通告信息,并在步骤3.4确定的地理围栏范围内进行绘制标注。
8.一种航道通告信息智能空间匹配系统,其特征在于:用于执行如权利要求1至7所述的航道通告信息智能空间匹配方法。
9.根据权利要求8所述航道通告信息智能空间匹配系统,其特征在于:包括航道信息获取模块(10)、关键信息提取模块(20)及空间信息可视化模块(30),
所述航道信息获取模块(10),用于获取并存储航道相关信息,所述航道相关信息包括航道通告、计划水深和维护尺度;
所述关键信息提取模块(20),用于根据航道信息获取模块(10)所得航道相关信息进行中文分词和地理实体识别;进行中文分词时,根据航道要素图层构建电子航道图物标名称分词词典,以作为登录词典;进行地理实体识别时,将航道通告信息中对用户具有实际意义的元素按照机构O、地点L、主题S、事件E和时间T进行划分,构建航道通告的文本语义提取模型,在文本语义提取模型约束下采用BiLSTM-CRF模型进行训练,并提取关键信息;
所述空间信息可视化模块(30),用于基于关键信息提取模块(20)识别所得标签为地点的地理实体,与电子航道图进行空间匹配,并以空间位置为中心生成地理围栏,标注显示实时的航道通告信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010756207.7A CN111914538B (zh) | 2020-07-31 | 2020-07-31 | 一种航道通告信息智能空间匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010756207.7A CN111914538B (zh) | 2020-07-31 | 2020-07-31 | 一种航道通告信息智能空间匹配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914538A true CN111914538A (zh) | 2020-11-10 |
CN111914538B CN111914538B (zh) | 2024-05-31 |
Family
ID=73287422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010756207.7A Active CN111914538B (zh) | 2020-07-31 | 2020-07-31 | 一种航道通告信息智能空间匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914538B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113365232A (zh) * | 2021-05-17 | 2021-09-07 | 福建吉星智能科技股份有限公司 | 一种北斗通讯应用系统短报文通讯的终端控制方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100793640B1 (ko) * | 2006-11-01 | 2008-01-10 | 주식회사 자티전자 | 전자해도를 이용한 휴대용 선박 항해 안내 보조단말기 및그 운영 방법 |
US20110160986A1 (en) * | 2009-12-28 | 2011-06-30 | Nec (China) Co., Ltd. | Method and apparatus for traffic information conversion using traffic information element knowledge base |
CN103150753A (zh) * | 2013-03-22 | 2013-06-12 | 中国人民解放军63680部队 | 一种大范围高精度匹配数字航道三维可视化方法 |
CN104200029A (zh) * | 2014-09-04 | 2014-12-10 | 武汉大学 | 一种基于航道水深数据的自动化碍航分析方法及系统 |
US20160110433A1 (en) * | 2012-02-01 | 2016-04-21 | Sri International | Method and apparatus for correlating and viewing disparate data |
KR20160139644A (ko) * | 2015-05-28 | 2016-12-07 | 한국해양대학교 산학협력단 | 구글맵과 enc를 이용한 일반 pc에서 운용 가능한 3차원 선박운항시뮬레이터 |
KR20160139648A (ko) * | 2015-05-28 | 2016-12-07 | 한국해양대학교 산학협력단 | 구글맵과 enc를 이용한 3차원 항해환경 구현 방법 |
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN108122034A (zh) * | 2017-12-06 | 2018-06-05 | 中国人民解放军92859部队 | 电子航海图语义映射关系的“对象-规则”知识表达方法 |
CN108595430A (zh) * | 2018-04-26 | 2018-09-28 | 携程旅游网络技术(上海)有限公司 | 航变信息提取方法及系统 |
WO2019214149A1 (zh) * | 2018-05-11 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN110717002A (zh) * | 2019-09-27 | 2020-01-21 | 水利部南京水利水文自动化研究所 | 海上风电安全监测信息动态管理与可视化方法及系统 |
CN111274804A (zh) * | 2020-01-17 | 2020-06-12 | 珠海市新德汇信息技术有限公司 | 基于命名实体识别的案件信息提取方法 |
-
2020
- 2020-07-31 CN CN202010756207.7A patent/CN111914538B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100793640B1 (ko) * | 2006-11-01 | 2008-01-10 | 주식회사 자티전자 | 전자해도를 이용한 휴대용 선박 항해 안내 보조단말기 및그 운영 방법 |
US20110160986A1 (en) * | 2009-12-28 | 2011-06-30 | Nec (China) Co., Ltd. | Method and apparatus for traffic information conversion using traffic information element knowledge base |
US20160110433A1 (en) * | 2012-02-01 | 2016-04-21 | Sri International | Method and apparatus for correlating and viewing disparate data |
CN103150753A (zh) * | 2013-03-22 | 2013-06-12 | 中国人民解放军63680部队 | 一种大范围高精度匹配数字航道三维可视化方法 |
CN104200029A (zh) * | 2014-09-04 | 2014-12-10 | 武汉大学 | 一种基于航道水深数据的自动化碍航分析方法及系统 |
KR20160139648A (ko) * | 2015-05-28 | 2016-12-07 | 한국해양대학교 산학협력단 | 구글맵과 enc를 이용한 3차원 항해환경 구현 방법 |
KR20160139644A (ko) * | 2015-05-28 | 2016-12-07 | 한국해양대학교 산학협력단 | 구글맵과 enc를 이용한 일반 pc에서 운용 가능한 3차원 선박운항시뮬레이터 |
WO2018028077A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种基于深度学习的中文语义分析的方法及装置 |
CN108122034A (zh) * | 2017-12-06 | 2018-06-05 | 中国人民解放军92859部队 | 电子航海图语义映射关系的“对象-规则”知识表达方法 |
CN108595430A (zh) * | 2018-04-26 | 2018-09-28 | 携程旅游网络技术(上海)有限公司 | 航变信息提取方法及系统 |
WO2019214149A1 (zh) * | 2018-05-11 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN110717002A (zh) * | 2019-09-27 | 2020-01-21 | 水利部南京水利水文自动化研究所 | 海上风电安全监测信息动态管理与可视化方法及系统 |
CN111274804A (zh) * | 2020-01-17 | 2020-06-12 | 珠海市新德汇信息技术有限公司 | 基于命名实体识别的案件信息提取方法 |
Non-Patent Citations (2)
Title |
---|
王红;李浩飞;邸帅;: "民航突发事件实体识别方法研究", 计算机应用与软件, no. 03 * |
谢腾;杨俊安;刘辉;: "基于BERT-BiLSTM-CRF模型的中文实体识别", 计算机系统应用, no. 07 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113365232A (zh) * | 2021-05-17 | 2021-09-07 | 福建吉星智能科技股份有限公司 | 一种北斗通讯应用系统短报文通讯的终端控制方法 |
CN113365232B (zh) * | 2021-05-17 | 2022-03-08 | 福建吉星智能科技股份有限公司 | 一种北斗通讯应用系统短报文通讯的终端控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111914538B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914539B (zh) | 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统 | |
JP5390840B2 (ja) | 情報分析装置 | |
CN113535917A (zh) | 基于旅游知识图谱的智能问答方法及系统 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN112527915B (zh) | 线性文化遗产知识图谱构建方法、系统、计算设备和介质 | |
WO2019227581A1 (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
JP2022532451A (ja) | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 | |
Li et al. | A hybrid method for Chinese address segmentation | |
CN111078835A (zh) | 简历评估方法、装置、计算机设备及存储介质 | |
Stock et al. | Detecting geospatial location descriptions in natural language text | |
Drymonas et al. | Geospatial route extraction from texts | |
Hu et al. | Harvesting big geospatial data from natural language texts | |
US20230316098A1 (en) | Machine learning techniques for extracting interpretability data and entity-value pairs | |
Shi et al. | Extraction of geospatial information on the Web for GIS applications | |
CN114254116A (zh) | 文献资料文本分类方法、分类模型构建方法和分类装置 | |
CN111914538B (zh) | 一种航道通告信息智能空间匹配方法及系统 | |
CN113626536B (zh) | 一种基于深度学习的新闻地理编码方法 | |
Jaiswal et al. | GeoCAM: A geovisual analytics workspace to contextualize and interpret statements about movement | |
Paris et al. | Linking spatial named entities to the Web of data for geographical analysis of historical texts | |
Oliveira et al. | Gazetteer enrichment for addressing urban areas: A case study | |
Huang et al. | Zero-shot urban function inference with street view images through prompting a pretrained vision-language model | |
Sergeeva et al. | Semagr: semantic method for accurate geolocations reconstruction within extensive urban sites | |
CN117786066B (zh) | 一种面向文档的知识问答方法、装置、设备及介质 | |
US20220065654A1 (en) | System and method for prediction of geo-coordinates for a geographical element | |
Sinha et al. | Web and social media analytics towards enhancing urban transportations: A case for Bangalore |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |