CN116737862A - 基于事件图谱的地理变化信息的检测方法、装置和设备 - Google Patents

基于事件图谱的地理变化信息的检测方法、装置和设备 Download PDF

Info

Publication number
CN116737862A
CN116737862A CN202310967729.5A CN202310967729A CN116737862A CN 116737862 A CN116737862 A CN 116737862A CN 202310967729 A CN202310967729 A CN 202310967729A CN 116737862 A CN116737862 A CN 116737862A
Authority
CN
China
Prior art keywords
geographic
change information
crawler
event
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310967729.5A
Other languages
English (en)
Inventor
王宇翔
马海波
褚良武
徐晶
石国
喻磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Hongtu Information Technology Co Ltd
Original Assignee
Aerospace Hongtu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Hongtu Information Technology Co Ltd filed Critical Aerospace Hongtu Information Technology Co Ltd
Priority to CN202310967729.5A priority Critical patent/CN116737862A/zh
Publication of CN116737862A publication Critical patent/CN116737862A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Remote Sensing (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种基于事件图谱的地理变化信息的检测方法、装置和设备,涉及地理变化信息检测技术领域,构建地理变化信息本体,地理变化信息本体包括地理实体类型和事件角色;基于地理变化信息本体和预设语料标注框架对语料进行标注,得到标注实体,并将标注实体与地理实体类型和事件角色进行关联,得到关联数据样本;通过关联数据样本对预先构建的目标检测模型进行训练,得到地理变化信息检测模型;通过地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到目标地理变化信息;将目标地理变化信息进行可视化展示。本申请降低了地理变化信息获取的时间成本和人力成本,提升了地理变化信息获取的及时性。

Description

基于事件图谱的地理变化信息的检测方法、装置和设备
技术领域
本申请涉及地理变化信息检测技术领域,尤其是涉及一种基于事件图谱的地理变化信息的检测方法、装置和设备。
背景技术
目前,获取地理信息变化的方式主要是人工实地查找地理空间变化信息,然而,该方式存在人力成本投入大、费用高、时效性差等问题,且很多地理信息发生变化后难以发现,大量地理信息的现实性跟不上实际地物的变化速度,已经远远不能满足当前社会经济发展和公众的需求。
发明内容
本申请的目的在于提供一种基于事件图谱的地理变化信息的检测方法、装置和设备,将传统地理空间变化监测从被动督促转变为主动发现模式,降低了地理变化信息获取的时间成本和人力成本,提升了地理变化信息获取的及时性。
第一方面,本发明提供一种基于事件图谱的地理变化信息的检测方法,所述方法包括:构建地理变化信息本体,所述地理变化信息本体包括地理实体类型和事件角色;基于所述地理变化信息本体和预设语料标注框架对语料进行标注,得到标注实体,并将所述标注实体与所述地理实体类型和事件角色进行关联,得到关联数据样本;通过所述关联数据样本对预先构建的目标检测模型进行训练,得到地理变化信息检测模型;通过所述地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到目标地理变化信息;将所述目标地理变化信息进行可视化展示;其中,所述可视化展示包括地图展示和/或列表展示。
在可选的实施方式中,所述地理实体类型包括:包括自然地理实体类型、人工地理实体类型、管理地理实体类型;所述事件角色至少包括触发词、来源名称、来源网址、变化日期、变化主体,其中,所述变化主体为发生变化的所述地理实体类型。
在可选的实施方式中,所述预先构建的目标检测模型包括自底向上包括3层:Embedding层、双向LSTM层、CRF层;其中,Embedding层用于表征句子中的词向量,作为双向LSTM的输入,通过词向量学习模型获得;双向LSTM层通过一个正向LSTM和一个反向LSTM的输入,分别计算每个词考虑左侧和右侧词时对应的向量,然后将每个词的两个向量进行连接,形成词的向量输出;CRF层以双向LSTM输出的向量作为输入,对句子中的命名实体进行序列标注。
在可选的实施方式中,所述方法还包括:通过预先配置的爬虫工具进行地理信息爬虫处理,具体的:创建至少一个爬虫任务;响应针对规则配置组件的选择操作或组合操作,配置爬虫规则;所述规则配置组件至少包括开始组件、爬取组件、定义变量组件、输出节点组件、循环节点组件、等待组件、数据库交互组件、子流程组件、执行函数组件和状态流转组件;采用预设的正则表达式配置爬虫任务的执行时间;采用Quartz分布式任务调度框架进行多线程周期性的执行网站数据爬取任务,获取地理信息。
在可选的实施方式中,所述方法还包括:基于jsoup库对爬取到的网站数据进行数据清洗处理,去除HTML标签,得到经过数据清洗处理后的地理信息;其中,所述地理信息为不带HTML标签的非结构化的纯文本数据。
在可选的实施方式中,通过所述地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到目标地理变化信息,包括:通过所述地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到结构化的目标地理变化信息,所述目标地理变化信息至少包括地理实体的变化主体、变化时间、变化地点、来源名称、来源网址;将结构化的目标地理变化信息保存到PostgreSQL数据库中。
在可选的实施方式中,所述方法还包括:在所述目标地理变化信息生效前,对所述目标地理变化信息进行可信度审核;若可信度审核通过,则所述目标地理变化信息确定生效。
第二方面,本发明提供一种基于事件图谱的地理变化信息的检测装置,所述装置包括:本体构建模块,用于构建地理变化信息本体,所述地理变化信息本体包括地理实体类型和事件角色;实体关联模块,用于基于所述地理变化信息本体和预设语料标注框架对语料进行标注,得到标注实体,并将所述标注实体与所述地理实体类型和事件角色进行关联,得到关联数据样本;模型训练模块,用于通过所述关联数据样本对预先构建的目标检测模型进行训练,得到地理变化信息检测模型;知识抽取模块,用于通过所述地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到目标地理变化信息;结果展示模块,用于将所述目标地理变化信息进行可视化展示;其中,所述可视化展示包括地图展示和/或列表展示。
第三方面,本发明提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现前述实施方式任一项所述的基于事件图谱的地理变化信息的检测方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现前述实施方式任一项所述的基于事件图谱的地理变化信息的检测方法。
本申请提供的基于事件图谱的地理变化信息的检测方法、装置和设备,首先基于知识图谱技术构建地理变化事件知识的本体模型,然后结合地理变化事件语料进行事件知识抽取模型训练,生成地理变化信息检测模型;随后采用预先配置的爬虫工具爬取包含地理变化信息内容,并根据包含地理变化信息的内容抽取得到结构化的目标地理变化信息,并通过前端页面可视化技术展示在地图上,对目标地理变化信息进行展示,将传统地理空间变化监测从被动督促转变为主动发现模式,降低了地理变化信息获取的时间成本和人力成本,提升了地理变化信息获取的及时性。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于事件图谱的地理变化信息的检测方法的流程图;
图2为本申请实施例提供的一种具体的基于事件图谱的地理变化信息的检测方法的流程图;
图3为本申请实施例提供的一种条件随机场的结构图;
图4为本申请实施例提供的一种LSTM + CRF组合模型的结构图;
图5为本申请实施例提供的一种网络爬虫工具的处理流程图;
图6为本申请实施例提供的一种爬虫任务创建界面图;
图7为本申请实施例提供的一种规则配置组件界面示意图;
图8为本申请实施例提供的一种网络爬虫规则配置信息的示意图;
图9为本申请实施例提供的一种爬取组件的参数配置图;
图10为本申请实施例提供的一种采用正则表达式配置爬虫任务的示意图;
图11为本申请实施例提供的一种基于事件图谱的地理变化信息的检测装置的结构图;
图12为本申请实施例提供的一种电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
考虑到随着互联网的迅速发展,与传统媒体相比,互联网信息在丰富性、时效性上具有更加突出的优势。根据大量的研究发现,大部分自然地表变化(如工程建设)和各类经济活动(企事业单位变更)等活动,都会在互联网上进行发布,留下信息,越来越多地名、地址信息在互联网上展现,因此,通过检索互联网信息提取地理空间信息的变化是一种可行的手段。基于此,本申请实施例提供了一种基于事件图谱的地理变化信息的检测方法、装置和设备,将传统地理空间变化监测从被动督促转变为主动发现模式,降低了地理变化信息获取的时间成本和人力成本,提升了地理变化信息获取的及时性。
本申请实施例提供了一种基于事件图谱的地理变化信息的检测方法,参见图1所示,该方法包括以下步骤:
步骤S110,构建地理变化信息本体,地理变化信息本体包括地理实体类型和事件角色。
在一种实施方式中,地理实体类型包括:包括自然地理实体类型、人工地理实体类型、管理地理实体类型;事件角色至少包括触发词、来源名称、来源网址、变化日期、变化主体,其中,变化主体为发生变化的地理实体类型。
步骤S120,基于地理变化信息本体和预设语料标注框架对语料进行标注,得到标注实体,并将标注实体与地理实体类型和事件角色进行关联,得到关联数据样本;
步骤S130,通过关联数据样本对预先构建的目标检测模型进行训练,得到地理变化信息检测模型。
上述预先构建的目标检测模型包括自底向上包括3层:Embedding层、双向LSTM层、CRF层;其中,Embedding层用于表征句子中的词向量,作为双向LSTM的输入,通过词向量学习模型获得;双向LSTM层通过一个正向LSTM和一个反向LSTM的输入,分别计算每个词考虑左侧和右侧词时对应的向量,然后将每个词的两个向量进行连接,形成词的向量输出;CRF层以双向LSTM输出的向量作为输入,对句子中的命名实体进行序列标注。
步骤S140,通过地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到目标地理变化信息。
在一种实施方式中,可以通过预先配置的爬虫工具进行地理信息爬虫处理,进而通过地理变化信息检测模型进行知识抽取。在具体实施时,爬虫处理可以包括以下步骤1)至步骤4):
步骤1),创建至少一个爬虫任务;
步骤2),响应针对规则配置组件的选择操作或组合操作,配置爬虫规则;规则配置组件至少包括开始组件、爬取组件、定义变量组件、输出节点组件、循环节点组件、等待组件、数据库交互组件、子流程组件、执行函数组件和状态流转组件;
步骤3),采用预设的正则表达式配置爬虫任务的执行时间;
步骤4),采用Quartz分布式任务调度框架进行多线程周期性的执行网站数据爬取任务,获取地理信息。
可选的,为保证爬虫得到的处理便于知识抽取处理,在一种实施方式中,可以基于jsoup库对爬取到的网站数据进行数据清洗处理,去除HTML标签,得到经过数据清洗处理后的地理信息;其中,地理信息为不带HTML标签的非结构化的纯文本数据。
进一步,通过地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到结构化的目标地理变化信息,目标地理变化信息至少包括地理实体的变化主体、变化时间、变化地点、来源名称、来源网址;将结构化的目标地理变化信息保存到PostgreSQL数据库中。
此外,为保证后续的目标地理变化信息的准确性,在一种实施方式中,可以在目标地理变化信息生效前,对目标地理变化信息进行可信度审核;若可信度审核通过,则目标地理变化信息确定生效。
步骤S150,将目标地理变化信息进行可视化展示;其中,可视化展示包括地图展示和/或列表展示。
本申请实施例还提供了一种具体的基于事件图谱的地理变化信息的检测方法,参见图2所示,该方法包括以下步骤S1至步骤S7:
步骤S1:构建地理变化情报发现系统本体模型。
地理变化情报发现系统本体模型(也即上述地理变化信息本体)包括实体类型和事件类型。
实体类型为地理实体类型,包括自然地理实体类型、人工地理实体类型、管理地理实体类型:1)自然地理实体类型包括耕地、林地、草地、沙地等农林用地类型,海域、海岛等海洋类型,河流、湖泊等水系类型,山脉、山洞等山体类型等;2)人工地理实体类型包括水库、运河等水利类型,轨道交通、城际公路、城市道路等交通类型,房屋等人工建筑类型等;3)管理地理实体类型包括行政区划单元、地名地址等。
事件类型中包含事件角色,地理信息变化事件角色包括触发词、来源名称、来源网址、变化日期、变化主体等,其中变化主体为上述实体类型。
通过构建地理变化情报发现系统本体,可建立起地理实体信息变化事件关联关系模型,为下一步变化信息内容抽取做基础。
步骤S2:地理变化情报发现系统模型训练。
地理变化情报发现系统模型训练主要包括语料标注、算法模型、模型训练、模型评估。具体的:
1、语料标注
从互联网或者已有历史语料库中获取地理变化情报发现系统的语料,并基于上述构建得到的地理变化情报发现系统本体模型,采用Brat语料标注框架对语料进行人工标注,将语料内容中的实体(包括:自然地理实体、人工地理实体、管理地理实体)及事件角色(包括:触发词、来源名称、来源网址、变化日期、变化主体等)标记出来,并关联对应的实体类型和事件角色,然后将标注结果以文件的形式保存在对象存储服务器上。
2、算法模型
地理变化情报发现系统是采用自然语言处理中的事件抽取模型对互联网上爬取的地理变化信息文本进行抽取、识别。
事件是指发生的事情,通常具有时间、地点、参与者等属性。事件抽取是指从自然语言文本中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与者等。本申请实施例从自然语言文本中抽取出地理信息变化事件的变化主体(如:房屋建筑、道路等)、变化日期、地点、变化动作(如:施工、竣工等),等。
本申请实施例的地理变化情报发现系统基于深度学习技术采用事件联合抽取方法进行事件抽取。与传统统计模型相比,基于深度学习的方法直接以文本中词的向量为输入,通过神经网络实现端到端的事件角色识别,不再依赖人工定义的特征。
从算法模型设计上,本申请实施例的地理变化情报发现系统采用深度学习中的长短时记忆神经网络(Long Short-Term Memory Neural Network,LSTM)和条件随机场(Conditional Random Field,CRF)组合模型实现事件抽取。
其中,CRF是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型。在序列标注问题中,线性链CRF是常用的模型,其结构如下图所示,在序列标注问题中,状态序列变量x对应标记序列,y表示待标注的观测序列,参见图3所示。
LSTM + CRF组合模型结参见图4所示,LSTM+CRF组合模型自底向上包括3层:Embedding层、双向LSTM层、CRF层。Embedding层是句子中词的向量表示,作为双向LSTM的输入,通过词向量学习模型获得。双向LSTM层通过一个正向LSTM和一个反向LSTM的输入,分别计算每个词考虑左侧和右侧词时对应的向量,然后将每个词的两个向量进行连接,形成词的向量输出;最后CRF层以双向LSTM输出的向量作为输入,对句子中的命名实体进行序列标注。
3、模型训练
本申请实施例所采用的地理变化情报发现系统采用深度学习技术事件知识抽取算法,对已标注的数据集进行训练从而得到事件知识抽取模型,从而实现新事件知识的抽取和推理功能。
数据集切分:在一种实施方式中,可以按照8:2比例(实际应用中可根据实际情况进行调整)将数据集切分成训练数据集和测试数据集,训练数据集用于模型训练使用,测试数据集用于训练完成后对训练结果进行测试和评估使用。
超参设置:为了获得更精确的模型,在模型训练前支持训练迭代次数、学习率等超参设置,可根据不同的场景由用户自定义设置。
分布式训练:基于Kubernetes云原生技术和KubeFlow开源框架实现模型分布式训练,支持数据并行和模型并行训练,大大降低模型训练时长。
4、模型评估
模型训练完成后,系统自动针对训练结果进行评估,评估指标包括:精确率、召回率、F1分数。
精确率:精确率(Precision),查准率,表示正确预测为正的占全部预测为正的比例;
召回率:召回率(Recall),查全率,表示正确预测为正的占全部实际为正的比例;
F1分数:F1分数为精确率和召回率的调和平均数,值越大越好。
步骤S3:从互联网爬取地理变化信息内容。
本申请实施例的地理变化情报发现系统采用网络爬虫工具从任意互联网网站上爬取内容,并对内容进行清洗,最后将清洗后的内容保存到对象存储服务器上。
本系统中的网络爬虫工具采用图形化拖拽方式配置网站爬取规则,无需编码即可实现网络爬虫。网络爬虫工具通过采用图形化拖拽、规则配置组件化、多任务并行、正则表达式等技术实现互联网数据爬取,技术流程参见图5所示。
1、创建爬虫任务
本网络爬虫工具采用分布式任务并行处理技术实现同时并行爬取多个互联网网站。使用网络爬虫,首先需要创建爬虫任务,参见图6所示。
在图6所示的爬虫管理页面,点击左上角的“添加爬虫”即可创建爬虫任务。
参见图7所示,创建爬虫任务图中,可通过拖拽页面上的规则配置组件来任意配置爬虫规则。
2、配置网站爬取规则
本网络爬虫工具设计了很多规则配置组件,通过可视化页面拖拽这些组件即可灵活配置网络爬虫规则。规则配置组件包含如下(开始组件为网格区域的组件,其他组件按照图7中从上到下从左到右的顺序进行介绍):
开始组件:仅仅是爬虫的起点,所有流程图必须有该节点。
爬取组件:该节点用于请求HTTP/HTTPS页面或接口,主要配置项如下:
请求方法:GET、POST、PUT、DELETE等方法;
URL: 请求地址;
延迟时间:单位是毫秒,意思是爬取之前延迟一段时间在执行抓取;
超时时间:网络请求的超时时间,单位也是毫秒;
代理:请求时设置的代理,格式为host:port 如 192.168.1.26:8888;
编码格式:用来设置页面的编码格式默认为UTF-8,当解析出现乱码时,可以修改此值;
跟随重定向:默认是跟随30x重定向,当不需要此功能时,可以取消勾选;
TLS证书验证:此项默认是勾选的,当出现证书一类的异常可以取消勾选此项尝试;
自动管理Cookie:请求时自动设置Cookie(自己手动设置的与之前请求的Cookie都会设置进去);
自动去重:勾选时会对url进行去重处理,如果重复则跳过;
重试次数:当请求发生异常或状态码不为200时会进行重试;
重试间隔:重试期间的间隔时间(单位为毫秒);
参数:用来设置GET、POST等方法的参数设置;
Cookie:用来设置请求Cookie;
Header:用来设置请求头;
Body:请求类型(默认是none);
form-data(Body项设置为form-data);
raw(Body项设置为raw)。
定义变量组件:该节点用于定义变量之后,可以与表达式配套使用,实现动态设置各项参数(如动态请求分页地址),主要配置项如下:
变量名:变量的名字,当变量名重复时,会覆盖前一个变量;
变量值:变量的值,可以是常量,可以是表达式。
循环节点组件,主要配置项如下:
次数或集合:当此项有值(值为集合或数字)时,后续节点(包括本节点)会循环执行;
循环变量:默认为item,与for(Object item : collections) 中的item意义相同;
循环下标:当循环时,会产生下标(从0开始)以该值存入变量中,与for(int i =0;i<array.length;i++)中的i意义相同;
开始位置:从该位置开始循环(从0开始);
结束位置:到该位置结束(-1为最后一项,-2为倒数第二项,以此类推)。
等待结束组件(也即前述等待组件),该节点会等待到该节点之前所有节点执行完毕时才会执行下一级节点。
输出节点组件,该节点主要用于调试,测试时会把输出打印到页面中,另外也可以用来自动保存到数据库或文件,主要配置项如下:
输出到数据库:勾选时需要填写数据源、表名称,且<font color="blue">输出项</font>要与列名对应;
输出到CSV文件:勾选时需要填写CSV文件路径,<font color="blue">输出项</font>会作为表头;
输出全部参数:一般用来调试,可以输出所有变量到界面上。
执行SQL组件(也即前述数据库交互组件),主要用于与数据库交互(查询/修改/插入/删除等等),主要配置项如下:
数据源:需要选择配置好的数据源;
语句类型:select/selectInt/selectOne/insert/insertofPk/update/delete;
SQL: 要执行SQL语句,需要动态注入的参数用##包裹起来如:#${item[index].id}#。
执行函数组件,主要用于调用一些关联性不大,无需返回值的函数,如下载文件,保存文件等。
子流程组件,主要用于调用其他流程。
此外,还包括连接线组件(也即前述状态流转组件),通过箭头标识,用来流转至下一个节点,其中:
线粗细:用来调整线的粗细;
线样式:用来调整线的样式;
线颜色:用来调整线的颜色;
流转特性:目前可勾选的是传递变量(默认勾选);
流转条件:当表达式返回true时将流向下一个节点,否则不流转,不填时默认流转。
在实际应用中,以爬取“某市某单位”官网中的“占道施工”栏目为例,通过可视化页面拖拽上述规则组件实现定时爬取某市道路占道施工信息。网络爬虫规则配置信息参见图8所示。
每个组件都可以配置相关参数,图9示出了爬取组件的参数配置图,其中未配置的参数均采用系统默认值。
通过上述页面组件拖拽式配置爬虫规则后保存即完成。
3、爬取网站内容
网络爬虫的规则配置完成后,然后采用正则表达式配置爬虫任务的执行时间,如图10所示,爬虫系统将上述正则表达式配置规则保存到数据库中后,然后采用Quartz分布式任务调度框架和多线程技术定期执行网站数据爬取任务。
优选的,在爬取网站内容时,对于设置了反爬虫策略的网站,可能造成常规技术无法爬取到网站数据,为了保证爬虫数据的可行性,本网络爬虫工具基于selenium自动化测试框架技术模拟用户操作,模拟用户登录、点击并访问网页,并通过selenium SDK API读取网页中的内容,从而实现针对设置反爬虫策略的网站,可以爬取到网站内容的效果。
4、数据清洗
采用上述第3步方法爬取到的网站内容是HTML格式的,这些内容数据需要经过清洗才能直接使用。本网络爬虫工具基于jsoup库对爬取到的内容进行清洗,去除HTML标签(如:<html>、<head>、<p>等等),经过清洗后的内容为不带HTML标签的非结构化的纯文本数据。
5、数据存储
采用上述第4步方法爬取到非结构化的地理变化信息内容时,根据配置的规则,系统自动将这些内容保存到PostgreSQL或者S3对象存储服务器上。
步骤S4:地理变化信息内容抽取。
采用第(二)步骤中生成的地理变化事件知识模型,并结合第(一)步骤中的地理变化情报发现系统本体模型,将第(三)步骤中从互联网上获取并保存到数据库中的非结构化的地理变化信息内容进行知识抽取,从而得到结构化的地理变化信息内容,如:地理实体的变化主体、变化时间、变化地点、来源名称、来源网址等等,并将这些结构化的地理变化信息保存到PostgreSQL数据库中,方便用户查阅和审核。
步骤S5:地理变化信息可视化。
按照第(四)步骤生成的结构化的地理变化信息保存到数据库后,系统通过可视化页面方式展示这些变化信息。可视化方式包括:地图展示、列表展示。
地图展示:将地理变化信息中涉及到的地理实体展示在地图上,点击地图上的地理实体,可以查看变化详情信息,包括:地理信息名称、地理信息类型、变化类型、变化时间、情报来源、情报获取时间等。
列表展示:以列表分页的方式展示地理变化信息,点击具体的变化信息,可查看变化详情信息。
步骤S6:地理变化信息审核。
考虑到地理变化信息的准确性,在地理变化信息正式生效前,需要进行审核,以确保信息正确无误。
在第(五)步骤中的地理信息可视化界面中展示了所有地理变化信息,在界面上选择变化信息,点击“处理”按钮,弹出该变化信息的详情信息,响应管理员进行审核通过后,点击“提交”即完成审核,该地理变化信息正式生效。
步骤S7:地理变化信息入库。
第(六)步骤中,地理变化信息经过审核后,正式生效,并同时将生效的地理变化信息写入到数据库中,以永久保存,同时共享给其他系统使用。
综上,本申请实施例基于事件图谱的地理变化情报发现方法及系统,自动爬取指定网站(如:政务官网、各类新闻网等等),然后通过人工智能的知识事件抽取技术,从网站内容中提取出地理变化信息,并通过地图可视化方式展示给用户,将传统地理空间变化监测从被动督促转变为主动发现模式,大大降低了地理变化信息获取成本,提升了时效性。另外,本系统设计的网络爬虫工具是通过界面可视化及组件拖拽的方式来配置互联网网站爬取规则,无需编码即可快速完成任意互联网网站的信息爬取能力,实现用户通过本申请实施例系统可以低门槛、快速的从互联网上爬取地理变化情报信息。
基于上述方法实施例,本申请实施例还提供一种基于事件图谱的地理变化信息的检测装置,参见图11所示,该装置主要包括以下部分:
本体构建模块10,用于构建地理变化信息本体,地理变化信息本体包括地理实体类型和事件角色;
实体关联模块20,用于基于地理变化信息本体和预设语料标注框架对语料进行标注,得到标注实体,并将标注实体与地理实体类型和事件角色进行关联,得到关联数据样本;
模型训练模块30,用于通过关联数据样本对预先构建的目标检测模型进行训练,得到地理变化信息检测模型;
知识抽取模块40,用于通过地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到目标地理变化信息;
结果展示模块50,用于将目标地理变化信息进行可视化展示;其中,可视化展示包括地图展示和/或列表展示。
在可选的实施方式中,地理实体类型包括:包括自然地理实体类型、人工地理实体类型、管理地理实体类型;事件角色至少包括触发词、来源名称、来源网址、变化日期、变化主体,其中,变化主体为发生变化的地理实体类型。
在可选的实施方式中,预先构建的目标检测模型包括自底向上包括3层:Embedding层、双向LSTM层、CRF层;
其中,Embedding层用于表征句子中的词向量,作为双向LSTM的输入,通过词向量学习模型获得;
双向LSTM层通过一个正向LSTM和一个反向LSTM的输入,分别计算每个词考虑左侧和右侧词时对应的向量,然后将每个词的两个向量进行连接,形成词的向量输出;
CRF层以双向LSTM输出的向量作为输入,对句子中的命名实体进行序列标注。
在可选的实施方式中,上述装置还包括,爬虫模块,用于通过预先配置的爬虫工具进行地理信息爬虫处理,具体的:
创建至少一个爬虫任务;
响应针对规则配置组件的选择操作或组合操作,配置爬虫规则;规则配置组件至少包括开始组件、爬取组件、定义变量组件、输出节点组件、循环节点组件、等待组件、数据库交互组件、子流程组件、执行函数组件和状态流转组件;
采用预设的正则表达式配置爬虫任务的执行时间;
采用Quartz分布式任务调度框架进行多线程周期性的执行网站数据爬取任务,获取地理信息。
在可选的实施方式中,上述装置数据清洗处理模块,用于还包括:
基于jsoup库对爬取到的网站数据进行数据清洗处理,去除HTML标签,得到经过数据清洗处理后的地理信息;其中,地理信息为不带HTML标签的非结构化的纯文本数据。
在可选的实施方式中,知识抽取模块40,还用于:
通过地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到结构化的目标地理变化信息,目标地理变化信息至少包括地理实体的变化主体、变化时间、变化地点、来源名称、来源网址;
将结构化的目标地理变化信息保存到PostgreSQL数据库中。
在可选的实施方式中,上述装置还包括,可信度审核模块,用于:
在目标地理变化信息生效前,对目标地理变化信息进行可信度审核;
若可信度审核通过,则目标地理变化信息确定生效。
本申请实施例提供的基于事件图谱的地理变化信息的检测装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,基于事件图谱的地理变化信息的检测装置的实施例部分未提及之处,可参考前述基于事件图谱的地理变化信息的检测方法实施例中相应内容。
本申请实施例还提供了一种电子设备,如图12所示,为该电子设备的结构示意图,其中,该电子设备100包括处理器121和存储器120,该存储器120存储有能够被该处理器121执行的计算机可执行指令,该处理器121执行该计算机可执行指令以实现上述任一项基于事件图谱的地理变化信息的检测方法。
在图12示出的实施方式中,该电子设备还包括总线122和通信接口123,其中,处理器121、通信接口123和存储器120通过总线122连接。
其中,存储器120可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口123(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线122可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线122可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器121可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器121中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器121可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器121读取存储器中的信息,结合其硬件完成前述实施例的基于事件图谱的地理变化信息的检测方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述基于事件图谱的地理变化信息的检测方法,具体实现可参见前述方法实施例,在此不再赘述。
本申请实施例所提供的基于事件图谱的地理变化信息的检测方法、装置和设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种基于事件图谱的地理变化信息的检测方法,其特征在于,所述方法包括:
构建地理变化信息本体,所述地理变化信息本体包括地理实体类型和事件角色;
基于所述地理变化信息本体和预设语料标注框架对语料进行标注,得到标注实体,并将所述标注实体与所述地理实体类型和事件角色进行关联,得到关联数据样本;
通过所述关联数据样本对预先构建的目标检测模型进行训练,得到地理变化信息检测模型;
通过所述地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到目标地理变化信息;
将所述目标地理变化信息进行可视化展示;其中,所述可视化展示包括地图展示和/或列表展示。
2.根据权利要求1所述的基于事件图谱的地理变化信息的检测方法,其特征在于,所述地理实体类型包括:包括自然地理实体类型、人工地理实体类型、管理地理实体类型;所述事件角色至少包括触发词、来源名称、来源网址、变化日期、变化主体,其中,所述变化主体为发生变化的所述地理实体类型。
3.根据权利要求1所述的基于事件图谱的地理变化信息的检测方法,其特征在于,所述预先构建的目标检测模型包括自底向上包括3层:Embedding层、双向LSTM层、CRF层;
其中,Embedding层用于表征句子中的词向量,作为双向LSTM的输入,通过词向量学习模型获得;
双向LSTM层通过一个正向LSTM和一个反向LSTM的输入,分别计算每个词考虑左侧和右侧词时对应的向量,然后将每个词的两个向量进行连接,形成词的向量输出;
CRF层以双向LSTM输出的向量作为输入,对句子中的命名实体进行序列标注。
4.根据权利要求1所述的基于事件图谱的地理变化信息的检测方法,其特征在于,所述方法还包括:
通过预先配置的爬虫工具进行地理信息爬虫处理,具体的:
创建至少一个爬虫任务;
响应针对规则配置组件的选择操作或组合操作,配置爬虫规则;所述规则配置组件至少包括开始组件、爬取组件、定义变量组件、输出节点组件、循环节点组件、等待组件、数据库交互组件、子流程组件、执行函数组件和状态流转组件;
采用预设的正则表达式配置爬虫任务的执行时间;
采用Quartz分布式任务调度框架进行多线程周期性的执行网站数据爬取任务,获取地理信息。
5.根据权利要求4所述的基于事件图谱的地理变化信息的检测方法,其特征在于,所述方法还包括:
基于jsoup库对爬取到的网站数据进行数据清洗处理,去除HTML标签,得到经过数据清洗处理后的地理信息;其中,所述地理信息为不带HTML标签的非结构化的纯文本数据。
6.根据权利要求5所述的基于事件图谱的地理变化信息的检测方法,其特征在于,通过所述地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到目标地理变化信息,包括:
通过所述地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到结构化的目标地理变化信息,所述目标地理变化信息至少包括地理实体的变化主体、变化时间、变化地点、来源名称、来源网址;
将结构化的目标地理变化信息保存到PostgreSQL数据库中。
7.根据权利要求1所述的基于事件图谱的地理变化信息的检测方法,其特征在于,所述方法还包括:
在所述目标地理变化信息生效前,对所述目标地理变化信息进行可信度审核;
若可信度审核通过,则所述目标地理变化信息确定生效。
8.一种基于事件图谱的地理变化信息的检测装置,其特征在于,所述装置包括:
本体构建模块,用于构建地理变化信息本体,所述地理变化信息本体包括地理实体类型和事件角色;
实体关联模块,用于基于所述地理变化信息本体和预设语料标注框架对语料进行标注,得到标注实体,并将所述标注实体与所述地理实体类型和事件角色进行关联,得到关联数据样本;
模型训练模块,用于通过所述关联数据样本对预先构建的目标检测模型进行训练,得到地理变化信息检测模型;
知识抽取模块,用于通过所述地理变化信息检测模型对采用预先配置的爬虫工具进行爬虫得到的地理信息进行知识抽取,得到目标地理变化信息;
结果展示模块,用于将所述目标地理变化信息进行可视化展示;其中,所述可视化展示包括地图展示和/或列表展示。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的基于事件图谱的地理变化信息的检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的基于事件图谱的地理变化信息的检测方法。
CN202310967729.5A 2023-08-03 2023-08-03 基于事件图谱的地理变化信息的检测方法、装置和设备 Pending CN116737862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310967729.5A CN116737862A (zh) 2023-08-03 2023-08-03 基于事件图谱的地理变化信息的检测方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310967729.5A CN116737862A (zh) 2023-08-03 2023-08-03 基于事件图谱的地理变化信息的检测方法、装置和设备

Publications (1)

Publication Number Publication Date
CN116737862A true CN116737862A (zh) 2023-09-12

Family

ID=87901487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310967729.5A Pending CN116737862A (zh) 2023-08-03 2023-08-03 基于事件图谱的地理变化信息的检测方法、装置和设备

Country Status (1)

Country Link
CN (1) CN116737862A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488468A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN114297460A (zh) * 2021-11-15 2022-04-08 北京众标智能科技有限公司 一种分布式动态可配置的爬虫平台及爬虫方法
CN114707062A (zh) * 2022-03-21 2022-07-05 湖南科技学院 基于lstm+crf的用户隐私动态度量建模的方法
CN116245177A (zh) * 2023-05-06 2023-06-09 中国科学院自动化研究所 地理环境知识图谱自动化构建方法及系统、可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488468A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN114297460A (zh) * 2021-11-15 2022-04-08 北京众标智能科技有限公司 一种分布式动态可配置的爬虫平台及爬虫方法
CN114707062A (zh) * 2022-03-21 2022-07-05 湖南科技学院 基于lstm+crf的用户隐私动态度量建模的方法
CN116245177A (zh) * 2023-05-06 2023-06-09 中国科学院自动化研究所 地理环境知识图谱自动化构建方法及系统、可读存储介质

Similar Documents

Publication Publication Date Title
Wilson et al. A five-star guide for achieving replicability and reproducibility when working with GIS software and algorithms
US9792370B2 (en) Identifying equivalent links on a page
Sangameswar et al. An algorithm for identification of natural disaster affected area
Pratiba et al. Web scraping and data acquisition using Google scholar
Brombal Is fighting with data enough? Prospects for transformative citizen science in the Chinese Anthropocene
Fedushko et al. Model of search and analysis of heterogeneous user data to improve the web projects functioning
Bilon Normality and significance testing in simple linear regression model for large sample sizes: a simulation study
CN104376066A (zh) 一种网络特定内容挖掘方法和装置、及一种电子设备
Bhat et al. Browser simulation-based crawler for online social network profile extraction
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
de Almeida et al. A graph-based algorithm to define urban topology from unstructured geospatial data
CN116737862A (zh) 基于事件图谱的地理变化信息的检测方法、装置和设备
Matta et al. Comparative Study Of Various Scraping Tools: Pros And Cons
Xu et al. Anti-periodic solutions in a ring of four neurons with multiple delays
US20220292253A1 (en) Automated structured data object creation and location integration into multiple location applications
Karaca Dirichlet problem for complex model partial differential equations
Wieferich et al. Enhancing the utility of the NHDPlus river coverage: Characterizing ecological river reaches for improved management and summary of information
Gao et al. Robust web data extraction based on weighted path-layer similarity
Al-khateeb et al. Tools and methodologies for data collection, analysis, and visualization
Anh Web Scraping: A Big Data Building Tool And Its Status In The Fintech Sector In Viet Nam
Hadzhikoleva et al. Generalized net model for building responsive design of web pages
Mallik et al. On graphs of minimum skew rank 4
Zhao et al. A note on activity floats in activity-on-arrow networks
Srivastava et al. Ranking Academic Institutions
Dub Development of software module for analysis of it specialists’ labor market

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230912