CN113505234B - 一种生态文明地理知识图谱的构建方法 - Google Patents
一种生态文明地理知识图谱的构建方法 Download PDFInfo
- Publication number
- CN113505234B CN113505234B CN202110632034.2A CN202110632034A CN113505234B CN 113505234 B CN113505234 B CN 113505234B CN 202110632034 A CN202110632034 A CN 202110632034A CN 113505234 B CN113505234 B CN 113505234B
- Authority
- CN
- China
- Prior art keywords
- ecological
- geographic
- civilized
- knowledge
- geographical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 24
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 18
- 238000012876 topography Methods 0.000 claims description 17
- 239000002689 soil Substances 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 10
- 239000002245 particle Substances 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 238000009960 carding Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000013210 evaluation model Methods 0.000 claims description 5
- 238000007726 management method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 2
- 239000002585 base Substances 0.000 description 34
- 241001465754 Metazoa Species 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 244000005700 microbiome Species 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000000813 microbial effect Effects 0.000 description 4
- 239000011435 rock Substances 0.000 description 4
- 239000002352 surface water Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241000218631 Coniferophyta Species 0.000 description 2
- 238000010171 animal model Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 239000012458 free base Substances 0.000 description 2
- 239000003673 groundwater Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000004062 sedimentation Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 241000282421 Canidae Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000002737 fuel gas Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- WABPQHHGFIMREM-UHFFFAOYSA-N lead(0) Chemical compound [Pb] WABPQHHGFIMREM-UHFFFAOYSA-N 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000005416 organic matter Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computing Systems (AREA)
- Instructional Devices (AREA)
Abstract
本发明涉及生态文明领域,提出了一种生态文明地理知识图谱的构建方法,该方法以地理特征和生态文明模式为核心构建生态文明地理科学知识库,以生态文明地理科学知识库作为数据基础,构建本体库,采用分布式网络数据采集技术获取多源异构网络数据进行文本时空分析,抽取生态文明地理时空场景事件、对应的时间和位置属性,构建生态文明地理时空事件数据库,再根据所述生态文明地理本体库和时空事件数据库构建生态文明地理知识图谱。本发明通过构建和应用基于泛在网络的生态文明地理知识图谱,实现生态文明地理不同知识之间的语义关联、智能检索与推理,提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。
Description
技术领域
本发明涉及生态文明建设技术领域,尤其涉及一种生态文明地理知识图谱的构建方法。
背景技术
知识图谱(knowledge graph)是人工智能领域的分支,是大数据时代知识表示最重要的一种方式。本质上是由具有属性的实体通过关系链接而成的网状知识库,即具有有向图结构的一个知识库,其中图的节点代表实体或者概念,而图的边代表实体/概念之间的各种语义关系。目前,知识图谱已在智能搜索、深度问答、社交网络以及一些垂直行业中有所应用,成为支撑这些应用发展的动力源泉。例如谷歌的知识图谱相继融入了维基百科、CIA世界概览等公共资源以及从其他网站搜集、整理的大量语义数据,微软的Bing Search和Facebook、Twitter等大型社交服务站点达成了合作协议,在用户个性化内容的搜集、定制化方面具有显著的优势。社交网站Facebook于2013年推出了Graph Search产品,其核心技术就是通过知识图谱将人、地点、事情等联系在一起,并以直观的方式支持精确的自然语言查询,例如输入查询式:“我朋友喜欢的餐厅”“住在纽约并且喜欢篮球和中国电影的朋友”等,知识图谱会帮助用户在庞大的社交网络中找到与自己最具相关性的人、照片、地点和兴趣等。
知识图谱在逻辑上可分为模式层与数据层,数据层由一系列的事实组成,而知识将以事实为单位进行存储,可选择图数据库作为存储介质,例如开源的eo4j、Twitter的FlockDB、sones的GraphDB等。模式层构建在数据层之上,通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。知识图谱有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。自顶向下是先为知识图谱定义好本体与数据模式,再将实体加入到知识库,例如Freebase。自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建,例如Google的KnowledgeVault。知识图谱建立在大规模知识库基础上。
随着互联网近二十年的发展,网络数据内容呈现爆炸式增长的态势,蕴含了反映我国近现代历史及当前生态文明地理演变过程的海量数据。文字描述具有生动形象性、微观细节性、多面性、来源多、层次深、覆盖面广等鲜明特点。深度挖掘文本资料,存在关于生态文明地理的多角度、多层次、多粒度、多时段全息画像的可能。
但是,由于当前地理知识图谱未覆盖生态文明地理领域,多数研究聚焦于专门技术和方法,生态文明地理系统为多学科交叉的复杂巨系统,涵盖自然、环境和人文社会经济等领域,学科之间的知识体系可能存在较大语义鸿沟,导致缺乏统一的标准和规范,缺乏基于语义的统一框架,并且现有的知识库仍依赖于人工构建与维护,严重阻碍了生态地理领域知识的共享和应用。
发明内容
因此,为了解决现有技术中存在的不足,本发明提出了一种生态文明地理知识图谱的构建方法,提供原真地理特征及生态文明模式知识检索、关联追溯、知识推理、主动推荐等服务,结合全国原真地理特征及生态文明模式数据库,为生态文明状态诊断、地理图景设计、生态效益评估、优化调控,以及专项其他项目提供地理特征知识服务和生态文明建设对标模式。
具体的,主要通过以下技术方案来实现:
一种生态文明地理知识图谱的构建方法,包括:
以地理特征和生态文明模式为核心,梳理生态文明地理知识分类体系,构建生态文明地理科学知识库;以所述生态文明地理科学知识库作为数据基础,构建涵盖自然环境和人文社会经济领域的生态文明地理本体库;
采用分布式网络数据采集技术获取多源异构网络数据,并对所述多源异构网络数据进行抽取、对齐、融合与集成;基于时空场景事件颗粒对所述多源异构网络数据进行文本时空分析,抽取生态文明地理时空场景事件、对应的时间和位置属性;基于潜在语义分析检测生态文明地理主题;构建基于众包方式的标注语料库;根据所述生态文明地理时空场景事件、对应的时间和位置属性、主题以及语料库构建生态文明地理时空事件数据库;
利用生态文明地理时空事件链接关系构建IncidentNet网络图;对生态文明地理时空事件按时间、位置和分类进行维度消歧;
根据所述生态文明地理本体库和时空事件数据库构建生态文明地理知识图谱。
优选地,生态文明地理知识包括原真地理特征和生态文明模式。
优选地,梳理生态文明地理知识分类体系,具体包括:基于泛在网络采集生态文明地理知识数据,利用One-Pass的正文快速抽取方法,拟建立网页节点的能量评价模型,进行网页结构化特征抽取;利用TextRank方法计算词的关联性,形成关键词候选集合,然后利用聚类方式手段,抽取生态文明地理实体,最终设计和梳理生态文明地理知识分类体系。
优选地,所述生态文明地理主题包括:地形地貌、气候、水文、土壤、生态环境、自然灾害、社会经济、人口及民俗文化、重大工程建设和生态文明治理。
优选地,基于时空场景事件颗粒对所述多源异构网络数据进行文本时空分析,具体包括:基于上下文的时间、位置属性抽取及时空场景切割,将所述多源异构网络数据切割为以场景颗粒事件为单位组成的时空事件集合。
优选地,基于LDA和LabeledLDA主题模型,检测生态文明地理主题及主题类型。
优选地,抽取生态文明地理时空场景事件包括抽取生态文明地理时空场景事件的实体,具体包括:通过专业学术工具书刊的百科知识图谱抽取;或者,基于BiLSTM深度神经网络和条件随机场识别文献摘要;或者,面向开放域的基于主题分类特征聚类识别。
优选地,所述方法还包括:构建均匀分布模型进行时空对齐,将对应的时间和位置属性描述粒度较粗的生态文明地理时空场景事件,投影到时空立方体。
优选地,所述生态文明地理知识图谱包括生态文明地理知识图谱数据库和生态文明地理知识图谱检索系统。
优选地,所述方法还包括:根据所述生态文明地理知识图谱构建生态文明地理问答系统。
本发明实现了学科和领域之间的知识基于语义的统一化,维护语义的一致性,实现生态文明地理知识体系的自动或半自动构建;解决了现有地理知识库缺乏统一的标准和规范,缺乏基于语义的统一框架,严重阻碍了生态地理领域知识的共享和应用的问题;解决生态文明地理领域知识形式化和规范化问题;解决了生态文明地理领域知识实体抽取的隐含关系抽取性能低下的问题,有利于提高隐含关系抽取性能以及抽取结果准确度。构建和应用基于泛在网络的生态文明地理知识图谱,有助于解决生态文明地理不同主题异构知识的规范化和形式化等问题,从而实现生态文明地理不同知识之间的语义关联、智能检索与推理,提高搜索引擎的能力,增强用户的搜索质量以及搜索体验,为生态文明地理的知识管理奠定了坚实的理论基础和技术体系。
附图说明
1、图1为本发明实施例中提供的一种生态文明地理知识图谱的构建方法的流程示意图;
2、图2为本发明实施例中提供的原真地理特征本体库体系示意图;
3、图3为本发明实施例中提供的生态文明模式本体库体系示意图;
4、图4为本发明实施例中提供的时空场景事件颗粒解析结果示意图;
5、图5为本发明实施例中提供的IncidentNet网络图;
6、图6为本发明实施例中提供的时空立方体示意图。
具体实施方式
为了使本领域技术人员更清楚的理解本发明的核心思想,下面将结合附图对其进行详细的说明。
一种生态文明地理知识图谱的构建方法,如图1所示,具体包括以下步骤:
S1,以地理特征和生态文明模式为核心,梳理生态文明地理知识分类体系,构建生态文明地理科学知识库。
需要说明的是,由于生态文明地理系统为多学科交叉的复杂巨系统,涵盖自然、环境和人文社会经济等领域,学科之间的知识体系可能存在较大语义鸿沟,因此针对现有地理知识库缺乏统一的标准和规范,缺乏基于语义的统一框架,严重阻碍了生态地理领域知识的共享和应用的问题。因此,本实施例通过收集包括新闻报纸书刊、行政沿革资料、近现代地方志及其他数字化历史文献资料、行业数据资料、社会调查与访谈资料、传记及回忆录、风土人情资料。然后,以地理特征和生态文明模式为核心,科学设计和梳理生态文明地理知识分类体系;再利用科学文献资料、工具书及通用知识图谱,构建生态文明地理科学知识库。比如,收集、整理与集成生态文明地理专业词典工具书(如地球科学大辞典、现代地理科学词典、地理辞典、生态学词典、牛津生态学词典、环境与健康数据字典等)、百科知识网站(百度百科及维基百科等)、学术期刊(地学及人文社会期刊)及第三方知识图谱网站(如YAGO、FreeBase、CN-DBpedia、OpenKG等),抽取学术词汇-词条说明、题目-关键词-摘要等半结构化数据,构建地理科学知识数据库。
S2,以所述生态文明地理科学知识库作为数据基础,构建涵盖自然环境和人文社会经济领域的生态文明地理本体库,从而搭建生态文明地理知识图谱的模式层。
生态文明地理知识包括原真地理特征和生态文明模式。生态文明地理本体库是一个多学科多领域交叉的复杂概念体系。因此,本体库建设必须支持原真地理特征与生态文明模式概念集、属性集和关系集的定义。其中原真地理特征概念集由自然景观资源特征概念集和人文景观资源特征概念集两个子集组成。自然景观资源特征概念集涵盖了地形地貌、气候、生物、水、土壤五个概念及其子概念,人文景观资源特征概念集涵盖产业,交通,劳动力结构,区位,科、教、文、卫等概念,如图2所示。生态文明模式知识库概念集包括生态经济、生态环境、生态制度,生态文化四大子概念集,如图3所示。原真地理特征与生态文明模式知识库的属性集包括海拔、高差、坡度、气温、降水、有机质含量、土壤质地、径流系数、含沙量、流量、水位等自然属性,以及价值、产业结构、教育质量、文化水平等人文属性。原真地理特征与生态文明模式知识库的关系集包括空间关系和语义关系两大类,其中空间关系主要包括拓扑关系、方向关系和距离关系,语义关系包括父子关系、等同关系、相似关系、互斥关系、概念实例关系等。
基于原真地理特征的概念集、属性集和关系集组织形成原真地理特征的实例体系,涉及不同区域原真地理特征和地理格局的资源、环境、生态、地形、地貌、气候、物候、人口、经济、文化等要素的结构化表达。整个原真地理特征本体库群体系以资源类别划分依据为主,以景观类型划分依据为辅,主要包括自然景观资源特征本体库和人文景观资源特征本体库。基于生态文明模式的概念集、属性集和关系集组织形成生态文明模式本体库群的实例体系,涉及生态文明建设不同地区、不同阶段,需要设置动态建设目标、建设主体、建设过程、推进机制等,主要包括生态空间本体库、生态环境本体库、生态经济本体库、生态文化本体库、生态制度本体库和生态人居本体库。
原真地理特征与生态文明模式的本体库群之间通过关联关系相互连接。原真地理特征本体库群为生态文明模式本体库群提供具体的定量化的指标,而生态文明模式本体库群为如何达到定量化的指标。
具体的,如图2所示,原真地理特征本体库体系包括自然景观资源特征知识库和人文景观资源特征知识库,自然景观资源特征知识库包括地形地貌、气候、生物、水和土壤;其中,地形地貌包括重力地貌、喀斯特地貌、黄土地貌、雅丹地貌、丹霞地貌、海岸地貌、风沙地貌、冰川地貌和流水地貌;气候包括温带季风气候、亚热带季风气候、热带季风气候、热带雨林气候、温带大陆性气候以及高原山地气候等;生物包括植被、动物和微生物有机体;植被包括含温性针叶林、落叶阔叶林、常绿阔叶林、季雨林和雨林、落叶阔叶灌丛以及草原植被等;动物包括食用动物资源、药用动物资源、工业用动物资源、实验动物资源以及观赏动物资源等;微生物有机体包括农业微生物、工业微生物以及医学微生物;水包括地表水和地下水,地表水包括河流、冰川、湖泊以及沼泽;地下水包括松散沉积区地下水、卡斯特分布区地下水、基岩山区地下水以及多年冻土区地下水;土壤包括红壤、棕壤、褐土、黑土、漠土以及潮土等。人文景观资源特征知识库包括产业、交通、劳动力结构、区位以及科教文卫;产业包括第一产业、第二产业以及第三产业;第一产业包括农业、林业、畜牧业以及渔业;第二产业包括采矿业、制造业、电力燃气及其生成供应业、建筑业;第三产业包括现代物流业、金融业、房地产业、教育、居民服务业等;交通包括铁路、公路、水路、空路和管道;劳动力结构包括年龄特征、性别结构、质量结构、产业结构、职业结构、地域结构;区位包括经纬度、海陆位置、行政区划、产业区位、能源供给;科教文卫包括科学技术、教育产业、文化遗产和医疗卫生。
如图3所示,生态文明模式本体库体系包括生态经济、生态环境、生态制度和生态文化;其中,生态经济包括单一性生态经济、结合性生态经济、复合型生态经济;生态环境包括水、土地、生物、气候资源;水包括地表水和地下水,地表水包括河流、冰川、湖泊以及沼泽;地下水包括松散沉积区地下水、卡斯特分布区地下水、基岩山区地下水以及多年冻土区地下水;土地包括耕地、园地、林地、草地、商务用地、工矿仓储用地、特殊用地等;生物包括植被、动物和微生物有机体;植被包括含温性针叶林、落叶阔叶林、常绿阔叶林、季雨林和雨林、落叶阔叶灌丛以及草原植被等;动物包括食用动物资源、药用动物资源、工业用动物资源、实验动物资源以及观赏动物资源等;微生物有机体包括农业微生物、工业微生物以及医学微生物;气候资源包括光能、热能、风、水;生态制度包括自然资源资产产权制度、国土空间开发保护制度、空间规划体系、资源总量管理和全面节约制度、资源有偿使用和生态补偿制度、环境治理体系、环境治理和生态保护市场体系、生态文明绩效考核和责任追究制度;生态文化包括生态文明观、绿色行政、绿色消费、传统历史文化。
通过以地理特征和生态文明模式为核心,科学设计和梳理生态文明地理知识分类体系,利用科学文献资料、学术工具书、百科网站、学术期刊及通用知识图谱,构建生态文明地理科学知识数据库,然后再根据生态文明地理科学知识数据库构建涵盖自然和社会领域的生态文明地理本体库,包括原真地理特征本体库体系和生态文明模式本体库体系,实现学科和领域之间的知识基于语义的统一化,维护语义的一致性,实现生态文明地理知识体系的自动或半自动构建。解决了现有地理知识库缺乏统一的标准和规范,缺乏基于语义的统一框架,严重阻碍了生态地理领域知识的共享和应用的问题。解决生态文明地理领域知识形式化和规范化问题。
在一个优选地实施例中,梳理生态文明地理知识分类体系,具体包括:基于泛在网络采集生态文明地理知识数据,利用One-Pass的正文快速抽取方法,拟建立网页节点的能量评价模型,进行网页结构化特征抽取;利用TextRank方法计算词的关联性,形成关键词候选集合,然后利用聚类方式手段,抽取生态文明地理实体,最终设计和梳理生态文明地理知识分类体系。
泛在网络蕴含了反映我国近现代历史及当前生态文明地理演变过程的海量数据。基于泛在网络采集生态文明地理知识数据,利用One-Pass的正文快速抽取方法,拟建立网页节点的能量评价模型,进行网页结构化特征抽取。
基于多通道的网络数据采集平台,覆盖主要新闻门户网站(如新浪、搜狐、腾讯、人民网、新华网等)、政府/行业机构网站(包括中央、省、地及县四级政府网站和国土、环境、规划、农林牧渔、工业、人口、灾害应急等行业管理机构网站)、微博客社交网站及社区论坛网站等。由于部分网站存在反爬虫封锁,网络采集平台将基于分布式架构,通过分布式部署、协同调度及访问策略调整,突破网站反爬控制。
目前主流的网页正文抽取算法把网页解析为DOM结构然后抽取正文,效率比较低下,易出现因网页语法错误引发的解析失败。针对这个问题,利用正文快速抽取方法,拟建立网页节点的能量评价模型,假设网页正文节点对正文抽取的能量贡献为正,而噪声节点对正文抽取的能量贡献为负,网页区块的能量贡献是所包含正文节点和噪声节点的相互叠加。正文以及链接节点是否是噪声,不仅取决于自身文字属性,也决定于上下环境。根据空间相关性利用卷积模型平滑正文与噪声能量分布,检测能量密度在网页区块上的变化,分割噪声和正文区块,实现对复杂网页结构的快速处理,满足巨规模网页抓取和预处理的需求。利用TextRank方法计算词的关联性,形成关键词候选集合,然后利用聚类方式手段,抽取生态文明地理实体,最终设计和梳理生态文明地理知识分类体系。
S3,采用分布式网络数据采集技术获取多源异构网络数据,并对所述多源异构网络数据进行抽取、对齐、融合与集成。
泛在网络蕴含了反映我国近现代历史及当前生态文明地理演变过程的海量数据。但因泛在网络数据缺乏与百科知识网页类似的统一的半结构化特征,因此基于泛在网络数据知识获取只能采用开放域抽取方式。生态文明地理特征往往体现为地理现象或过程,是多种要素共同作用的时空过程性结果,导致了生态文明地理网络信息往往指向性不明,文本表达形式宽泛,关联性隐含且模糊,知识实体的抽取难度较大,其结果受尺度、角度、学科分类等等因素影响大,因此,难以直接使用传统方法处理。因此,本发明采用分布式网络数据采集技术,形成多源异构网络数据业务化的获取能力,基于时空场景事件颗粒的文本时空分析,实现事件自动检测和时间、位置属性抽取,检测基于潜在语义分析的生态文明地理主题(Topic)和构建基于众包方式标注的语料库,实现基于词性分析的事件属性抽取,从而形成时空事件3W(时间when、位置where及事件内容what)要素抽取方案,以便于构建海量生态文明地理时空事件数据库。
本实施例可通过基于多通道的网络数据采集平台获取数据,例如,新闻门户网站(包括如新浪、搜狐、腾讯、人民网以及新华网)、政府/行业机构网站(包括中央、省、地及县四级政府网站和国土、环境、规划、农林牧渔、工业、人口、灾害应急等行业管理机构网站)、微博客社交网站及社区论坛网站等。
由于部分网站存在反爬虫封锁,因此,网络采集平台将基于分布式架构,通过分布式部署、协同调度及访问策略调整,突破网站反爬控制。
S4,基于时空场景事件颗粒对所述多源异构网络数据进行文本时空分析,抽取生态文明地理时空场景事件、对应的时间和位置属性。
基于上下文的时间、位置属性抽取及时空场景切割方法,将上述获取的多源异构网络数据文档切割为场景颗粒事件组成的时空事件(incident)集合,其中,时空事件由三要素组成,包括时间(where,含标准时间及原始时间描述)、位置(where,含经纬度坐标、地名地址信息及空间粒度)和内容(content),即何时何地发生了与地理现象、地理过程及生态文明建设相关的事情。
如图4所示,例如:1995年7月29日,地区A等地发生泥石流,有32户人家受灾,冲毁房屋160间、耕地484亩、土石坝36道。大后年7月5日,地区B发生泥石流,死亡1人,冲毁房屋4间及部分耕地和树木。可形成两个具有相对独立的时空事件。
S5,基于潜在语义分析检测生态文明地理主题。
在一个优选地实施例中,基于LDA和LabeledLDA主题模型,检测生态文明地理时空事件内容的主题及主题类型,以便实现“事(what)”的自动和半自动相结合的抽取目的。
在一个优选地实施例中,所述生态文明地理主题包括:地形地貌、气候、水文、土壤、生态环境、自然灾害、社会经济、人口及民俗文化、重大工程建设和生态文明治理。
举例说明,例如:“地区C,3户人家、21口人,除工人离家外出幸免遇难外,其余19人全部遇难,其中有一家10口人全部死亡。”;“人员伤亡”;“地区D被泥石流冲走9口人,其中有一家8口人冲走7人。”;“泥石流&&人员伤亡”。
S6,构建基于众包方式的标注语料库。
在一个优选地实施例中,通过生态文明地理时空事件自动检测与标注在线系统,利用众包方式建立标注语料库和生态文明地理主题训练模型。
生态文明地理时空事件自动检测与标注在线系统,利用众包方式建立标注语料库及主题训练模型。两种模式融合基本思路如下:首先利用层次性知识分类体系作为起步训练语料,利用LabeledLDA检测时空事件内容;检测失败的数据进一步使用LDA进行迭代;消除明确主题属性的数据后,利用在线标注系统以众包方式人工标注;最后得到事件内容的主题属性及新增加主题类型。
S7,根据所述生态文明地理时空场景事件、对应的时间和位置属性、主题以及语料库构建生态文明地理时空事件数据库。
S8,利用生态文明地理时空事件链接关系构建IncidentNet网络图,为生态文明地理知识融合和推理提供数据基础和分析手段。
所述多源异构网络数据文档文档按照时空场景分割为时空事件集合。时空事件包括3W要素,因此基于3W要素的相似度,可以建立事件之间的链接,形成事件与事件之间的链接关系,进而形成事件与文档,以及,文档与文档的链接关系。可利用三种链接构建网络图,如图5所示,称之为IncidentNet。
事件相似度计算将采用余弦距离,利用时间、位置、主题及关键词集合等多个维度,构建事件之间的链接关系。同时,利用生态文明地理知识体系,根据时空事件主题分类,自动合并和融合,形成生态文明地理知识融合途径,例如,根据洪涝灾害的本体模型,将分布在不同文档的关于该时空事件的“降水量”,“人员伤亡”、“经济损失程度”、“救灾措施”等要素汇集融合为一个整体。
在一个优选地实施例中,抽取生态文明地理时空场景事件包括抽取生态文明地理时空场景事件的实体,具体包括:通过专业学术工具书刊的百科知识图谱抽取;或者,基于BiLSTM深度神经网络和条件随机场识别文献摘要;或者,面向开放域的基于主题分类特征聚类识别。
在一个优选地实施例中,将抽取的所述实体进行融合为地理现象或过程。
在一个优选地实施例中,构建均匀分布模型进行时空对齐,将对应的时间和位置属性描述粒度较粗的生态文明地理时空场景事件,投影到时空立方体。
鉴于事件时空描述存在大量不一致的问题,需要进行时空语义消歧处理,增强时空量化粒度。例如“2008年四川大地震”、“2008年汶川地震”、“2008年5月12日四川大地震”等,在一定语境约束下具有相同时空语义,即“2008年5月12日发生在四川汶川映秀镇的地震”。因此,基于均匀分布模型构建时空对齐方法,将时间、位置及主题粒度较粗的事件,投影到相对精准的时空立方体,如图6所示。有利于消除时间、位置和主题分类等维度的歧义和指向不明等问题。
S9,对生态文明地理时空事件按时间、位置和分类进行维度消歧。
S10,根据所述生态文明地理本体库和时空事件数据库构建生态文明地理知识图谱。
其中,所述生态文明地理知识图谱包括生态文明地理知识图谱数据库和生态文明地理知识图谱检索系统。
由于我国基础建设和自然环境改造出现区域发展不均衡,工业化和现代化程度差异明显,存在着“城乡差异”、“东中西部不平衡”等问题,生态文明地理环境变迁也因地而异。因此,构建长时序的地形地貌、气候、水文、土壤、生态环境、自然灾害、社会经济、人口及民俗文化、重大工程建设和生态文明治理等专题时空事件库,以此为基础,在相关调查数据支持下,进行区域地理现象与过程的分析、挖掘及可视化,实现基于生态文明地理知识的地理环境重现技术。
首先基于LSTM模型检测区域生态地理重大时空事件,发现区域生态文明地理重大现象与过程。在此基础上,对基于长时序数据的生态文明地理历史时期进行划分,甄别原真地理历史阶段。辨识关键要素,甄别出原真地理环境下区域核心地理要素及相互作用规律。引入colocation模型,挖掘生态文明地理时空关联及协同模式,通过时空关联和协同关系,实现基于知识的顺承关系、因果关系的抽取,在此基础上,实现生态模式的发现。最后,基于RDF三元组构建生态文明地理知识图谱表达方式,在Neo4j图数据库基础上构建生态文明地理知识图谱数据库及知识图谱检索系统原型。
S11,根据所述生态文明地理知识图谱构建生态文明地理问答系统。
根据所述生态文明地理知识图谱构建基于时间、位置及时空事件主题分类的生态文明地理问答系统。
本发明实施例通过以地理特征和生态文明模式为核心,科学设计和梳理生态文明地理知识分类体系,利用科学文献资料、学术工具书、百科网站、学术期刊及通用知识图谱,构建生态文明地理科学知识数据库,然后再根据生态文明地理科学知识数据库构建涵盖自然和社会领域的生态文明地理本体库,包括原真地理特征本体库体系和生态文明模式本体库体系,实现学科和领域之间的知识基于语义的统一化,维护语义的一致性,实现生态文明地理知识体系的自动或半自动构建。解决了现有地理知识库缺乏统一的标准和规范,缺乏基于语义的统一框架,严重阻碍了生态地理领域知识的共享和应用的问题。解决生态文明地理领域知识形式化和规范化问题。再通过采用分布式网络数据采集技术获取多源异构网络数据;基于时空场景事件颗粒对所述多源异构网络数据进行文本时空分析,抽取生态文明地理时空场景事件、对应的时间和位置属性;基于潜在语义分析检测生态文明地理主题;构建基于众包方式的标注语料库;根据所述生态文明地理时空场景事件、对应的时间和位置属性、主题以及语料库构建生态文明地理时空事件数据库。解决了生态文明地理领域知识实体抽取的隐含关系抽取性能低下的问题,有利于提高隐含关系抽取性能以及抽取结果准确度。利用生态文明地理时空事件链接关系构建IncidentNet网络图,为生态文明地理知识融合和推理提供数据基础和分析手段。对生态文明地理时空事件按时间、位置和分类进行维度消歧,根据所述生态文明地理本体库和时空事件数据库构建生态文明地理知识图谱,提供原真地理特征及生态文明模式知识检索、关联追溯、知识推理、主动推荐等服务,结合全国原真地理特征及生态文明模式数据库,为生态文明状态诊断、地理图景设计、生态效益评估、优化调控,以及专项其他项目提供地理特征知识服务和生态文明建设对标模式,推进知识图谱在地球科学研究领域的应用发展,为“美丽中国”生态文明建设状态诊断、生态效应评估、地理图景设计、优化调控与决策等提供统一的知识服务。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (5)
1.一种生态文明地理知识图谱的构建方法,其特征在于,包括:
以地理特征和生态文明模式为核心,梳理生态文明地理知识分类体系,构建生态文明地理科学知识库;以所述生态文明地理科学知识库作为数据基础,构建涵盖自然环境和人文社会经济领域的生态文明地理本体库;
采用分布式网络数据采集技术获取多源异构网络数据,并对所述多源异构网络数据进行抽取、对齐、融合与集成;基于上下文的时间、位置属性抽取及时空场景切割,将所述多源异构网络数据切割为以场景颗粒事件为单位组成的时空事件集合,抽取生态文明地理时空场景事件、对应的时间和位置属性;基于潜在语义分析检测生态文明地理主题;构建基于众包方式的标注语料库;根据所述生态文明地理时空场景事件、对应的时间和位置属性、主题以及语料库构建生态文明地理时空事件数据库;
利用生态文明地理时空事件链接关系构建IncidentNet网络图;对生态文明地理时空事件按时间、位置和分类进行维度消歧;
根据所述生态文明地理本体库和时空事件数据库构建生态文明地理知识图谱;
构建均匀分布模型进行时空对齐,将对应的时间和位置属性描述粒度较粗的生态文明地理时空场景事件,投影到时空立方体;
生态文明地理知识包括原真地理特征和生态文明模式,梳理生态文明地理知识分类体系,具体包括:基于泛在网络采集生态文明地理知识数据,利用One-Pass的正文快速抽取方法,拟建立网页节点的能量评价模型,进行网页结构化特征抽取;利用TextRank方法计算词的关联性,形成关键词候选集合,然后利用聚类方式手段,抽取生态文明地理实体,最终设计和梳理生态文明地理知识分类体系;
所述生态文明地理主题包括:地形地貌、气候、水文、土壤、生态环境、自然灾害、社会经济、人口及民俗文化、重大工程建设和生态文明治理;
其中,原真地理特征概念集由自然景观资源特征概念集和人文景观资源特征概念集两个子集组成,自然景观资源特征概念集涵盖地形地貌、气候、生物、水、土壤五个概念及其子概念,人文景观资源特征概念集涵盖产业,交通,劳动力结构,区位,科、教、文、卫概念,生态文明模式知识库概念集包括生态经济、生态环境、生态制度,生态文化四大子概念集。
2.如权利要求1所述的一种生态文明地理知识图谱的构建方法,其特征在于,基于LDA和LabeledLDA主题模型,检测生态文明地理主题及主题类型。
3.如权利要求1所述的一种生态文明地理知识图谱的构建方法,其特征在于,抽取生态文明地理时空场景事件包括抽取生态文明地理时空场景事件的实体,具体包括:通过专业学术工具书刊的百科知识图谱抽取;或者,基于BiLSTM深度神经网络和条件随机场识别文献摘要;或者,面向开放域的基于主题分类特征聚类识别。
4.如权利要求1所述的一种生态文明地理知识图谱的构建方法,其特征在于,所述生态文明地理知识图谱包括生态文明地理知识图谱数据库和生态文明地理知识图谱检索系统。
5.如权利要求1所述的一种生态文明地理知识图谱的构建方法,其特征在于,还包括:根据所述生态文明地理知识图谱构建生态文明地理问答系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110632034.2A CN113505234B (zh) | 2021-06-07 | 2021-06-07 | 一种生态文明地理知识图谱的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110632034.2A CN113505234B (zh) | 2021-06-07 | 2021-06-07 | 一种生态文明地理知识图谱的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505234A CN113505234A (zh) | 2021-10-15 |
CN113505234B true CN113505234B (zh) | 2023-11-21 |
Family
ID=78009098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110632034.2A Active CN113505234B (zh) | 2021-06-07 | 2021-06-07 | 一种生态文明地理知识图谱的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505234B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115114455A (zh) * | 2022-07-04 | 2022-09-27 | 电子科技大学 | 一种基于本体的多粒度城市暴雨内涝知识图谱构建方法 |
CN115936114B (zh) * | 2022-11-28 | 2023-06-20 | 中国科学院空天信息创新研究院 | 一种知识图谱构建方法、装置及存储介质 |
CN116756375B (zh) * | 2023-05-09 | 2024-05-07 | 中电科大数据研究院有限公司 | 一种基于图谱的异构数据的处理系统 |
CN116992137A (zh) * | 2023-07-31 | 2023-11-03 | 中国科学院地理科学与资源研究所 | 一种顾及空间异质性的可解释生态文明模式推荐方法 |
CN117633254B (zh) * | 2024-01-26 | 2024-04-05 | 武汉大学 | 一种基于知识图谱的地图检索用户画像构建方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914524A (zh) * | 2014-03-25 | 2014-07-09 | 北京农业信息技术研究中心 | 一种土地利用数据时态拓扑自动构建方法 |
CN110309264A (zh) * | 2019-02-26 | 2019-10-08 | 北京悦图遥感科技发展有限公司 | 基于知识图谱获取地理产品数据的方法和装置 |
CN110472066A (zh) * | 2019-08-07 | 2019-11-19 | 北京大学 | 一种城市地理语义知识图谱的构建方法 |
US10496678B1 (en) * | 2016-05-12 | 2019-12-03 | Federal Home Loan Mortgage Corporation (Freddie Mac) | Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis |
US10839349B1 (en) * | 2017-12-29 | 2020-11-17 | Intuit Inc. | User behavior confidence level of automation |
CN112256888A (zh) * | 2020-10-30 | 2021-01-22 | 南京师范大学 | 地理知识获取方法 |
CN112732939A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院空天信息创新研究院 | 基于GraphDB的时空知识图谱构建方法、装置、介质及设备 |
-
2021
- 2021-06-07 CN CN202110632034.2A patent/CN113505234B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914524A (zh) * | 2014-03-25 | 2014-07-09 | 北京农业信息技术研究中心 | 一种土地利用数据时态拓扑自动构建方法 |
US10496678B1 (en) * | 2016-05-12 | 2019-12-03 | Federal Home Loan Mortgage Corporation (Freddie Mac) | Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis |
US10839349B1 (en) * | 2017-12-29 | 2020-11-17 | Intuit Inc. | User behavior confidence level of automation |
CN110309264A (zh) * | 2019-02-26 | 2019-10-08 | 北京悦图遥感科技发展有限公司 | 基于知识图谱获取地理产品数据的方法和装置 |
CN110472066A (zh) * | 2019-08-07 | 2019-11-19 | 北京大学 | 一种城市地理语义知识图谱的构建方法 |
CN112256888A (zh) * | 2020-10-30 | 2021-01-22 | 南京师范大学 | 地理知识获取方法 |
CN112732939A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院空天信息创新研究院 | 基于GraphDB的时空知识图谱构建方法、装置、介质及设备 |
Non-Patent Citations (4)
Title |
---|
Linking OpenStreetMap with knowledge graphs — Link discovery for schema-agnostic volunteered geographic information;Nicolas Tempelmeier 等;《Future Generation Computer Systems》;349-364 * |
一种准确而高效的领域知识图谱构建方法;杨玉基 等;《软件学报》;2931-2947,正文第2章 * |
中文文本蕴含 气象灾害事件信息多模 型融合抽取方法;胡段牧 等;《地球信息科学学报》;2342-2355 * |
地质知识图谱标 准化模型研究;袁满 等;《吉林大学学报(信息科学 版) 》;215-222 * |
Also Published As
Publication number | Publication date |
---|---|
CN113505234A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113505234B (zh) | 一种生态文明地理知识图谱的构建方法 | |
Gregory et al. | Geographical Information and historical research: Current progress and future directions | |
Lv et al. | Evolutionary overview of water resource management (1990–2019) based on a bibliometric analysis in Web of Science | |
Qian et al. | Toponym mapping: a case for distribution of ethnic groups and landscape features in Guangdong, China | |
Cuca et al. | Spatial data management of temporal map series for cultural and environmental heritage | |
Farooqi et al. | Global progress in climate change and biodiversity conservation research | |
Wu et al. | Tracking spatio-temporal variation of geo-tagged topics with social media in China: A case study of 2016 hefei rainstorm | |
CN113505233B (zh) | 一种基于开放域的生态文明地理知识的抽取方法 | |
Grove | The relationship between patterns and processes of social stratification and vegetation of an urban-rural watershed | |
Giordano et al. | A network-based indicator of travelers performativity on instagram | |
El Gouj et al. | Urban morphogenesis analysis based on geohistorical road data | |
Xu et al. | Developing of rural settlement landscape gene research system based on content analysis | |
Gavin et al. | Scotland’s poetics of space: An experiment in geospatial semantics | |
Guo et al. | Construction of Knowledge Graph Based on Geographic Ontology | |
CN113282698A (zh) | 一种生态文明地理知识标准化知识库的构建方法 | |
Xiao et al. | Remote Sensing Image-Based Comprehensive Monitoring Detection Platform for Coastal Tidal Mudflat Ecological Development | |
Lombardini | Formal ontologies and strategic environmental assessment. A case study: the municipal land use plan of Genoa | |
Zeng et al. | Bibliometric Analysis and Science Mapping Approach in Digital Landscape Published in WoS and JoDLA from 2010 to 2021 | |
Wang | Spatial analysis of the Great Wall Ji Town military settlements in the Ming Dynasty: Research and conservation | |
Liu et al. | Efficient GIS-based model-driven method for flood risk management and its application in central China | |
Zhang et al. | Identification of Experts in the Security Field Based on the Hypernet S-edgeRank Algorithm | |
Djunarsjah et al. | The concept of outer small island information systems | |
Wang | From fragments to system: a research on the mesoscale structure of vernacular landscapes in the Hang-Jia-Hu area, China | |
Carrillo-Brenes¹ et al. | Check for updates | |
El Houby | World geographical ontology model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |