CN114896472A - 一种基于多源时空数据的知识图谱机器推理系统和方法 - Google Patents
一种基于多源时空数据的知识图谱机器推理系统和方法 Download PDFInfo
- Publication number
- CN114896472A CN114896472A CN202210587662.8A CN202210587662A CN114896472A CN 114896472 A CN114896472 A CN 114896472A CN 202210587662 A CN202210587662 A CN 202210587662A CN 114896472 A CN114896472 A CN 114896472A
- Authority
- CN
- China
- Prior art keywords
- machine learning
- model
- inference
- knowledge
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000010801 machine learning Methods 0.000 claims abstract description 327
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000010276 construction Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 20
- 238000013461 design Methods 0.000 claims description 11
- 238000007726 management method Methods 0.000 claims description 9
- 238000013515 script Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 2
- 230000001960 triggered effect Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 15
- 230000002123 temporal effect Effects 0.000 description 12
- 238000013507 mapping Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000000547 structure data Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000010248 power generation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于多源时空数据的知识图谱机器推理系统和方法,包括:多源时空数据知识图谱构建模块,用于将多源时空数据转换并存储为支持本发明所述自动化机器学习推理方法的时空知识图谱,作为推理的共性时空数据基底;自动化机器学习推理知识图谱构建模块,用于将不同类型机器学习模型训练、预测环节的关键信息以知识图谱的语义网存储方式加以统一组织关联,便于基于知识图谱共性语义概念将机器学习模型与上述时空知识图谱中的多源时空数据耦合关联,为后续推理计算提供必要的参数信息支持;自动化机器学习推理控制模块,用于自动化的制定、执行针对多元时空数据的机器学习训练和预测任务计划,以产出具体业务场景所需的推理计算结果。
Description
技术领域
本发明涉及地理信息技术领域,尤其是一种基于多源时空数据的知识图谱机器推理系统和方法。
背景技术
时空数据是以时间、空间两个维度上的基本属性信息为基础,并在该时空属性信息界定的时空范围内,进一步整合以各种方式获取的关于客观事物存在状态的描述性信息,最终以特定数据结构存储的信息集合。虽然时空数据是人类感知和认知客观世界的重要媒介,但由于客观事物的存在状态信息往往可以通过多种独立研发的技术手段和装置获得,因而由此形成的时空数据具有天然的多源异构特性;并且由于没有任何一种感知技术手段能保证在任何时间、任何地点能绝对有效的发挥预期作用,导致当我们把目光聚焦到特定时间、特定空间进行感知和认知活动时,可得时空数据的种类和质量情况通常带有不确定性,例如针对突发灾害现场的时空数据获取就是一种典型情况。
鉴于有效的感知和认知客观世界是人类生存发展的重要基础,不同领域专家为了应对多源异构时空数据在特定时空范围上种类和质量情况的不确定性,通过大量的观察和实验,已经总结形成了一系列以时空数据为基础的机器学习模型和方法,在不同程度上实现了在特定时空数据的组合条件下,有效推断客观事物的属性特征和演化规律。但无论是何种机器学习模型或方法,都有其特定的适用条件和范围,当我们试图在特定时空范围内解决特定问题时,就会面临针对特定问题求解的机器学习模型或方法选择问题。由于特定时空范围内时空数据的组合条件十分复杂、针对特定问题求解的机器学习模型或方法繁多,如何针对任意时空范围内各种可能出现的时空数据组合条件,优化选择机器学习模型或方法,实现特定问题的优化求解,是进一步发挥多源异构时空数据价值的重要问题。
面对任意时空范围内各种可能出现的各种时空数据组合条件,在求解特定问题时通常依赖于领域专家在长期工作实践过程中总结积累的经验,根据经验对特定时空数据组合条件下、目标问题的求解模型或方法加以人工筛选和试验比较。这种完全依赖人工判断的情况下,特定问题解决效果的好坏有赖于当事人的知识储备、工作经验、心理素质等个性化因素。
20世纪后半叶,随着计算机技术的快速发展,陆续出现了各种试图通过计算机程序模仿人类专家逻辑演绎推理判断过程的专家系统,希望借助计算机具备的快速逻辑判断能力,对求解特定领域问题提供智能支持。这些方法对于单一系统、简单问题求解场景下的有限数据组合条件,通过条件组合枚举的方式,以if-else-then的演绎推理逻辑为基础,分别进行针对性的模型或方法设计,在保证精确性的前提下实现了远高于人类能力的工作效率,至今仍被广泛应用于各类自动化控制系统当中。在信息化浪潮的推动下,计算机技术涉足的领域和系统从广度和深度上都迅速扩展,计算机系统需要面对的时空数据无论从种类还是从数据量上都呈现爆炸性的增长,由此出现了难以穷尽的时空数据组合条件,以if-else-then的演绎推理逻辑为基础的通用型专家系统由于复杂度迅速增加,其开发和运维成本以惊人速度增长的同时,实用性和可靠性却难以保证,最终早期的基于人工总结经验知识演绎推理的计算机系统,试图代替人类专家在应对复杂时空数据组合条件下经验判断的技术方案未能获得业界与市场的普遍认可。
进入新世纪以来,在“摩尔定律”的持续助推下,随着单位算力的计算机硬件成本迅速降低,从海量历史数据中寻求模式和规律的机器学习算法逐渐从理论走向实践。面向不同的数据形态和应用需求,陆续出现了支持向量机、随机森林、卷积神经网络、图神经网络等机器学习技术,机器学习模式也从最初的有监督学习逐渐向半监督乃至无监督学习发展,形成了以归纳推理为特征的新一代人工智能技术,为多源异构时空数据的有效利用提供了新手段。但无论机器学习技术未来如何发展,其归纳推理的本质决定了对数据的强依赖,并且这种依赖关系在很大程度上是由机器学习算法的设计人员和应用工程师决定的,这在现实应用场景中导致了新的问题,即机器学习算法专家通常不能充分理解算法涉及的专业应用领域数据的深层次物理意义,应用领域的业务专家也通常不能完全掌握各类机器学习算法的适用条件和能力边界。跨专业、跨领域技术协同不足,在很大程度上制约了多源异构时空数据解决实际场景问题的能力。
面向多源异构时空数据的机器学习技术的归纳推理本质决定了对数据的强依赖,并且这种依赖关系在很大程度上是由机器学习算法的设计人员和应用工程师决定的,这在现实应用场景中导致了新的问题,即机器学习算法专家通常不能充分理解算法涉及的专业应用领域数据的深层次物理意义,应用领域的业务专家也通常不能完全掌握各类机器学习算法的适用条件和能力边界。跨专业、跨领域技术协同不足,在很大程度上制约了多源异构时空数据解决实际场景问题的能力。
发明内容
为了解决上述技术问题,本发明设计一种基于多源异构时空数据的知识图谱机器推理系统和方法,能够对任意时空范围内各种可能出现的时空数据组合条件,有效融合多源时空数据与机器学习领域专家知识,实现结合机器学习及相关业务领域专家知识的机器学习模型或方法优化选择,最终基于优选模型或方法的推理输出,实现特定问题的优化求解。
本发明采用多源异构时空数据的融合手段,作用是消除多源异构时空数据任意组合与协同计算的障碍,建立统一的时空数据基底,为机器学习模型计算提供基于统一接口的时空数据支持。
本发明兼容各类机器学习模型的算法功能语义表示与自动计算方法,作用是将各类端到端机器学习算法的功能、输入输出数据形态规格以及可自动调用的接口方法等算法知识进行体系化组织管理,并且实现基于多源异构时空数据自带的语义信息自动匹配可用的机器学习算法,定期自动迭代学习,从已知时空范围数据中挖掘多源异构时空数据内部隐含的模式和规律;进而面向新增的未知时空数据,能够自动调用经过优化训练的机器学习算法模型,获得基于先验时空数据内部隐含模式和规律的推理结果,提供基于机器学习经验的参考结论。
本发明的技术方案为:一种基于多源时空数据的知识图谱机器推理系统,包括:
多源时空数据知识图谱构建模块,用于将多源时空数据转换并存储为支持本发明所述自动化机器学习推理方法的时空知识图谱,作为推理的共性时空数据基底;
自动化机器学习推理知识图谱构建模块,用于将不同类型机器学习模型训练、预测环节的关键信息以知识图谱的语义网存储方式加以统一组织关联,便于基于知识图谱共性语义概念将机器学习模型与上述时空知识图谱中的多源时空数据耦合关联,为后续推理计算提供必要的参数信息支持;
自动化机器学习推理控制模块,用于自动化的制定、执行针对多元时空数据的机器学习训练和预测任务计划,以产出具体业务场景所需的推理计算结果。
有益效果:
本发明提供一种基于多源时空数据的知识图谱机器推理系统和方法,是一种融合多元时空数据与机器学习及业务领域专家知识通用方法,并针对任意时空范围内各种可能出现的时空数据组合条件,实现基于专家知识自动选用机器学习模型,与多源时空数据自动耦合完成机器学习训练、预测过程,实现基于历史已知的多源时空数据自动归纳形成机器经验、并与新输入的时空数据结合实现基于机器学习经验的推理输出,从而帮助各领域用户从多源时空数据中及时发现隐含的模式和规律,对未来可能发生的时空事件及其属性进行自动推理分析。
附图说明
图1为本发明的一种基于多源时空数据的知识图谱机器推理系统框图;
图2为本发明的机器学习通用语义本体示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
根据本发明的实施例,提出一种基于多源时空数据的知识图谱机器推理系统,包括:
多源时空数据知识图谱构建模块,用于将多源时空数据转换并存储为支持本发明所述自动化机器学习推理方法的时空知识图谱,作为推理的共性时空数据基底。多源时空数据知识图谱构建模块具体包括3个子模块:1)数据资源采集管理模块,用于从不同的数据源收集大规模的异构时空数据;2)知识抽取模块,用于针对不同结构的数据分别提供不同的自动知识抽取方法,其中,将结构化数据、半结构化数据和非结构化数据自动转换为GeoJSON格式;3)知识存储模块,用于利用Protégé等RDF语言编辑工具根据概念层业务领域场景数据的关系,构建业务领域时空知识本体的概念框架,并且将所述知识抽取模块生成的GeoJSON格式数据,按照所述业务领域时空本体的概念框架定义的语义规范,转换存储为三元组和键值对两种形态的实例数据。包括本体数据存储模块,用于在支持RDF语义表示规范的图结构数据库中基于业务领域时空本体的概念框架,将业务领域时空数据转换为三元组用于构建实例层;实例模块,将所述本体数据存储模块生成的三元组存储在支持RDF语义表示规范的图结构数据库中,同时将上述三元组转化为键值对存储在Key-Value数据库中。
自动化机器学习推理知识图谱构建模块,用于将不同类型机器学习模型训练、预测环节的关键信息以知识图谱的语义网存储方式加以统一组织关联,便于基于知识图谱共性语义概念将机器学习模型与上述时空知识图谱中的多源时空数据耦合关联,为后续推理计算提供必要的参数信息支持。
自动化机器学习推理控制模块,用于自动化的制定、执行针对多元时空数据的机器学习训练和预测任务计划,以产出具体业务场景所需的推理计算结果。
具体的,各个模块设计如下:
多源时空数据知识图谱构建模块,该模块包括的子模块如下:
1)数据资源管理采集管理模块,该层由本发明所述推理方法应用场景相关的多源异构原始数据组成。以森林火灾预测应用场景为例说明,该场景需要植被数据、植被覆盖数据、地形数据、气象数据和土地覆盖数据。其中地形数据是更新频率最低的静态数据。植被数据和植被覆盖度数据需要根据季节变化进行更新。土地覆盖数据更新频率低。更新时间与预测时间的时间差越短,土地覆被数据越接近实际数据。气象数据通常更新频繁,对森林火灾预报的时间间隔有明显影响。除气象数据外,其他数据的更新频率较低。
需要根据数据的特点和更新频率进行数据采集,为时空知识图谱提供准确、稳定的数据资源。
2)时空知识抽取模块,用于构建时空知识图谱,包含时空知识本体概念框架构建模块、时空知识实例提取模块。
所述的时空知识本体概念框架构建模块用于为时空知识实例提取、存储和应用提供统一完备规范的语义标准和结构约束,为多元时空知识的管理提供分门别类的逻辑容器,时空知识本体概念框架构建的过程是使用Protégé等RDF语言编辑工具为概念层设计本体。以Protégé工具为例说明实施方式,它是一种广泛使用的工具,可帮助用户创建和编辑本体。它提供了一个模型构建器来定义实体、实体之间的关系以及给定应用领域中实体的属性。
根据本发明的一个实施例,使用Protégé可以创建新的概念,包括类的层次关系、对象属性和类的数据属性,构建的本体导出为RDF文件。
根据本发明的一个实施例,利用所述的时空知识本体概念框架构建模块进行概念层设计,具体如下:
时空知识图谱的概念层是多源时空数据的逻辑结构,遵循已有的RDFS标准语义规范。它包含语义概念及其相互关系。基于从属关系、属性主客关系等不同概念之间的语义关联,构建树状层次概念网络,保证多源时空数据内在语义概念的一致性。时空知识图谱的概念层包括:地理实体通用语义本体、时间本体、空间本体和三部分。
所述的地理实体通用语义本体具体设计如下:
地理实体通用语义本体的树状层次概念结构,与多源时空数据相关的地理实体多源概念的树状分类法保持一致。以森林火灾预测应用场景为例说明,根据分类学,该场景涉及的地理实体的概念分为五个领域:土地覆盖、气象信息、地形、地质和岩性、历史事件。本发明定义了与每个地理实体的概念相关的领域属性谓词。
地理实体的概念构成了能够支持机器学习计算的通用语义本体。通用语义本体模型是分层的,使用一种可根据时空知识实例提供的信息实现通用语义本体模型自动扩展的方法。它为面向多源时空数据的机器学习计算推理奠定了基础。
所述时间本体具体设计如下:
时间本体提供统一的时间语义表示规范,以保证实体的时间信息具有可比性和可计算性。本发明利用斯坦福大学提出的SWRL时间本体来表示时空知识图谱的常见时间概念。
时间本体规定具有时间特征的实体需要使用SWRLTO:hasValidTime对象属性来关联有效时间类。由有效时间类表示的时间粒度由与SWRLTO:hasGranularity关联的Granularity类表示。Granularity类具有年、月、日、小时、分钟、秒和毫秒级别的表达式实体。ValidTime类具有ValidInstant和ValidPeriod子类,分别表示记录的时间和周期数据。时间数据表示为xsd:DateTime。
引用斯坦福大学提出的SWRL时间本体标准只是本发明构建时间本体的一种实施方式,也可引用其他的时间本体标准,只要在同一个实施例中保持时间本体标准的一致性即可。
所述空间本体具体设计如下:
空间本体的表达应用了由OGC(开放地理空间联盟)提出的地理语义查询规范GeoSPARQL。基于空间本体的空间数据组织可以描述经纬度坐标、几何中心点位置和面积。它为多源异构时空数据融合的空间分析与机器学习计算提供了基础。
引用OGC(开放地理空间联盟)提出的地理语义查询规范GeoSPARQL只是本发明构建空间本体的一种实施方式,也可引用其他的空间本体标准,只要在同一个实施例中保持空间本体标准的一致性即可。
时空知识实例提取模块,用于按照时空知识本体概念框架定义的语义标准和结构约束,从多源异构时空数据中提取以三元组为基本单元的时空知识实例,从而可以将提取得到的时空知识实例放入为多元时空知识逻辑容器(对应时空知识图谱构建方法中的实例层构建)加以管理和调用。本发明为不同类型的多源异构时空数据设计了不同的三元组提取方法,用于构建机器学习计算所需的共性时空数据基底。各种数据需要转换到统一的坐标系。
地理信息数据主要可以分为矢量数据和栅格数据两种类型,为了实现多源异构时空数据的协同分析,首先要实现不同类型地理信息数据的统一矢量化表达,本发明采用OGC国际空间信息标准化组织提出的GeoJSON格式标准,作为多源异构时空数据的统一矢量化表达方式。其中针对常用的矢量地理信息数据格式,可以使用Arcpy或GDAL库直接转换为GeoJSON格式。针对常用的栅格地理信息数据格式,可以使用Arcpy或GDAL库分别将栅格数据包含的栅格灰度值转换为矢量数据中的属性,进而从矢量格式转换为GeoJSON格式。某些以离散点形态分布的原始数据,例如气象站数据,不便与其他空间现象的分布模式进行比较。因此需要采用合适的空间插值模型,根据点数据的分布情况生成栅格类型的插值结果,然后再转换为GeoJSON格式。
在将各类地理信息数据转换为GeoJSON格式过程中,属性集合中的每一个键值对需遵循以下规则:键的名称与时空知识本体概念框架定义的时间属性和相应类型地理实体属性名称(谓词名称)一致,值的数据类型与时空知识本体概念框架定义的时间属性和相应类型地理实体属性允许的数据类型(宾语数据类型)一致。由此,GeoJSON中包含的时间、空间和属性信息可以基于时空知识本体概念框架定义的时间、空间和相应类型地理实体属性语义标准和结构转换为三元组。
进一步的,在时空知识实例提取模块中,本发明构建了一个通用的多源异构地理信息的三元组数据转换器用于时空知识实例提取,首先将多源异构地理信息数据按照地理实体的类型,分类放在不同的目录或数据接口中作为待转换数据的入口,并事先设定相应目录或数据接口对应的地理实体类型的唯一标识符(时空知识本体概念框架定义的地理实体概念的通用资源描述符,即URI);逐个遍历待转换数据入口,自动适配目录或数据接口中存储的多源异构地理信息数据并将其统一转换为GeoJSON格式,进而基于时空知识本体概念框架定义的时间、空间和相应类型地理实体属性语义标准和结构,将GeoJSON中的Geometry映射为空间信息三元组的谓语,并将Geometry值自动映射到符合GeoSPARQL格式规范的空间信息三元组的宾语;将GeoJSON中属性集合中的键自动映射为相应类型地理实体属性三元组的谓语,属性值自动映射为三元组中相应谓语的宾语。三元组形态的时空知识实例存储至支持RDF语义表示规范的图结构数据库中;与此同时,将三元组(主语-谓语-宾语)按照以下规则重组为多个键值对存入Key-Value数据库以加速动态分析场景下的属性信息检索速度:1)“主语+谓语”为键(“+”字符的含义为前后两个字符串连接成一个新字符串,下同),“宾语”为值;2)“宾语+谓语”为键,“主语”为值;3)“实例所属地理实体类型+系统时间戳”为键,“主语”为值;4)“实例所属地理实体类型+地理编码”为键,“主语”为值。除了上述将三元组重组为键值对的规则外,将时空知识实例三元组拆解重组为场景所需的其他样式的键值对。
本发明针对实际场景中多源异构地理信息包含的属性信息可能随时增加的情形,设计了一种自动扩充完善时空知识本体概念框架的机制,本发明在时空知识实例提取过程中,通过对比时空知识本体概念框架中已有地理实体类型关联的属性概念集合,可以自动识别地理信息实例中包含的新增属性信息(体现为一个键值对),对于这一类在时空知识实例提取过程中动态发现的属性数据,通过RDFS语言在时空知识本体概念框架中为相应地理实体类型创建一个新的属性概念(形态为若干个三元组,与时空知识实例提取所得的三元组集合一并存入知识库即可实现属性概念的动态扩充),将新增属性信息键值对的键名作为新增属性概念的名称(谓词名称),将新增属性信息键值对的值的数据类型作为新增属性概念允许的数据类型(宾语数据类型)。
根据本发明面向动态灾害预测场景的一个实施例,时空知识实例提取模块从非结构化数据、半结构化数据、结构化数据提取时空知识的过程具体如下:
从非结构化数据中提取时空知识
自动化机器学习推理方法应用于动态灾害预测场景时,需要高时空分辨率的土地覆盖数据。本发明以高分辨率卫星遥感影像为数据源,通过深度学习方法提取建筑物、道路等受灾体的空间分布。地表植被的空间分布通过NDVI数值计算方法得到。将不同来源非结构化数据提取获得的信息,根据概念层定义的时空和专业属性表示规范转换为三元组。三元组存储在支持RDF语义表示规范的图结构数据库中,同时按照所述时空知识实例提取模块定义的规则将三元组重组为多个键值对存入Key-Value数据库中。
从半结构化数据中提取时空知识
自动化机器学习推理方法应用于动态灾害预测场景时,通常需要地形数据,地形数据的常见格式为GeoTIFF格式的栅格地理数据。本发明将所有类型的栅格数据转换为面要素的矢量数据,将地层年龄、断层和岩性分布等各类矢量数据统一转换成GeoJSON格式的矢量地理信息。对于所有类型的矢量地理信息,本发明将空间信息和特征属性转换为三元组存储在支持RDF语义表示规范的图结构数据库中,同时按照所述时空知识实例提取模块定义的规则将三元组重组为多个键值对存入Key-Value数据库中。
从结构化数据中提取时空知识
自动化机器学习推理方法应用于动态灾害预测场景时,通常需要气象数据,气象数据的常见形态为多领域的结构化数据,与时空属性和专业属性有着直接的映射关系,能够基于这种映射关系直接将气象数据转换成GeoJSON格式的矢量地理信息,进而通过所述从半结构化数据中提取时空知识的方法,将生成的气象相关三元组存储在支持RDF语义表示规范的图结构数据库中,同时按照所述时空知识实例提取模块定义的规则将三元组重组为多个键值对存入Key-Value数据库中。
所述的自动化机器学习推理知识图谱构建模块具体设计如下:
自动化机器学习推理知识图谱构建模块,用于将不同类型机器学习模型训练、预测环节的关键信息以知识图谱的语义网存储方式加以统一组织关联,便于基于知识图谱共性语义概念,将机器学习模型与所述多源时空数据知识图谱构建模块生成的时空知识图谱中的多源时空数据耦合关联,为后续推理计算提供必要的参数信息支持。
该模块包括2个子模块:
1)机器学习推理知识本体概念框架构建模块
所述机器学习推理知识本体概念框架构建模块用于为机器学习推理知识实例提取、存储和应用提供统一完备规范的语义标准和结构约束,为多元机器学习模型及推理知识的管理提供分门别类的逻辑容器,机器学习推理知识本体概念框架构建的过程是使用Protégé等RDF语言编辑工具为概念层设计本体。以Protégé工具为例说明实施方式,它是一种广泛使用的工具,可帮助用户创建和编辑本体。它提供了一个模型构建器来定义实体、实体之间的关系以及给定应用领域中实体的属性。
根据本发明的一个实施例,使用Protégé可以创建新的概念,包括类的层次关系、对象属性和类的数据属性,构建的本体导出为RDF文件。
根据本发明的一个实施例,利用所述的机器学习推理知识本体概念框架构建模块进行概念层设计,具体如下:
自动化机器学习推理知识图谱的概念层是能够适配多源时空数据的机器学习模型的逻辑结构,遵循已有的RDFS标准语义规范。它包含语义概念及其相互关系。基于从属关系、属性主客关系等不同概念之间的语义关联,构建树状层次概念网络,保证多元机器学习模型及推理知识内在语义概念的一致性。自动化机器学习推理知识图谱的概念层包括:机器学习通用语义本体、地理实体通用语义本体、时间本体、空间本体四部分。
其中,所述地理实体通用语义本体、时间本体、空间本体均继承自所述多源时空数据知识图谱构建模块输出的时空知识本体概念框架,通过导入所述时空知识本体概念框架的RDF格式三元组的方式引用,其具体设计详见所述多源时空数据知识图谱构建模块的技术方案。
所述的机器学习通用语义本体具体设计如下:
机器学习通用语义本体为各类机器学习方法提供统一的模型算法的知识表示规范,以保证不同类型的机器学习模型算法都能在知识图谱中实现有效的实例化表示,进而能与知识图谱中的多源地理实体自动衔接完成机器学习模型的训练和推理计算任务。机器学习通用语义本体的树状层次概念结构,与机器学习领域概念的树状分类法保持一致,根据本发明的一个实施例,分为2个领域概念:机器学习模型、机器学习目标,该本体结构如图2所示。
本发明定义了与每个机器学习概念相关的领域属性谓词,根据本发明的一个实施例,具体设计如下:
所述机器学习模型概念,对各类机器学习模型提供共性的关键信息描述,通过这些关键信息,为所述自动化机器学习推理控制器运行提供必要信息,包括8个子概念:
子概念1:模型输入端形态,用于描述特定机器学习模型实例所支持的输入端数据形态。常见的输入端数据形态根据其逻辑结构,可划分为一维向量、二维矩阵、多维矩阵、图结构数据等。对于每一种输入端数据形态实例,相应的关联了针对特定数据形态的数量约束条件作为实例的属性,例如,向量长度限制、矩阵大小限制、图结构数据的节点和边数量限制等。
子概念2:模型输出端形态,用于描述特定机器学习模型实例所支持的输出端数据形态。常见的输出端数据形态根据其逻辑结构,可划分为一维向量、二维矩阵、多维矩阵、图结构数据等。对于每一个输出端数据形态实例,相应的关联了针对特定数据形态的数量约束条件作为实例的属性,例如,向量长度规定、矩阵大小规定、图结构数据的节点和边数量规定等。
子概念3:模型超参数,用于描述特定机器学习模型实例训练、预测等调用环节涉及的初始化参数配置。不同的机器学习模型实例通常关联一组与模型的技术特征密切相关的模型超参数,例如,正负样本比例、训练集测试及比例等。对于每一个模型超参数实例,相应的关联了该超参数的默认值、可调阈值范围、参数调整步长值等作为实例的属性。
子概念4:模型适用目标,该子概念与所述机器学习目标概念之间建立支持形如“模型适用目标-模型适用目标包括-机器学习目标”的三元组实例的“模型适用目标包括”属性概念,用于描述特定机器学习模型实例在模型输出端数据来源上,允许关联的所述机器学习目标的实例集合,该实例集合对应着时空知识图谱中的地理实体类型,从语义上表明特定机器学习模型实例能够支持特定机器学习目标(即特定地理实体)的推理计算。对于每一个模型适用目标实例,相应的关联了该实例从属的机器学习模型实例(例如深度随机森林模型实例)对于特定机器学习目标(即特定地理实体)的适用空间范围、时间范围、推理计算测试精度指标值等作为实例的属性。
子概念5:模型非适用目标,该子概念与所述机器学习目标概念之间建立支持形如“模型非适用目标-模型非适用目标包括-机器学习目标”的三元组实例的“模型非适用目标包括”属性概念,用于描述特定机器学习模型实例在模型输出端数据来源上,不允许关联的所述机器学习目标的实例集合,该实例集合对应着时空知识图谱中的地理实体类型,从语义上表明特定机器学习模型实例不能够支持特定机器学习目标(即特定地理实体)的推理计算。对于每一个模型非适用目标实例,相应的关联了该实例从属的机器学习模型实例(例如深度随机森林模型实例)对于特定机器学习目标(即特定地理实体)的不适用空间范围、时间范围、推理计算测试精度指标值等作为实例的属性。
子概念6:模型采样空间分辨率,用于描述特定机器学习模型实例的输入端数据、输出端数据对应的最小、最大空间单元大小。不同的机器学习模型实例通常根据机器学习领域专家经验,有其空间分辨率适用范围。对于每一个模型采样空间分辨率实例,相应的关联了该模型采样空间分辨率的默认值、支持的阈值范围等作为实例的属性。
子概念7:模型采样时间分辨率,用于描述特定机器学习模型实例的输入端数据、输出端数据对应的最小、最大时间间隔大小。不同的机器学习模型实例通常根据机器学习领域专家经验,有其时间分辨率适用范围。对于每一个模型采样时间分辨率实例,相应的关联了该模型采样时间分辨率的默认值、支持的阈值范围等作为实例的属性。
子概念8:模型调用接口,用于描述特定机器学习模型实例的自动化调用方式和途径。机器学习模型调用通常区分为模型训练、模型测试、模型预测三种情况;并且模型训练属于特定机器学习模型实例的公共服务工具,面向全部所述机器学习目标开放;而由于模型测试、模型预测的前提条件是已经事先完成了模型训练阶段工作,且不同的机器学习模型实例在完成学习训练过程达到目标精度后,会将训练所得的模型参数集合进行持久化存储形成特定的访问路径,因此模型测试、模型预测需要通过该访问路径取得训练所得的模型参数集合,整体作为模型测试、模型预测阶段计算流程的输入参数。对于每一个模型调用接口实例,相应的关联了触发该模型实例训练、测试、预测等计算流程的协议化接口描述(例如,可执行程序脚本的路径、远程调用API的路径等)作为实例的属性。
所述机器学习目标概念,对需要进行推理学习和计算应用的目标地理实体(例如火点、滑坡点等自然灾害表征地理实体),提供共性的学习方式关键信息描述,通过这些关键信息,为所述自动化机器学习推理控制器运行提供必要信息。
所述机器学习目标概念,既是所述机器学习通用语义本体的子类,又是所述地理实体通用语义本体的子类,从而通过同一个实例连接两个独立本体,实现了所述机器学习通用语义本体与所述地理实体通用语义本体的语义融合,包括8个子概念:
子概念9:机器学习目标属性,该子概念与所述地理实体通用语义本体的属性概念之间,建立支持形如“机器学习目标属性-学习属性字段包括-特定类型地理实体的属性概念”的三元组实例的“学习属性字段包括”属性概念,用于描述在特定机器学习目标实例(例如火点地理实体)的属性集合中,需要作为模型的输出端数据来源、作为机器学习的真值或预测值的属性概念(例如历史火点的毁林总面积),以进一步学习掌握其变化规律。
子概念10:机器学习目标关联地理实体类型,该子概念与所述地理实体通用语义本体的地理实体概念之间,建立支持形如“机器学习目标关联地理实体类型-学习关联地理实体类型包括-特定类型地理实体概念”的三元组实例的“学习关联地理实体类型包括”属性概念,用于描述需要作为模型的输入端数据来源的地理实体概念(例如植被地理实体),以学习掌握其对特定机器学习目标实例(例如火点地理实体)的时空分布影响规律。
子概念10-1:机器学习目标关联地理实体属性,是所述机器学习目标关联地理实体类型的子类,该子概念与所述机器学习目标关联地理实体类型的属性概念之间,建立支持形如“机器学习目标关联地理实体属性-特征属性字段包括-特定类型地理实体的属性概念”的三元组实例的“特征属性字段包括”属性概念,用于描述需要作为模型的输入端数据来源的地理实体概念(例如植被地理实体)关联的、作为被学习特征值的属性概念(例如植被地理实体的郁闭度),以学习掌握其对特定机器学习目标实例(例如火点地理实体)的属性变化影响规律。
子概念10-2:机器学习目标关联地理实体采样方式,是所述机器学习目标关联地理实体属性类型的子类,针对其从属的机器学习目标关联地理实体属性实例,用于描述属性实例关联的属性值作用于机器学习算法时的采样方式。不同的地理实体属性概念,通常具有其独特的物理或者逻辑意义,在给机器学习算法提供特征信息时,应当根据属性值的物理或者逻辑意义,采取不同的采样方式。常见的属性值采样方式包括:归一化、按值分类、独热编码、按值分类并独热编码、求欧氏距离等。不同的地理实体属性概念的采样方式,通常根据该地理实体类型相关领域专家的经验知识,予以预先设定。对于每一个机器学习目标关联地理实体采样方式实例,相应的关联了针对其从属的机器学习目标关联地理实体属性,在给机器学习算法提供特征信息时所采取的采样方式设定值,作为实例的属性。
子概念11:学习目标空间分辨率,用于描述特定机器学习目标实例对应的空间单元大小。不同的机器学习目标实例通常根据其获取技术手段的不同,有不同的空间分辨率。对于每一个学习目标空间分辨率实例,相应的关联了该目标空间分辨率作为实例的属性。
子概念12:学习目标时间分辨率,用于描述特定机器学习目标实例对应的时间间隔大小。不同的机器学习目标实例通常根据其获取技术手段的不同,有不同的时间分辨率。对于每一个学习目标时间分辨率实例,相应的关联了该目标时间分辨率作为实例的属性。
子概念13:学习目标输出格式,用于描述特定机器学习目标实例在与机器学习模型实例耦合完成模型训练后,在模型预测阶段,对于模型输出端数据进行解析并转化形成的最终输出数据格式,通常包括GeoTIFF等地理栅格数据格式、GeoJSON等地理矢量数据格式。由于机器学习目标实例根据所述机器学习目标概念的定义,从属于特定类型地理实体,因而学习目标输出数据包含两个方面的物理含义:第1个方面是在模型预测阶段给定的数据输入条件下(通常作为针对特定时间和空间的情况描述信息),特定类型地理实体出现的概率(例如火点地理实体出现的概率);第2个方面是在模型预测阶段给定的数据输入条件下(通常作为针对特定时间和空间的情况描述信息),特定类型地理实体实例关联的属性值的预测值(例如火点地理实体关联的毁林面积属性值的预测值)。对于每一个学习目标输出格式实例,相应的关联了设定的输出数据格式值作为实例的属性。
所述的机器学习推理知识实例提取模块,具体设计如下:
所述机器学习推理知识实例提取模块,用于按照机器学习推理知识本体概念框架定义的语义标准和结构约束,从包含领域专家知识的机器学习程序脚本和文本数据中提取以三元组为基本单元的机器学习推理知识实例,从而可以将提取得到的机器学习推理知识实例放入为机器学习推理知识逻辑容器(对应自动化机器学习推理知识图谱构建方法中的实例层构建)加以管理和调用。
进一步的,在机器学习推理知识实例提取模块中,本发明构建了一个通用于各类机器学习模型和地理实体目标的机器学习推理知识三元组数据转换器用于机器学习推理知识实例提取。
首先针对每一个待集成的机器学习模型,将该机器学习模型的训练、预测流程整理为可自动批处理执行并能够成功完成相应流程任务的示例程序脚本文件,分别保存为系统针对机器模型训练和预测程序执行而指定的统一脚本文件名,保存在以机器学习模型名称命名的同一个文件目录下;
在示例程序脚本文件中,需要对以下变量名称进行特殊的命名处理:对“模型的输入数据路径”变量名加上所述模型输入端形态概念的名称(对应该概念URI中“#”字符后的后缀部分,下同)的字符串前缀,对“模型的输出数据路径”变量名加上所述模型输出端形态概念的名称的字符串前缀,对“模型的超参数”变量名加上所述模型超参数概念的名称的字符串前缀,便于计算机程序将相应的程序变量与机器学习推理知识概念对应起来;
根据该模型的专家知识,在每一个示例程序脚本文件中声明以下特殊变量(这些变量可以不被脚本程序实际引用):以“所述模型采样空间分辨率概念的名称的字符串+max”作为变量名且以示例程序脚本文件对应的机器学习模型适用的最大空间分辨率为变量值,以“所述模型采样空间分辨率概念的名称的字符串+min”作为变量名且以示例程序脚本文件对应的机器学习模型适用的最小空间分辨率为变量值,以“所述模型采样时间分辨率概念的名称的字符串+max”作为变量名且以示例程序脚本文件对应的机器学习模型适用的最大时间分辨率为变量值,以“所述模型采样时间分辨率概念的名称的字符串+min”作为变量名且以示例程序脚本文件对应的机器学习模型适用的最小时间分辨率为变量值,以“所述模型调用接口概念的名称的字符串+path”作为变量名且以示例程序脚本文件对应的机器学习模型在模型预测阶段使用的模型参数集合文件路径为变量值。
将上述以机器学习模型名称命名的各文件目录,放在指定目录中,作为待提取机器学习推理知识的机器学习模型入口;逐个遍历各机器学习模型对应的文件目录,通过系统针对机器模型预测程序执行而指定的统一脚本文件名,读取并执行示例的预测程序脚本,从脚本读取所得文本中,根据上述特殊字符串前缀,解析获得所述模型超参数、所述模型采样空间分辨率、所述模型采样时间分辨率概念相对应的实例信息,以及模型的输入数据路径和输出数据路径,进而自动解析输入输出数据,确定所述模型输入端形态概念、所述模型输出端形态概念对应的实例信息;将自动解析获得的实例信息,表示为三元组形态,存储至支持RDF语义表示规范的图结构数据库中。
针对所述机器学习目标概念实例提取,为每一个需要列入机器学习目标的地理实体,建立一个以统一的指定文件名命名的文本类型配置文件,将所述机器学习目标概念下的各个子概念对应的实例信息,分别表述并存储为配置文件中的键值对,其中以所述机器学习目标概念下的各个子概念的名称的字符串作为键名,并根据相应地理实体关联的领域专家知识,设定相应的键值;将上述机器学习目标配置文件,按照地理实体的类型,分类放在不同的目录中,作为待提取所述机器学习目标概念实例的入口,并事先设定相应目录对应的地理实体类型的唯一标识符(时空知识本体概念框架定义的地理实体概念的通用资源描述符,即URI);逐个遍历待所述机器学习目标概念实例入口,自动适配目录中存储的机器学习目标配置文件,进而将配置文件包含的键值对集合中的键自动映射为相应类型地理实体属性三元组的谓语,属性值自动映射为三元组中相应谓语的宾语。三元组形态的时空知识实例存储至支持RDF语义表示规范的图结构数据库中
所述自动化机器学习推理控制模块,具体设计如下:
自动化机器学习推理控制模块,用于自动化的制定、执行针对多元时空数据的机器学习训练和预测任务计划,以产出具体业务场景所需的推理计算结果。包括:机器学习训练计划生成模块,机器学习训练计划执行模块,机器学习模型优选推理模块。其中:
机器学习训练计划生成模块
为了实现机器学习模型能够根据知识图谱输入的时空数据,自动化完成与之相关的学习任务,设计一种机器学习训练计划的自动生成算法:
1)当某个类型的地理实体实例更新时,自动检查该类型地理实体是否从属于所述机器学习目标类型,若属于则进入下一步的机器学习训练计划生成流程,若不属于则退出当前算法模块。
2)检查正在更新的地理实体实例所在区域(默认为县级行政区划,可根据实际应用需求调整区域划分方式)是否存在待执行的、以正在更新的地理实体类型为学习目标的机器学习训练计划,若不存在则进入下一步,若存在则退出当前算法模块。
3)检查正在更新的地理实体实例所在区域,自上一次成功完成机器学习训练计划的时刻至今,新增加地理实体实例(与正在更新的地理实体实例类型相同)数量占该区域实例总量的比例是否超过设定的阈值(默认为25%,可根据实际应用需求调整触发重新训练的阈值),若超过则进入下一步,否则退出当前算法模块。
4)新建一个以正在更新的地理实体实例所在区域为学习区域范围、以正在更新的地理实体类型为学习目标的机器学习训练计划,退出当前算法模块。
机器学习训练计划执行模块
由于时空数据的更新随时可能触发新的机器学习训练计划生成,因此需要设置一个定时器,定期(默认为每分钟检查,可根据实际应用需求调整机器学习训练计划的执行周期或时间段)检查是否存在待执行的机器学习训练计划,若存在则启动机器学习训练计划的自动执行算法:
1)机器学习模型匹配:不同机器学习模型对于输入和输出端数据的规格要求不同,首先从所述多源时空数据知识图谱、所述自动化机器学习推理知识图谱中,检索取得所述机器学习目标实例及其关联地理实体类型实例的几何形态(点/线/面)、所述学习目标空间分辨率、所述学习目标时间分辨率信息,以及所述机器学习模型实例及其关联的所述机器学习模型输入端形态、所述模型输出端形态、所述模型适用目标、所述模型非适用目标、所述模型采样空间分辨率、所述模型采样时间分辨率信息,从待匹配的所述机器学习模型实例集合中,自动排除所述模型输入端或输出端形态、适用目标或非适用目标、采样空间分辨率或时间分辨率信息与所述机器学习目标实例及其关联地理实体类型实例的相应信息不适配的机器学习模型实例,其余模型作为待训练模型进入下一步。
2)机器学习样本生成:针对每一个待训练模型,按照从所述知识图谱中检索取得的所述机器学习模型实例关联的所述模型输入端形态、所述模型输出端形态信息明确的样本格式定义,以及所述机器学习目标关联地理实体类型、所述机器学习目标关联地理实体属性、所述机器学习目标关联地理实体采样方式、所述学习目标空间分辨率、所述学习目标时间分辨率明确的采样技术要求,对接知识图谱存储的学习区域范围内已有的多元地理实体,生成相应格式的正负样本,为模型训练提供学习素材,进入下一步。
3)机器学习模型训练与精度测试:针对每一个待训练模型,从相应格式的正负样本集合中按照设定的训练集和测试集划分比例(默认为8:2,可根据实际应用需求调整),通过自动生成和写入调用参数的方式,自动调用所述知识图谱中、所述机器学习模型实例关联的所述模型调用接口,代入前序步骤生成的机器学习样本,对模型进行训练和精度测试。
4)机器学习模型参数优化:针对每一个待训练模型,首先优化正负样本比例,在设定的正负样本比例区间内(默认为1.0~2.0之间,可根据实际应用需求调整),以设定的步长间隔(默认为0.1,可根据实际应用需求调整)分别生成相应正负样本比例的训练集,并用这些训练集分别完成一一对应的模型训练和精度测试,以模型测试的查准率和查全率的差值达到最小值时的正负样本比例,作为最终采纳的正负样本比例。除了正负样本比例参数外,按照模型关联的可调参数及阈值范围、测试步长间隔定义,采用相同的方法,对不同的可调参数数值组合条件下的模型性能加以测试,自动确定模型的最优参数。在各模型分别达到参数最优的条件下,记录每一个训练完成的模型在目标学习区域范围内的精度指标,作为后续优选预测的依据。
机器学习模型优选推理模块
基于上述机器学习训练计划的自动生成和执行机制,可以分别在不同的区域内,获得针对机器学习目标的若干个已完成训练的机器学习模型实例并保存在所述知识图谱中,并且不同模型训练完成时所取得的精度指标通常存在差异,把相同区域内精度指标最优的模型作为该区域的优选模型。利用在不同区域内分别取得的优选模型,设计自动推理和按需推理两种工作模式:
1)自动推理:当实际应用场景需要针对特定区域内的机器学习目标,定期计算生成对机器学习目标、机器学习目标属性推理结果时(例如特定时间和地点的森林火灾发生概率、可能造成的毁林面积),则设置一个定时器,自动触发所述优选模型对接指定区域内的最新时空数据,定期输出符合所述机器学习目标实例关联的所述学习目标输出格式的最新推理结果。
2)按需推理:根据用户自主设定的时间和空间范围以及机器学习目标、机器学习目标属性推理结果(例如特定时间和地点的光伏发电适宜区域、光伏发电适宜区域上的发电量预测),调用所述优选模型,按需输出符合所述机器学习目标实例关联的所述学习目标输出格式的推理结果。
根据本发明的另一方面,提出一种基于多源时空数据的知识图谱机器推理方法,包括如下步骤:
多源时空数据知识图谱构建步骤,将多源时空数据转换并存储为支持本发明所述自动化机器学习推理方法的时空知识图谱,作为推理的共性时空数据基底;
自动化机器学习推理知识图谱构建步骤,将不同类型机器学习模型训练、预测环节的关键信息以知识图谱的语义网存储方式加以统一组织关联,便于基于知识图谱共性语义概念将机器学习模型与上述时空知识图谱中的多源时空数据耦合关联,为后续推理计算提供必要的参数信息支持;
自动化机器学习推理控制步骤,自动化的制定、执行针对多元时空数据的机器学习训练和预测任务计划,以产出具体业务场景所需的推理计算结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (10)
1.一种基于多源时空数据的知识图谱机器推理系统,其特征在于,包括:
多源时空数据知识图谱构建模块,用于将多源时空数据转换并存储为支持自动化机器学习推理的时空知识图谱,作为推理的共性时空数据基底;
自动化机器学习推理知识图谱构建模块,用于将不同类型机器学习模型训练、预测环节的关键信息以知识图谱的语义网存储方式加以统一组织关联,便于基于知识图谱共性语义概念将机器学习模型与上述时空知识图谱中的多源时空数据耦合关联,为后续推理计算提供必要的参数信息支持;
自动化机器学习推理控制模块,用于自动化的制定、执行针对多元时空数据的机器学习训练和预测任务计划,以产出具体业务场景所需的推理计算结果。
2.根据权利要求1所述的一种基于多源时空数据的知识图谱机器推理系统,其特征在于,所述自动化机器学习推理知识图谱构建模块,包括2个子模块:机器学习推理知识本体概念框架构建模块和机器学习推理知识实例提取模块;
所述机器学习推理知识本体概念框架构建模块用于为机器学习推理知识实例提取、存储和应用提供统一完备规范的语义标准和结构约束,为多元机器学习模型及推理知识的管理提供分门别类的逻辑容器,机器学习推理知识本体概念框架构建的过程是使用语言编辑工具为概念层设计本体;
所述机器学习推理知识实例提取模块,用于按照机器学习推理知识本体概念框架定义的语义标准和结构约束,从包含领域专家知识的机器学习程序脚本和文本数据中提取以三元组为基本单元的机器学习推理知识实例,从而将提取得到的机器学习推理知识实例放入为机器学习推理知识逻辑容器加以管理和调用。
3.根据权利要求1所述的一种基于多源时空数据的知识图谱机器推理系统,其特征在于,所述的机器学习推理知识本体概念框架构建模块进行概念层设计,具体如下:
自动化机器学习推理知识图谱的概念层是能够适配多源时空数据的机器学习模型的逻辑结构,遵循已有的RDFS标准语义规范,包含语义概念及其相互关系,基于从属关系、属性主客关系不同概念之间的语义关联,构建树状层次概念网络,保证多元机器学习模型及推理知识内在语义概念的一致性,自动化机器学习推理知识图谱的概念层包括:机器学习通用语义本体、地理实体通用语义本体、时间本体、空间本体四部分。
4.根据权利要求3所述的一种基于多源时空数据的知识图谱机器推理系统,其特征在于,所述的机器学习通用语义本体具体设计如下:
机器学习通用语义本体为各类机器学习方法提供统一的模型算法的知识表示规范,以保证不同类型的机器学习模型算法都能在知识图谱中实现有效的实例化表示,进而能与知识图谱中的多源地理实体自动衔接完成机器学习模型的训练和推理计算任务,机器学习通用语义本体的树状层次概念结构,分为2个领域概念:机器学习模型概念、机器学习目标概念。
5.根据权利要求2所述的一种基于多源时空数据的知识图谱机器推理系统,其特征在于,所述的所述机器学习推理知识实例提取模块,
首先针对每一个待集成的机器学习模型,将该机器学习模型的训练、预测流程整理为可自动批处理执行并能够成功完成相应流程任务的示例程序脚本文件,分别保存为系统针对机器模型训练和预测程序执行而指定的统一脚本文件名,保存在以机器学习模型名称命名的同一个文件目录下;
将上述以机器学习模型名称命名的各文件目录,放在指定目录中,作为待提取机器学习推理知识的机器学习模型入口;逐个遍历各机器学习模型对应的文件目录,通过系统针对机器模型预测程序执行而指定的统一脚本文件名,读取并执行示例的预测程序脚本,自动解析输入输出数据,确定所述模型输入端形态概念、所述模型输出端形态概念对应的实例信息;将自动解析获得的实例信息,表示为三元组形态,存储至支持RDF语义表示规范的图结构数据库中。
6.根据权利要求1所述的一种基于多源时空数据的知识图谱机器推理系统,其特征在于,所述自动化机器学习推理控制模块,用于自动化的制定、执行针对多元时空数据的机器学习训练和预测任务计划,以产出具体业务场景所需的推理计算结果,包括:
机器学习训练计划生成模块,为了实现机器学习模型能够根据知识图谱输入的时空数据,自动化完成与之相关的学习任务;
机器学习训练计划执行模块,设置一个定时器,定期检查是否存在待执行的机器学习训练计划,若存在则启动机器学习训练计划的自动执行算法。
机器学习模型优选推理模块,基于上述机器学习训练计划的自动生成和执行机制,分别在不同的区域内,获得针对机器学习目标的若干个已完成训练的机器学习模型,并且不同模型训练完成时所取得的精度指标通常存在差异,把相同区域内精度指标最优的模型作为该区域的优选模型。
7.根据权利要求6所述的一种基于多源时空数据的知识图谱机器推理系统,其特征在于,所述机器学习训练计划生成模块,实现机器学习训练计划的自动生成过程具体如下:
1)当某个类型的地理实体实例更新时,自动检查该类型地理实体是否从属于所述机器学习目标类型,若属于则进入下一步的机器学习训练计划生成流程,若不属于则退出当前生成过程;
2)检查正在更新的地理实体实例所在区域是否存在待执行的、以正在更新的地理实体类型为学习目标的机器学习训练计划,若不存在则进入下一步,若存在则退出当前生成过程;
3)检查正在更新的地理实体实例所在区域,自上一次成功完成机器学习训练计划的时刻至今,新增加地理实体实例数量占该区域实例总量的比例是否超过设定的阈值,若超过则进入下一步,否则退出当前生成过程;
4)新建一个以正在更新的地理实体实例所在区域为学习区域范围、以正在更新的地理实体类型为学习目标的机器学习训练计划,退出当前生成过程。
8.根据权利要求6所述的一种基于多源时空数据的知识图谱机器推理系统,其特征在于,所述机器学习训练计划执行模块,启动机器学习训练计划的自动执行过程具体如下:
1)机器学习模型匹配:不同机器学习模型对于输入和输出端数据的规格要求不同,首先从所述多源时空数据知识图谱、所述自动化机器学习推理知识图谱中,检索取得所述机器学习目标实例及其关联地理实体类型实例的几何形态、所述学习目标空间分辨率、所述学习目标时间分辨率信息,以及所述机器学习模型实例及其关联的所述机器学习模型输入端形态、所述模型输出端形态、所述模型适用目标、所述模型非适用目标、所述模型采样空间分辨率、所述模型采样时间分辨率信息,从待匹配的所述机器学习模型实例集合中,自动排除所述模型输入端或输出端形态、适用目标或非适用目标、采样空间分辨率或时间分辨率信息与所述机器学习目标实例及其关联地理实体类型实例的相应信息不适配的机器学习模型实例,其余模型作为待训练模型进入下一步;
2)机器学习样本生成:针对每一个待训练模型,按照从所述知识图谱中检索取得的所述机器学习模型实例关联的所述模型输入端形态、所述模型输出端形态信息明确的样本格式定义,以及所述机器学习目标关联地理实体类型、所述机器学习目标关联地理实体属性、所述机器学习目标关联地理实体采样方式、所述学习目标空间分辨率、所述学习目标时间分辨率明确的采样技术要求,对接知识图谱存储的学习区域范围内已有的多元地理实体,生成相应格式的正负样本,为模型训练提供学习素材,进入下一步;
3)机器学习模型训练与精度测试:针对每一个待训练模型,从相应格式的正负样本集合中按照设定的训练集和测试集划分比例,通过自动生成和写入调用参数的方式,自动调用所述知识图谱中、所述机器学习模型实例关联的所述模型调用接口,代入前序步骤生成的机器学习样本,对模型进行训练和精度测试;
4)机器学习模型参数优化:针对每一个待训练模型,首先优化正负样本比例,在设定的正负样本比例区间内,以设定的步长间隔分别生成相应正负样本比例的训练集,并用这些训练集分别完成一一对应的模型训练和精度测试,以模型测试的查准率和查全率的差值达到最小值时的正负样本比例,作为最终采纳的正负样本比例。
9.根据权利要求6所述的一种基于多源时空数据的知识图谱机器推理系统,其特征在于,利用在不同区域内分别取得的优选模型,设计自动推理和按需推理两种工作模式:
1)自动推理:当实际应用场景需要针对特定区域内的机器学习目标,定期计算生成对机器学习目标、机器学习目标属性推理结果时,则设置一个定时器,自动触发所述优选模型对接指定区域内的最新时空数据,定期输出符合所述机器学习目标实例关联的所述学习目标输出格式的最新推理结果。
2)按需推理:根据用户自主设定的时间和空间范围以及机器学习目标、机器学习目标属性推理结果,调用所述优选模型,按需输出输出符合所述机器学习目标实例关联的所述学习目标输出格式的推理结果。
10.一种基于多源时空数据的知识图谱机器推理方法,其特征在于,包括如下步骤:
多源时空数据知识图谱构建步骤,将多源时空数据转换并存储为支持本发明所述自动化机器学习推理方法的时空知识图谱,作为推理的共性时空数据基底;
自动化机器学习推理知识图谱构建步骤,将不同类型机器学习模型训练、预测环节的关键信息以知识图谱的语义网存储方式加以统一组织关联,便于基于知识图谱共性语义概念将机器学习模型与上述时空知识图谱中的多源时空数据耦合关联,为后续推理计算提供必要的参数信息支持;
自动化机器学习推理控制步骤,自动化的制定、执行针对多元时空数据的机器学习训练和预测任务计划,以产出具体业务场景所需的推理计算结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210587662.8A CN114896472B (zh) | 2022-05-27 | 2022-05-27 | 一种基于多源时空数据的知识图谱机器推理系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210587662.8A CN114896472B (zh) | 2022-05-27 | 2022-05-27 | 一种基于多源时空数据的知识图谱机器推理系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114896472A true CN114896472A (zh) | 2022-08-12 |
CN114896472B CN114896472B (zh) | 2023-09-22 |
Family
ID=82725074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210587662.8A Active CN114896472B (zh) | 2022-05-27 | 2022-05-27 | 一种基于多源时空数据的知识图谱机器推理系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114896472B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116611546A (zh) * | 2023-04-14 | 2023-08-18 | 中国科学院空天信息创新研究院 | 基于知识图谱的目标研究区域滑坡预测方法及系统 |
CN116720578A (zh) * | 2023-05-12 | 2023-09-08 | 航天恒星科技有限公司 | 一种具有时空特性的知识图谱的存储方法 |
CN117009550A (zh) * | 2023-08-09 | 2023-11-07 | 中国船舶集团有限公司第七〇九研究所 | 一种海上多源冲突条件下多模态时空本体构建方法 |
CN117033541A (zh) * | 2023-10-09 | 2023-11-10 | 中南大学 | 一种时空知识图谱索引方法及相关设备 |
CN117033366A (zh) * | 2023-10-09 | 2023-11-10 | 航天宏图信息技术股份有限公司 | 基于知识图谱的泛在时空数据交叉验证方法及装置 |
CN117235929A (zh) * | 2023-09-26 | 2023-12-15 | 中国科学院沈阳自动化研究所 | 基于知识图谱和机器学习的三维cad生成式设计方法 |
CN117555978A (zh) * | 2024-01-10 | 2024-02-13 | 中国科学院地理科学与资源研究所 | 一种地理模型输入数据空间范围的智能化确定方法 |
CN117973794A (zh) * | 2024-02-22 | 2024-05-03 | 北京新兴科遥信息技术有限公司 | 基于监督学习的国土空间规划数据调度优化方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992672A (zh) * | 2019-04-11 | 2019-07-09 | 华北科技学院 | 基于灾害场景的知识图谱构建方法 |
CN110825882A (zh) * | 2019-10-09 | 2020-02-21 | 西安交通大学 | 一种基于知识图谱的信息系统管理方法 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN112507136A (zh) * | 2020-12-18 | 2021-03-16 | 南京摄星智能科技有限公司 | 一种知识驱动的业务操作图谱构建方法 |
CN112559766A (zh) * | 2020-12-08 | 2021-03-26 | 杭州互仲网络科技有限公司 | 一种法律知识图谱构建系统 |
CN113641831A (zh) * | 2021-08-16 | 2021-11-12 | 中国科学院空天信息创新研究院 | 基于知识图谱面向多源离散数据的林火蔓延趋势预测方法 |
-
2022
- 2022-05-27 CN CN202210587662.8A patent/CN114896472B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992672A (zh) * | 2019-04-11 | 2019-07-09 | 华北科技学院 | 基于灾害场景的知识图谱构建方法 |
CN110825882A (zh) * | 2019-10-09 | 2020-02-21 | 西安交通大学 | 一种基于知识图谱的信息系统管理方法 |
CN111444351A (zh) * | 2020-03-24 | 2020-07-24 | 清华苏州环境创新研究院 | 一种行业工艺领域知识图谱构建方法及装置 |
CN112559766A (zh) * | 2020-12-08 | 2021-03-26 | 杭州互仲网络科技有限公司 | 一种法律知识图谱构建系统 |
CN112507136A (zh) * | 2020-12-18 | 2021-03-16 | 南京摄星智能科技有限公司 | 一种知识驱动的业务操作图谱构建方法 |
CN113641831A (zh) * | 2021-08-16 | 2021-11-12 | 中国科学院空天信息创新研究院 | 基于知识图谱面向多源离散数据的林火蔓延趋势预测方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116611546A (zh) * | 2023-04-14 | 2023-08-18 | 中国科学院空天信息创新研究院 | 基于知识图谱的目标研究区域滑坡预测方法及系统 |
CN116611546B (zh) * | 2023-04-14 | 2023-11-10 | 中国科学院空天信息创新研究院 | 基于知识图谱的目标研究区域滑坡预测方法及系统 |
CN116720578A (zh) * | 2023-05-12 | 2023-09-08 | 航天恒星科技有限公司 | 一种具有时空特性的知识图谱的存储方法 |
CN116720578B (zh) * | 2023-05-12 | 2024-01-23 | 航天恒星科技有限公司 | 一种具有时空特性的知识图谱的存储方法 |
CN117009550A (zh) * | 2023-08-09 | 2023-11-07 | 中国船舶集团有限公司第七〇九研究所 | 一种海上多源冲突条件下多模态时空本体构建方法 |
CN117009550B (zh) * | 2023-08-09 | 2024-04-19 | 中国船舶集团有限公司第七〇九研究所 | 一种海上多源冲突条件下多模态时空本体构建方法 |
CN117235929A (zh) * | 2023-09-26 | 2023-12-15 | 中国科学院沈阳自动化研究所 | 基于知识图谱和机器学习的三维cad生成式设计方法 |
CN117235929B (zh) * | 2023-09-26 | 2024-06-04 | 中国科学院沈阳自动化研究所 | 基于知识图谱和机器学习的三维cad生成式设计方法 |
CN117033541B (zh) * | 2023-10-09 | 2023-12-19 | 中南大学 | 一种时空知识图谱索引方法及相关设备 |
CN117033366B (zh) * | 2023-10-09 | 2023-12-29 | 航天宏图信息技术股份有限公司 | 基于知识图谱的泛在时空数据交叉验证方法及装置 |
CN117033366A (zh) * | 2023-10-09 | 2023-11-10 | 航天宏图信息技术股份有限公司 | 基于知识图谱的泛在时空数据交叉验证方法及装置 |
CN117033541A (zh) * | 2023-10-09 | 2023-11-10 | 中南大学 | 一种时空知识图谱索引方法及相关设备 |
CN117555978A (zh) * | 2024-01-10 | 2024-02-13 | 中国科学院地理科学与资源研究所 | 一种地理模型输入数据空间范围的智能化确定方法 |
CN117555978B (zh) * | 2024-01-10 | 2024-03-19 | 中国科学院地理科学与资源研究所 | 一种地理模型输入数据空间范围的智能化确定方法 |
CN117973794A (zh) * | 2024-02-22 | 2024-05-03 | 北京新兴科遥信息技术有限公司 | 基于监督学习的国土空间规划数据调度优化方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114896472B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114896472B (zh) | 一种基于多源时空数据的知识图谱机器推理系统和方法 | |
Zuiev et al. | Development of complex methodology of processing heterogeneous data in intelligent decision support systems | |
Shyshatskyi et al. | Complex Methods of Processing Different Data in Intellectual Systems for Decision Support Systems | |
CN114860884A (zh) | 一种面向动态分析的时空知识图谱构建系统和方法 | |
CN113434736A (zh) | 一种面向遥感大数据的多维混合索引方法及系统 | |
Lourenço et al. | Towards safer (smart) cities: Discovering urban crime patterns using logic-based relational machine learning | |
CN115757804A (zh) | 一种基于多层路径感知的知识图谱外推方法及系统 | |
Chen et al. | A new view of multisensor data fusion: research on generalized fusion | |
CN115438199A (zh) | 一种基于智慧城市场景数据中台技术的知识平台系统 | |
Kurte et al. | Semantics-enabled spatio-temporal modeling of earth observation data: An application to flood monitoring | |
Shbita et al. | Building spatio-temporal knowledge graphs from vectorized topographic historical maps | |
Erwig | Toward spatio-temporal patterns | |
Cheng | Dynamic maintenance of approximations under fuzzy rough sets | |
Li et al. | Uncertain Knowledge Reasoning Based on the Fuzzy Multi Entity Bayesian Networks. | |
Fang et al. | Using Bayesian network technology to predict the semiconductor manufacturing yield rate in IoT | |
Alhaj Ali et al. | Distributed data mining systems: techniques, approaches and algorithms | |
CN115906006A (zh) | 一种复杂装备全生命周期信息物理融合方法 | |
Wang et al. | Applications of Machine Learning in Public Security Information and Resource Management | |
Jing et al. | A multi-dimensional city data embedding model for improving predictive analytics and urban operations | |
Basnet et al. | Analysis of multifactorial social unrest events with spatio-temporal k-dimensional tree-based dbscan | |
Velu et al. | Ocean knowledge representation through integration of big data employing semantic web technologies | |
Stéphan et al. | Generation of symbolic objects from relational databases | |
Umuhoza et al. | Trustworthiness assessment of knowledge on the semantic sensor web by provenance integration | |
Iwaniak et al. | Ontology driven analysis of spatio-temporal phenomena, aimed at spatial planning and environmental forecasting | |
Paparidis et al. | Knowledge Graphs and Machine Learning in biased C4I applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |