CN117009550A - 一种海上多源冲突条件下多模态时空本体构建方法 - Google Patents
一种海上多源冲突条件下多模态时空本体构建方法 Download PDFInfo
- Publication number
- CN117009550A CN117009550A CN202311002533.9A CN202311002533A CN117009550A CN 117009550 A CN117009550 A CN 117009550A CN 202311002533 A CN202311002533 A CN 202311002533A CN 117009550 A CN117009550 A CN 117009550A
- Authority
- CN
- China
- Prior art keywords
- ontology
- data
- classes
- information
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000005516 engineering process Methods 0.000 claims abstract description 21
- 230000010354 integration Effects 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000003058 natural language processing Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 230000000007 visual effect Effects 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 230000002123 temporal effect Effects 0.000 claims description 8
- 238000005065 mining Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 230000019771 cognition Effects 0.000 abstract description 5
- 238000013523 data management Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 244000145841 kine Species 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种海上多源冲突条件下多模态时空本体构建方法,属于态势认知技术领域。本发明首先分析数据类型和结构并利用自然语言处理和视觉分析技术从不同数据库的态势数据中抽取术语;再基于所述术语,综合利用领域知识和现有本体,定义本体中的类、类的概念层次结构及类的属性;最后经过本体的一致性检验,输出多模态时空本体,并在此基础上,利用语义标注工具和知识融合技术将多源异构的多模态时空数据整合到知识图谱中。本发明方法通过建立数据间的关联关系来打破多源数据间的冲突异构性,完成对包含一定时空信息和多模态信息数据的有效整合,为后续的数据检索及应用提供良好的数据管理支持。
Description
技术领域
本发明属于态势认知技术领域,更具体地,涉及一种海上多源冲突条件下多模态时空本体构建方法。
背景技术
随着信息技术的快速发展,海上数据的获取和处理能力不断提高。目前海上指挥信息系统接收的数据涵盖了图像、文本、结构化态势信息(序列数据)等多种模态,这些数据中包含一定的时空信息。此外,数据来源广泛,包括传感器探测、其他信息系统融合输出、卫星图像处理、动向情报和互联网舆情等,这使得数据呈现出模糊性、随机性、不一致性、不准确性、不精确性等多种不确定性,进一步导致海上数据管理面临着多源冲突条件下的数据共享和整合问题。多源冲突条件下的多模态数据整合对齐任务是指将来自不同数据源的多模态数据整合到同一数据表示中,以便进行后续的数据分析和应用。在多源数据的情况下,不同数据源之间存在多种冲突,例如数据格式不同、数据命名不一致、数据粒度不同、数据表示方式不同等。同时,不同模态数据之间也存在着模态差异和数据不完备性等问题。数据整合对齐任务的目标是解决这些冲突和问题,将来自不同模态数据的信息整合到一致的数据表示中,并且保持数据的准确性、可靠性和一致性。
目前基于表示学习的机器学习方法被广泛应用于解决多源数据的整合对齐问题。该方法首先采用自然语言处理、计算机视觉等技术提取多模态数据的特征表示,然后利用神经网络将不同模态数据特征映射到同一低维空间中,最终通过基于相似性度量的特征对齐方法实现多源数据的整合对齐目标。然而,基于表示学习的机器学习方法面临的主要困难有以下三点:(1)需要大量的标注数据来训练和调整模型,对数据质量和数据量要求较高。(2)难以解释模型的结果和决策过程,并且由于计算过程复杂,结果可能存在误差和不确定性。(3)此方法通常只关注数据的特征表示和相似性计算,对指挥控制和态势认知领域的知识利用不足,无法充分理解数据的语义信息,进而导致数据对齐的准确性和可靠性降低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种海上多源冲突条件下多模态时空本体构建方法,其目的在于解决多源冲突条件下多模态数据难以整合的技术问题。
为实现上述目的,第一方面,本发明提供了一种海上多源冲突条件下多模态时空本体构建方法,所述方法包括:
(1)分析数据类型和结构并利用自然语言处理技术和视觉分析技术从不同数据库的态势数据中抽取术语;
(2)基于所述术语,综合利用领域知识和现有本体,定义本体中的类、类的概念层次结构及类的属性;
(3)经过本体的一致性检验,输出多模态时空本体,并在此基础上,利用语义标注工具和知识融合技术将多源异构的多模态时空数据整合到知识图谱中。
优选的,所述步骤(1)中,通过分析数据类型和结构并利用词频统计、TF-IDF自然语言处理技术以及计算机视觉技术从包含结构化态势数据、文本以及图像的多种模态信息中抽取术语,以识别出待构建本体中的概念和关系,为本体的核心结构设计和语义构建提供指导。
优选的,所述步骤(1)中,读取分析存储在多种不同数据库中的结构化态势数据,明确待构建本体的领域和作用范围,实现对具有时空信息和多模态信息的多源态势数据的统一约束和关联整合。
优选的,所述步骤(2)中,通过复用和整合现有的时间本体和基于本体的查询语言扩展GeoSPARQL来定义本体中时间和空间相关类、类的概念层次结构及类的属性。
优选的,所述类的概念层次结构即为确定类与类之间的父子关系,类的属性包括对象属性和数据属性。
优选的,所述步骤(3)中,采用结合文本相似度算法和聚类算法的机器学习方法对本体进行一致性检验,以获得最终多模态时空本体。
优选的,所述步骤(3)中,依据构建所得的多模态时空本体,使用集成了最小斯坦纳树、频繁子图挖掘算法和图匹配算法的自动语义标注工具以及基于图函数依赖算法的知识融合技术完成多源冲突的多模态数据信息到多模态时空本体的映射,以获得最终的多模态时空知识图谱。
优选的,所述步骤(3)中,对本体的一致性检验包含检查本体中的类和属性是否与数据源中的实际数据相符,检查本体中的类和属性之间的关系是否一致,以及检查本体中的定义是否一致。
第二方面,本申请提供一种电子设备,包括:存储器,用于存储程序;处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行第一方面所描述的方法。
第三方面,本申请提供一种存储介质,存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行第一方面所描述的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
(1)本发明通过构建多模态时空本体解决多源冲突条件下多模态时空信息的数据整合对齐问题。此方法不依赖于高质量的标注数据,并且可以通过不断扩充和更新本体来适应不同数据源的需求,具有较高的灵活性和可扩展性;
(2)本发明中多模态时空本体的构建是基于规则和逻辑的,能够为数据整合对齐的决策提供清晰的解释和可维护性,方便领域专家和数据管理人员对知识进行维护和更新
(3)本发明综合应用了指挥控制和态势认知领域知识对数据进行建模,能够更好地理解表示数据间的语义关联,进一步提高了数据整合对齐的准确性和可靠性。
附图说明
图1是本发明实施例中多模态时空本体构建方法的总流程图;
图2是本发明实施例中详细流程图;
图3是本发明实施例提供的Neo4j数据库中传感器数据存储形式的示意图;
图4是本发明实施例提供的部分时空信息关联关系图;
图5是本发明实施例提供的的多模态时空本体示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
多模态时空本体模型是一种用于描述包含多模态以及时空信息的多源异构数据的本体模型,它能够清晰地为数据定义全局概念和概念之间的语义关系,完成对来自不同数据库的具有时空信息和多模态信息的海上数据的统一归纳和编码,实现对多源冲突数据的有效整合和对齐。构建的多模态时空本体模型包括时空本体、多模态本体和语义本体这三方面内容。其中,时空本体描述了数据中的时空信息,包括时间和空间的概念、属性和关系。多模态本体描述了数据中的多模态信息,包括图像、文本、结构化态势信息(序列数据)等多种不同类型的信息。语义本体描述了数据间的语义信息,包括概念和概念之间的关系和约束条件。
如图1所示,一种海上多源冲突条件下多模态时空本体的构建方法包含如下步骤:
(1)分析数据类型和结构并利用自然语言处理和视觉分析技术从ES、MySQL、Neo4j等多种不同数据库的态势数据中抽取重要术语;
其中,读取分析存储在ES、MySQL、Neo4j等多种不同数据库中的态势数据,包括卫星图像目标切片信息、卫星图像目标检测识别信息、外军舰艇飞机平台参数信息、外军传感器参数信息、态势目标航迹信息、值班报告、动向情报、网络舆情(新闻图文)、常识知识图谱数据。明确待构建本体的领域和作用范围是实现对海上任务领域中具有时空信息和多模态信息的多源态势数据的统一约束和关联整合,为后续出海任务应用提供良好的数据管理和高效的数据检索支持。
针对不同的数据类型和存储结构,利用词频统计和TF-IDF自然语言处理技术以及图像识别的计算机视觉技术从结构化态势信息(序列数据)、文本、图像等多种模态信息中抽取重要术语,以识别出待构建本体中的重要概念和关系,为本体的核心结构设计和语义构建提供指导。
(2)基于领域知识和现有本体,定义本体中的类、类的概念层次结构及类的属性;
其中,基于抽取得到的重要术语,综合利用指挥控制和态势认知领域知识以及现有的本体来定义本体中的类,确定本体中类的概念层次并明确类的属性。
通过复用和整合现有时间本体和查询语言扩展GeoSPARQL中的概念完成多模态时空本体中时间和空间相关类、类的概念层次和类属性的定义。
类的概念层次结构即为确定类与类之间的父子关系,类的属性定义包括对象属性和数据属性。
(3)经过本体的一致性检验,输出多模态时空本体,并在此基础上,利用语义标注工具和知识融合技术将多源异构的多模态时空数据整合到知识图谱中。
其中,采用结合文本相似度算法和聚类算法的机器学习方法对本体进行一致性检验,以获得最终可靠的多模态时空本体。
依据构建所得的多模态时空本体,使用集成了最小斯坦纳树、频繁子图挖掘算法和图匹配算法的自动语义标注工具以及基于图函数依赖算法的知识融合技术完成多源冲突的多模态数据信息到多模态时空本体的映射,以获得最终的多模态时空知识图谱。
对本体的一致性检验包含检查本体中的类和属性是否与数据源中的实际数据相符,检查本体中的类和属性之间的关系是否一致,以及检查本体中的定义是否一致这三部分工作。
本发明实施例的详细步骤如图2所示,包括如下步骤:
第1步、确定本体的领域和范围:通过读取存储在ES、MySQL、Neo4j等多种不同数据库中的态势数据,可获取卫星图像目标切片信息、卫星图像目标检测识别信息、外军舰艇飞机平台参数信息、外军传感器参数信息、态势目标航迹信息、值班报告、动向情报、网络舆情(新闻图文)、常识知识图谱数据,由此可进一步确定在多源冲突条件下的多模态时空本体的领域和作用范围,为实现对海上任务领域中具有时空信息和多模态信息的多源态势数据的统一约束和关联整合。
第2步、抽取重要术语:首先通过分析ES、MySQL、Neo4j等多种不同数据库的数据存储结构,从结构化态势信息(序列数据)中获取一部分重要术语;然后利用自然语言处理技术和视觉分析技术从文本和图像模态数据中抽取部分重要术语。
ES数据库中有关传感器(Sensor)数据信息的数据类型和存储结构;
首先,读取数据文件名获取“传感器(Sensor)”这一重要概念术语;然后,通过解析数据文件的结构信息可获取“标识(id)”、“名字(name)”、“类型(type)”、“种类(kind)”、“资源(resource)”、“详情(details)”、“设置(setting)”、“图片(image)”和“视频(video)”这9个一级术语以及“灵敏度(sensitivity)”、“数据格式(data_format)”、“数据传输(data_transmission)”、“采样率(sampling_rate)”和“带宽(bandwidth)”这5个二级术语。对于“详情(details)”和“设置(setting)”这类能扩展最深层属性信息的属性,可通过“动词+属性名”的方式获取部分属性术语,例如,“hasSensitivity”、“hasDataFormat”、“hasDataTransmission”、“hasSamplingRate”和“hasBandWidth”。对于数据文件中的内容信息,在对其进行预处理(包括数据清洗和分词)后,可通过词频统计和TF-IDF文本挖掘算法自动提取重要术语,例如,可提取得到“种类(kind)”属性中的“位置传感器(PositionSensor)”、“电磁传感器(Electromagnetic Sensor)”和“气象传感器(Weather Sensor)”等种类术语,“类型(type)”属性中的“GPS接收器(GPS Receiver)”、“惯性导航系统(InertialNavigation System)”、“雷达传感器(Radar Sensor)”、“红外传感器(Infrared Sensor)”等某种传感器类别下的类型术语。
MySQL数据库中有关传感器(Sensor)的数据信息的数据类型和存储结构如表1所示。
表1
首先,读取表名“传感器(Sensor)”作为重要概念术语;然后,读取列名“标识(id)”、“名字(name)”、“国家(nation)”、“类型(type)”、“种类(kind)”、“描述(description)”、“图片(image)”和“目标标识(target_id)”作为术语。由于关系数据表中的外键描述了不同数据间的关联关系,例如,由于“目标标识(target_id)”为“传感器(Sensor)”数据的外键,可知“传感器(Sensor)”与“目标(Target)”间存在关系,经过简单分析可定义此类关系术语为“探测(Detects)”关系。对于表中的内容信息,采用与ES数据库中相同的处理方法,对数据内容进行预处理(包括数据清洗和分词)后,采用词频统计和TF-IDF文本挖掘算法自动提取重要术语,例如提取得到“种类(kind)”属性中的“水质传感器(Water Quality Sensor)”和“生物传感器(Biosensor)”等种类术语。
Neo4j数据库中有关传感器(Sensor)的数据信息的存储结构如图3所示。Neo4j数据库中“传感器(Sensor)”数据的存储依赖于上述存储形式(即“传感器(Sensor)”的本体模型),因此从Neo4j数据库中获取重要术语较为简单,已有本体中的所有节点概念和关系表示即为所需的术语信息,如“传感器(Sensor)”、“位置传感器(Position Sensor)”、“气象传感器(Weather Sensor)”、“国家(Nation)”和“图片(Image)”等概念术语,“subClassOf”和“belongsToCountry”等关系术语。
对于收集到的海上图片数据,如卫星图像目标切片信息、网络舆情(新闻图)等,综合利用图像识别技术或人工标注技术完成术语的抽取任务。首先进行图像预处理操作,包括图像去噪和图像增强等,以使图片数据更加干净规范。然后,利用计算机视觉领域中的基于图像分割和目标检测的图像区域识别技术,从预处理后的图像数据中识别出频繁出现的图像区域目标,并将这些区域目标的标签作为术语。例如,对于“传感器(Sensor)”数据中的图片信息,可通过上述步骤完成对图片标签的识别,以此判断该图片是“位置传感器”图片还是具体的“GPS接收器”图片,建立多模态数据间更准确的语义关联关系。
第3步、定义本体中类和类的概念层次结构:基于上述得到的重要术语,定义本体中的类以及类与类之间的概念层次结构(即父子关系),以提高本体的语义表达能力和对数据的归纳整合能力。一般来讲,名词是类名的基础,本体中的类应当具有适当的概括性,能够涵盖和描述一定范围内的实例。显而易见,ES数据库具有概括性的术语来自其数据文件名和数据中的键。对于“传感器(Sensor)”数据而言,可将“传感器(Sensor)”、“名字(name)”、“图片(Image)”、“视频(Video)”以及具有下层属性的“详情(details)”和“设置(setting)”视为本体中的类。基于这些易于确定的类,可采用聚类的方法完成对其他类的定义。例如,对于通过文本挖掘获取的“位置传感器(Position Sensor)”、“电磁传感器(Electromagnetic Sensor)”和“气象传感器(Weather Sensor)”等种类术语以及“GPS接收器(GPS Receiver)”、“惯性导航系统(Inertial Navigation System)”、“雷达传感器(Radar Sensor)”、“红外传感器(Infrared Sensor)”等类型术语,采用聚类的方法可进一步定义“位置传感器(Position Sensor)”、“电磁传感器(Electromagnetic Sensor)”和“气象传感器(Weather Sensor)”为本体中的类,并且可以确定这些由种类术语定义的类为“传感器(Sensor)”类的子类。此外,通过聚类还可定义“GPS接收器(GPS Receiver)”类、“惯性导航系统(Inertial Navigation System)”类、“雷达传感器(Radar Sensor)”类、“红外传感器(Infrared Sensor)”类,并确定它们分别为“位置传感器(Position Sensor)”类和“电磁传感器(Electromagnetic Sensor)”类的子类。与ES数据库相同,在从MySQL数据库中定义类以及类与类之间的层次结构时,可先从表名和列名这类概括性更强的术语中定义本体中的类,进而再通过聚类的方法确定其他类以及类与类之间的父子层级关系。Neo4j数据本身就提供了一定的类定义以及类间层级结构的表示,如“传感器(Sensor)”类、“气象传感器(Weather Sensor)”类等,并给出了“气象传感器(Weather Sensor)”类与“风速传感器(Anemometer Sensor)”等类之间的“subClassOf”层级关系,由此可直接对其进行复用。
对于时间和空间数据信息,结合指挥控制和态势认知领域知识,通过复用和整合现有的时间本体(Time Ontology in OWL)和基于本体的查询语言扩展GeoSPARQL来定义有关时间和空间的类和概念层次结构。所复用的时间本体和GeoSPARQL中的核心概念如表2所示。
表2
“航行点(Point)”这类数据信息中包含“时间(time)”和“持续时间(duration)”时间信息,因此可以通过复用时间本体中的“日期时间描述(DateTimeDescription)”、“时间点(Instant)”、“时间区间(Interval)”和“持续时间(Duration)”这四个时间类来描述“航行点(Point)”中的时间信息。此外,“航行点(Point)”这类数据信息中还包含“acc0_x”,“acc0_y”和“acc0_z”等三维空间点信息;“出海区域(Area)”这类数据信息中包含“区域形状(shape)”面信息。由此,可通过复用地理空间本体中的“空间对象(Spatial Object)”类作为“航行点(Point)”类和“出海区域(Area)”类的父类。地理空间本体中的“几何描述(Geometry)”类可描述点、线、面等几何对象,因此可通过引用“几何描述(Geometry)”和“坐标参考系(CRS)”这两个空间概念及相关属性来整合表示“航行点(Point)”中的坐标点信息和“出海区域(Area)”中的“区域形状(shape)”面信息。经简单分析判断可知“航行点(Point)”数据间可能存在一定的空间关系,因此可通过复用地理空间本体中的“空间关系(Spatial Relation)”类来描述不同“航行点(Point)”间的空间关系。由此,可获得部分时空信息的关联关系,如图4所示。
第4步、定义本体中类的属性:类的属性包括对象属性和数据属性,其中对象属性用于描述类与类之间的关系,数据属性用于描述某个类与属性值之间的关系。在定义本体中类的属性时,不仅要确定类与类之间有什么对象属性以及类与属性值之间有什么数据属性,还要陈述这些属性的定义域和值域。以动词或动词短语为属性名命名的基础。在从ES数据库抽取术语时,已经从键中拓展得到了一些属性术语,如“hasSensitivity”和“hasDataFormat”,由此可将这些属性定义为“详情(details)”类与“灵敏度(sensitivity)”和“数据格式(data_format)”这两个特定属性之间的数据属性,其定义域为“详情(details)”类,值域分别为float和string。以MySQL数据库中的“传感器(Sensor)”数据信息为例,面对“传感器(Sensor)”类与“名字(name)”类这种无法从数据中自动抽取对象属性的情况,可通过“动词+类名”的方式定义类与类之间的关系,比如可定义“hasName”这一对象属性来描述某一传感器的命名,此对象属性的定义域为“传感器(Sensor)”类,值域为“名字(name)”类。在术语抽取阶段,我们还依据外键定义了“传感器(Sensor)”类与“目标(Target)”类之间的“Detects(探测)”对象属性,其定义域为“传感器(Sensor)”类,值域为“目标(Target)”类。此外,可直接复用Neo4j中定义的类属性,如“belongsToCountry”等对象属性。对于图片这类模态数据,定义“hasImage”对象属性来建立图像模态数据类与其他类之间的关联关系。对于时空信息,通过复用“hasDuration”、“inXSDDateTime”、“hasDateTime”、“hasInterval”时间类属性和“describesSpatialRelation”、“describedBySpatialRelation”、“containsGeometry”、“hasCRS”空间类属性来描述时间和空间信息之间的语义关系。
第5步、检验本体一致性:经过上述步骤初步构建所得的多模态时空本体中定义的类和属性可能出现矛盾或不一致的情况。首先,检查本体中的类和属性是否与数据源中的实际数据相符。例如,若定义了一个名为“位置传感器”的类,如果从文本、图像和其他模态数据中均提取了相关信息,则需要进一步检查这些信息是否真正表示了位置传感器的特征。然后,检查本体中的类和属性之间的关系是否一致。例如,如果定义了一个名为“位置传感器”的类,并将其与一个名为“采样率”的属性进行关联,那么需要检查这个关系是否符合常识和所构建本体的应用意图。最后,检查本体中的定义是否一致。如果在不同的数据源中定义了相同的类和属性,并使用不同的命名方式或定义方式(如,对于“位置传感器名称”这一属性,在ES数据库中可能命名为“positionSensorName”,在MySQL数据库中可能命名为“name”),那么需要采用文本相似度算法和聚类算法相结合的机器学习方法将其统一起来(如,统一为“name”命名方式),以确保本体的一致性。
第6步、判断本体是否达到预期目的:判断构建所得的多模态时空本体是否能满足任务应用,若不符合则重新执行第1步;反之则执行第7步。
第7步、生成多模态时空本体:经过上述6个步骤可获得最终可靠的多模态时空本体,如图5所示。其中,图中的节点表示类,属性为描述类与类之间语义关系的边。依据构建所得的多模态时空本体,我们采用不同的技术手段来标注不同数据库中具有时空信息的多模态数据,并将其统一存储到知识图谱中,以有效提高对数据的管理和检索能力。对于ES数据库和MySQL数据库中的数据,通过使用集成了最小斯坦纳树算法、频繁子图挖掘算法和图匹配算法的自动语义标注工具完成从多模态数据到本体的自动标注映射。Neo4j数据库为图数据库,其用于存储知识图谱。因此,可将从Neo4j数据库中数据到多模态时空本体的标注映射任务转换为知识图谱融合任务,即通过应用图函数依赖算法将从ES数据库和MySQL数据库中标注整合得到的知识图谱与Neo4j数据库中现有知识图谱进行融合获得最终的多模态时空知识图谱。
基于上述实施例中的方法,本申请实施例提供了一种电子设备。该设备可以包括:至少一个用于存储程序的存储器和至少一个用于执行存储器存储的程序的处理器。其中,当存储器存储的程序被执行时,处理器用于执行上述实施例中所描述的方法。
基于上述实施例中的方法,本申请实施例提供了一种存储介质,存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行上述实施例中的方法。
可以理解的是,本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请的实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中,或者通过所述存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。
以上内容本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种海上多源冲突条件下多模态时空本体构建方法,其特征在于,所述方法包括:
(1)分析数据类型和结构并利用自然语言处理技术和视觉分析技术从不同数据库的态势数据中抽取术语;
(2)基于所述术语,综合利用领域知识和现有本体,定义本体中的类、类的概念层次结构及类的属性;
(3)经过本体的一致性检验,输出多模态时空本体,并在此基础上,利用语义标注工具和知识融合技术将多源异构的多模态时空数据整合到知识图谱中。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,通过分析数据类型和结构并利用词频统计、TF-IDF自然语言处理技术以及计算机视觉技术从包含结构化态势数据、文本以及图像的多种模态信息中抽取术语,以识别出待构建本体中的概念和关系,为本体的核心结构设计和语义构建提供指导。
3.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,读取分析存储在多种不同数据库中的结构化态势数据,明确待构建本体的领域和作用范围,实现对具有时空信息和多模态信息的多源态势数据的统一约束和关联整合。
4.根据权利要求1所述的方法,其特征在于,所述步骤(2)中,通过复用和整合现有的时间本体和基于本体的查询语言扩展GeoSPARQL来定义本体中时间和空间相关类、类的概念层次结构及类的属性。
5.根据权利要求1或4所述的方法,其特征在于,所述类的概念层次结构即为确定类与类之间的父子关系,类的属性包括对象属性和数据属性。
6.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,采用结合文本相似度算法和聚类算法的机器学习方法对本体进行一致性检验,以获得最终多模态时空本体。
7.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,依据构建所得的多模态时空本体,使用集成了最小斯坦纳树、频繁子图挖掘算法和图匹配算法的自动语义标注工具以及基于图函数依赖算法的知识融合技术完成多源冲突的多模态数据信息到多模态时空本体的映射,以获得最终的多模态时空知识图谱。
8.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,对本体的一致性检验包含检查本体中的类和属性是否与数据源中的实际数据相符,检查本体中的类和属性之间的关系是否一致,以及检查本体中的定义是否一致。
9.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求1-8任一所述的方法。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,当所述计算机程序在处理器上运行时,使得所述处理器执行如权利要求1-8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311002533.9A CN117009550B (zh) | 2023-08-09 | 2023-08-09 | 一种海上多源冲突条件下多模态时空本体构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311002533.9A CN117009550B (zh) | 2023-08-09 | 2023-08-09 | 一种海上多源冲突条件下多模态时空本体构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117009550A true CN117009550A (zh) | 2023-11-07 |
CN117009550B CN117009550B (zh) | 2024-04-19 |
Family
ID=88572488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311002533.9A Active CN117009550B (zh) | 2023-08-09 | 2023-08-09 | 一种海上多源冲突条件下多模态时空本体构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009550B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160110433A1 (en) * | 2012-02-01 | 2016-04-21 | Sri International | Method and apparatus for correlating and viewing disparate data |
US20180173795A1 (en) * | 2016-12-21 | 2018-06-21 | International Business Machines Corporation | Automatic ontology generation |
US20190065492A1 (en) * | 2016-02-12 | 2019-02-28 | Sri International | Zero-shot event detection using semantic embedding |
CN110647662A (zh) * | 2019-08-03 | 2020-01-03 | 电子科技大学 | 一种基于语义的多模态时空数据关联方法 |
US20210192142A1 (en) * | 2020-01-15 | 2021-06-24 | Beijing Baidu Netcom Science Technology Co., Ltd. | Multimodal content processing method, apparatus, device and storage medium |
CN114896472A (zh) * | 2022-05-27 | 2022-08-12 | 中国科学院空天信息创新研究院 | 一种基于多源时空数据的知识图谱机器推理系统和方法 |
CN114925176A (zh) * | 2022-07-22 | 2022-08-19 | 北京融信数联科技有限公司 | 一种智能体多模态认知图谱的构建方法、系统和介质 |
CN116011565A (zh) * | 2022-12-28 | 2023-04-25 | 广东省科学院智能制造研究所 | 一种面向挤压模具的多模态知识图谱构建方法和系统 |
CN116186275A (zh) * | 2022-08-09 | 2023-05-30 | 中国船舶集团有限公司第七〇九研究所 | 战场态势的时空知识图谱构建、计算和感知方法和设备 |
-
2023
- 2023-08-09 CN CN202311002533.9A patent/CN117009550B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160110433A1 (en) * | 2012-02-01 | 2016-04-21 | Sri International | Method and apparatus for correlating and viewing disparate data |
US20190065492A1 (en) * | 2016-02-12 | 2019-02-28 | Sri International | Zero-shot event detection using semantic embedding |
US20180173795A1 (en) * | 2016-12-21 | 2018-06-21 | International Business Machines Corporation | Automatic ontology generation |
CN110647662A (zh) * | 2019-08-03 | 2020-01-03 | 电子科技大学 | 一种基于语义的多模态时空数据关联方法 |
US20210192142A1 (en) * | 2020-01-15 | 2021-06-24 | Beijing Baidu Netcom Science Technology Co., Ltd. | Multimodal content processing method, apparatus, device and storage medium |
CN114896472A (zh) * | 2022-05-27 | 2022-08-12 | 中国科学院空天信息创新研究院 | 一种基于多源时空数据的知识图谱机器推理系统和方法 |
CN114925176A (zh) * | 2022-07-22 | 2022-08-19 | 北京融信数联科技有限公司 | 一种智能体多模态认知图谱的构建方法、系统和介质 |
CN116186275A (zh) * | 2022-08-09 | 2023-05-30 | 中国船舶集团有限公司第七〇九研究所 | 战场态势的时空知识图谱构建、计算和感知方法和设备 |
CN116011565A (zh) * | 2022-12-28 | 2023-04-25 | 广东省科学院智能制造研究所 | 一种面向挤压模具的多模态知识图谱构建方法和系统 |
Non-Patent Citations (2)
Title |
---|
刘扬;郑逢斌;姜保庆;蔡坤;: "基于多模态融合和时空上下文语义的跨媒体检索模型的研究", 计算机应用, no. 04, 1 April 2009 (2009-04-01) * |
郑理欣: "面向计算机领域的多模态知识图谱构建方法研究", 《信息科技》, 15 February 2023 (2023-02-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117009550B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362660B (zh) | 一种基于知识图谱的电子产品质量自动检测方法 | |
CN108388559B (zh) | 地理空间应用下的命名实体识别方法及系统、计算机程序 | |
US11194797B2 (en) | Automatic transformation of complex tables in documents into computer understandable structured format and providing schema-less query support data extraction | |
CN109446341A (zh) | 知识图谱的构建方法及装置 | |
CN107679221B (zh) | 面向减灾任务的时空数据获取与服务组合方案生成方法 | |
US11194798B2 (en) | Automatic transformation of complex tables in documents into computer understandable structured format with mapped dependencies and providing schema-less query support for searching table data | |
CN111782824B (zh) | 信息查询方法、装置、系统和介质 | |
US11308083B2 (en) | Automatic transformation of complex tables in documents into computer understandable structured format and managing dependencies | |
CN117744784B (zh) | 一种医学科研知识图谱构建与智能检索方法及系统 | |
CN114661861A (zh) | 文本匹配方法及装置、存储介质、终端 | |
CN115952298A (zh) | 供应商履约风险分析方法及相关设备 | |
CN117874247A (zh) | 一种基于知识图谱的全媒体坐席检索方法 | |
CN117009550B (zh) | 一种海上多源冲突条件下多模态时空本体构建方法 | |
EP3407206B1 (en) | Reconciled data storage system | |
CN117875307A (zh) | 一种用于智能问答的文本解析方法和装置 | |
CN111950646A (zh) | 电磁图像的层次化知识模型构建方法及目标识别方法 | |
CN113032353A (zh) | 数据共享方法、系统、电子设备及介质 | |
Bernard et al. | Theseus: A framework for managing knowledge graphs about geographical divisions and their evolution | |
CN113807102B (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
CN115658869A (zh) | 一种实体检索方法、装置、电子设备及存储介质 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
CN114880483A (zh) | 一种元数据知识图谱构建方法、存储介质及系统 | |
CN113792160A (zh) | 一种多源数据的知识图谱扩展融合方法 | |
CN113032504A (zh) | 村镇社区公共服务时空数据汇聚方法及装置 | |
Chen et al. | A multi-source heterogeneous spatial big data fusion method based on multiple similarity and voting decision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |