CN116775744A - 多源数据融合方法、装置及电子设备 - Google Patents

多源数据融合方法、装置及电子设备 Download PDF

Info

Publication number
CN116775744A
CN116775744A CN202311037166.6A CN202311037166A CN116775744A CN 116775744 A CN116775744 A CN 116775744A CN 202311037166 A CN202311037166 A CN 202311037166A CN 116775744 A CN116775744 A CN 116775744A
Authority
CN
China
Prior art keywords
data
source
association
target field
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311037166.6A
Other languages
English (en)
Other versions
CN116775744B (zh
Inventor
臧义华
王楠
李小娟
马兴民
郭阳
张明美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 15 Research Institute
Original Assignee
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 15 Research Institute filed Critical CETC 15 Research Institute
Priority to CN202311037166.6A priority Critical patent/CN116775744B/zh
Publication of CN116775744A publication Critical patent/CN116775744A/zh
Application granted granted Critical
Publication of CN116775744B publication Critical patent/CN116775744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种多源数据融合方法、装置及电子设备,其中方法包括:提取多源异构数据中的目标字段,多源异构数据包含一个或多个字段;基于目标字段,对多源异构数据进行预处理;将预处理后的多源异构数据转换为图数据结构的数据格式,得到格式统一的多源数据;采用基于自适应约束放松的多源数据关联算法关联多源数据,实现多源数据的融合,从而实现轨迹关联。本公开通过使用图数据结构表示多源异构数据,形成统一形式的数据格式,降低了不同源数据之间关联融合难度,解决了不同源数据之间关联融合难度较大的问题;并且,通过自适应约束放松的多源数据关联算法对多源数据进行关联匹配,实现了多源数据的融合,从而实现轨迹关联。

Description

多源数据融合方法、装置及电子设备
技术领域
本公开涉及数据融合技术领域,具体涉及一种多源数据融合方法、装置及电子设备。
背景技术
随着大数据技术的不断发展以及各类数据采集方式的普及和更新换代,数据形式呈现多源化和多模态,越来越多的异构数据需要为同一个任务或事件服务。在分析和处理多源异构数据的过程中,由于多源异构数据的格式不同,造成不同源数据之间难以相互匹配关联,进而难以有效融合利用,导致不同源数据之间关联融合难度较大。
针对相关技术中不同源数据之间关联融合难度较大的问题,目前尚未提出有效的技术解决方案。
发明内容
本公开的主要目的在于提供一种多源数据融合方法、装置及电子设备,以解决相关技术中不同源数据之间关联融合难度较大的问题。
为了实现上述目的,本公开的第一方面提供了一种多源数据融合方法,包括:
提取多源异构数据中的目标字段,其中,多源异构数据包含一个或多个字段;
基于目标字段,对多源异构数据进行预处理;
将预处理后的多源异构数据转换为图数据结构的数据格式,得到格式统一的多源数据;以及
采用基于自适应约束放松的多源数据关联算法关联多源数据,实现多源数据的融合,从而实现轨迹关联。
可选地,提取多源异构数据中的目标字段包括:
判断多源异构数据中是否显式地包含目标字段;
如果显式地包含目标字段,则直接读取目标字段;
如果非显式地包含目标字段,则采用数据抽取算法抽取多源异构数据中包含的目标字段。
可选地,在提取多源异构数据中的目标字段之后,该方法还包括:
对多源异构数据进行筛选,将多源异构数据中不包括目标字段的数据剔除;
对于多源异构数据中包括目标字段的数据,在数据库中建立相应数据表,将数据整理为以目标字段为索引的数据结构,并将整理后的数据批量存储至数据表中。
进一步地,在将整理后的数据批量存储至数据表中之后,该方法还包括:
确定数据库的地址和用户的登录口令,给予用户读取数据权限,使用数据库图数据结构进行数据库连接,以获取数据访问权限和数据访问方式,其中,登录口令包括登录账户和访问密码;
连接数据库后,对数据库中整理后的数据进行读取并保存至本地内存或硬盘。
可选地,基于目标字段,对多源异构数据进行预处理,包括:
根据预先设定的目标字段正常值范围依次对数据进行匹配,如果匹配出数据中存在非法值、异常值或占位符,则将数据删除;
将数据中除目标字段外的数据信息设为数据属性字段,对多源异构数据中目标字段和数据属性字段均重复的数据进行删除,并对目标字段重复、数据属性字段存在差异的数据予以保留。
可选地,将预处理后的多源异构数据转换为图数据结构的数据格式,得到格式统一的多源数据,包括:
按照下述公式将预处理后的多源异构数据转换为描述数据及数据间关联关系的图模型G:
其中,,V表示数据集合,/>表示第i条数据,n表示数据的数量,E表示数据之间的关联关系。
可选地,采用基于自适应约束放松的多源数据关联算法关联多源数据,实现多源数据的融合,从而实现轨迹关联,包括:
在时间域内,设置以帧为基本单位,对于第k帧数据集合和第k-1帧数据集合的关联关系,根据任务需求确定关联关系中考量的关键属性,并定义相应的量化形式,得到每条数据的数学模型;
多条数据的数学模型构成数据集合,根据数据集合构建关联矩阵,其中,关联矩阵的行对应第k帧数据集合,关联矩阵的列对应第k-1帧数据集合,关联矩阵中的元素表示对应数据对的相关性;
描述关联矩阵的优化目标和约束条件,并将约束条件放松,得到放松后的约束条件;
基于所述放松后的约束条件,采用基于经典图匹配算法改进的数据关联算法,求解第k帧数据集合和第k-1帧数据集合的关联关系;
根据多源数据的关联关系,将数据归类及合并,实现多源数据融合,从而实现轨迹关联。
本公开的第二方面提供了一种多源数据融合装置,包括:
提取单元,用于提取多源异构数据中的目标字段,其中,多源异构数据包含一个或多个字段;
预处理单元,用于基于目标字段,对多源异构数据进行预处理;
转换单元,用于将预处理后的多源异构数据转换为图数据结构的数据格式,得到格式统一的多源数据;以及
关联单元,用于采用基于自适应约束放松的多源数据关联算法关联多源数据,实现多源数据的融合,从而实现轨迹关联。
本公开的第三方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行第一方面任意一项提供的多源数据融合方法。
本公开的第四方面提供了一种电子设备,电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行第一方面任意一项提供的多源数据融合方法。
在本公开实施例提供的多源数据融合方法中,通过使用图数据结构表示多源异构数据,转换数据格式,形成统一形式的数据格式,降低了不同源数据之间关联融合难度,解决了相关技术中不同源数据之间关联融合难度较大的问题;并且,通过自适应约束放松的多源数据关联算法对多源数据进行关联匹配,可以实现多源数据的融合。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的多源数据融合方法流程示意图;
图2为本公开实施例提供的多源数据融合装置框图;
图3为本公开实施例提供的电子设备框图。
具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
随着大数据技术的不断发展以及各类数据采集方式的普及和更新换代,数据形式呈现多源化和多模态,越来越多的异构数据需要为同一个任务或事件服务。在分析和处理多源异构数据的过程中,单一数据源所记录的数据往往存在局限性,很难与他源数据形成有效互补。以收集海上船舶数据为例,采集方式不同的多源数据(例如船舶自动识别系统数据、国际海事组织数据、劳式档案数据等)对船舶的记录字段不同,对船舶唯一标识号设置不同,使得不同类型的数据难以有效利用。由于数据的格式、数据字段的命名方式、数据的管理方式等不同,造成不同源数据之间难以相互匹配关联,进而难以有效融合利用,导致不同源数据之间关联融合难度较大。因此,现有的多源数据管理分析上存在着严重的信息孤岛问题,如何能借助不同源数据中数据字段间的关联性合理融合多源数据,实现不同源数据之间的关联和补充,是多源数据研究中的一个重要问题。
在处理同源非结构化数据时,将其以图的形式进行表达,再基于图论方法对数据进行分析和调用是一种有效的思路。例如,在描述社交关系数据时,将社交主体描述为节点(Node),将社交主体之间的关系描述为节点之间的边(Edge),再以节点和边的属性(Property)分别描述主体和主体间的关系,即可实现对社交关系的图形数据库建立。图形数据库最大的特性,就是采用无索引的邻接操作代替低效率的连接操作,故而在大量数据之间查找关联关系时,可以获得较高的效率。目前常见图形数据库有Neo4j、Titan、OrientDB和InfiniteGraph等,虽然取得了一定成果,但是目前还没有非常成熟的应对大规模多源异构数据的处理技术。
现有的数据关联算法包括最邻近数据关联、概率数据关联、联合概率数据关联等方法。然而,大部分多源数据的结构不同、存储方式不同,导致不同源数据之间关联融合难度大,并且融合关联中难免存在重复与冲突,从而给多源数据融合带来了新的挑战。
为了解决上述问题,本公开实施例提供了一种多源数据融合方法,该方法基于目标字段匹配,如图1所示,该方法包括如下的步骤S101至步骤S104:
步骤S101:提取多源异构数据中的目标字段,其中,多源异构数据包含一个或多个字段;针对多源异构数据,本公开首先逐条提取每条数据中的目标字段,目的是通过目标字段在不同源数据间建立明确的有指向性的联系,在后续步骤中以目标字段为索引进行数据关联;在实际应用场景中,字段可以为各种参数,包括类型、位置、速度、标识号等,目标字段为字段中的关键字段,可以为目标名称、机构名称、人名、地名等。
在本公开一种可选的实施方式中,步骤S101中的提取多源异构数据中的目标字段包括:
判断多源异构数据中是否显式地包含目标字段;
如果显式地包含目标字段,则直接读取目标字段;对于任意一条数据,如果该数据明确显式地包含目标字段,则直接读取其目标字段;
如果非显式地包含目标字段,则采用数据抽取算法抽取多源异构数据中包含的目标字段。如果数据中非显式地包含目标字段,则根据数据的具体呈现形式,采用相应的数据抽取算法抽取其中所含的目标字段。
其中,数据抽取算法的设计逻辑包括有监督学习、无监督学习和深度学习等,数据抽取算法可以为基于正则匹配的数据抽取算法、基于词频分析的TF-IDF类算法、基于行块分布的文本抽取算法或基于注意力机制的文本提取算法;本公开以基于正则匹配的数据抽取算法为例,对目标字段的抽取过程进行描述,其是一种基于规则的、执行速度较快的自动化关键字段提取算法,该算法包括:
根据所需要融合的数据源类型,设置关键的目标字段,将设置完成的目标字段建立为目标字段库;目标字段可以包括人名、地名、目标名称、机构名称等,将设置好的目标字段建立成目标字段库,并进行存储和管理,以便后续方法调用;为了使得后续步骤能够高效查询检索目标字段库,一般将目标字段库建立为字典形式,字典中包含多对键值对,即<key, value>,目标字段以键值对形式存储于相应内存中,其中,key为所建立的目标字段库中的具体字段,value可以为相应的权重,也可以为0等占位符;
依次读取多源数据中的每条数据至内存,并采取正则匹配方式将数据的所有字段与目标字段库进行匹配;采用Python Regex包进行正则匹配,并将建立的目标字段库设置为所需要匹配的关键字段库,将每一条数据所匹配到的目标字段予以保留;
对于匹配查询出的目标字段,为该目标字段重新建立新的属性字段并添加到原有数据中,重新保存并覆盖原有数据;对于没有检索到目标字段的数据,建立相应的存放数据的目录予以存储。
本公开通过提取多源异构数据中的目标字段,解决了多源数据中目标字段不统一的问题,为后续数据关联提供支持。
本公开一种可选的实施方式中,在步骤S101中的提取多源异构数据中的目标字段之后,该方法还包括:
对多源异构数据进行筛选,将多源异构数据中不包括目标字段的数据剔除;为了能够高效进行多源异构数据的融合,在对多源异构数据目标字段识别的基础上,对多源异构数据进行筛选;
对于多源异构数据中包括目标字段的数据,在数据库中建立相应数据表,将数据整理为以目标字段为索引的数据结构,并将整理后的数据批量存储至数据表中。
为了方便理解本公开的技术方案,本公开以目标名称为例,对目标字段进行解释说明;采用下述表1所示的数据结构,在数据库(例如MySQL)中建立相应数据表,将目标名称的字段类型设置为字符串型,并将目标名称建立为索引,将数据中除目标名称字段(Name)之外的其他数据信息设置为数据属性字段(Attribute),并将按照相应数据格式整理的数据批量存储于建立好的表格中。
表1
本公开一种优选的实施方式中,在将整理后的数据批量存储至数据表中之后,该方法还包括:
确定数据库的地址和用户的登录口令,给予用户读取数据权限,使用数据库图数据结构进行数据库连接,以获取数据访问权限和数据访问方式,其中,登录口令包括登录账户和访问密码;将多源数据融合执行程序与数据库进行连接,以保证多源数据融合执行程序可以正常访问数据库,数据库图数据结构可以为Java语言中的JDBC,即Java数据库连接;
连接数据库后,对数据库中整理后的数据进行读取并保存至本地内存或硬盘。
步骤S102:基于目标字段,对多源异构数据进行预处理;
在本公开一种可选的实施方式中,步骤S102包括:
根据预先设定的目标字段正常值范围依次对数据进行匹配,如果匹配出数据中存在非法值、异常值或占位符,则将数据删除;预先设定正常值的范围、非法值所包含的敏感字段、占位符等,根据所设定的正常值范围依次对数据进行匹配,将现有数据中字段与目标名称库中目标字段比对,如果现有数据中存在非法值、异常值、占位符等字段,不在正常值的范围,则对该数据进行删除,即对整理出的数据格式中的目标字段进行异常值删除;
将数据中除目标字段外的数据信息设为数据属性字段,对多源异构数据中目标字段和数据属性字段均重复的数据进行删除,并对目标字段重复、数据属性字段存在差异的数据予以保留。
通过对多源数据进行预处理,最大程度上删除原始多源数据中的错误数据和重复数据,同时保留原始多源数据中的信息,并降低计算消耗。
步骤S103:将预处理后的多源异构数据转换为图数据结构的数据格式,得到格式统一的多源数据;预处理后的多源异构数据作为待关联数据转换为图数据形式的数据格式,用于后续的匹配操作。
在本公开一种可选的实施方式中,步骤S103包括:
按照下述公式将预处理后的多源异构数据转换为描述数据及数据间关联关系的图模型G:
其中,,V表示数据集合,/>表示第i条数据,n表示数据的数量,E表示数据之间的关联关系。数据的记录内容如上述表1所示,需要说明的是,在当前阶段,数据之间的关联关系是未知的,后续将通过步骤S104确定数据之间的关联关系。
本公开通过使用图数据结构表示多源异构数据,转换数据格式,形成统一形式的数据格式,降低了不同源数据之间关联融合难度,解决了相关技术中不同源数据之间关联融合难度较大的问题。
步骤S104:采用基于自适应约束放松的多源数据关联算法关联多源数据,实现多源数据的融合,从而实现轨迹关联。基于自适应约束放松的多源数据关联,实现数据匹配,基于多源数据之间关联关系,实现多源数据的有效融合,由于多源数据包括目标的同一轨迹数据和不同轨迹数据,因此实现多源数据融合时,即可得到多条轨迹的关联关系,从而实现轨迹关联。
在本公开一种可选的实施方式中,步骤S104包括:
在时间域内,设置以帧为基本单位,对于第k帧数据集合和第k-1帧数据集合的关联关系,根据任务需求确定关联关系中考量的关键属性,并定义相应的量化形式,得到每条数据的数学模型;
多条数据的数学模型构成数据集合,根据数据集合构建关联矩阵,其中,关联矩阵的行对应第k帧数据集合,关联矩阵的列对应第k-1帧数据集合,关联矩阵中的元素表示对应数据对的相关性;
描述关联矩阵的优化目标和约束条件,并将约束条件放松,得到放松后的约束条件;
基于放松后的约束条件,采用基于经典图匹配算法改进的数据关联算法,求解第k帧数据集合和第k-1帧数据集合的关联关系;即,确定出数据之间的关联关系;
根据多源数据的关联关系,将数据归类及合并,实现多源数据融合,从而实现轨迹关联。
对于不同应用场景的多源数据,可以通过具体数据关联关系中需要考量的关键属性,达到数据关联和融合的目的;本公开以海上目标的轨迹关联为例,说明多源数据的关联和融合过程,在海上目标的轨迹关联这一场景下,多源数据包括目标的同一轨迹数据和不同轨迹数据,数据关联即轨迹关联。
在复杂的海上航行场景下,船舶间的航迹具有较强的自身关联性和相互关联性;其中,自身关联性是指目标自身轨迹在时间域内的前后关联关系,相互关联性是指一定时间范围内多个目标之间在空间域内的相互关联关系;本公开可以实现对多源数据形式记录的海上目标轨迹间的关联关系进行描述,包括跟踪过程中跨时间域的轨迹关联、轨迹中断时的轨迹恢复和多目标轨迹间相互关系的描述。
具体来说,在时间域内,假设以帧为基本单位,则第k帧的轨迹集合为,n表示第k帧轨迹集合中轨迹的数量,第k-1帧的轨迹集合为/>,m表示第k-1帧轨迹集合中轨迹的数量,下面以描述第k帧数据集合和第k-1帧数据集合这两组轨迹集合的关联关系为例,说明自适应约束放松的多源数据关联过程。
首先,根据不同任务需求确定轨迹关联关系中考量的关键属性,并定义相应的量化形式,进而得到每条轨迹的数学模型;关键属性集合可以为:{目标位置,目标速度},也可以为:{目标位置,目标速度,目标类型};其中,目标位置用于描述目标在某时刻的空间位置信息,这里的空间可以是三维的世界坐标系,也可以是视角转换的二维平面坐标系,时间单位可以用秒或帧来区分;目标速度用于描述目标在时间域上位置变化的趋势和大小,一般用矢量表示,涵盖速度的绝对值和方向;目标类型描述目标实物的种类,如舢板、渔船等。
多条轨迹的数学模型构成轨迹集合,根据轨迹集合构建关联矩阵或相似度矩阵,其中,关联矩阵的行对应第k帧的轨迹集合,关联矩阵的列对应第k-1帧的轨迹集合,关联矩阵中的元素表示对应轨迹对的相关性,即,关联矩阵中第i行第j列的元素/>表示/>和/>的相关程度;
如果轨迹关联关系中考量的关键属性只包括目标位置和目标速度,则可以按照下述公式确定第k帧的轨迹i与第k-1帧的轨迹j之间的相似度
其中,表示计算目标位置相关性的函数,/>表示第k帧的轨迹i对应目标的位置,/>表示第k-1帧的轨迹j对应目标的位置,/>表示计算目标速度相关性的函数,/>表示第k帧的轨迹i对应目标的速度矢量,/>表示第k-1帧的轨迹j对应目标的速度矢量;当目标的位置信息用二维坐标系表示时,可以按照下述公式确定位置相似性/>
其中,表示第k帧的轨迹i对应目标在二维坐标系下的横坐标,/>表示第k-1帧的轨迹j对应目标在二维坐标系下的横坐标,/>表示第k帧的轨迹i对应目标在二维坐标系下的纵坐标,/>表示第k-1帧的轨迹j对应目标在二维坐标系下的纵坐标,/>表示第k帧的轨迹i对应目标的宽,/>表示第k-1帧的轨迹j对应目标的宽,/>表示第k帧的轨迹i对应目标的高,/>表示第k-1帧的轨迹j对应目标的高,用于数值归一化。/>则可以简单地采用余弦相似度计算。
描述关联矩阵的优化目标和约束条件,并将约束条件放松,得到放松后的约束条件;
理论上而言,基于上述相似度矩阵,可以直接根据经典的图匹配算法对各个轨迹之间的关联关系进行求解,然而,在实际航迹关联任务中,由于实际问题的约束条件和算法假设往往不同,无法直接使用经典图匹配算法;因此,需要先对求解目标和约束条件进行描述;
按照下述公式确定求解关联矩阵关联结果的优化目标/>和约束条件为:
其中,为关联矩阵/>中的元素,如上述公式所示,经典的二部图匹配算法都是针对二部图的一对一匹配,多部图可推广为多个二部图匹配的链式关联问题;在上述优化目标和约束条件下,第k帧的轨迹集合/>中的一条轨迹最多与第k-1帧的轨迹集合中的一条轨迹存在关联关系,这并不符合多条轨迹间关联关系的实际情况;因此,本公开将上述约束条件放松,放松后的约束条件为:
其中,p和q分别表示以行为索引和以列为索引判断对应关联关系存在的阈值,即对于某一轨迹对来说,如果其相关性大于p,则表明二者存在关联关系,相关性大小表征关联程度。需要说明的是,上述过程针对以行为索引计算相似度的情况,由于矩阵非对称,/>和/>不一定相等,因此设置以列为索引的阈值q,如果矩阵对应元素大于q,则表明二者存在关联关系,对应元素大小表示关联程度的强弱。
基于上述放松后的约束条件,采用基于经典图匹配算法改进的数据关联算法,求解第k帧轨迹集合和第k-1帧轨迹集合的关联关系,即海上航行中的航迹关联关系;其中,改进是指基于非对称矩阵描述形式和约束条件描述形式的算法求解,改进形式包括分步、多阶段的数据关联算法组合;
本公开实施例提供的一种可选的改进方式为:根据矩阵元素的相似性分布,自适应地确定阈值,基于阈值和多阶段数据关联算法,求解得到所需关联矩阵,再根据关联矩阵中的对称和非对称关系,基于规则或其他智能算法进一步判断关联关系,最终输出两个轨迹集合的关联关系矩阵,该关联关系矩阵为对称矩阵,该关联关系矩阵中的元素对应每对轨迹的关联关系;其中,关联关系可以是以逻辑值表示的关联关系是否存在,也可以是以概率值表示的关联关系强弱,还可以是包含轨迹关键属性相关性的向量或高阶矩阵等,此时,本质上而言,关联矩阵上升为相应阶数的张量。
根据轨迹数据的关联关系,将数据归类及合并,实现多源数据融合,从而实现轨迹关联。轨迹数据融合时,可以得到多条轨迹的关联关系,根据关联关系将轨迹数据归类,将不属于同一轨迹的数据归为不同类别,并将属于同一轨迹的数据合并;同时在相应轨迹数据中,增加记录该轨迹数据与其他轨迹数据的相关关系,从而达到对于轨迹数据自身相关性和相互相关性的描述,从而实现轨迹关联。
本公开一种可选的实施方式中,在实现多源数据的融合之后,该方法还包括:
连接数据库;连接数据库包括:确定数据库的地址和用户的登录口令,给予用户读取数据权限,使用数据库图数据结构进行数据库连接,以获取数据访问权限和数据访问方式,其中,登录口令包括登录账户和访问密码,数据库图数据结构可以为Java语言中的JDBC,即Java数据库连接;
对融合后的数据进行存储,利用数据连接工具将融合后的数据按照指定要求存储至数据库,实现对融合后数据的管理。
从以上的描述中,可以看出,本公开实现了如下技术效果:
本公开通过提取多源异构数据中的目标字段,解决了多源数据中目标字段不统一的问题,为后续数据关联提供支持;
通过对多源数据进行预处理,最大程度上删除原始多源数据中的错误数据和重复数据,同时保留原始多源数据中的信息,并降低计算消耗;
通过使用图数据结构表示多源异构数据,转换数据格式,形成统一形式的数据格式,降低了不同源数据之间关联融合难度,解决了相关技术中不同源数据之间关联融合难度较大的问题;
基于自适应约束放松的多源数据关联实现数据匹配,进而实现多源数据的有效融合,由于多源数据包括目标的同一轨迹数据和不同轨迹数据,因此实现多源数据融合时,即可得到多条轨迹的关联关系,从而实现轨迹关联。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本公开实施例还提供了一种用于实施上述多源数据融合方法的多源数据融合装置,如图2所示,多源数据融合装置20包括:
提取单元21,用于提取多源异构数据中的目标字段,其中,多源异构数据包含一个或多个字段;
预处理单元22,用于基于目标字段,对多源异构数据进行预处理;
转换单元23,用于将预处理后的多源异构数据转换为图数据结构的数据格式,得到格式统一的多源数据;以及
关联单元24,用于采用基于自适应约束放松的多源数据关联算法关联多源数据,实现多源数据的融合,从而实现轨迹关联。
上述装置实施例中各单元的执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处不做详细阐述说明。
本公开实施例还提供了一种电子设备,如图3所示,该电子设备包括一个或多个处理器31以及存储器32,图3中以一个处理器31为例。
该控制器还可以包括:输入装置33和输出装置34。
处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,简称为CPU),处理器31还可以为其他通用处理器、数字信号处理器(DigitalSignal Processor,简称为DSP)、专用集成电路(Application Specific Integrated Circuit,简称为ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称为FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合,通用处理器可以是微处理器或者任何常规的处理器。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本公开实施例中的控制方法对应的程序指令/模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的多源数据融合方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置33可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。
一个或者多个模块存储在存储器32中,当被一个或者多个处理器31执行时,执行如图1所示的方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各电机控制方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,简称为ROM)、随机存储记忆体(RandomAccessMemory,简称为RAM)、快闪存储器(Flash Memory,简称为FM)、硬盘(HardDisk Drive,简称为HDD)或固态硬盘(Solid-State Drive,简称为SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种多源数据融合方法,其特征在于,包括:
提取多源异构数据中的目标字段,其中,所述多源异构数据包含一个或多个字段;
基于所述目标字段,对所述多源异构数据进行预处理;
将预处理后的多源异构数据转换为图数据结构的数据格式,得到格式统一的多源数据;以及
采用基于自适应约束放松的多源数据关联算法关联所述多源数据,实现多源数据的融合,从而实现轨迹关联。
2.根据权利要求1所述的方法,其特征在于,所述提取多源异构数据中的目标字段包括:
判断所述多源异构数据中是否显式地包含所述目标字段;
如果显式地包含所述目标字段,则直接读取所述目标字段;
如果非显式地包含所述目标字段,则采用数据抽取算法抽取所述多源异构数据中包含的目标字段。
3.根据权利要求1所述的方法,其特征在于,在提取多源异构数据中的目标字段之后,所述方法还包括:
对所述多源异构数据进行筛选,将所述多源异构数据中不包括目标字段的数据剔除;
对于所述多源异构数据中包括目标字段的数据,在数据库中建立相应数据表,将数据整理为以所述目标字段为索引的数据结构,并将整理后的数据批量存储至所述数据表中。
4.根据权利要求3所述的方法,其特征在于,在将整理后的数据批量存储至所述数据表中之后,所述方法还包括:
确定所述数据库的地址和用户的登录口令,给予用户读取数据权限,使用数据库图数据结构进行数据库连接,以获取数据访问权限和数据访问方式,其中,所述登录口令包括登录账户和访问密码;
连接所述数据库后,对所述数据库中整理后的数据进行读取并保存至本地内存或硬盘。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标字段,对所述多源异构数据进行预处理,包括:
根据预先设定的目标字段正常值范围依次对数据进行匹配,如果匹配出数据中存在非法值、异常值或占位符,则将所述数据删除;
将数据中除所述目标字段外的数据信息设为数据属性字段,对所述多源异构数据中目标字段和数据属性字段均重复的数据进行删除,并对目标字段重复、数据属性字段存在差异的数据予以保留。
6.根据权利要求1所述的方法,其特征在于,所述将预处理后的多源异构数据转换为图数据结构的数据格式,得到格式统一的多源数据,包括:
按照下述公式将预处理后的多源异构数据转换为描述数据及数据间关联关系的图模型G:其中,/>,V表示数据集合,/>表示第i条数据,n表示数据的数量,E表示数据之间的关联关系。
7.根据权利要求1所述的方法,其特征在于,所述采用基于自适应约束放松的多源数据关联算法关联所述多源数据,实现多源数据的融合,从而实现轨迹关联,包括:
在时间域内,设置以帧为基本单位,对于第k帧数据集合和第k-1帧数据集合的关联关系,根据任务需求确定所述关联关系中考量的关键属性,并定义相应的量化形式,得到每条数据的数学模型;
多条数据的数学模型构成数据集合,根据所述数据集合构建关联矩阵,其中,所述关联矩阵的行对应第k帧数据集合,所述关联矩阵的列对应第k-1帧数据集合,所述关联矩阵中的元素表示对应数据对的相关性;
描述所述关联矩阵的优化目标和约束条件,并将所述约束条件放松,得到放松后的约束条件;
基于所述放松后的约束条件,采用基于经典图匹配算法改进的数据关联算法,求解第k帧数据集合和第k-1帧数据集合的关联关系;
根据多源数据的关联关系,将数据归类及合并,实现多源数据融合,从而实现轨迹关联。
8.一种多源数据融合装置,其特征在于,包括:
提取单元,用于提取多源异构数据中的目标字段,其中,所述多源异构数据包含一个或多个字段;
预处理单元,用于基于所述目标字段,对所述多源异构数据进行预处理;
转换单元,用于将预处理后的多源异构数据转换为图数据结构的数据格式,得到格式统一的多源数据;以及
关联单元,用于采用基于自适应约束放松的多源数据关联算法关联所述多源数据,实现多源数据的融合,从而实现轨迹关联。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7任意一项所述的多源数据融合方法。
10.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任意一项所述的多源数据融合方法。
CN202311037166.6A 2023-08-17 2023-08-17 多源数据融合方法、装置及电子设备 Active CN116775744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311037166.6A CN116775744B (zh) 2023-08-17 2023-08-17 多源数据融合方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311037166.6A CN116775744B (zh) 2023-08-17 2023-08-17 多源数据融合方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN116775744A true CN116775744A (zh) 2023-09-19
CN116775744B CN116775744B (zh) 2023-11-07

Family

ID=88011898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311037166.6A Active CN116775744B (zh) 2023-08-17 2023-08-17 多源数据融合方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116775744B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150156578A1 (en) * 2012-09-26 2015-06-04 Foundation for Research and Technology - Hellas (F.O.R.T.H) Institute of Computer Science (I.C.S.) Sound source localization and isolation apparatuses, methods and systems
CN109101217A (zh) * 2013-03-15 2018-12-28 先进元素科技公司 用于有目的计算的方法和系统
CN109188423A (zh) * 2018-08-29 2019-01-11 电子科技大学 一种基于多源聚类的分布式多目标跟踪方法
CN115577315A (zh) * 2022-09-28 2023-01-06 上海机动车检测认证技术研究中心有限公司 一种车路协同多目标跟踪方法及系统
CN116266360A (zh) * 2021-12-16 2023-06-20 长安大学 一种基于多源信息融合的车辆目标检测跟踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150156578A1 (en) * 2012-09-26 2015-06-04 Foundation for Research and Technology - Hellas (F.O.R.T.H) Institute of Computer Science (I.C.S.) Sound source localization and isolation apparatuses, methods and systems
CN109101217A (zh) * 2013-03-15 2018-12-28 先进元素科技公司 用于有目的计算的方法和系统
CN109188423A (zh) * 2018-08-29 2019-01-11 电子科技大学 一种基于多源聚类的分布式多目标跟踪方法
CN116266360A (zh) * 2021-12-16 2023-06-20 长安大学 一种基于多源信息融合的车辆目标检测跟踪方法
CN115577315A (zh) * 2022-09-28 2023-01-06 上海机动车检测认证技术研究中心有限公司 一种车路协同多目标跟踪方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
熊和金, 刘祖源: "水上交通安全信息处理中的神经网络技术", 系统工程与电子技术, no. 11 *
王海颖: "多源数据关联与融合算法研究", 《信息科技》, no. 2 *
詹国华;何炎雯;李志华;: "智能健康管理多源异构数据融合体系与方法", 计算机应用与软件, no. 09 *

Also Published As

Publication number Publication date
CN116775744B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
US20220147715A1 (en) Text processing method, model training method, and apparatus
CN110163234B (zh) 一种模型训练方法、装置和存储介质
WO2022068196A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN109471938B (zh) 一种文本分类方法及终端
TWI706273B (zh) 統一資源定位符(url)攻擊檢測方法、裝置及電子設備
US20190108242A1 (en) Search method and processing device
CN111581355B (zh) 威胁情报的主题检测方法、装置和计算机存储介质
CN111143838B (zh) 数据库用户异常行为检测方法
US11176403B1 (en) Filtering detected objects from an object recognition index according to extracted features
KR20230107558A (ko) 모델 트레이닝, 데이터 증강 방법, 장치, 전자 기기 및 저장 매체
CN111881666B (zh) 一种信息处理方法、装置、设备及存储介质
CN113537337A (zh) 训练方法、异常检测方法、装置、设备和存储介质
Wu et al. Research on network intrusion detection technology based on machine learning
US20190050672A1 (en) INCREMENTAL AUTOMATIC UPDATE OF RANKED NEIGHBOR LISTS BASED ON k-th NEAREST NEIGHBORS
US20190377823A1 (en) Unsupervised classification of documents using a labeled data set of other documents
CN116775744B (zh) 多源数据融合方法、装置及电子设备
CN112818114A (zh) 信息的分类方法、检测方法、计算设备及存储介质
Guo [Retracted] Intelligent Sports Video Classification Based on Deep Neural Network (DNN) Algorithm and Transfer Learning
Bhoj et al. LSTM powered identification of clickbait content on entertainment and news websites
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
Zhou et al. Social network construction of the role relation in unstructured data based on multi-view
Gaykar et al. A Hybrid Supervised Learning Approach for Detection and Mitigation of Job Failure with Virtual Machines in Distributed Environments.
Rohith et al. A natural language processing system for truth detection and text summarization
Ansari et al. Multi video summarization using query based deep optimization algorithm
CN116955560B (zh) 基于思考链和知识图谱的数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant