CN113780003B - 时空数据变分编解码跨模态增强方法 - Google Patents
时空数据变分编解码跨模态增强方法 Download PDFInfo
- Publication number
- CN113780003B CN113780003B CN202111011043.6A CN202111011043A CN113780003B CN 113780003 B CN113780003 B CN 113780003B CN 202111011043 A CN202111011043 A CN 202111011043A CN 113780003 B CN113780003 B CN 113780003B
- Authority
- CN
- China
- Prior art keywords
- data
- coding
- track
- modal
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 20
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 16
- 238000012163 sequencing technique Methods 0.000 claims abstract description 11
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 8
- 230000014509 gene expression Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 210000004027 cell Anatomy 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000010921 in-depth analysis Methods 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 101150060512 SPATA6 gene Proteins 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开的一种时空数据变分编解码跨模态增强方法,具有鲁棒性。本发明通过下述技术方案予以实现:根据已有飞行器相关的轨迹数据生成相应的语义文本信息,将原始时空轨迹数据送入变分编解码器,表示学习模块利用获得时空数据的潜在语义编码向量,通过变分循环编码模块引入深度神经网络,对应跨模态数据编码层的距离,在时空数据上增强跨模态;最小化保持度量学习、排序,得到在时空数据上进行跨模态不同模态表达的增强实数值以及向量编码,变分编解码生成模块基于变分模态分解对时空数据中重要程度不同的部分进行匹配追踪(MP)和注意力机制分配,通过语句变分编解码生成增强的时空轨迹描述文本数据,即对应语境描述轨迹详情的增强文本数据。
Description
技术领域
本发明是关于多模态学习、时空数据分析等诸多数据挖掘领域的数据增强技术,特别是涉及时空数据跨模态增强技术。
背景技术
在一个由大量不同模态内容(文本、图像、视频、音频、传感器数据、3D等)构建而成的多媒体世界里,涉及多个模态的数据的交互,例如图像和视频的检索,字幕,视频摘要,文本到图像和视频的预测与合成,语言驱动的时空动作定位,以及视觉常识推理等等。随着信息技术的飞速发展,数据量呈现爆炸式增长,跨模态任务也越来越多,数据之间存在的耦合关系越来越复杂,数据分析的难度日益增大。同时,由于不同模态的内容在具体事件和应用中具有高度相关性,数据之间存在着一定的潜在联系,往往可以利用多模态内容特征学习、实体识别、知识图谱、逻辑推理、语言表达等方面的多种技术对其进行一定的转换,使得我们能够更好地理解原始数据所表示的复杂含义,利用不同模态内容的相关性发现某些跨模态任务隐藏的规律,进行相关性系统性能优化。由于技术的崛起很大程度上取决于底层技术的发展和突破,多模态学习对于实际系统的性能优化至关重要,同时也是一个难题。它通常需要将不同模态数据嵌入到一个公共表示空间中,以便进行对齐、比较和融合。早期人们使用的手工方法,是根据先验知识和常识寻找一个良好的嵌入空间,但如何找到最佳嵌入空间是一个极其困难的问题。而现在,虽然能够借助深度学习技术已经能够轻松寻找良好的嵌入空间,但是目前大多数深度学习方法依赖于大量有标注的数据,要想获得更好的性能,就必须拥有更多的有标注数据,这成为了一个主要瓶颈。在实践中,对大量数据进行标注并使训练收敛到最佳位置,其困难程度丝毫不亚于手工制作一个良好的嵌入空间。对于多模态学习、跨模态学习更是如此,因为它需要同步标注对齐的多模态数据,例如图像和语音对齐。多模态数据的迅速增长衍生了各种各样的检索、搜索技术。通常,跨模态检索的目的是以一种模态的数据作为查询来检索相关的其他模态数据。然而这些搜索技术大多是针对单一模态内检索,如基于关键字的检索和基于内容的检索,它们只执行相同媒体类型的相似性搜索,如文本检索、图像检索、音频检索和视频检索。与传统的单模态检索方法相比,跨模态检索需要构建跨模态关系模型,以便用户可以通过提交他们所拥有的模态来检索他们期望的模态。跨模态检索的挑战在于如何度量不同模态数据之间的内容相似性,也称之为异质鸿沟问题(heterogeneity gap)。这些技术大致包含7类,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。但是无法囊括近些年来涌现的新方法和新工作,无法涵盖跨模态检索任务的所有重要问题。
针对跨模态检索面临的各种挑战性问题,现有技术提供了各种思路和技术,这些技术与传统的单模态学习不同。在跨模态学习中,模型输出的模态和原始输入的模态是不同的。比如,输入为时空数据,输出为文本数据。跨模态学习进行联合特征学习和跨模态关系建模,能够有效地利用不同模态内容的相关性进行系统性能优化。跨模态学习的关键在于对不同模态的关系进行建模,难点就是跨越不同模态的语义鸿沟。通常,一个跨模态学习系统采用共享子空间的方法,希望不同模态在子空间上的表达满足一定的特性,比如,在运动目标检测上,同一对样本的表达尽可能接近,不同对样本的表达尽可能疏远。尤其在复杂环境和极端条件下,例如,当监控场景在黑暗、浓雾、遮挡等条件下,检测精度低甚至无法检测。采用现有技术基于矩阵低秩稀疏分解方法的鲁棒性较低,且检测的目标区域信息不完整。由于基于时空运动目标显示小,检测难度大,很多运动目标检测算法在简单场景下效果较好,但在大田场景下误检率高,且基于时域的运动目标检测方法和跟踪算法,应用在复杂环境下动态背景扰动、高噪声和阴影干扰等场景的传统算法在上述场景下,易将大面积动态干扰误检为前景区域,会导致检测不完整问题,尤其在跨模态时空数据增强方面时仍有许多困难,如恶劣的天气状况以及目标长时间被遮挡等情况。
目前针对引入时序信息和运动目标检测区域信息不完整等问题,提出了许多对运动目标检测与跟踪技术有效,弥补现有算法缺点的鲁棒算法,但是由于实际环境的复杂多变,使得现有算法并不能满足实际应用的需要。现有技术经验模态分解(Empirical ModeDecomposition,EMD)能将待处理信号分解为一系列固有模态函数(Intrinsic ModeFunction,IMF),这些IMF具有正交性、完备性和自适应性等特点,并能对待处理信号进行不同尺度的描述(Huang et al.,1998);变分模态分解VMD的整体结构是变分问题,其约束条件是使每阶模态的估计带宽之和最小,且各模态之和等于输入信号,然而,EMD存在边界效应及模态混叠现象,在分解过程中往往导致某一个模态或多个模态包含不同尺度的信号或相似信号。
根据给定信息的丰富程度,基于跨模态信息以及基于跨模态数据语义标注,可以将跨模态学习任务分为两种,即无监督跨模态学习和有监督跨模态学习。这两种任务最大的差异在于是否存在额外的语义标注信息。然而所有无监督DCCA框架难以引入数据语义信息进行共同表示学习的增强。由于DCCA算法在梯度更新时采用标准的随机梯度算法进行参数更新,因此容易陷入局部最优解进而产生过拟合。为了克服该问题,高斯—牛顿算法(Gauss-Newton)提供了一种可行方案,但却容易受到黑塞矩阵(Hessian)不可逆的计算问题影响。
近年来跨模态学习领域的研究方向主要集中在跨模态检索上,如跨模态图像检索、跨模态文本检索等,对于跨模态时空数据增强方面的研究比较少。这主要是因为时空、信号、文本模态等模态在特征表达层面并不对称,除此以外,这种模态特征的长度以及区分能力更是相差很大,这为跨模态时空数据增强带来了一个重大挑战很大的挑战。但是,时空数据跨模态增强可以更好地理解原始数据所表示的复杂含义,并发现某些隐藏的规律,可以借助无限量的无标注数据的无监督的方式预训练好各种功能,或类似由变型器组成的双向编码器(BERT)的无监督预训练技术,利用无限量的未标注数据作预训练,对不同任务的优化,解决跨模态时空数据增强带来的难题。
基于此,本专利提出一种时空数据变分编解码跨模态增强方法,根据已有的飞行器相关的轨迹数据生成相应的语义文本信息,辅助时空数据深度分析以及扩充相关领域文本数据,支撑文本模型的训练预测。
发明内容
为更好地理解原始数据所表示的复杂含义,并发现某些隐藏的规律,本发明针对现有时空数据增强方法领域单一,无监督DCCA框架难以引入数据语义信息进行共同表示学习增强的问题,提供一种具有鲁棒性的跨模态的时空数据增强方法,以有利于后续文本分类、目标意图判断等下游任务。
为达到上述的目的,本发明提供一种时空数据变分编解码跨模态增强方法,其特征在于包括如下步骤:根据已有飞行器相关的轨迹数据生成相应的语义文本信息,辅助时空数据深度分析以及扩充相关领域文本数据,将原始时空轨迹数据送入变分编解码器,嵌入式表示学习模块对不同模态数据采用各自的自编码网络进行编码层表示学习不同模态数据,利用获得时空数据的潜在语义编码向量,并通过变分循环编码模块引入深度神经网络,借助长短期记忆网络LSTM对应跨模态数据的编码层的距离,基于变分编解码网络建模轨迹描述时间、速度、航向经度和维度重要信息,在时空数据上进行跨模态增强,实现时空数据跨模态转换,最小化实现保持度量学习、排序,得到在时空数据上进行跨模态不同模态表达的增强实数值,以及构的编码,然后,变分编解码生成模块基于变分模态分解(VMD)对时空数据中重要程度不同的部分进行匹配追踪(MP)和注意力机制分配,实现关键数据段自动分配高权重和非关键数据段自动分配低权重,基于跨模态数据语义标注,在不同的跨模态数据信息提供下,通过语句变分编解码生成增强的时空轨迹描述文本数据,即对应语境描述轨迹详情的增强文本数据。
本发明相比于现有技术具有如下有益效果:
本发明根据已有飞行器相关的轨迹数据生成相应的语义文本信息,辅助时空数据深度分析以及扩充相关领域文本数据,利用嵌入式表示学习获得时空数据的潜在向量,并获得时空数据的语义编码向量,实现跨模态转换;然后,对时空数据中重要程度不同的部分进行注意力分配,实现关键数据段自动分配高权重,非关键数据段自动分配低权重;最后,利用基于变分编解码网络来建模时间、速度、航向经度、维度等重要信息对时空轨迹数据进行文本描述生成,输出符合特定语境的描述语句。通过以上技术方案,实现了时空数据跨模态增强,既可以增强时空数据本身分析,又可以加强文本领域相关分析,充分挖掘模态间的相关性,挖掘不同模态之间的隐藏规律,支撑目标意图判断等下游任务。
本发明采用嵌入变分编解码器,利用嵌入式表示学习获得时空数据的潜在语义编码向量,通过变分循环编码,在时空数据上进行跨模态增强,实现时空数据跨模态转换,学习得到在时空数据上进行跨模态不同模态表达的增强实数值以及构成的编码;在时空数据上进行跨模态增强,相比传统单一模态的增强方式,消除了复杂干扰,提高了检测准确性和抗干扰能力,具有一定的鲁棒性,变分编解码器结构的重构一定程度缓解了过拟合问题。
本发明采用不同模态数据采用各自的自编码网络进行编码层表示学习,通过对应跨模态数据的编码层的距离最小化实现保持度量学习、排序,得到在时空数据上进行跨模态不同模态表达的增强实数值以及构成的编码;提升共同表示的学习能力。这种基于位的最大间隔优化目标实现了更有效的量化,结合更有效的跨模态融合网络实现了更有效的哈希表达学习,通过优化给定的跨模态数据间相似性关系的学习,提升跨模态实值或二值共同表示学习,实现了更有效跨模态共同表示学习,使得所学习的共同表示能够基于更强的提取特征。
本发明通过对模拟和实测数据的分析处理,基于变分编解码器编码变分解码,通过语句变分编解码生成增强时空轨迹描述文本数据,基于变分编解码网络建模时间、速度、航向经度、维度重要信息,引入深度神经网络,基于跨模态数据语义标注,在不同的跨模态数据信息提供下,将处理流程生成的增强时空轨迹描述数据文本输出,通过将传统相关分析方法中的线性映射替换为深度神经网络,实现不同模态映射空间下的数据最大相关性,能有效剔除时间域序列中的大尺度强干扰,通过最大化模态之间相关关系学习,深度神经网络的引入有利于相关性最大化目标函数的优化。利于后续文本分类、目标意图判断等下游任务。
附图说明
为了更清楚地理解本发明,以下结合附图及实施例,对本发明进行进一步详细说明,同时参照附图,来描述本发明,其中:
图1是本发明时空数据变分编解码跨模态增强流程图;
图2是图1时空数据变分编解码跨模态增强原理图;
图3是图1嵌入表示学习模块原理图。
图4是图1变分编解码器编码-解码模块的原理图;
具体实施方式
参阅图1。根据本发明,依据已有飞行器相关的轨迹数据生成相应的语义文本信息,辅助时空数据深度分析以及扩充相关领域文本数据,将原始时空轨迹数据送入变分编解码器,嵌入式表示学习模块对不同模态数据采用各自的自编码网络进行编码层表示学习不同模态数据,利用获得时空数据的潜在语义编码向量,并通过变分循环编码模块引入深度神经网络,借助长短期记忆网络LSTM对应跨模态数据的编码层的距离,基于变分编解码网络建模轨迹描述时间、速度、航向经度和维度重要信息,在时空数据上进行跨模态增强,实现时空数据跨模态转换,最小化实现保持度量学习、排序,得到在时空数据上进行跨模态不同模态表达的增强实数值,以及向量编码,然后,变分编解码生成模块基于变分模态分解(VMD)对时空数据中重要程度不同的部分进行匹配追踪(MP)和注意力机制分配,实现关键数据段自动分配高权重和非关键数据段自动分配低权重,基于跨模态数据语义标注,在不同的跨模态数据信息提供下,通过语句变分编解码生成增强的时空轨迹描述文本数据,即对应语境描述轨迹详情的增强文本数据。
时空数据变分编解码跨模态增强流程主要分为三个部分,一是输入,二是处理流程,三是输出。其中,输入对应的原始时空轨迹数据,即飞行器单条轨迹数据;处理流程对应基于变分编解码器的编码和解码过程,主要包括嵌入表示学习阶段、变分循环编码阶段、变分解码生成阶段三个部分;输出对应的描述轨迹详情的文本数据。
轨迹嵌入表示学习阶段,嵌入表示学习模块通过轨迹表示学习,融合先验的摘要信息和轨迹数据的自身属性,借鉴分布式词向量表示的思想,将轨迹单元视为词语,利用无监督学习的方式将轨迹单元映射到连续的向量空间中,挖掘邻近轨迹单元之间的隐含语义联系和上下文关系,进而得到轨迹的语义表示。
表示学习模块在多模态表示学习中,采用加权的排序数据对损失函数选择最具判别性的负样本进行基于共同表示的排序学习,同时,基于间隔的损失函数进行建模,以使得模态内相似的样本具有相似的共同表示;利用跨模态数据间提供的数据语义信息数据的单标签或多标签语义标注,计算跨模态数据间相似度信息,进行相关分析,语义预测、度量学习、学习排序和对抗学习,基于当前数据提供的语义信息进行微调。
为减少整体网络参数,针对不同模态,变分循环编码阶段,变分循环编码模块采用不同的神经网络进行各自模态高层语义表示学习,并在该神经网络层进行一一对应关系保持,基于变分编解码器通过激活函数进行二值化变换,计算不同模态内数据间的相似度矩阵,并基于该相似度矩阵进行线性加权,直接进行数据间相似性与非相似性的计算,生成跨模态数据间相似度,以线性判别分析为优化目标与实际相似度对齐,得到跨模态统一度量矩阵,其中,实际相似度计算由语义信息提供。
基于变分编解码器哈希编码,不同模态的特征以提取网络作为哈希函数,计算相似度矩阵与该统一度量矩阵保持一致的数据间的相似性关系,变分循环编码模块采用经典的三元组排序构建距离优化目标和预测语义分布与实际语义标注分布的计算损失函数KL散度最小优化目标,通过自学习的方式进行学习,采用变分编解码器强化学习方法进行优化以缓解离散量,以学习跨模态实值与二值共同表示的学习构建,获得用于跨模态距离度量的实值与二值共同表示,计算不同模态数据的相似度,基于最大间隔优化目标来约束共同表示下的数据相似性与非相似性,利用跨模态数据间的相似度值,实现哈希编码学习的增强。
参阅图2。时空数据变分编解码跨模态增强主要包括:原始时空数据处理、轨迹嵌入表示学习、变分循环编码、变分解码生成和增强文本输出5个阶段,其中,在原始时空数据处理阶段需要对具体场景下各类飞行器时空数据的组成、轨迹类别等特征进行分析和预处理,解决轨迹数据输入时可能存在的数据质量和规范问题,包括定位数据不准确、数据不完整、数据缺失、数据不一致等。然后构建轨迹摘要,提取生成文本数据的关键信息如飞行时间、起点位置、中途经历、终点位置等作为训练样本的核心字段。
在原始时空数据处理阶段,变分编解码器采用原始时空数据处理模块处理具体场景下各类飞行器由大量点迹构成的飞行器时空轨迹数据:、对输入轨迹数据中的定位数据不准确、数据不完整、数据缺失、数据不一致的轨迹类别特征进行分析和预处理,提取生成文本数据中关于飞行时间、起点位置、中途经历、终点位置的关键信息构建轨迹摘要,作为训练样本的核心字段。
在变分循环编码阶段,变分循环编码模块将轨迹表示学习的时空嵌入向量编码为隐变量z,为学习数据的表示,借助长短期记忆网络LSTM的变体GRU模型的更新门和重置门构建通用的GRU(Gated Recurrent Unit,GRU)学习网络框架,对于每个轨迹TRi,GRU模型利用变分自编码器来最大化每个目标轨迹在训练集下的概率Pθ(TR):
pθ(TR)=∫zpθ(TR|z)pθ(z)dz
Pθ(z)=N(0,I)
其中,Pθ(TR|z)的是条件生成器,Pθ(z)是随机变量z的先验分布,即Pθ(z)=N(0,ID标准正态分布,I是单位矩阵,θ是生成模型的参数。
在变分解码生成阶段,变分解码生成模块利用条件生成器Pθ(TR|z)生成变分编码模型q(Z|I):
变分解码生成模块根据变分编码模型产生的均值μi和方差σ生成语义编码向量,构建GRU网络学习框架,使用均方误差(Mean Square Error,MSE)并加入各独立正态分布和标准正态分布,来衡量低维潜在变量与真实飞行器航迹数据之间的距离,计算损失函数KL的交叉熵与K-L散度log Pθ(TR),得到变分解码生成模型的参数θ:
参阅图3。嵌入表示学习具体来说,是将轨迹点的表示向量输入到循环神经网络,在每一个时间步上,循环神经网络可以通过内部的细胞单元记录到当前输入为止的轨迹的状态,这里的状态信息融合历史轨迹中的信息和当前输入轨迹点的信息。
在嵌入表示学习中,表示学习模块将轨迹点的表示向量输入到堆栈式循环神经网络RNN,在每一个时间步上,RNN通过内部的细胞单元记录到当前输入为止的轨迹的状态,将状态信息融合到历史轨迹信息中和当前输入轨迹点的信息,然后将神经单元的输出结果送到下一个时刻,与此同时,在不同的网络层之间,可以通过非线性的变换学习轨迹在高维空间中的表示,抽取轨迹的特征,当所有的轨迹点输入到堆栈式循环神经网络后,把最后一步的输出状态拼接在一起作为轨迹的表示:
其中,hi是t时刻最后一步神经元的输出,n是堆栈式循环神经网络的层数。
参阅图4。变分编解码过程中,变分循环编码模块根据表示学习模块表示学习得到的轨迹表示学习时空嵌入向量,输入一个由GRU单元组成的自动编码器中,通过循环神经网络RNN得到近似后验分布的参数,从而得到正态分布的均值μi和方差σ2,变分推理标准高斯分布N(0,1),并从标准高斯分布N(0,1)中随机采样得到随机值ε,然后利用高斯分布的伸缩特性,将采样随机值ε、均值μ和方差σ的累加结果产生的语义编码向量送入变分编解码生成模块,得到隐变量语义编码向量z:z=μ+ε×σ,最后,将隐变量语义编码向量z和编码器生成变量一起输入由GRU单元组成的自动解码器中,解码生成最终结果,得到增强文本数据。
以上所述为本发明较佳实施例,应该注意的是上述实施例对本发明进行说明,然而本发明并不局限于此,并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (10)
1.一种时空数据变分编解码跨模态增强方法,其特征在于包括如下步骤:根据已有飞行器相关的轨迹数据生成相应的语义文本信息,辅助时空数据深度分析以及扩充相关领域文本数据,将原始时空轨迹数据送入变分编解码器,嵌入式表示学习模块对不同模态数据采用各自的自编码网络进行编码层表示学习不同模态数据,利用获得时空数据的潜在语义编码向量,并通过变分循环编码模块引入深度神经网络,借助长短期记忆网络LSTM对应跨模态数据的编码层的距离,基于轨迹描述变分编解码网络建模时间、速度、航向经度和维度重要信息,在时空数据上进行跨模态增强,实现时空数据跨模态转换,最小化实现保持度量学习、排序,得到在时空数据上进行跨模态不同模态表达的增强实数值,以及构的编码,然后,变分编解码生成模块基于变分模态分解(VMD)对时空数据中重要程度不同的部分进行匹配追踪(MP)和注意力机制分配,实现关键数据段自动分配高权重和非关键数据段自动分配低权重,基于跨模态数据语义标注,在不同的跨模态数据信息提供下,通过语句变分编解码生成的增强时空轨迹描述文本数据,输出对应语境描述轨迹详情的增强文本数据。
2.如权利要求1所述的时空数据变分编解码跨模态增强方法,其特征在于:在原始时空数据处理阶段,变分编解码器采用原始时空数据处理模块处理具体场景下各类飞行器由大量点迹构成的飞行器时空轨迹数据:、对输入轨迹数据中的定位数据不准确、数据不完整、数据缺失、数据不一致的轨迹类别特征进行分析和预处理,提取生成文本数据中关于飞行时间、起点位置、中途经历、终点位置的关键信息构建轨迹摘要,作为训练样本的核心字段。
3.如权利要求1所述的时空数据变分编解码跨模态增强方法,其特征在于:表示学习模块在多模态表示学习中,采用加权的排序数据对损失函数选择最具判别性的负样本进行基于共同表示的排序学习,同时,基于间隔的损失函数进行建模,以使得模态内相似的样本具有相似的共同表示;利用跨模态数据间提供的数据语义信息数据的单标签或多标签语义标注,计算跨模态数据间相似度信息,进行相关分析,语义预测、度量学习、学习排序和对抗学习,基于当前数据提供的语义信息进行微调。
4.如权利要求1所述的时空数据变分编解码跨模态增强方法,其特征在于:时空数据变分编解码跨模态增强流程分为三个部分,一是输入,二是处理流程,三是输出,其中,输入对应的原始时空轨迹数据,即飞行器单条轨迹数据;处理流程对应基于变分编解码器的编码和解码过程,主要包括轨迹嵌入表示学习阶段、变分循环编码阶段、变分解码生成阶段三个部分;输出对应的描述轨迹详情的文本数据。
5.如权利要求4所述的时空数据变分编解码跨模态增强方法,其特征在于:轨迹嵌入表示学习阶段,表示学习模块通过嵌入轨迹表示学习,融合先验的摘要信息和轨迹数据的自身属性,借鉴分布式词向量表示的思想,将轨迹单元视为词语,利用无监督学习的方式将轨迹单元映射到连续的向量空间中,挖掘邻近轨迹单元之间的隐含语义联系和上下文关系,进而得到轨迹的语义表示。
6.如权利要求4所述的时空数据变分编解码跨模态增强方法,其特征在于:变分循环编码阶段,变分循环编码模块采用不同的神经网络进行各自模态高层语义表示学习,并在该神经网络层进行一一对应关系保持,基于变分编解码器通过激活函数进行二值化变换,计算不同模态内数据间的相似度矩阵,并基于该相似度矩阵进行线性加权,直接进行数据间相似性与非相似性的计算,生成跨模态数据间相似度,以线性判别分析为优化目标与实际相似度对齐,得到跨模态统一度量矩阵,其中,实际相似度计算由语义信息提供。
7.如权利要求6所述的时空数据变分编解码跨模态增强方法,其特征在于:在变分循环编码阶段,变分循环编码模块将轨迹表示学习的时空嵌入向量编码为隐变量z,为学习数据的表示,借助长短期记忆网络LSTM的变体GRU模型的更新门和重置门构建通用的GRU(GatedRecurrent Unit,GRU)学习网络框架,对于每个轨迹TRi,GRU模型利用变分自编码器来最大化每个目标轨迹在训练集下的概率Pθ(TR):
pθ(TR)=∫zpθ(TR|z)pθ(z)dz
Pθ(z)=N(0,I)
其中,Pθ(TR|z)的是条件生成器,Pθ(z)是随机变量z的先验分布,即Pθ(z)=N(0,I)表示标准正态分布,I是单位矩阵,θ是生成模型的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111011043.6A CN113780003B (zh) | 2021-08-31 | 2021-08-31 | 时空数据变分编解码跨模态增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111011043.6A CN113780003B (zh) | 2021-08-31 | 2021-08-31 | 时空数据变分编解码跨模态增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780003A CN113780003A (zh) | 2021-12-10 |
CN113780003B true CN113780003B (zh) | 2023-04-07 |
Family
ID=78840228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111011043.6A Active CN113780003B (zh) | 2021-08-31 | 2021-08-31 | 时空数据变分编解码跨模态增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780003B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067371B (zh) * | 2022-01-18 | 2022-09-13 | 之江实验室 | 一种跨模态行人轨迹生成式预测框架、方法和装置 |
CN114626598B (zh) * | 2022-03-08 | 2024-09-06 | 南京航空航天大学 | 一种基于语义环境建模的多模态轨迹预测方法 |
CN114743630B (zh) * | 2022-04-01 | 2024-08-02 | 杭州电子科技大学 | 一种基于跨模态对比学习的医学报告生成方法 |
CN114936564A (zh) * | 2022-06-07 | 2022-08-23 | 上海开放大学 | 一种基于对齐变分自编码的多语言语义匹配方法及系统 |
CN115248877B (zh) * | 2022-09-22 | 2023-01-17 | 中国电子科技集团公司第十五研究所 | 一种基于多模态的轨迹文本匹配方法 |
CN116028818A (zh) * | 2023-02-06 | 2023-04-28 | 北京京东智能城市大数据研究院 | 模型训练方法、数据调整方法、装置、设备和介质 |
CN117113281B (zh) * | 2023-10-20 | 2024-01-26 | 光轮智能(北京)科技有限公司 | 多模态数据的处理方法、设备、智能体和介质 |
CN117993500B (zh) * | 2024-04-07 | 2024-06-25 | 江西为易科技有限公司 | 基于人工智能的医学教学数据管理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990595A (zh) * | 2019-12-04 | 2020-04-10 | 成都考拉悠然科技有限公司 | 一种跨域对齐嵌入空间的零样本跨模态检索方法 |
CN111461157A (zh) * | 2019-01-22 | 2020-07-28 | 大连理工大学 | 一种基于自学习的跨模态哈希检索方法 |
-
2021
- 2021-08-31 CN CN202111011043.6A patent/CN113780003B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461157A (zh) * | 2019-01-22 | 2020-07-28 | 大连理工大学 | 一种基于自学习的跨模态哈希检索方法 |
CN110990595A (zh) * | 2019-12-04 | 2020-04-10 | 成都考拉悠然科技有限公司 | 一种跨域对齐嵌入空间的零样本跨模态检索方法 |
Non-Patent Citations (1)
Title |
---|
面向跨模态检索的协同注意力网络模型;邓一姣等;《计算机科学》(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113780003A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113780003B (zh) | 时空数据变分编解码跨模态增强方法 | |
Liu et al. | LSTM-based multi-label video event detection | |
CN110888980A (zh) | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 | |
Ye et al. | A joint-training two-stage method for remote sensing image captioning | |
Zhang et al. | Hierarchical vision-language alignment for video captioning | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
CN116561305A (zh) | 基于多模态和transformer的假新闻检测方法 | |
CN115658934A (zh) | 一种基于多类注意力机制的图文跨模态检索方法 | |
CN117217368A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
Wang et al. | Big Data and Deep Learning‐Based Video Classification Model for Sports | |
Tang et al. | Class-level prototype guided multiscale feature learning for remote sensing scene classification with limited labels | |
Yang et al. | Bootstrapping interactive image-text alignment for remote sensing image captioning | |
Yan et al. | Multimodal feature fusion based on object relation for video captioning | |
Xie et al. | Deep learning on multi-view sequential data: a survey | |
Wu et al. | Hierarchical few-shot learning based on coarse-and fine-grained relation network | |
Sun et al. | Graph-based discriminative features learning for fine-grained image retrieval | |
Jin et al. | Sequencepar: Understanding pedestrian attributes via a sequence generation paradigm | |
Sun et al. | Zero-shot image classification via visual–semantic feature decoupling | |
Zhang et al. | A Survey of Generative Techniques for Spatial-Temporal Data Mining | |
CN116186350B (zh) | 基于知识图谱和主题文本的输电线路工程搜索方法和装置 | |
Ma et al. | Partial hash update via hamming subspace learning | |
Xiao et al. | Domain Adaptive LiDAR Point Cloud Segmentation with 3D Spatial Consistency | |
Li et al. | CCAH: A CLIP‐Based Cycle Alignment Hashing Method for Unsupervised Vision‐Text Retrieval | |
Feng et al. | Transformer-based video summarization with spatial-temporal representation | |
Xue et al. | A multi-modal fusion framework for continuous sign language recognition based on multi-layer self-attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |