CN114969534A - 一种融合多模态数据特征的移动群智感知任务推荐方法 - Google Patents

一种融合多模态数据特征的移动群智感知任务推荐方法 Download PDF

Info

Publication number
CN114969534A
CN114969534A CN202210626624.9A CN202210626624A CN114969534A CN 114969534 A CN114969534 A CN 114969534A CN 202210626624 A CN202210626624 A CN 202210626624A CN 114969534 A CN114969534 A CN 114969534A
Authority
CN
China
Prior art keywords
features
task
fusion
attention
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210626624.9A
Other languages
English (en)
Inventor
王健
颜钰萍
赵国生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210626624.9A priority Critical patent/CN114969534A/zh
Publication of CN114969534A publication Critical patent/CN114969534A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

任务推荐是目前移动群智感知研究的热点和难点,现有的任务推荐忽略了历史数据模态的多样性,以及为了弥补异质性差异,目前的方法大多遵循通过构建公共空间来融合多模态数据特征,导致不同模态缺乏了在不同粒度的特征融合。针对以上的不足,本发明通过对感知用户的历史任务数据进行交叉引导自注意力挖掘出不同粒度的数据融合特征,实现了模态内和模态间的互补性,降低了融合不相关数据的风险。本发明提出的方法从多模态角度研究移动群智感知的任务推荐问题,通过对多种模态的历史数据的融合,生成了与感知用户偏好更匹配的任务推荐,不仅提高了系统性能,同时也提高了感知用户参与任务的积极性,保障了感知数据质量。

Description

一种融合多模态数据特征的移动群智感知任务推荐方法
技术领域
本发明属于移动群智感知领域,具体涉及一种融合多模态数据特征的移动群智感知任务推荐方法。
背景技术
随着拥有丰富传感器的移动设备的迅速普及,移动群智感知(Mobile CrowdSensing, MCS)作为一种新型的众包范式,已经成为当今一种新兴的、有前景的传感技术。MCS利用全球范围内可用的智能手机的感知能力,例如GPS、相机和数字指南针,来收集分布式的感知数据。与传统的固定部署感知模式相比,MCS具有部署灵活、感知数据多源异构、覆盖范围广泛均匀和高扩展多功能等诸多优点。
在通信技术的快速发展下,现已实现了各种MCS服务的信息采集与传播。然而,大规模传感收集的数据通常包括各种模态的数据。我们所处的环境是多元的,我们对这个世界的感知也包含多种因素,这通过语言、视觉、声音、动作、触觉共同完成。人类通过将视觉、听觉、触觉、嗅觉、味觉等不同感官模式的信息整合为连贯的表征,形成有意义的感知体验。由于来自不同感觉模态的信息可以相互补充,提供更丰富的信息,因此多模态数据分析越来越受到重视。
任务推荐在MCS的一个基本问题,对MCS系统的效率和有效性至关重要。在现有的感知系统中,感知用户会执行许多不同的感知任务并上传感知数据,随着时间的推移,感知数据会在系统中产生严重的信息过载,这就需要从众多不同模态的数据信息中找到感知用户感兴趣的信息,以此将合适的感知任务推荐给感知用户。因此,如何设计高效的多模态数据融合机制准确地将感知用户的的历史任务与新任务进行关联以降低感知成本、提高系统性能还有待进一步研究。
目前移动群智感知任务推荐忽略了历史数据的多样性,如在感知任务执行的过程中需要的传感器类型可以是速度加速器、摄像头、麦克风等。因此,需要充分挖掘和理解潜在的跨模态相关性,这就需要一种理解和推理多模态数据的能力。然而,不同模态数据之间存在语义差距,这给处理多模态数据带了很大的困难。为了弥补异质性差异,现有的方法大多遵循通过构建公共空间来融合多模态数据特征,通过在公共空间中的特征距离来衡量多模态数据的相似性。但是,这种方法通过将多模态数据嵌入到公共空间来学习多模态特征,缺乏了偏好和注意机制,容易导致不相关的数据融合,并且忽略了不同模态在不同粒度上的特征融合,故而降低了数据融合的效率和准确性。本发明通过对感知用户的历史任务数据进行交叉引导自注意力机制提取出多模态数据特征,然后进行跨模态层次融合对不同粒度的融合特征进行联合优化,从而实现了模态内和模态间的互补性,并降低了融合不相关数据的风险,进一步提高感知用户历史任务信息融合的准确度。最后通过计算历史任务与新任务之间的任务相似度,来判断新任务是否适合推荐给感知用户。该方法综合了多种模态的历史数据,生成了与感知用户偏好更匹配的任务推荐,不仅可以提高感知用户参与任务的积极性,同时也保障了感知数据质量。
发明内容
本发明的目的是针对现有技术的不足,提出一种融合多模态数据特征的移动群智感知任务推荐方法。
本发明是通过以下技术方案来实现的:一种融合多模态数据特征的移动群智感知任务推荐方法,捕捉多模态数据之间的相关性,挖掘多种模态在不同粒度上的融合特征,对不同粒度的融合特征进行联合优化,通过对感知用户的多模态历史数据进行融合,计算历史任务与新任务之间的任务相似度,进而为感知用户推荐与偏好更加匹配的新任务。
本发明的总体逻辑框架如图1所示,主要包括交叉引导自注意力框架(CrossGuided Self-Attention, CGSA),CGSA框架的具体实现细节如图2所示。CGSA包含了以下步骤:对多模态历史数据进行特征提取,实现多模态引导自注意力进行语义对齐,对不同的特征进行跨模态层次融合。
对多模态历史数据进行特征提取:本发明提取文本信息特征和图像信息的区域特征,然后将提取的特征分别使用自注意力机制进行特征自我注意。
实现多模态引导自注意力进行语义对齐:对不同模态的自注意特征分别使用引导自注意力机制进行交叉引导,进行语义对齐。
对不同的特征进行跨模态层次融合:对多模态数据的自注意特征和引导自注意特征进行跨模态层次融合,通过联合优化在不同粒度上的融合特征,最终得到多模态历史数据的融合特征。
与现有技术相比,本发明的有益效果是:针对现有的多模态融合方法大多遵循通过构建公共空间来融合多模态数据特征,导致缺乏偏好和注意机制,且忽略了不同模态在不同粒度上的特征融合,本发明首先使用自注意力(Self-Attention)机制生成自注意特征,使模态捕捉自身内部的相关性。然后实现了交叉引导注意力机制生成引导注意特征,实现了在模态间共享模态各自重要的信息,有效降低了融合不相关模态特征的风险;采用了跨模态层次融合方法捕获单个模态内的隐式特征和多个模态间的互补特征,对不同粒度的融合特征进行联合优化,从而实现了模态内和模态间的互补性,进一步提高感知用户历史任务信息融合的准确度;通过从多模态角度研究移动群智感知的任务推荐问题,融合多模态历史数据的有效信息,最终使得对感知任务的融合更准确,产生与感知用户偏好更匹配的任务推荐,有效提高了MCS系统性能,同时也提高了感知用户的积极性,保障了感知数据质量。
附图说明
图1为本发明的总体逻辑框架。
图2为交叉引导自注意力框架。
图3为文本引导图像注意过程。
具体实施方式
对于文本信息,采用预训练的BERT编码器对文本T进行特征提取,得到文本特征向量Ft=BERT(T);对于图像信息,采用预训练的Faster-RCNN从图像I中提取图像区域特征Fv=Faster-RCNN(I)。
将提取出的文本特征Ft和图像特征Fv分别使用自注意力机制,生成文本注意特征Ftatt和图像注意特征Fvatt。当注意力机制中的Query和Key相同时,即为自注意力,可以捕捉模态自身内部相关性。
为了将文本和图像信息进行语义对齐,实现了交叉引导自注意机制,有利于模态之间将各自重要的信息进行相互补充。
假设文本注意特征Ftatt的向量序列和图像注意特征Fvatt的向量序列分别为{t1,t2, …, th},{i1, i2, …, ig}。
文本引导图像特征过程如图3所示。在这个过程中,将{t1, t2, …, th}用作Query,将{i1, i2, …, ig}用作Key和Value。文本注意特征向量序列中的每个向量都将计算与图像注意特征向量序列中每个向量之间的关联性,这个计算过程是并行的。将关联性记作a,令m,j分别表示Ftatt向量序列和Fvatt向量序列中的某个向量的下标。则Ftatt中的某个query向量qm与Fvatt向量序列中某个key向量kj的关联性为am,j=dot(qm, kj),其中dot(*)为Dot-product点积操作。
故而,可以计算出qm对Fvatt向量序列的所有关注权重为Am={am,1, am,2, …, am,g}后,然后使用softmax将其归一化处理为A'm={ a'm,1, a'm,2, …, a'm,g },其中,a'm,j=exp(am,j)/∑ l exp(am,l)。
将归一化后的值分别与对应的value向量vj相乘并相加求和,则得到了tm的注意向量,为bm=∑ j a'm,j* avj
重复上述计算过程,我们就可以得到由{t1, t2, …, th}从{i1, i2, …, ig}查询的输出结果为B={b1, b2, …, bm},B即为文本引导注意特征Ftv
这个过程也能表达为矩阵运算。文本注意特征Ftatt向量序列与Wq相乘得到由向量序列{q1, q2, …, qh}组成的查询矩阵Q,图像注意特征Fvatt向量序列分别与Wk,Wv相乘得到键矩阵K和值矩阵V。键矩阵K由{k1, k2, …, kg}组成,值矩阵V由{v1, v2, …, vg}组成。K的转置与Q相乘得到了相关性矩阵A,然后将其进行softmax归一化处理得到A'。最后,将得到的A'与矩阵V相乘到矩阵B,也就是我们需要的文本引导注意特征Ftv
相同的,在图像引导注意特征的计算过程中,应将{i1, i2, …, ig}用作Query,将{t1, t2, …, th}用作Key和Value,与生成文本引导注意特征Ftv的过程类似,可以得到图像引导注意特征Ftv
至此,经过交叉引导自注意力,我们得到了文本引导主义特征Ftv和图像引导注意特征Fvt
我们将多模态自注意特征和多模态引导注意特征进行跨模态层次融合,对不同粒度的融合特征进行联合优化,可以捕获单个模态内的隐式特征和多个模态间的互补特征,使框架充分考虑到了模内和模间的互补性。将文本注意特征Ftatt、图像注意特征Fvatt、文本引导注意特征Ftv以及图像引导注意特征Fvt,这四种特征在一个模态内和多个模态之间进行分层融合。该模块由特征采样层、跨模态融合层,全局融合层和分类层组成。
在特征采样层,将对这四种特征进行采样,保证维度相同以便后续的融合。分别得到F'tatt,F'vatt, F'tv, F'vt
跨模态融合层对采样出的四种特征进行四种融合操作,可以表示为:Ftatt,vatt=dot(F'tatt, F'vatt),Fvatt,vt=dot(F'vatt, F'vt),Ftatt,tv=dot(F'tatt, F'tv),Ftv,vt=dot(F'tv,F'vt),分别是文本注意特征与图像注意特征的融合,这是在粗粒度上的融合;图像注意特征与图像引导注意特征的融合,文本注意特征与文本引导注意特征的融合,这两者是在粗粒度与细粒度结合上的融合特征;文本引导注意特征和图像引导注意特征的融合,这是细粒度的融合特征。得到这些不同的融合特征,为后面联合优化在不同粒度下的历史数据融合特征作了铺垫。
全局融合层用于融合跨模态融合层输出的所有融合特征向量,最终的融合结果表示为Fglobal=dot(Ftatt,vatt, Fvatt,v, Ftatt,tv, Ftv,vt)。最后,分类层将前三层的融合特征向量串联起来,利用softmax进行分类。因此,我们得到了三个预测结果:ypre1, ypre2, ypre3。然后对这三个预测进行拼接再进行预测得到最终预测结果ypreall。Fglobal将作为我们最后的融合特征结果。预测结果与期望结果y之间的误差由交叉熵损失函数进行计算。前三个预测结果的损失为L(Fi)=CrossEntropyloss(yprei, y),i属于集合[1, 2, 3]。最终预测结果ypreall的损失L(F4)=CrossEntropyloss(ypreall, y)。
采用联合优化方法对预测结果的总损失L=L(F1)+L(F2)+L(F3)+L(F4)进行优化,使用Adma优化器来最小化总损失函数L进行训练。通过这种联合优化方法,框架可以训练跨模态层次融合的前三层不同粒度的特征,充分考虑到了模内和模间的相关性和互补性,有效提高了多模态历史数据融合的准确度。
通过以上方法将多模态历史数据进行融合后,得到了感知用户的历史数据融合特征,该融合特征隐式包含了感知用户对完成任务的偏好。因此,使用此特征融合结果来计算历史任务与新任务之间的相似度更加合理,并设置一个过滤阈值,当相似度高于这个阈值时,认为该新任务适合推荐给感知用户。
综上所述,本发明提出的一种融合多模态数据特征的移动群智感知任务推荐方法,为MCS领域提供了一种高效的多模态融合机制。本发明通过这种融合机制,有效地融合感知用户的多模态历史数据,从而生成与感知用户偏好更匹配的任务推荐,以此提高了MCS系统的性能,同时增加了感知用户完成感知任务的兴趣,提高感知用户的积极性,进而为感知数据质量提供了保障。
上述实施方法为本发明较佳的实施方式,但本发明的实施方式并不受上述方法的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种融合多模态数据特征的移动群智感知任务推荐方法,其特征在于,获取感知用户的多模态历史数据在不同粒度上的融合特征,对不同粒度的融合特征进行联合优化,通过计算新任务与历史任务之间的多模态相似度,进而为用户推荐新的任务。
2.根据权利要求1所述的融合多模态数据特征的移动群智感知任务推荐方法,其特征在于,使用BERT编码器和Faster-RCNN分别提取文本信息特征和图像信息区域特征,借助自注意力机制对提取出的两种模态特征进行自注意,生成文本注意特征和图像注意特征。
3.根据权利要求1所述的融合多模态数据特征的移动群智感知任务推荐方法,其特征在于,实现了交叉引导自注意力,使得到文本注意特征和图像注意特征相互引导进行语义对齐,得到文本引导注意特征和图像引导注意特征。
4.根据权利要求1所述的融合多模态数据特征的移动群智感知任务推荐方法,其特征在于,通过跨模态层次融合,将感知用户的多模态历史数据在不同的粒度上的融合特征进行联合优化,得到历史数据的总融合特征,进而计算历史任务与新任务的任务相似度,并完成感知用户新任务的推荐。
CN202210626624.9A 2022-06-04 2022-06-04 一种融合多模态数据特征的移动群智感知任务推荐方法 Pending CN114969534A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210626624.9A CN114969534A (zh) 2022-06-04 2022-06-04 一种融合多模态数据特征的移动群智感知任务推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210626624.9A CN114969534A (zh) 2022-06-04 2022-06-04 一种融合多模态数据特征的移动群智感知任务推荐方法

Publications (1)

Publication Number Publication Date
CN114969534A true CN114969534A (zh) 2022-08-30

Family

ID=82959504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210626624.9A Pending CN114969534A (zh) 2022-06-04 2022-06-04 一种融合多模态数据特征的移动群智感知任务推荐方法

Country Status (1)

Country Link
CN (1) CN114969534A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150381A (zh) * 2023-08-07 2023-12-01 中国船舶集团有限公司第七〇九研究所 一种目标功能群识别及其模型训练方法
CN117422704A (zh) * 2023-11-23 2024-01-19 南华大学附属第一医院 一种基于多模态数据的癌症预测方法、系统及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111246256A (zh) * 2020-02-21 2020-06-05 华南理工大学 基于多模态视频内容和多任务学习的视频推荐方法
CN112819052A (zh) * 2021-01-25 2021-05-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多模态细粒度混合方法、系统、设备和存储介质
CN114065047A (zh) * 2021-11-25 2022-02-18 上海理工大学 一种基于多级注意力机制的知识增强对话推荐方法
CN114185651A (zh) * 2021-12-16 2022-03-15 哈尔滨理工大学 一种融合多模态信息的移动群智感知任务推荐方法
CN114491258A (zh) * 2022-01-25 2022-05-13 中国人民解放军海军工程大学 基于多模态内容的关键词推荐系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111246256A (zh) * 2020-02-21 2020-06-05 华南理工大学 基于多模态视频内容和多任务学习的视频推荐方法
CN112819052A (zh) * 2021-01-25 2021-05-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 多模态细粒度混合方法、系统、设备和存储介质
CN114065047A (zh) * 2021-11-25 2022-02-18 上海理工大学 一种基于多级注意力机制的知识增强对话推荐方法
CN114185651A (zh) * 2021-12-16 2022-03-15 哈尔滨理工大学 一种融合多模态信息的移动群智感知任务推荐方法
CN114491258A (zh) * 2022-01-25 2022-05-13 中国人民解放军海军工程大学 基于多模态内容的关键词推荐系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150381A (zh) * 2023-08-07 2023-12-01 中国船舶集团有限公司第七〇九研究所 一种目标功能群识别及其模型训练方法
CN117422704A (zh) * 2023-11-23 2024-01-19 南华大学附属第一医院 一种基于多模态数据的癌症预测方法、系统及设备

Similar Documents

Publication Publication Date Title
CN114969534A (zh) 一种融合多模态数据特征的移动群智感知任务推荐方法
CN113642604B (zh) 一种基于云边协同的音视频辅助触觉信号重建方法
CN111259940B (zh) 一种基于空间注意力地图的目标检测方法
CN113254684A (zh) 一种内容时效的确定方法、相关装置、设备以及存储介质
CN111414736A (zh) 故事生成模型训练方法、装置、设备及存储介质
CN111464881A (zh) 基于自优化机制的全卷积视频描述生成方法
Fang et al. Dynamic gesture recognition using inertial sensors-based data gloves
CN114038059B (zh) 一种基于双帧速率分治行为识别网络的动态手势识别方法
CN112861726B (zh) 基于规则意图表决器的d-s证据理论多模态融合人机交互方法
CN114283315A (zh) 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法
CN115311598A (zh) 基于关系感知的视频描述生成系统
CN116229519A (zh) 一种基于知识蒸馏的二维人体姿态估计方法
Guo et al. Motion saliency based hierarchical attention network for action recognition
CN117475370A (zh) 基于多模态对比学习的人流密度检测方法和装置
CN116757956A (zh) 一种智能立体图像去雾方法
CN117036736A (zh) 基于pvt交互网络的显著性目标检测方法
CN116310975A (zh) 一种基于一致片段选择的视听事件定位方法
Wencan et al. Segmentation of points in the future: Joint segmentation and prediction of a point cloud
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
CN115239974A (zh) 融合注意力机制的视觉同步定位与地图构建闭环检测方法
CN115115819A (zh) 面向装配顺序监测的图像多视角语义变化检测网络及方法
CN113792167A (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法
CN117612072B (zh) 一种基于动态时空图的视频理解方法
CN118247608B (zh) 一种概念学习方法、图像生成方法及相关装置
Wang A multimedia art interaction model for motion recognition based on data-driven model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination