CN117493043A - 基于原数据的smg实现系统及方法 - Google Patents

基于原数据的smg实现系统及方法 Download PDF

Info

Publication number
CN117493043A
CN117493043A CN202311482405.9A CN202311482405A CN117493043A CN 117493043 A CN117493043 A CN 117493043A CN 202311482405 A CN202311482405 A CN 202311482405A CN 117493043 A CN117493043 A CN 117493043A
Authority
CN
China
Prior art keywords
data
mode
dsp
module
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311482405.9A
Other languages
English (en)
Other versions
CN117493043B (zh
Inventor
李超
侯小凤
唐鹏
徐诚
过敏意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202311482405.9A priority Critical patent/CN117493043B/zh
Publication of CN117493043A publication Critical patent/CN117493043A/zh
Application granted granted Critical
Publication of CN117493043B publication Critical patent/CN117493043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/544Buffers; Shared memory; Pipes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4488Object-oriented
    • G06F9/449Object-oriented method invocation or resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于原数据的SMG实现系统及方法,包括:设置于DSP输入端的原始数据缓存区、数据缓存区创建和控制模块、DSP控制处理模块、多模态选择模块和自适应多模态计算模块,原始数据缓存区临时存储来自传感器的原始模态数据,多模态选择模块通过神经网络判断原始模态数据中模态数据的重要度后,将重要的模态数据输出至DSP进行处理,数据缓存区创建和控制模块为应用实现创建、读、写数据缓存区,DSP控制处理模块提供系统调用,自适应多模态计算模块通过构建并训练神经网络后,在线根据输入的模态进行自适应的模态融合计算并给出计算结果。本发明通过预先进行多模态门控处理,对进入DSP的模态数据进行提前筛选,以保证不需要的模态数据不经过DSP,从而避免DSP造成不必要的能量和执行时间浪费。

Description

基于原数据的SMG实现系统及方法
技术领域
本发明涉及的是一种边缘和多模态计算领域的技术,具体是一种基于原数据的系统级自适应多模态门控(System-level Modality Gating,SMG)实现系统及方法。
背景技术
现有边缘设备在多模态计算过程中数字信号处理器(DSP)消耗的能量和时间较高。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于原数据的SMG实现系统及方法,通过预先进行多模态门控处理,对进入DSP的模态数据进行提前筛选,以保证不需要的模态数据不经过DSP,从而避免DSP造成不必要的能量和执行时间浪费。
本发明是通过以下技术方案实现的:
本发明涉及一种基于原数据的SMG实现系统,包括:设置于DSP输入端的原始数据缓存区、数据缓存区创建和控制模块、DSP控制处理模块、多模态选择模块和自适应多模态计算模块,其中:原始数据缓存区临时存储来自传感器的原始模态数据,多模态选择模块通过神经网络判断原始模态数据中模态数据的重要度后,将重要的模态数据输出至DSP进行处理,数据缓存区创建和控制模块为应用实现创建、读、写数据缓存区,DSP控制处理模块提供系统调用,自适应多模态计算模块通过构建并训练神经网络后,在线根据输入的模态进行自适应的模态融合计算并给出计算结果。
所述的原始模态数据,当计算任务启动时,调用reqRAW(...)函数获取得到图像和声音两种模态数据。
所述的多模态计算是指:根据多模态选择模块得到的结果从DSP中获取相应的处理后的模态数据,将不同的模态输入到对应的特征提取网络中提取特征,然后进行融合,最后计算结果。
技术效果
本发明在DSP前引入原始数据缓冲区来临时存储来自传感器的原始数据,通过提供相应的系统调用函数集以便上层应用能够访问缓冲区的原始数据并根据原始数据对当前模态的重要性进行判断;相比现有技术,本发明能够根据场景灵活地通过控制处理模块提供的接口控制DSP的状态以达到高效、简单且安全的控制原始数据的DSP处理过程,从而获得能耗和时延上的节省。
附图说明
图1为本发明系统整体结构示意图;
图2为本发明系统模块示意图;
图3为实施例函数调用流程图;
图4、图5为实施例效果示意图。
具体实施方式
如图1和图2所示,为本实施例涉及一种基于原数据的系统级自适应多模态门控实现系统,包括:设置于DSP输入端的原始数据缓存区、数据缓存区创建和控制模块、DSP控制处理模块、多模态选择模块和自适应多模态计算模块,其中:原始数据缓存区临时存储来自传感器的原始模态数据,多模态选择模块通过神经网络判断原始模态数据中模态数据的重要度后,将重要的模态数据输出至DSP进行处理,数据缓存区创建和控制模块为应用实现创建、读、写数据缓存区,DSP控制处理模块提供系统调用,自适应多模态计算模块通过构建并训练神经网络,在线根据输入的模态进行自适应的模态融合计算并给出计算结果。
所述的创建、读、写数据缓存区的功能分别通过createRDB(...)函数、loadRDB(...)函数和writeRDB(...)函数实现,具体为:createRDB(...)函数通过alloc()函数实现,根据上层应用输入的参数在DRAM中创建指定大小的原始数据缓存区。这个函数最大允许在内存中创建大小为20MB的缓存区来存储最多10个模态的数据。在一般的模态数据,图像模态相对较大。对于分辨率为1920*1080的原始图像数据,其需要的内存为2MB。因此,20MB的缓存区基本上可以存下10模态的数据;loadRDB(...)函数从缓存区中获取原始数据以进行相应的数据选择测试;writeRDB(...)函数将原始数据写入到缓存区。
所述的DSP控制处理模块提供系统调用通过switchSMGMode(...)函数实现,该函数上层应用控制DSP模块的状态,以决定模态数据是否需要经过DSP的处理。
所述的DSP模块的状态包括:R状态,即启动DSP对原始模态数据进行相应的处理以供后续模块的使用以及S状态,即挂起DSP不对原始模态数据进行处理从而绕过DSP以节约能耗和减少处理时间;通过指定该系统调用的参数,使得上层应用决定当前的模态数据是否需要经过DSP的处理。例如输入参数为0时,当DSP的状态是R,则会变为S,否则保持不变;输入参数为1时,当DSP的状态是S,则会变为R,否则保持不变。
所述的自适应多模态计算模块包括:特征提取模块和模态融合模块,其中:特征提取模块提取从DSP中获取的模态数据的编码特征,模态融合模块将不同数量的模态的特征进行自适应的融合并给出最后的计算结果。
所述的特征提取模块,使用但不限于ShuffleNetV2神经网络对声音和图像模态数据进行特征提取后,将两个特征相加并分别输入两个全连接层进行判断,当全连接层输出为1,表示该全连接层对应输入的模态数据是重要的,否则表示输入的模态数据是不重要的。
所述的神经网络模块通过UCF101数据集的声音和图像数据进行训练,训练的损失函数为精度和计算量的加权和,并在损失函数不再下降时停止训练。
在实际的测试实例中,使用但不限于MobileNetV2作为声音的特征提取网络,使用ResNet50作为图像的特征提取网络。由于模态的数量是动态变化的,在特征融合时,如果有的模态没有被选择,则使用全零来代表其模态特征并与其他模态特征进行融合。在模态融合后,通过一个全连接层得到最后的计算结果。该神经网络模块通过UCF101数据集的声音和图像数据进行训练,训练的损失函数为精度和计算量的加权和,并在损失函数不再下降时停止训练。
如图2所示,所述的多模态选择模块包括:模态分析模块和模态选择模块,其中:模态分析模块获取缓存区的原数据并对数据进行编码分析;模态选择模块根据分析模块得到的结果选择出需要进行DSP处理的模态数据。
如图3所示,为本实施例基于上述系统的原数据的系统级自适应多模态DSP门控实现方法,当计算任务启动时,调用reqRAW(...)函数获取原始模态数据,多模态选择模块根据原始模态数据选择出重要的模态数据送入DSP进行处理,自适应多模态计算模块从DSP中获取处理后的数据并计算得到最后的结果。其中重要的模态数据是指原始模态数据,处理后的数据是指经过DSP处理后的模态数据。在通常的情况下,应用获得的数据都是经过DSP处理后的数据。
经过具体的实验验证,在Nvidia Jeston Xavier作为边缘计算平台,选择视频分类任务作为多模态计算任务。实验使用了UCF101数据集作为训练和评估数据集,该数据集包括6837条短视频。实验使用戴尔笔记本电脑作为视频播放器,使用Sony IMX219摄像头作为图像模态数据的收集装置,使用aigo K2 USB麦克风作为声音模态数据的收集装置。图像模态收集的帧率是30fps,分辨率是1920*1080,声音模态收集的采样率是20KHz。通过上述配置,搭建了良好的实验和测试环境。图4和图5分别分析了不同技术在上述的实验环境中得到的实验结果,包括能耗和执行时间。
如图4和图5所示,图中的7种技术方案分别表示为:(a)OriginMMC是没有任何优化的多模态计算方法;(b)LiteEval是通过跳过一些图像帧来减少计算代价的方法;(c)OrderedMMC是按计算量的大小的顺序来选择需要计算的模态的方法;(d)AdaMMC是使用神经网络模块来选择需要计算的模态的方法;(e)IdealMMC是理想状态下在计算阶段没有任何代价而只有传感器阶段和DSP阶段处理的方法;(f)LargeSMG是基于DSP控制的系统级自适应多模态门控技术的较差版本;(g)SMG是本实施例基于DSP控制的系统级自适应多模态门控技术。
如图4所示,为基于本实施例和现有的多模态计算方法在处理同任务时在执行时间方面的的优势,通过将端到端的计算分解成传感器感知阶段(Sensor)、DSP处理阶段(DSP),神经网络计算阶段(Inference)进了详细的对比。如图可见,相比其他方案,本实施例不仅在神经网络计算阶段(Inference)节省了计算时间,更在DSP处理阶段(DSP)节省了较大处理时间。总的来看,本实施例甚至比IdealMMC的执行时间还短。
如图5所示,为本实施例和现有的多模态计算方法在处理同任务时在能耗方面的优势,同样通过将端到端的计算分解成传感器感知阶段(Sensor)、DSP处理阶段(DSP),神经网络计算阶段(Inference)三个阶段进了详细的对比。如图可见,相比其他方案,除了IdealMMC,本实施例达到了更小的能量消耗。
与现有技术相比,本发明在保证多模态计算的性能的前提下,进一步减少了平台的能量消耗和计算的执行时间。本发明在节约能量的基础上,平衡了多模态的计算代价和性能,为多模态计算在边缘系统的部署提供了更先进的方案。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种基于原数据的SMG实现系统,其特征在于,包括:设置于DSP输入端的原始数据缓存区、数据缓存区创建和控制模块、DSP控制处理模块、多模态选择模块和自适应多模态计算模块,其中:原始数据缓存区临时存储来自传感器的原始模态数据,多模态选择模块通过神经网络判断原始模态数据中模态数据的重要度后,将重要的模态数据输出至DSP进行处理,数据缓存区创建和控制模块为应用实现创建、读、写数据缓存区,DSP控制处理模块提供系统调用,自适应多模态计算模块通过构建并训练神经网络后,在线根据输入的模态进行自适应的模态融合计算并给出计算结果;
所述的原始模态数据,当计算任务启动时,调用reqRAW(...)函数获取得到图像和声音两种模态数据;
所述的多模态计算是指:根据多模态选择模块得到的结果从DSP中获取相应的处理后的模态数据,将不同的模态输入到对应的特征提取网络中提取特征,然后进行融合,最后计算结果。
2.根据权利要求1所述的基于原数据的SMG实现系统,其特征是,所述的多模态选择模块包括:模态分析模块和模态选择模块,其中:模态分析模块获取缓存区的原数据并对数据进行编码分析;模态选择模块根据分析模块得到的结果选择出需要进行DSP处理的模态数据。
3.根据权利要求1所述的基于原数据的SMG实现系统,其特征是,所述的DSP控制处理模块提供系统调用通过switchSMGMode(...)函数实现,该函数上层应用控制DSP模块的状态,以决定模态数据是否需要经过DSP的处理。
4.根据权利要求1所述的基于原数据的SMG实现系统,其特征是,所述的DSP模块的状态包括:R状态,即启动DSP对原始模态数据进行相应的处理以供后续模块的使用以及S状态,即挂起DSP不对原始模态数据进行处理从而绕过DSP以节约能耗和减少处理时间;通过指定该系统调用的参数,使得上层应用决定当前的模态数据是否需要经过DSP的处理。
5.根据权利要求1所述的基于原数据的SMG实现系统,其特征是,所述的自适应多模态计算模块包括:特征提取模块和模态融合模块,其中:特征提取模块提取从DSP中获取的模态数据的编码特征,模态融合模块将不同数量的模态的特征进行自适应的融合并给出最后的计算结果。
6.根据权利要求1所述的基于原数据的SMG实现系统,其特征是,所述的特征提取模块,使用ShuffleNetV2神经网络对声音和图像模态数据进行特征提取后,将两个特征相加并分别输入两个全连接层进行判断,当全连接层输出为1,表示该全连接层对应输入的模态数据是重要的,否则表示输入的模态数据是不重要的。
7.根据权利要求1所述的基于原数据的SMG实现系统,其特征是,使用MobileNetV2作为声音的特征提取网络,使用ResNet50作为图像的特征提取网络;在特征融合时,当有的模态没有被选择,则使用全零来代表其模态特征并与其他模态特征进行融合;在模态融合后,通过一个全连接层得到最后的计算结果。
8.根据权利要求6或7所述的基于原数据的SMG实现系统,其特征是,所述的特征提取网络通过UCF101数据集的声音和图像数据进行训练,训练的损失函数为精度和计算量的加权和,并在损失函数不再下降时停止训练。
9.根据权利要求1所述的基于原数据的SMG实现系统,其特征是,所述的创建、读、写数据缓存区的功能分别通过createRDB(...)函数、loadRDB(...)函数和writeRDB(...)函数实现,具体为:createRDB(...)函数通过alloc()函数实现,根据上层应用输入的参数在DRAM中创建指定大小的原始数据缓存区;loadRDB(...)函数从缓存区中获取原始数据以进行相应的数据选择测试;writeRDB(...)函数将原始数据写入到缓存区。
10.一种基于权利要求1-9中任一所述系统的原数据的系统级自适应多模态DSP门控实现方法,其特征在于,当计算任务启动时,调用reqRAW(...)函数获取原始模态数据,多模态选择模块根据原始模态数据选择出重要的模态数据送入DSP进行处理,自适应多模态计算模块从DSP中获取处理后的数据并计算得到最后的结果;
所述的重要的模态数据是指原始模态数据,处理后的数据是指经过DSP处理后的模态数据。
CN202311482405.9A 2023-11-09 2023-11-09 基于原数据的smg实现系统及方法 Active CN117493043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311482405.9A CN117493043B (zh) 2023-11-09 2023-11-09 基于原数据的smg实现系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311482405.9A CN117493043B (zh) 2023-11-09 2023-11-09 基于原数据的smg实现系统及方法

Publications (2)

Publication Number Publication Date
CN117493043A true CN117493043A (zh) 2024-02-02
CN117493043B CN117493043B (zh) 2024-06-18

Family

ID=89679730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311482405.9A Active CN117493043B (zh) 2023-11-09 2023-11-09 基于原数据的smg实现系统及方法

Country Status (1)

Country Link
CN (1) CN117493043B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190236394A1 (en) * 2015-11-18 2019-08-01 Adobe Inc. Utilizing interactive deep learning to select objects in digital visual media
WO2022158847A1 (ko) * 2021-01-25 2022-07-28 삼성전자 주식회사 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
CN115934932A (zh) * 2022-12-17 2023-04-07 福州大学 一种基于多模态关键信息分析的摘要生成系统
CN115982403A (zh) * 2023-01-12 2023-04-18 之江实验室 一种多模态哈希检索方法及装置
CN116844095A (zh) * 2023-08-23 2023-10-03 太原理工大学 基于多模态深度特征层级融合的视频情感极性分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190236394A1 (en) * 2015-11-18 2019-08-01 Adobe Inc. Utilizing interactive deep learning to select objects in digital visual media
WO2022158847A1 (ko) * 2021-01-25 2022-07-28 삼성전자 주식회사 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
CN115934932A (zh) * 2022-12-17 2023-04-07 福州大学 一种基于多模态关键信息分析的摘要生成系统
CN115982403A (zh) * 2023-01-12 2023-04-18 之江实验室 一种多模态哈希检索方法及装置
CN116844095A (zh) * 2023-08-23 2023-10-03 太原理工大学 基于多模态深度特征层级融合的视频情感极性分析方法

Also Published As

Publication number Publication date
CN117493043B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
KR102373261B1 (ko) 이벤트 카메라 데이터 프로세싱을 위한 시스템 및 방법
CN107172345B (zh) 一种图像处理方法及终端
JP5917270B2 (ja) 音検出装置及びその制御方法、プログラム
CN111311634A (zh) 一种人脸图像检测方法、装置及设备
WO2022142830A1 (zh) 应用设备及其隔空手势识别方法
Sajjanar et al. Implementation of real time moving object detection and tracking on FPGA for video surveillance applications
CN111797076A (zh) 数据清理方法、装置、存储介质及电子设备
CN110738163A (zh) 一种矿井人员违规动作识别系统
TW202111662A (zh) 移動偵測方法及移動偵測系統
KR102440198B1 (ko) 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium)
Jin et al. A deep-learning-based scheme for detecting driver cell-phone use
CN109246467A (zh) 标记待分享视频的方法、装置、摄像机和智能手机
CN111401206A (zh) 一种全景图共享方法、系统、设备和介质
CN111353473A (zh) 一种人脸检测方法、装置、电子设备及存储介质
CN117493043B (zh) 基于原数据的smg实现系统及方法
KR100576803B1 (ko) 신경망에 기반한 음성, 영상, 및 문맥의 통합 음성인식장치 및 방법
KR101909326B1 (ko) 얼굴 모션 변화에 따른 삼각 매쉬 모델을 활용하는 사용자 인터페이스 제어 방법 및 시스템
CN114399791A (zh) 一种行人检测方法、装置、设备和介质
CN104025028A (zh) 在视频分析中的视频编码
CN117314729A (zh) 图像处理方法、装置、设备及计算机可读存储介质
Wu et al. Gated weighted normative feature fusion for multispectral object detection
CN111443761B (zh) 后面板收缩控制系统以及方法
CN115272249B (zh) 一种缺陷检测方法、装置、计算机设备和存储介质
CN108431867A (zh) 一种数据处理方法及装置
WO2021035394A1 (zh) 分布式人工智能应用数据加速方法、系统及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant