CN114926856A - 基于知识抗遗忘的地震幸存者识别方法及装置 - Google Patents
基于知识抗遗忘的地震幸存者识别方法及装置 Download PDFInfo
- Publication number
- CN114926856A CN114926856A CN202210474859.0A CN202210474859A CN114926856A CN 114926856 A CN114926856 A CN 114926856A CN 202210474859 A CN202210474859 A CN 202210474859A CN 114926856 A CN114926856 A CN 114926856A
- Authority
- CN
- China
- Prior art keywords
- training
- survivor
- loss
- model
- seismic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 250
- 230000000007 visual effect Effects 0.000 claims abstract description 129
- 230000006870 function Effects 0.000 claims description 42
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 15
- 230000004927 fusion Effects 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101150039208 KCNK3 gene Proteins 0.000 description 1
- 101150083764 KCNK9 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007087 memory ability Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种基于知识抗遗忘的地震幸存者识别方法及装置,方法包括:将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果;所述地震幸存者识别模型是基于多个训练任务和损失函数对历史模型进行训练得到的,所述损失函数是基于弹性权重约束损失、特征复用损失和分类损失确定的,所述弹性权重约束损失用于约束两个相邻的训练任务之间的参数更新,所述特征复用损失用于在基于训练任务进行训练时复用已训练的训练任务的数据,提高了地震幸存者识别的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于知识抗遗忘的地震幸存者识别方法及装置。
背景技术
在地震灾情场景下,如何准确快速确认坍塌建筑物的蜂窝状空穴中是否存在幸存者是救援的基础任务。
现有技术中,基于地震场景的视频或音频数据,通过人工智能算法搜索人体目标可以提升灾情救援的速度。但是地震灾害场景的动态变化使得幸存者及周围环境呈现出变化频繁和高度不确定性,导致人工智能算法存在严重的“知识灾难性遗忘”问题。具体而言,在基于理想场景的幸存者识别过程中,研究者们往往关注于如何提升模型在新的未知场景中的表达能力,而忽视了模型对于已学习知识的记忆能力,这会导致人工智能算法存在严重的“灾难性遗忘”问题,进而导致识别的结果不准确。
发明内容
本申请提供一种基于知识抗遗忘的地震幸存者识别方法及装置,用以解决现有技术中识别的结果不准确的缺陷,实现提高地震幸存者识别的准确性。
本申请提供一种基于知识抗遗忘的地震幸存者识别方法,包括:
将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果;
所述地震幸存者识别模型是基于多个训练任务和损失函数对历史模型进行训练得到的,所述损失函数是基于弹性权重约束损失、特征复用损失和分类损失确定的,所述弹性权重约束损失用于约束两个相邻的训练任务之间的参数更新,所述特征复用损失用于在基于训练任务进行训练时复用已训练的训练任务的数据。
根据本申请提供的一种基于知识抗遗忘的地震幸存者识别方法,所述将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果,包括:
将目标视频的音频信息和视觉信息输入所述地震幸存者识别模型中,基于目标视频中的音频信息提取音频特征,基于所述目标视频中的视觉信息提取视觉特征;
基于所述音频特征和所述视觉特征,进行特征融合,得到跨模态音频特征和跨模态视觉特征;
基于所述跨模态音频特征得到音频分类概率,基于所述跨模态视觉特征得到视觉分类概率,基于所述音频分类概率和所述视觉分类概率,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果。
根据本申请提供的一种基于知识抗遗忘的地震幸存者识别方法,还包括:
将总训练样本划分为所述多个训练任务中每个训练任务对应的训练样本;
将所述多个训练任务中的第i个训练任务对应的训练样本输入所述历史模型中进行训练,i为正整数;
在i大于1的情况下,基于记忆模块样本对所述历史模型进行监督学习,并基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和所述第i-1个训练任务对应的训练样本训练后所述历史模型的参数,确定所述弹性权重约束损失;
通过对所述第i个训练任务对应的训练样本进行随机采样得到采样结果,基于所述采样结果更新所述记忆模块样本;
基于所述记忆模块样本,以及所述记忆模块样本对应的标签,确定所述特征复用损失;
基于所述特征复用损失、所述弹性权重约束损失和所述分类损失,确定所述损失函数是否收敛;
在所述损失函数未收敛的情况下,对i执行加一操作,以基于下个训练任务对应的训练样本进行训练,直至所述损失函数收敛;
在所述损失函数收敛的情况下,保存所述历史模型的参数,得到所述地震幸存者识别模型。
根据本申请提供的一种基于知识抗遗忘的地震幸存者识别方法,所述基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和所述第i-1个训练任务对应的训练样本训练后所述历史模型的参数,确定所述弹性权重约束损失,包括:
基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和所述第i-1个训练任务对应的训练样本训练后所述历史模型的参数,利用弹性权重约束损失计算公式,确定所述弹性权重约束损失;
所述弹性权重约束损失计算公式如下:
其中,表示所述弹性权重约束损失,θz表示所述第i个训练任务对应的训练样本训练后所述历史模型的第z个参数,表示所述第i-1个训练任务对应的训练样本训练后所述历史模型的第z个参数,λ为表示所述第i个训练任务重要性的超参,αz为表示模型第z个参数的重要性的参数,Φ表示所述历史模型的参数数量。
根据本申请提供的一种基于知识抗遗忘的地震幸存者识别方法,所述记忆模块样本包括:音频记忆模块样本、二维视觉记忆模块样本和三维视觉记忆模块样本;
所述基于所述记忆模块样本,以及所述记忆模块样本对应的标签,确定所述特征复用损失,包括:
基于所述音频记忆模块样本、所述音频记忆模块样本对应的标签、所述二维视觉记忆模块样本、所述二维视觉记忆模块样本对应的标签、所述三维视觉记忆模块样本、所述三维视觉记忆模块样本对应的标签,利用特征复用损失计算公式,确定所述特征复用损失;
所述特征复用损失计算公式如下:
其中,表示所述特征复用损失,Ma表示所述音频记忆模块样本,Ya表示所述音频记忆模块样本对应的标签,M2d表示所述二维视觉记忆模块样本,Y2d表示所述二维视觉记忆模块样本对应的标签,M3d表示所述三维视觉记忆模块样本,Y3d表示所述三维视觉记忆模块样本对应的标签,CE表示交叉熵损失。
本申请提供一种基于知识抗遗忘的地震幸存者识别装置,包括:识别模块,用于将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果;
所述地震幸存者识别模型是基于多个训练任务和损失函数对历史模型进行训练得到的,所述损失函数是基于弹性权重约束损失、特征复用损失和分类损失确定的,所述弹性权重约束损失用于约束两个相邻的训练任务之间的参数更新,所述特征复用损失用于在基于训练任务进行训练时复用已训练的训练任务的数据。
根据本申请提供的一种基于知识抗遗忘的地震幸存者识别装置,所述识别模块,具体用于:
将目标视频的音频信息和视觉信息输入所述地震幸存者识别模型中,基于目标视频中的音频信息提取音频特征,基于所述目标视频中的视觉信息提取视觉特征;
基于所述音频特征和所述视觉特征,进行特征融合,得到跨模态音频特征和跨模态视觉特征;
基于所述跨模态音频特征得到音频分类概率,基于所述跨模态视觉特征得到视觉分类概率,基于所述音频分类概率和所述视觉分类概率,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果。
本申请还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于知识抗遗忘的地震幸存者识别方法。
本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于知识抗遗忘的地震幸存者识别方法。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于知识抗遗忘的地震幸存者识别方法。
本申请提供的基于知识抗遗忘的地震幸存者识别方法及装置,针对于动态环境下人工智能算法的“灾难性遗忘”问题,提出了基于视听觉模型弹性权重约束和特征复用的地震幸存者识别模型,其中视听觉模型弹性权重约束是通过约束两个相邻的训练任务之间的参数更新,使得模型在学习新任务数据时不要远离旧任务的参数,从而达到知识抗遗忘的目的,而特征复用的抗遗忘机制基于训练任务进行训练时复用已训练的训练任务的数据,通过在新任务学习时复用旧任务的特征达到复习旧知识的目的,提高了地震幸存者识别的准确性。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的基于知识抗遗忘的地震幸存者识别方法的流程示意图;
图2是本申请提供的将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果的流程示意图;
图3是本申请提供的训练得到地震幸存者识别模型的流程示意图;
图4是本申请提供的网络结构示意图;
图5是本申请提供的基于知识抗遗忘的地震幸存者识别装置的结构示意图;
图6是本申请提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例提供的基于知识抗遗忘的地震幸存者识别方法的流程示意图,如图1所示,基于知识抗遗忘的地震幸存者识别方法包括步骤100。
步骤100、将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果。
可选地,基于幸存者识别任务可以定义为:
其中f()是分类模块,a()表示音频特征映射模块,v()表示视觉特征映射模块,特征映射模块将骨干特征映射为与g()是特征融合模块,将与进行跨模态融合得到跨模态音频特征与跨模态视觉特征是预测结果,代表该视频数据中是否包含人体目标,
可以理解的是,地震幸存者识别模型包括预训练模型、音频特征映射模块、视觉特征映射模块、特征融合模块和分类模块。
预训练模型用于提取音频信息和视觉信息的骨干特征,其中包括音频骨干特征、视觉二维骨干特征和视觉三维骨干特征。
音频特征映射模块用于将音频骨干特征映射为音频特征,以及将视觉二维骨干特征和视觉三维骨干特征映射为视觉特征。
视觉特征映射模块用于对音频特征和视觉特征进行同模态和跨模态的特征融合,得到跨模态音频特征和跨模态视觉特征。
分类模块用于基于跨模态音频特征和跨模态视觉特征进行分类,得到目标视频的地震幸存者识别结果。
在一些实施例中,步骤100包括步骤200、步骤201、步骤202.
步骤200、将目标视频的音频信息和视觉信息输入所述地震幸存者识别模型中,基于目标视频中的音频信息提取音频特征,基于所述目标视频中的视觉信息提取视觉特征。
可选地,将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,利用地震幸存者识别模型的预训练模型,提取骨干特征,再利用音频特征映射模块和视觉特征映射模块将骨干特征映射为音频特征和视觉特征。
步骤201、基于所述音频特征和所述视觉特征,进行特征融合,得到跨模态音频特征和跨模态视觉特征。
可选地,利用特征融合模块对音频特征和视觉特征进行同模态和跨模态的特征融合,得到跨模态音频特征和跨模态视觉特征。
步骤202、基于所述跨模态音频特征得到音频分类概率,基于所述跨模态视觉特征得到视觉分类概率,基于所述音频分类概率和所述视觉分类概率,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果。
可选地,利用跨模态音频特征和跨模态视觉特征进行分类,得到目标视频的地震幸存者识别结果。
其中,为音频分类概率,为视觉分类概率。需要说明的是,i为小于等于N的正整数,N为目标视频包括的视频片段的数量。每个视频片段均对应一个跨模态音频特征和一个跨模态音频特征,也就是说每个视频片段均对应一个音频分类概率和一个视觉分类概率。
最后,整合视频的每个片段的单模态的预测结果对该视频进行分类,即将目标视频中所有视频片段的所有模态类别预测结果进行求和综合考虑,最终目标视频的分类概率为:
由于场景差异性的存在,提升模型在新的场景下的识别能力的同时往往会减弱模型对于旧知识的记忆,也就是幸存者识别模型只能处理当前场景数据。但是由于真实灾情场景瞬时万变的特性与救灾场景的实时性要求,针对于每个场景都保留一个识别模型是不现实的且包含较多冗余信息。
在面临新场景时,可以通过对训练好的模型进行更新来学习新数据中蕴含的知识。同时,这种对训练好的模型进行更新的时间代价往往低于重新训练一个模型所需的时间,符合救灾场景的实时性要求。
本申请实施例中,所述地震幸存者识别模型是基于多个训练任务和损失函数对历史模型进行训练得到的,所述损失函数是基于弹性权重约束损失、特征复用损失和分类损失确定的,所述弹性权重约束损失用于约束两个相邻的训练任务之间的参数更新,所述特征复用损失用于在基于训练任务进行训练时复用已训练的训练任务的数据。
本申请实施例提供的基于知识抗遗忘的地震幸存者识别方法,针对于动态环境下人工智能算法的“灾难性遗忘”问题,提出了基于视听觉模型弹性权重约束和特征复用的地震幸存者识别模型,其中视听觉模型弹性权重约束是通过约束两个相邻的训练任务之间的参数更新,使得模型在学习新任务数据时不要远离旧任务的参数,从而达到知识抗遗忘的目的,而特征复用的抗遗忘机制基于训练任务进行训练时复用已训练的训练任务的数据,通过在新任务学习时复用旧任务的特征达到复习旧知识的目的,提高了地震幸存者识别的准确性。
图3是本申请实施例提供的训练得到地震幸存者识别模型的流程示意图。如图3所示,训练得到地震幸存者识别模型包括:步骤300、步骤301、步骤302、步骤303、步骤304、步骤305、步骤306和步骤307。
步骤300、将总训练样本划分为所述多个训练任务中每个训练任务对应的训练样本。
可选地,每个训练任务对应的训练样本中可以包括至少一个视频以及该视频对应的标签。
步骤301、将所述多个训练任务中的第i个训练任务对应的训练样本输入所述历史模型中进行训练,i为正整数。
可以理解的是,历史模型是对训练任务进行逐个学习的,第i个训练任务可以是多个训练任务中的任意一个训练任务,i的初始值为1。
步骤302、在i大于1的情况下,基于记忆模块样本对所述历史模型进行监督学习,并基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和所述第i-1个训练任务对应的训练样本训练后所述历史模型的参数,确定所述弹性权重约束损失。
在一些实施例中,步骤302包括:
基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和第i-1个训练任务对应的训练样本训练后所述历史模型的参数,利用弹性权重约束损失计算公式,确定所述弹性权重约束损失;
所述弹性权重约束损失计算公式如下:
其中,表示所述弹性权重约束损失,θz表示所述第i个训练任务对应的训练样本训练后所述历史模型的第z个参数,表示所述第i-1个训练任务对应的训练样本训练后所述历史模型的第z个参数,λ为表示所述第i个训练任务重要性的超参,αz为表示历史模型的第z个参数的重要性的参数,Φ表示所述历史模型的参数数量。
αz可以用二阶导信息进行衡量,具体计算公式如下:
因为计算二阶导所需计算量很大,在一些实施例中,也可以用一阶导的平方进行近似,具体计算公式如下:
在一些实施例中,如图4所示,地震幸存者识别模型包含骨干网络模块、特征映射模块、跨模态混合注意力模块和分类模块。由于视听觉的骨干网络都是基于预训练模型,预训练模型不存在知识“灾难性遗忘”的现象。因此,本实施例的约束只用于约束其它网络模块。
因此,本文最终的弹性权重约束如下:
其中,a为音频特征映射模块的参数数量,为第i个训练任务对应的训练样本训练后音频特征映射模块的第z个参数,为第i-1个训练任务对应的训练样本训练后音频特征映射模块的第z个参数,为表示音频特征映射模块的第z个参数的重要性的参数。
v为视觉特征映射模块的参数数量,为第i个训练任务对应的训练样本训练后视觉特征映射模块的第z个参数,为第i-1个训练任务对应的训练样本训练后视觉特征映射模块的第z个参数,为表示视觉特征映射模块的第z个参数的重要性的参数。
g为跨模态混合注意力模块的参数数量,为第i个训练任务对应的训练样本训练后跨模态混合注意力模块的第z个参数,为第i-1个训练任务对应的训练样本训练后跨模态混合注意力模块的第z个参数,为表示跨模态混合注意力模块的第z个参数的重要性的参数。
步骤302、通过对所述第i个训练任务对应的训练样本进行随机采样得到采样结果,基于所述采样结果更新所述记忆模块样本。
可选地,当历史模型基于第一个训练任务对应的训练样本进行训练时,并不存在旧数据,也就是说当训练第一个任务对应的训练样本D1时,记忆模块并不使用。当第1个任务训练结束,记忆模块从D1中随机采样B1个样本更新记忆模块样本M,即M={sample(D1,B1)}。其中sample表示随机采样操作。
当模型训练第v(v≥2)个任务Dv时,如图4所示,算法对于记忆模块的样本进行监督学习:
其中,YV,old表示M的标签。当第v个任务训练结束,记忆模块从Dv中随机采样Bv个样本进行记忆模块的更新,更新过程如下:
M=M∪{sample(Dv,Bv)}。
步骤304、基于所述记忆模块样本,以及所述记忆模块样本对应的标签,确定所述特征复用损失。
在一些实施例中,所述记忆模块样本包括:音频记忆模块样本、二维视觉记忆模块样本和三维视觉记忆模块样本;
步骤304包括:
基于所述音频记忆模块样本、所述音频记忆模块样本对应的标签、所述二维视觉记忆模块样本、所述二维视觉记忆模块样本对应的标签、所述三维视觉记忆模块样本、所述三维视觉记忆模块样本对应的标签,利用特征复用损失计算公式,确定所述特征复用损失;
所述特征复用损失计算公式如下:
其中,表示所述特征复用损失,Ma表示所述音频记忆模块样本,Ya表示所述音频记忆模块样本对应的标签,M2d表示所述二维视觉记忆模块样本,Y2d表示所述二维视觉记忆模块样本对应的标签,M3d表示所述三维视觉记忆模块样本,Y3d表示所述三维视觉记忆模块样本对应的标签,CE表示交叉熵损失。
可以理解的是,为了复用跨模态特征,本实施例基于音频、二维视觉与三维视觉骨干特征构建了三个记忆模块。将这三个记忆模块得到对应损失相加,得到特征复用损失。
步骤305、基于所述特征复用损失、所述弹性权重约束损失和所述分类损失,确定所述损失函数是否收敛。
可选地,损失函数为:
在损失函数的值小于目标值的情况下,则认为损失函数收敛。
步骤306、在所述损失函数未收敛的情况下,对i执行加一操作,以基于下个训练任务对应的训练样本进行训练,直至所述损失函数收敛。
可选地,在损失函数未收敛的情况下,说明历史模型的训练未结束,还需要继续对历史模型进行训练,对i执行加一操作后,重复执行步骤301至步骤305,对模型进行新一轮的训练,并再次确定损失函数是否收敛,直至模型训练完成。
步骤307、在所述损失函数收敛的情况下,保存所述历史模型的参数,得到所述地震幸存者识别模型。
在损失函数未收敛的情况下,说明历史模型的训练未结束,保存历史模型的参数,得到地震幸存者识别模型。
表1是本申请和其他方法在各个数据集上的实验结果,可以看出本申请的方法在地震幸存者识别准确性上有着显著的效果。
表1本申请和其他方法在各个数据集上的实验结果
方法 | Task1 | Task2 | Task3 | Task4 | Task5 | Avg |
M-LSTM | 70.37 | 78.97 | 77.29 | 79.49 | 84.97 | 78.22 |
M-GRU | 70.13 | 82.71 | 83.05 | 86.29 | 85.90 | 81.62 |
UMP | 73.71 | 88.05 | 87.48 | 88.21 | 81.84 | 82.86 |
本申请 | 73.71 | 86.51 | 87.53 | 86.67 | 87.76 | 84.44 |
本申请实施例提供的基于知识抗遗忘的地震幸存者识别方法,针对于动态环境下人工智能算法的“灾难性遗忘”问题,提出了基于视听觉模型弹性权重约束和特征复用的地震幸存者识别模型,其中视听觉模型弹性权重约束是通过约束两个相邻的训练任务之间的参数更新,使得模型在学习新任务数据时不要远离旧任务的参数,从而达到知识抗遗忘的目的,而特征复用的抗遗忘机制基于训练任务进行训练时复用已训练的训练任务的数据,通过在新任务学习时复用旧任务的特征达到复习旧知识的目的,提高了地震幸存者识别的准确性。
下面对本申请提供的基于知识抗遗忘的地震幸存者识别装置进行描述,下文描述的基于知识抗遗忘的地震幸存者识别装置与上文描述的基于知识抗遗忘的地震幸存者识别方法可相互对应参照。
如图5所示,基于知识抗遗忘的地震幸存者识别装置500包括:识别模块510。
识别模块510,用于将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果;
所述地震幸存者识别模型是基于多个训练任务和损失函数对历史模型进行训练得到的,所述损失函数是基于弹性权重约束损失、特征复用损失和分类损失确定的,所述弹性权重约束损失用于约束两个相邻的训练任务之间的参数更新,所述特征复用损失用于在基于训练任务进行训练时复用已训练的训练任务的数据。
可选地,识别模块510,具体用于:
将目标视频的音频信息和视觉信息输入所述地震幸存者识别模型中,基于目标视频中的音频信息提取音频特征,基于所述目标视频中的视觉信息提取视觉特征;
基于所述音频特征和所述视觉特征,进行特征融合,得到跨模态音频特征和跨模态视觉特征;
基于所述跨模态音频特征得到音频分类概率,基于所述跨模态视觉特征得到视觉分类概率,基于所述音频分类概率和所述视觉分类概率,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果。
可选地,基于知识抗遗忘的地震幸存者识别装置500还包括训练模块。
训练模块用于:
将总训练样本划分为所述多个训练任务中每个训练任务对应的训练样本;
将所述多个训练任务中的第i个训练任务对应的训练样本输入所述历史模型中进行训练,i为正整数;
在i大于1的情况下,基于记忆模块样本对所述历史模型进行监督学习,并基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和第i-1个训练任务对应的训练样本训练后所述历史模型的参数,确定所述弹性权重约束损失;
通过对所述第i个训练任务对应的训练样本进行随机采样得到采样结果,基于所述采样结果更新所述记忆模块样本;
基于所述记忆模块样本,以及所述记忆模块样本对应的标签,确定所述特征复用损失;
基于所述特征复用损失、所述弹性权重约束损失和所述分类损失,确定所述损失函数是否收敛;
在所述损失函数未收敛的情况下,对i执行加一操作,以基于下个训练任务对应的训练样本进行训练,直至所述损失函数收敛;
在所述损失函数收敛的情况下,保存所述历史模型的参数,得到所述地震幸存者识别模型。
可选地,所述基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和第i-1个训练任务对应的训练样本训练后所述历史模型的参数,确定所述弹性权重约束损失,包括:
基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和第i-1个训练任务对应的训练样本训练后所述历史模型的参数,利用弹性权重约束损失计算公式,确定所述弹性权重约束损失;
所述弹性权重约束损失计算公式如下:
其中,表示所述弹性权重约束损失,θz表示所述第i个训练任务对应的训练样本训练后所述历史模型的第z个参数,表示所述第i-1个训练任务对应的训练样本训练后所述历史模型的第z个参数,λ为表示所述第i个训练任务重要性的超参,αz为表示模型第z个参数的重要性的参数,Φ表示所述历史模型的参数数量。
可选地,所述记忆模块样本包括:音频记忆模块样本、二维视觉记忆模块样本和三维视觉记忆模块样本;
所述基于所述记忆模块样本,以及所述记忆模块样本对应的标签,确定所述特征复用损失,包括:
基于所述音频记忆模块样本、所述音频记忆模块样本对应的标签、所述二维视觉记忆模块样本、所述二维视觉记忆模块样本对应的标签、所述三维视觉记忆模块样本、所述三维视觉记忆模块样本对应的标签,利用特征复用损失计算公式,确定所述特征复用损失;
所述特征复用损失计算公式如下:
其中,表示所述特征复用损失,Ma表示所述音频记忆模块样本,Ya表示所述音频记忆模块样本对应的标签,M2d表示所述二维视觉记忆模块样本,Y2d表示所述二维视觉记忆模块样本对应的标签,M3d表示所述三维视觉记忆模块样本,Y3d表示所述三维视觉记忆模块样本对应的标签,CE表示交叉熵损失。
在此需要说明的是,本申请实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于知识抗遗忘的地震幸存者识别方法,该方法包括:
将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果;
所述地震幸存者识别模型是基于多个训练任务和损失函数对历史模型进行训练得到的,所述损失函数是基于弹性权重约束损失、特征复用损失和分类损失确定的,所述弹性权重约束损失用于约束两个相邻的训练任务之间的参数更新,所述特征复用损失用于在基于训练任务进行训练时复用已训练的训练任务的数据。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于知识抗遗忘的地震幸存者识别方法,该方法包括:
将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果;
所述地震幸存者识别模型是基于多个训练任务和损失函数对历史模型进行训练得到的,所述损失函数是基于弹性权重约束损失、特征复用损失和分类损失确定的,所述弹性权重约束损失用于约束两个相邻的训练任务之间的参数更新,所述特征复用损失用于在基于训练任务进行训练时复用已训练的训练任务的数据。
又一方面,本申请还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于知识抗遗忘的地震幸存者识别方法,该方法包括:
将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果;
所述地震幸存者识别模型是基于多个训练任务和损失函数对历史模型进行训练得到的,所述损失函数是基于弹性权重约束损失、特征复用损失和分类损失确定的,所述弹性权重约束损失用于约束两个相邻的训练任务之间的参数更新,所述特征复用损失用于在基于训练任务进行训练时复用已训练的训练任务的数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于知识抗遗忘的地震幸存者识别方法,其特征在于,包括:
将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果;
所述地震幸存者识别模型是基于多个训练任务和损失函数对历史模型进行训练得到的,所述损失函数是基于弹性权重约束损失、特征复用损失和分类损失确定的,所述弹性权重约束损失用于约束两个相邻的训练任务之间的参数更新,所述特征复用损失用于在基于训练任务进行训练时复用已训练的训练任务的数据。
2.根据权利要求1所述的基于知识抗遗忘的地震幸存者识别方法,其特征在于,所述将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果,包括:
将目标视频的音频信息和视觉信息输入所述地震幸存者识别模型中,基于目标视频中的音频信息提取音频特征,基于所述目标视频中的视觉信息提取视觉特征;
基于所述音频特征和所述视觉特征,进行特征融合,得到跨模态音频特征和跨模态视觉特征;
基于所述跨模态音频特征得到音频分类概率,基于所述跨模态视觉特征得到视觉分类概率,基于所述音频分类概率和所述视觉分类概率,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果。
3.根据权利要求1所述的基于知识抗遗忘的地震幸存者识别方法,其特征在于,还包括:
将总训练样本划分为所述多个训练任务中每个训练任务对应的训练样本;
将所述多个训练任务中的第i个训练任务对应的训练样本输入所述历史模型中进行训练,i为正整数;
在i大于1的情况下,基于记忆模块样本对所述历史模型进行监督学习,并基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和所述第i-1个训练任务对应的训练样本训练后所述历史模型的参数,确定所述弹性权重约束损失;
通过对所述第i个训练任务对应的训练样本进行随机采样得到采样结果,基于所述采样结果更新所述记忆模块样本;
基于所述记忆模块样本,以及所述记忆模块样本对应的标签,确定所述特征复用损失;
基于所述特征复用损失、所述弹性权重约束损失和所述分类损失,确定所述损失函数是否收敛;
在所述损失函数未收敛的情况下,对i执行加一操作,以基于下个训练任务对应的训练样本进行训练,直至所述损失函数收敛;
在所述损失函数收敛的情况下,保存所述历史模型的参数,得到所述地震幸存者识别模型。
4.根据权利要求3所述的基于知识抗遗忘的地震幸存者识别方法,其特征在于,所述基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和所述第i-1个训练任务对应的训练样本训练后所述历史模型的参数,确定所述弹性权重约束损失,包括:
基于所述第i个训练任务对应的训练样本训练后所述历史模型的参数和所述第i-1个训练任务对应的训练样本训练后所述历史模型的参数,利用弹性权重约束损失计算公式,确定所述弹性权重约束损失;
所述弹性权重约束损失计算公式如下:
5.根据权利要求3所述的基于知识抗遗忘的地震幸存者识别方法,其特征在于,所述记忆模块样本包括:音频记忆模块样本、二维视觉记忆模块样本和三维视觉记忆模块样本;
所述基于所述记忆模块样本,以及所述记忆模块样本对应的标签,确定所述特征复用损失,包括:
基于所述音频记忆模块样本、所述音频记忆模块样本对应的标签、所述二维视觉记忆模块样本、所述二维视觉记忆模块样本对应的标签、所述三维视觉记忆模块样本、所述三维视觉记忆模块样本对应的标签,利用特征复用损失计算公式,确定所述特征复用损失;
所述特征复用损失计算公式如下:
6.一种基于知识抗遗忘的地震幸存者识别装置,其特征在于,包括:
识别模块,用于将目标视频的音频信息和视觉信息输入地震幸存者识别模型中,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果;
所述地震幸存者识别模型是基于多个训练任务和损失函数对历史模型进行训练得到的,所述损失函数是基于弹性权重约束损失、特征复用损失和分类损失确定的,所述弹性权重约束损失用于约束两个相邻的训练任务之间的参数更新,所述特征复用损失用于在基于训练任务进行训练时复用已训练的训练任务的数据。
7.根据权利要求6所述的基于知识抗遗忘的地震幸存者识别装置,其特征在于,所述识别模块,具体用于:
将目标视频的音频信息和视觉信息输入所述地震幸存者识别模型中,基于目标视频中的音频信息提取音频特征,基于所述目标视频中的视觉信息提取视觉特征;
基于所述音频特征和所述视觉特征,进行特征融合,得到跨模态音频特征和跨模态视觉特征;
基于所述跨模态音频特征得到音频分类概率,基于所述跨模态视觉特征得到视觉分类概率,基于所述音频分类概率和所述视觉分类概率,得到所述地震幸存者识别模型输出的所述目标视频的地震幸存者识别结果。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述基于知识抗遗忘的地震幸存者识别方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于知识抗遗忘的地震幸存者识别方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于知识抗遗忘的地震幸存者识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210474859.0A CN114926856A (zh) | 2022-04-29 | 2022-04-29 | 基于知识抗遗忘的地震幸存者识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210474859.0A CN114926856A (zh) | 2022-04-29 | 2022-04-29 | 基于知识抗遗忘的地震幸存者识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114926856A true CN114926856A (zh) | 2022-08-19 |
Family
ID=82806278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210474859.0A Pending CN114926856A (zh) | 2022-04-29 | 2022-04-29 | 基于知识抗遗忘的地震幸存者识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114926856A (zh) |
-
2022
- 2022-04-29 CN CN202210474859.0A patent/CN114926856A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220391771A1 (en) | Method, apparatus, and computer device and storage medium for distributed training of machine learning model | |
CN111124840B (zh) | 业务运维中告警的预测方法、装置与电子设备 | |
US11669744B2 (en) | Regularized neural network architecture search | |
CN110520871B (zh) | 使用学习进度测量训练机器学习模型 | |
CN111461226A (zh) | 对抗样本生成方法、装置、终端及可读存储介质 | |
US20180018555A1 (en) | System and method for building artificial neural network architectures | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
US11797839B2 (en) | Training neural networks using priority queues | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN111989696A (zh) | 具有顺序学习任务的域中的可扩展持续学习的神经网络 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
CN113408570A (zh) | 一种基于模型蒸馏的图像类别识别方法、装置、存储介质及终端 | |
CN113822315A (zh) | 属性图的处理方法、装置、电子设备及可读存储介质 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
US20220383119A1 (en) | Granular neural network architecture search over low-level primitives | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN116703659A (zh) | 一种应用于工程咨询的数据处理方法、装置及电子设备 | |
CN114792097B (zh) | 预训练模型提示向量的确定方法、装置及电子设备 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN114926856A (zh) | 基于知识抗遗忘的地震幸存者识别方法及装置 | |
CN115358374A (zh) | 基于知识蒸馏的模型训练方法、装置、设备及存储介质 | |
CN113221560B (zh) | 人格特质和情绪的预测方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |