CN116246214A - 视听事件定位方法、模型训练方法、装置及设备和介质 - Google Patents

视听事件定位方法、模型训练方法、装置及设备和介质 Download PDF

Info

Publication number
CN116246214A
CN116246214A CN202310509062.4A CN202310509062A CN116246214A CN 116246214 A CN116246214 A CN 116246214A CN 202310509062 A CN202310509062 A CN 202310509062A CN 116246214 A CN116246214 A CN 116246214A
Authority
CN
China
Prior art keywords
audio
training
visual
video
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310509062.4A
Other languages
English (en)
Other versions
CN116246214B (zh
Inventor
范宝余
刘璐
郭振华
徐聪
贾麒
金良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202310509062.4A priority Critical patent/CN116246214B/zh
Publication of CN116246214A publication Critical patent/CN116246214A/zh
Application granted granted Critical
Publication of CN116246214B publication Critical patent/CN116246214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视听事件定位方法、模型训练方法、装置及设备和介质,涉及人工智能技术领域,该视听事件定位方法包括:利用目标网络模型确定多个视听片段的视听事件类别,并确定多个视听事件类别的起始时间和结束时间,实现多个视听事件类别的定位;目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,注意力机制神经网络层用于提取多个视频段的全局视频特征和多个音频段的全局音频特征,并确定多个视听片段的视听事件类别,图卷积层用于提取多个视频段的局部视频特征和多个音频段的局部音频特征,输出卷积网络层用于确定多个视听事件类别的起始时间和结束时间,实现多个视听事件类别的定位。

Description

视听事件定位方法、模型训练方法、装置及设备和介质
技术领域
本申请涉及人工智能技术领域,更具体地说,涉及一种视听事件定位方法、模型训练方法、装置及设备和介质。
背景技术
当我们人类探索、捕捉和感知现实世界时,多模态感知是必不可少的。在这些同步的感官流中,视觉和音频是传递重要信息的两种基本流。联合建模这两种模式有助于视听场景的理解和事件检测。对于使用计算模型来理解场景来说,例如唇读时,其中语音和唇动之间的相关性为语言理解提供了强大的线索;音乐表演时,颤音发音和手部运动使音轨和表演者之间的联系;声音合成时,不同类型材料的物理相互作用会产生合理的声音模式。这些方法、装置设计侧重于视觉、听觉两种模态的表示学习,尚未探索时间的定位。
视听事件定位(Audio-Visual Event Localization,简称AVEL)在时间上定位事件的同时识别相应的类别,便于视频理解。视听事件(Audio-Visual Event,简称AVE)被定义为视频片段中的可听到、且可看到的事件,例如图1。视听事件定位问题为输入的视频,找到视听事件的类别及其起始时刻、终止时刻。该问题存在一些困难和挑战。视频中存在噪声,如环境声和目标事件声,噪声对视频中视听事件的识别干扰极大。以往的视听事件定位方法将视频分为时长1s的视频片段,通过学习局部视+听的特征及其交互,获得视听事件的类别。假设在视频3s中出现噪音使得类别归类为背景(background)类,那么会造成整体定位不准的结果。因此解决这个问题的根本关键是学习全局的视频、音频特征,将1s视频、音频特征放大到整个视频序列中,学习噪声与视频画面出现的共同情况,得出当前视频中合理的视听事件类别。
在相关技术中,首先将视频序列分成短段,通常为1s的视频短段,对每个段提取视觉和声学特征。之后,它们要么最小化两种模态的片段特征之间的距离,要么在片段级别融合两种特征。这些方法的优点是,片段级表示可以很好地揭示事件的局部信息,这对定位事件至关重要。一个片段的典型持续时间只有1秒,但即使是一个简单的事件也可能需要几秒。在很长一段时间内,视觉和音频内容可能会有很大的变化。仅使用小片段的局部信息通常会产生偏差。此外,由于片段很短,直接在片段级融合视觉和听觉特征很容易受到两个信号轻微的时间失调或内容噪声(如遮挡、抖动)的影响。总之,这些方法仅利用了音频和视觉之间的局部关系,视听事件定位的准确度较低。
发明内容
本申请的目的在于提供一种视听事件定位方法、装置及一种电子设备和一种计算机可读存储介质,提高了视听事件定位的准确度。
为实现上述目的,本申请提供了一种视听事件定位方法,包括:
获取视听数据,按照预设划分方式将所述视听数据划分为多个视听片段;其中,每个所述视听片段包括一个视频段和对应的一个音频段;
利用目标网络模型确定多个所述视听片段的视听事件类别,并确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述视频段的全局视频特征和多个所述音频段的全局音频特征,并确定多个所述视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局视频特征和全局音频特征分别提取多个所述视频段的局部视频特征和多个所述音频段的局部音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述视频段的局部视频特征或不同所述音频段的局部音频特征训练得到;所述输出卷积网络层用于将所述全局视频特征和所述局部视频特征融合为融合视频特征,将所述全局音频特征和所述局部音频特征融合为融合音频特征,并基于所述融合视频特征和所述融合音频特征确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位。
其中,所述注意力机制神经网络层包括:
卷积神经网络,用于提取多个视频段的全局视频特征和多个音频段的全局音频特征;
与所述卷积神经网络连接的目标网络层,用于扩展时间感受野;
与所述目标网络层连接的注意力机制层;
与所述注意力机制层连接的前馈网络层,用于预测视听事件的概率或背景的概率;
与所述前馈网络层连接的视听事件类别预测层,用于预测各视听事件类别的概率。
其中,所述目标网络层包括依次连接的第一部分、第二部分和第三部分;
所述第一部分包括门控线性单元;
所述第二部分包括并行的预设步长的第一卷积层和平均池化层;
所述第三部分包括第二卷积层;其中,所述第二卷积层的尺寸大于所述第一卷积层。
其中,所述前馈网络层包括用于预测视听事件的概率或背景的概率的视听事件预测器,所述视听事件预测器采用二分类损失计算全局视频类别损失或全局音频类别损失;
所述二分类损失Lc为:
Figure SMS_1
其中,1≤t≤T,T为视听片段的数量,
Figure SMS_2
,/>
Figure SMS_3
,/>
Figure SMS_4
为第t个视听片段预测得到的视听事件的概率或背景的概率,/>
Figure SMS_5
为第t个视听片段的视听事件类别标签或背景标签。
其中,所述图卷积层的运算
Figure SMS_6
为:/>
Figure SMS_7
;其中,W为训练得到的权重矩阵,/>
Figure SMS_8
为第l层的特征,M为预设的二进制掩码矩阵,/>
Figure SMS_9
为训练得到的数据依赖矩阵。/>
其中,
Figure SMS_10
中第m个视听片段的特征fm与第n个视听片段的特征fn之间的差值/>
Figure SMS_11
为:
Figure SMS_12
其中,1≤t≤T,T为视听片段的数量,ft为第t个视听片段的特征,
Figure SMS_13
为激活函数,/>
Figure SMS_14
为训练得到的参数向量,用于将/>
Figure SMS_15
的维度降为1。
其中,所述输出卷积网络包括两个时间卷积层和sigmoid激活函数层。
其中,所述按照预设划分方式将所述视听数据划分为多个视听片段,包括:
按照预设时间长度将所述视听数据划分为多个视听片段。
为实现上述目的,本申请提供了一种网络模型的训练方法,包括:
获取训练视听数据,按照预设划分方式将所述训练视听数据划分为多个训练视听片段,并确定多个所述训练视听片段的视听事件类别标签;其中,每个所述训练视听片段包括一个训练视频段和对应的一个训练音频段;
利用多个所述训练视听片段和对应的视听事件类别标签训练目标网络模型;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述训练视频段的全局训练视频特征和多个所述训练音频段的全局训练音频特征,并预测多个所述训练视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述训练视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局训练视频特征和全局训练音频特征分别提取多个所述训练视频段的局部训练视频特征和多个所述训练音频段的局部训练音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述训练视频段的局部训练视频特征或不同所述训练音频段的局部训练音频特征训练得到;所述输出卷积网络层用于将所述全局训练视频特征和所述局部训练视频特征融合为训练融合视频特征,将所述全局训练音频特征和所述局部训练音频特征融合为训练融合音频特征,并基于所述训练融合视频特征和所述训练融合音频特征预测多个所述视听事件类别的起始时间和结束时间。
其中,所述利用多个所述训练视听片段和对应的视听事件类别标签训练目标网络模型,包括:
将多个所述训练视频段输入注意力机制神经网络模型中,以提取多个所述训练视频段的全局训练视频特征,预测多个所述训练视频段对应的视听事件类别,并根据多个所述训练视听片段的视听事件类别标签和预测得到的视听事件类别计算全局视频类别损失;
将多个所述训练音频段输入注意力机制神经网络模型中,以提取多个所述训练音频段的全局训练音频特征,预测多个所述训练音频段对应的视听事件类别,并根据多个所述训练视听片段的视听事件类别标签和预测得到的视听事件类别计算全局音频类别损失;
将多个所述训练视频段的全局训练视频特征输入图卷积层中以提取多个所述训练视频段的局部训练视频特征,将多个所述训练音频段的全局训练音频特征输入图卷积层中以提取多个所述训练音频段的局部训练音频特征;
将所述全局训练视频特征和所述局部训练视频特征融合为训练融合视频特征,将所述全局训练音频特征和所述局部训练音频特征融合为训练融合音频特征;
将所述训练融合视频特征和所述训练融合音频特征同时输入卷积网络中,预测多个所述视听事件类别的起始时间的概率和结束时间的概率,并计算所述训练视频融合特征和所述训练融合音频特征之间的交叉熵损失;
计算所述全局视频类别损失、所述全局音频类别损失、所述交叉熵损失的损失和,并根据所述损失和优化所述注意力机制神经网络模型和所述图卷积层的参数;
当满足预设条件时,得到训练完成的注意力机制神经网络模型和图卷积层。
其中,所述注意力机制神经网络层包括:
卷积神经网络,用于提取多个视频段的全局视频特征和多个音频段的全局音频特征;
与所述卷积神经网络连接的目标网络层,用于扩展时间感受野;
与所述目标网络层连接的注意力机制层;
与所述注意力机制层连接的前馈网络层,用于预测视听事件的概率或背景的概率;
与所述前馈网络层连接的视听事件类别预测层,用于预测各视听事件类别的概率。
其中,所述目标网络层包括依次连接的第一部分、第二部分和第三部分;
所述第一部分包括门控线性单元;
所述第二部分包括并行的预设步长的第一卷积层和平均池化层;
所述第三部分包括第二卷积层;其中,所述第二卷积层的尺寸大于所述第一卷积层。
其中,所述前馈网络层包括用于预测视听事件的概率或背景的概率的视听事件预测器,所述视听事件预测器采用二分类损失计算全局视频类别损失或全局音频类别损失;
所述二分类损失Lc为:
Figure SMS_16
其中,1≤t≤T,T为视听片段的数量,
Figure SMS_17
,/>
Figure SMS_18
,/>
Figure SMS_19
为第t个视听片段预测得到的视听事件的概率或背景的概率,/>
Figure SMS_20
为第t个视听片段的视听事件类别标签或背景标签。
其中,所述图卷积层的运算
Figure SMS_21
为:/>
Figure SMS_22
;其中,W为训练得到的权重矩阵,/>
Figure SMS_23
为第l层的特征,M为预设的二进制掩码矩阵,/>
Figure SMS_24
为训练得到的数据依赖矩阵。
其中,
Figure SMS_25
中第m个视听片段的特征fm与第n个视听片段的特征fn之间的差值/>
Figure SMS_26
为:
Figure SMS_27
其中,1≤t≤T,T为视听片段的数量,ft为第t个视听片段的特征,
Figure SMS_28
为激活函数,/>
Figure SMS_29
为训练得到的参数向量,用于将/>
Figure SMS_30
的维度降为1。
其中,所述输出卷积网络包括两个时间卷积层和sigmoid激活函数层。
其中,所述根据所述损失和优化所述注意力机制神经网络模型和所述图卷积层的参数,包括:
根据所述损失和反向梯度优化所述注意力机制神经网络模型和所述图卷积层的参数。
其中,所述当满足预设条件时,得到训练完成的注意力机制神经网络模型和图卷积层,包括:
当所述损失和小于预设值时,得到训练完成的注意力机制神经网络模型和图卷积层;
或,当迭代次数达到预设迭代次数时,得到训练完成的注意力机制神经网络模型和图卷积层。
为实现上述目的,本申请提供了一种视听事件定位装置,包括:
第一获取模块,用于获取视听数据,按照预设划分方式将所述视听数据划分为多个视听片段;其中,每个所述视听片段包括一个视频段和对应的一个音频段;
定位模块,用于利用目标网络模型确定多个所述视听片段的视听事件类别,并确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述视频段的全局视频特征和多个所述音频段的全局音频特征,并确定多个所述视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局视频特征和全局音频特征分别提取多个所述视频段的局部视频特征和多个所述音频段的局部音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述视频段的局部视频特征或不同所述音频段的局部音频特征训练得到;所述输出卷积网络层用于将所述全局视频特征和所述局部视频特征融合为融合视频特征,将所述全局音频特征和所述局部音频特征融合为融合音频特征,并基于所述融合视频特征和所述融合音频特征确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位。
为实现上述目的,本申请提供了一种网络模型的训练装置,包括:
第二获取模块,用于获取训练视听数据,按照预设划分方式将所述训练视听数据划分为多个训练视听片段,并确定多个所述训练视听片段的视听事件类别标签;其中,每个所述训练视听片段包括一个训练视频段和对应的一个训练音频段;
训练模块,用于利用多个所述训练视听片段和对应的视听事件类别标签训练目标网络模型;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述训练视频段的全局训练视频特征和多个所述训练音频段的全局训练音频特征,并预测多个所述训练视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述训练视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局训练视频特征和全局训练音频特征分别提取多个所述训练视频段的局部训练视频特征和多个所述训练音频段的局部训练音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述训练视频段的局部训练视频特征或不同所述训练音频段的局部训练音频特征训练得到;所述输出卷积网络层用于将所述全局训练视频特征和所述局部训练视频特征融合为训练融合视频特征,将所述全局训练音频特征和所述局部训练音频特征融合为训练融合音频特征,并基于所述训练融合视频特征和所述训练融合音频特征预测多个所述视听事件类别的起始时间和结束时间。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述视听事件定位方法或上述网络模型的训练方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述视听事件定位方法或上述网络模型的训练方法的步骤。
通过以上方案可知,本申请提供的一种视听事件定位方法,包括:获取视听数据,按照预设划分方式将所述视听数据划分为多个视听片段;其中,每个所述视听片段包括一个视频段和对应的一个音频段;利用目标网络模型确定多个所述视听片段的视听事件类别,并确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位;其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述视频段的全局视频特征和多个所述音频段的全局音频特征,并确定多个所述视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局视频特征和全局音频特征分别提取多个所述视频段的局部视频特征和多个所述音频段的局部音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述视频段的局部视频特征或不同所述音频段的局部音频特征训练得到;所述输出卷积网络层用于将所述全局视频特征和所述局部视频特征融合为融合视频特征,将所述全局音频特征和所述局部音频特征融合为融合音频特征,并基于所述融合视频特征和所述融合音频特征确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位。
本申请提供的视听事件定位方法,采用目标网络模型基于视听片段的全局视频特征、全局音频特征、局部视频特征、局部视频特征进行视听事件类别的预测和定位,考虑到了全局、局部两重视频、音频模态信息,且是端到端的,可以对视频进行更好的理解,容易落地实施,提高了视听事件定位的准确度。进一步的的本申请针对全局特征的提取、局部特征的提取、全局特征和局部特征的融合对网络模型进行改进,利用注意力机制神经网络模型提取全局视频特征和全局音频特征,采用的损失函数为基于每个所述视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失,有利于有选择地捕捉特征之间的长程依赖关系,并理解复杂的噪声视听事件实例。利用图卷积层提取局部视频特征和局部视频特征,采用的数据依赖矩阵基于不同所述视频段的局部视频特征或不同所述音频段的局部音频特征训练得到,有利于自适应的为每段视听数据学习一个唯一的图,更加关注特征的差异,提高了捕获局部时间上下文的准确性。本申请还公开了一种视听事件定位装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种视听事件定位方法的流程图;
图2为根据一示例性实施例示出的一种augmented transformer的结构图;
图3为根据一示例性实施例示出的一种网络模型的训练方法的流程图;
图4为根据一示例性实施例示出的一种视听事件定位装置的结构图;
图5为根据一示例性实施例示出的一种网络模型的训练装置的结构图;
图6为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例公开了一种视听事件定位方法,提高了视听事件定位的准确度。
参见图1,根据一示例性实施例示出的一种视听事件定位方法的流程图,如图1所示,包括:
S101:获取视听数据,按照预设划分方式将所述视听数据划分为多个视听片段;其中,每个所述视听片段包括一个视频段和对应的一个音频段;
在具体实施中,获取视听数据S=(SA,SV),SA为音频通道,SV为视频通道,视听数据S的长度为N秒,按照预设划分方式将视听数据划分为多个不重叠的视听片段。优选的,按照预设时间长度将视听数据划分为多个视听片段。例如,按照1秒分割视听片段
Figure SMS_31
,/>
Figure SMS_32
和/>
Figure SMS_33
分别为第t段视听片段中的视频段和音频段。对于一个同步的视听对/>
Figure SMS_34
,视听事件类别标签为/>
Figure SMS_35
,C为视听事件的类别总数加上一个背景(background)标签,/>
Figure SMS_36
中时间起止为(ts,t,te,t),ts,t为第t段视听片段的起始时间,te,t为第t段视听片段的结束时间。
S102:利用目标网络模型确定多个所述视听片段的视听事件类别,并确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述视频段的全局视频特征和多个所述音频段的全局音频特征,并确定多个所述视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局视频特征和全局音频特征分别提取多个所述视频段的局部视频特征和多个所述音频段的局部音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述视频段的局部视频特征或不同所述音频段的局部音频特征训练得到;所述输出卷积网络层用于将所述全局视频特征和所述局部视频特征融合为融合视频特征,将所述全局音频特征和所述局部音频特征融合为融合音频特征,并基于所述融合视频特征和所述融合音频特征确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位。
本实施例使用基于注意力机制(Transformer)的神经网络模型来提取视频段的全局视频特征和音频段的全局音频特征,并确定多个视听片段的视听事件类别。
作为一种可行的实施方式,将多个视频段输入注意力机制神经网络模型中,以提取多个视频段的全局视频特征,并根据全局视频特征确定多个视频段对应的视听事件类别;将多个音频段转换为梅尔频谱图,将梅尔频谱图输入注意力机制神经网络模型中,以提取多个音频段的全局音频特征,并根据全局音频特征确定多个音频段对应的视听事件类别。
在具体实施中,音频SA可以按照44100HZ采样,并转换Mel频谱图输入注意力机制神经网络模型中,以提取多个音频段的全局音频特征。视频SV可以按照1s 24帧获取图像,输入注意力机制神经网络模型中,以提取多个视频段的全局视频特征。
普通的Transformer块包括一个自注意力层、位置敏感FFL(feed-forward layer,前馈层)和一个多头注意力用来计算特征,具体公式为:
Figure SMS_37
其中,A是生成的注意力图,d是Q(Query)和K(Key)的维度。直接使用普通transformer会带来问题,根据上述等式,注意图矩阵A中任何元素Amn的计算仅依赖于节点m和n的特征,即
Figure SMS_38
和/>
Figure SMS_39
,这表明注意图的生成没有考虑任何时间上下文,特别是在transformer层中。为了解决上述问题,在普通transformer中添加了一个全局事件损失和一个front块(目标网络层),并将其命名为augmented transformer,如图2所示。
优选的,所述注意力机制神经网络层包括:卷积神经网络,用于提取多个视频段的全局视频特征和多个音频段的全局音频特征;与所述卷积神经网络连接的目标网络层,用于扩展时间感受野;与所述目标网络层连接的注意力机制层;与所述注意力机制层连接的前馈网络层,用于预测视听事件的概率或背景的概率;与所述前馈网络层连接的视听事件类别预测层,用于预测各视听事件类别的概率。
在图2中,卷积神经网络(CNN,Convolutional Neural Network)用于提取音频或视频编码特征。目标网络层包括依次连接的第一部分、第二部分和第三部分;所述第一部分包括门控线性单元;所述第二部分包括并行的预设步长的第一卷积层和平均池化层;所述第三部分包括第二卷积层;其中,所述第二卷积层的尺寸大于所述第一卷积层。优选的,所述预设步长为1,所述第一卷积层的尺寸为1×1,所述平均池化层的尺寸为3×1,所述第一卷积层的尺寸为7×1。优选的,所述第一部分和所述第二部分通过第一残差层连接,所述第二部分和所述第三部分通过第二残差层连接。优选的,所述第一部分还包括与所述门控线性单元连接的第一归一化层;所述第二部分还包括与所述第一卷积层和所述平均池化层连接的第二归一化层;所述第三部分还包括与所述第二卷积层连接的第三归一化层。
front块(目标网络层)是一个由三部分组成的轻量级网络,用于扩展时间感受野。首先应用门控线性单元,然后使用步长为1的并行1×1卷积层和3×1平均池化层来扩大感受野,而较小的3×1平均池化层也可以平滑片段级特征以滤除微小噪声帧。最后一部分是一个卷积层,内核尺寸较大,例如7×1。为了避免大尺寸卷积核的过拟合,采用深度可分离卷积。对每个部分应用残差连接,并对每个部分后面的层进行归一化(layer Norm)。front块(目标网络层)的结构如图2中右上角所示。
优选的,所述前馈网络层包括用于预测视听事件的概率或背景的概率的视听事件预测器,所述视听事件预测器采用二分类损失计算全局视频类别损失或全局音频类别损失;
所述二分类损失Lc为:
Figure SMS_40
其中,1≤t≤T,T为视听片段的数量,
Figure SMS_41
,/>
Figure SMS_42
,/>
Figure SMS_43
为第t个视听片段预测得到的视听事件的概率或背景的概率,/>
Figure SMS_44
为第t个视听片段的视听事件类别标签或背景标签。
全局事件损失显式指导transformer在视频片段级别学习有效的长程依赖关系,FFN(feed-forward network,前馈神经网络)上配备了一个视听事件预测器,它用于通过最小化以下关于视听事件/背景类别的二分类损失来预测输入片段中存在视听事件实例的概率。该损失函数仅依赖transformer输出的每个片段特征来监督网络获得视频片段级分类,这对实现噪声视听事件实例定位至关重要。对于具有某视听事件标签的噪声片段,网络需要建立正确的噪声片段与其他噪声片段之间的关系,从而做出正确的决策。因此,这个损失函数帮助transformer学习如何有选择地捕捉长程依赖关系,并理解复杂的噪声视听事件实例。
在本实施例中,为了捕获视听片段中局部上下文特征,设计了一个新的图卷积层来构建局部分支。首先,构建一个音频特征对应的图结构
Figure SMS_45
,其中,/>
Figure SMS_46
和/>
Figure SMS_47
分别表示节点node集和边edge集。
每个节点表示一个片段中音频,每条边表示两个音频之间的依赖关系。在局部上下文建模中,根据时间距离构建节点间的边,边集定义为:
Figure SMS_48
其中,
Figure SMS_49
定义为最大连接距离。
其次,构建一个视频特征对应的图结构,具体的构建方式与构建音频特征对应的图结构类似,在此不再赘述。
图卷积层的运算
Figure SMS_50
为:/>
Figure SMS_51
;其中,W为训练得到的权重矩阵,
Figure SMS_52
为第l层的特征,M为预设的二进制掩码矩阵,/>
Figure SMS_53
为训练得到的数据依赖矩阵。
与传统的GCN(图卷积网络,Graph Convolutional Networks)使用预定义的邻接矩阵不同,本实施例中矩阵
Figure SMS_54
是学习得来的。/>
Figure SMS_55
是一个数据依赖图,它自适应地为每个视频学习一个唯一的图。本实施例中GCN用于捕获局部时间上下文,因此更关注特征的差异。为了判断两个节点之间是否存在连接以及连接的强弱,/>
Figure SMS_56
中第m个视听片段的特征fm与第n个视听片段的特征fn之间的差值/>
Figure SMS_57
为:
Figure SMS_58
其中,1≤t≤T,T为视听片段的数量,ft为第t个视听片段的特征,
Figure SMS_59
为激活函数,/>
Figure SMS_60
为训练得到的参数向量,用于将/>
Figure SMS_61
的维度降为1。
在获得声音模态、视觉模态的全局特征和视频局部特征后,将他们连接在一起,将它们输入输出卷积网络以生成时间候选框边界,由于采用了全局-局部组合机制,两分支特征具有精确而有判别力的视听事件类别/背景表示。将它们输入到两个相同的输出卷积网络中,该网络由两个时间卷积层和一个sigmoid激活函数组成,分别生成每个片段的起始
Figure SMS_62
和结束/>
Figure SMS_63
的概率。
本申请实施例提供的视听事件定位方法,采用目标网络模型基于视听片段的全局视频特征、全局音频特征、局部视频特征、局部视频特征进行视听事件类别的预测和定位,考虑到了全局、局部两重视频、音频模态信息,且是端到端的,可以对视频进行更好的理解,容易落地实施,提高了视听事件定位的准确度。进一步的的本申请针对全局特征的提取、局部特征的提取、全局特征和局部特征的融合对网络模型进行改进,利用注意力机制神经网络模型提取全局视频特征和全局音频特征,采用的损失函数为基于每个所述视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失,有利于有选择地捕捉特征之间的长程依赖关系,并理解复杂的噪声视听事件实例。利用图卷积层提取局部视频特征和局部视频特征,采用的数据依赖矩阵基于不同所述视频段的局部视频特征或不同所述音频段的局部音频特征训练得到,有利于自适应的为每段视听数据学习一个唯一的图,更加关注特征的差异,提高了捕获局部时间上下文的准确性。
本申请实施例公开了一种模型训练方法。具体的:
参见图3,根据一示例性实施例示出的一种网络模型的训练方法的流程图,如图3所示,包括:
S201:获取训练视听数据,按照预设划分方式将所述训练视听数据划分为多个训练视听片段,并确定多个所述训练视听片段的视听事件类别标签;其中,每个所述训练视听片段包括一个训练视频段和对应的一个训练音频段;
在本实施例中,从公开视听事件数据集中获取视听数据S,使用FFpmeg将视频中音频、视频而分为SA和SV,分别为音频通道和视频通道,可以按照1s来切分音频SA和视频SV
S202:利用多个所述训练视听片段和对应的视听事件类别标签训练目标网络模型;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述训练视频段的全局训练视频特征和多个所述训练音频段的全局训练音频特征,并预测多个所述训练视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述训练视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局训练视频特征和全局训练音频特征分别提取多个所述训练视频段的局部训练视频特征和多个所述训练音频段的局部训练音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述训练视频段的局部训练视频特征或不同所述训练音频段的局部训练音频特征训练得到;所述输出卷积网络层用于将所述全局训练视频特征和所述局部训练视频特征融合为训练融合视频特征,将所述全局训练音频特征和所述局部训练音频特征融合为训练融合音频特征,并基于所述训练融合视频特征和所述训练融合音频特征预测多个所述视听事件类别的起始时间和结束时间。
作为一种可行的实施方式,所述利用多个所述训练视听片段和对应的视听事件类别标签训练目标网络模型,包括:将多个所述训练视频段输入注意力机制神经网络模型中,以提取多个所述训练视频段的全局训练视频特征,预测多个所述训练视频段对应的视听事件类别,并根据多个所述训练视听片段的视听事件类别标签和预测得到的视听事件类别计算全局视频类别损失;将多个所述训练音频段输入注意力机制神经网络模型中,以提取多个所述训练音频段的全局训练音频特征,预测多个所述训练音频段对应的视听事件类别,并根据多个所述训练视听片段的视听事件类别标签和预测得到的视听事件类别计算全局音频类别损失;将多个所述训练视频段的全局训练视频特征输入图卷积层中以提取多个所述训练视频段的局部训练视频特征,将多个所述训练音频段的全局训练音频特征输入图卷积层中以提取多个所述训练音频段的局部训练音频特征;将所述全局训练视频特征和所述局部训练视频特征融合为训练融合视频特征,将所述全局训练音频特征和所述局部训练音频特征融合为训练融合音频特征;将所述训练融合视频特征和所述训练融合音频特征同时输入卷积网络中,预测多个所述视听事件类别的起始时间的概率和结束时间的概率,并计算所述训练视频融合特征和所述训练融合音频特征之间的交叉熵损失;计算所述全局视频类别损失、所述全局音频类别损失、所述交叉熵损失的损失和,并根据所述损失和优化所述注意力机制神经网络模型和所述图卷积层的参数;当满足预设条件时,得到训练完成的注意力机制神经网络模型和图卷积层。
在本实施例中,将训练音频段输入注意力机制神经网络模型中计算全局训练音频特征,并带入使用二分类损失Lc来计算全局音频类别损失
Figure SMS_64
,将训练视频段输入注意力机制神经网络模型中计算全局训练视频特征,并带入使用二分类损失Lc来计算全局视频类别损失/>
Figure SMS_65
注意力机制神经网络模型包括:用于扩展时间感受野的目标网络层;与所述目标网络层连接的注意力机制层;与所述注意力机制层连接的前馈网络层,用于预测视听事件的概率或背景的概率;与所述前馈网络层连接的视听事件类别预测层,用于预测各视听事件类别的概率。
目标网络层包括依次连接的第一部分、第二部分和第三部分;所述第一部分包括门控线性单元;所述第二部分包括并行的预设步长的第一卷积层和平均池化层;所述第三部分包括第二卷积层;其中,所述第二卷积层的尺寸大于所述第一卷积层。优选的,所述预设步长为1,所述第一卷积层的尺寸为1×1,所述平均池化层的尺寸为3×1,所述第一卷积层的尺寸为7×1。优选的,所述第一部分和所述第二部分通过第一残差层连接,所述第二部分和所述第三部分通过第二残差层连接。优选的,所述第一部分还包括与所述门控线性单元连接的第一归一化层;所述第二部分还包括与所述第一卷积层和所述平均池化层连接的第二归一化层;所述第三部分还包括与所述第二卷积层连接的第三归一化层。
front块(目标网络层)是一个由三部分组成的轻量级网络,用于扩展时间感受野。首先应用门控线性单元,然后使用步长为1的并行1×1卷积层和3×1平均池化层来扩大感受野,而较小的3×1平均池化层也可以平滑片段级特征以滤除微小噪声帧。最后一部分是一个卷积层,内核尺寸较大,例如7×1。为了避免大尺寸卷积核的过拟合,采用深度可分离卷积。对每个部分应用残差连接,并对每个部分后面的层进行归一化。front块(目标网络层)的结构如图2中右上角所示。
前馈网络层包括用于预测视听事件的概率或背景的概率的视听事件预测器,所述视听事件预测器采用二分类损失计算全局视频类别损失或全局音频类别损失;
所述二分类损失Lc为:
Figure SMS_66
其中,1≤t≤T,T为视听片段的数量,
Figure SMS_67
,/>
Figure SMS_68
,/>
Figure SMS_69
为第t个视听片段预测得到的视听事件的概率或背景的概率,/>
Figure SMS_70
为第t个视听片段的视听事件类别标签或背景标签。
全局事件损失显式指导transformer在视频片段级别学习有效的长程依赖关系,FFN(feed-forward network,前馈神经网络)上配备了一个视听事件预测器,它用于通过最小化以下关于视听事件/背景类别的二分类损失来预测输入片段中存在视听事件实例的概率。该损失函数仅依赖transformer输出的每个片段特征来监督网络获得视频片段级分类,这对实现噪声视听事件实例定位至关重要。对于具有某视听事件标签的噪声片段,网络需要建立正确的噪声片段与其他噪声片段之间的关系,从而做出正确的决策。因此,这个损失函数帮助transformer学习如何有选择地捕捉长程依赖关系,并理解复杂的噪声视听事件实例。
在具体实施中,将音频、视频信息通过增强Transformer模块FFN后的特征输入图卷积层中,图卷积层的运算
Figure SMS_71
为:/>
Figure SMS_72
;其中,W为训练得到的权重矩阵,
Figure SMS_73
为第l层的特征,M为预设的二进制掩码矩阵,/>
Figure SMS_74
为训练得到的数据依赖矩阵。
本实施例中矩阵
Figure SMS_75
是学习得来的。/>
Figure SMS_76
是一个数据依赖图,它自适应地为每个视频学习一个唯一的图。本实施例中GCN用于捕获局部时间上下文,因此更关注特征的差异。为了判断两个节点之间是否存在连接以及连接的强弱,/>
Figure SMS_77
中第m个视听片段的特征fm与第n个视听片段的特征fn之间的差值/>
Figure SMS_78
为:
Figure SMS_79
其中,1≤t≤T,T为视听片段的数量,ft为第t个视听片段的特征,
Figure SMS_80
为激活函数,/>
Figure SMS_81
为训练得到的参数向量,用于将/>
Figure SMS_82
的维度降为1。
在获得声音模态、视觉模态的全局特征和视频局部特征后,将他们连接在一起,将它们输入一个输出模块以生成时间候选框边界,由于采用了全局-局部组合机制,两分支特征具有精确而有判别力的视听事件类别/背景表示。将它们输入到两个相同的卷积网络中,该网络由两个时间卷积层和一个sigmoid激活函数组成,分别生成每个片段的起始
Figure SMS_83
和结束/>
Figure SMS_84
的概率,同时计算交叉熵损失Lp
计算损失和
Figure SMS_85
,根据损失和使用Adam优化器反向梯度优化注意力机制神经网络模型和图卷积层的参数。
作为一种可行的实施方式,当所述损失和小于预设值时,得到训练完成的注意力机制神经网络模型和图卷积层。作为另一种可行的实施方式,当迭代次数达到预设迭代次数时,得到训练完成的注意力机制神经网络模型和图卷积层。例如,判断迭代次数是否达到100w次,如果到达则停止训练,如果未到达返回步骤S202。
下面对本申请实施例提供的一种视听事件定位装置进行介绍,下文描述的一种视听事件定位装置与上文描述的一种视听事件定位方法可以相互参照。
参见图4,根据一示例性实施例示出的一种视听事件定位装置的结构图,如图4所示,包括:
第一获取模块401,用于获取视听数据,按照预设划分方式将所述视听数据划分为多个视听片段;其中,每个所述视听片段包括一个视频段和对应的一个音频段;
定位模块402,用于利用目标网络模型确定多个所述视听片段的视听事件类别,并确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述视频段的全局视频特征和多个所述音频段的全局音频特征,并确定多个所述视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局视频特征和全局音频特征分别提取多个所述视频段的局部视频特征和多个所述音频段的局部音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述视频段的局部视频特征或不同所述音频段的局部音频特征训练得到;所述输出卷积网络层用于将所述全局视频特征和所述局部视频特征融合为融合视频特征,将所述全局音频特征和所述局部音频特征融合为融合音频特征,并基于所述融合视频特征和所述融合音频特征确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位。
本申请实施例提供的视听事件定位装置,采用目标网络模型基于视听片段的全局视频特征、全局音频特征、局部视频特征、局部视频特征进行视听事件类别的预测和定位,考虑到了全局、局部两重视频、音频模态信息,且是端到端的,可以对视频进行更好的理解,容易落地实施,提高了视听事件定位的准确度。进一步的的本申请针对全局特征的提取、局部特征的提取、全局特征和局部特征的融合对网络模型进行改进,利用注意力机制神经网络模型提取全局视频特征和全局音频特征,采用的损失函数为基于每个所述视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失,有利于有选择地捕捉特征之间的长程依赖关系,并理解复杂的噪声视听事件实例。利用图卷积层提取局部视频特征和局部视频特征,采用的数据依赖矩阵基于不同所述视频段的局部视频特征或不同所述音频段的局部音频特征训练得到,有利于自适应的为每段视听数据学习一个唯一的图,更加关注特征的差异,提高了捕获局部时间上下文的准确性。
在上述实施例的基础上,作为一种优选实施方式,所述注意力机制神经网络层包括:
卷积神经网络,用于提取多个视频段的全局视频特征和多个音频段的全局音频特征;
与所述卷积神经网络连接的目标网络层,用于扩展时间感受野;
与所述目标网络层连接的注意力机制层;
与所述注意力机制层连接的前馈网络层,用于预测视听事件的概率或背景的概率;
与所述前馈网络层连接的视听事件类别预测层,用于预测各视听事件类别的概率。
在上述实施例的基础上,作为一种优选实施方式,所述目标网络层包括依次连接的第一部分、第二部分和第三部分;
所述第一部分包括门控线性单元;
所述第二部分包括并行的预设步长的第一卷积层和平均池化层;
所述第三部分包括第二卷积层;其中,所述第二卷积层的尺寸大于所述第一卷积层。
在上述实施例的基础上,作为一种优选实施方式,所述前馈网络层包括用于预测视听事件的概率或背景的概率的视听事件预测器,所述视听事件预测器采用二分类损失计算全局视频类别损失或全局音频类别损失;
所述二分类损失Lc为:
Figure SMS_86
其中,1≤t≤T,T为视听片段的数量,
Figure SMS_87
,/>
Figure SMS_88
,/>
Figure SMS_89
为第t个视听片段预测得到的视听事件的概率或背景的概率,/>
Figure SMS_90
为第t个视听片段的视听事件类别标签或背景标签。
在上述实施例的基础上,作为一种优选实施方式,所述图卷积层的运算
Figure SMS_91
为:
Figure SMS_92
;其中,W为训练得到的权重矩阵,/>
Figure SMS_93
为第l层的特征,M为预设的二进制掩码矩阵,/>
Figure SMS_94
为训练得到的数据依赖矩阵。/>
在上述实施例的基础上,作为一种优选实施方式,
Figure SMS_95
中第m个视听片段的特征fm与第n个视听片段的特征fn之间的差值/>
Figure SMS_96
为:
Figure SMS_97
其中,1≤t≤T,T为视听片段的数量,ft为第t个视听片段的特征,
Figure SMS_98
为激活函数,/>
Figure SMS_99
为训练得到的参数向量,用于将/>
Figure SMS_100
的维度降为1。
在上述实施例的基础上,作为一种优选实施方式,所述输出卷积网络包括两个时间卷积层和sigmoid激活函数层。
在上述实施例的基础上,作为一种优选实施方式,所述第一获取模块401具体用于:获取视听数据,按照预设时间长度将所述视听数据划分为多个视听片段。
下面对本申请实施例提供的一种网络模型的训练装置进行介绍,下文描述的一种网络模型的训练装置与上文描述的一种网络模型的训练方法可以相互参照。
参见图5,根据一示例性实施例示出的一种网络模型的训练装置的结构图,如图5所示,包括:
第二获取模块501,用于获取训练视听数据,按照预设划分方式将所述训练视听数据划分为多个训练视听片段,并确定多个所述训练视听片段的视听事件类别标签;其中,每个所述训练视听片段包括一个训练视频段和对应的一个训练音频段;
训练模块502,用于利用多个所述训练视听片段和对应的视听事件类别标签训练目标网络模型;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述训练视频段的全局训练视频特征和多个所述训练音频段的全局训练音频特征,并预测多个所述训练视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述训练视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局训练视频特征和全局训练音频特征分别提取多个所述训练视频段的局部训练视频特征和多个所述训练音频段的局部训练音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述训练视频段的局部训练视频特征或不同所述训练音频段的局部训练音频特征训练得到;所述输出卷积网络层用于将所述全局训练视频特征和所述局部训练视频特征融合为训练融合视频特征,将所述全局训练音频特征和所述局部训练音频特征融合为训练融合音频特征,并基于所述训练融合视频特征和所述训练融合音频特征预测多个所述视听事件类别的起始时间和结束时间。
在上述实施例的基础上,作为一种优选实施方式,所述训练模块502包括:
第一输入单元,用于将多个所述训练视频段输入注意力机制神经网络模型中,以提取多个所述训练视频段的全局训练视频特征,预测多个所述训练视频段对应的视听事件类别,并根据多个所述训练视听片段的视听事件类别标签和预测得到的视听事件类别计算全局视频类别损失;
第二输入单元,用于将多个所述训练音频段输入注意力机制神经网络模型中,以提取多个所述训练音频段的全局训练音频特征,预测多个所述训练音频段对应的视听事件类别,并根据多个所述训练视听片段的视听事件类别标签和预测得到的视听事件类别计算全局音频类别损失;
第三输入单元,用于将多个所述训练视频段的全局训练视频特征输入图卷积层中以提取多个所述训练视频段的局部训练视频特征,将多个所述训练音频段的全局训练音频特征输入图卷积层中以提取多个所述训练音频段的局部训练音频特征;
拼接单元,用于将所述全局训练视频特征和所述局部训练视频特征融合为训练融合视频特征,将所述全局训练音频特征和所述局部训练音频特征融合为训练融合音频特征;
第四输入单元,用于将所述训练融合视频特征和所述训练融合音频特征同时输入卷积网络中,预测多个所述视听事件类别的起始时间的概率和结束时间的概率,并计算所述训练视频融合特征和所述训练融合音频特征之间的交叉熵损失;
优化单元,用于计算所述全局视频类别损失、所述全局音频类别损失、所述交叉熵损失的损失和,并根据所述损失和优化所述注意力机制神经网络模型和所述图卷积层的参数;
训练单元,用于当满足预设条件时,得到训练完成的注意力机制神经网络模型和图卷积层。
在上述实施例的基础上,作为一种优选实施方式,所述注意力机制神经网络层包括:
卷积神经网络,用于提取多个视频段的全局视频特征和多个音频段的全局音频特征;
与所述卷积神经网络连接的目标网络层,用于扩展时间感受野;
与所述目标网络层连接的注意力机制层;
与所述注意力机制层连接的前馈网络层,用于预测视听事件的概率或背景的概率;
与所述前馈网络层连接的视听事件类别预测层,用于预测各视听事件类别的概率。
在上述实施例的基础上,作为一种优选实施方式,所述目标网络层包括依次连接的第一部分、第二部分和第三部分;
所述第一部分包括门控线性单元;
所述第二部分包括并行的预设步长的第一卷积层和平均池化层;
所述第三部分包括第二卷积层;其中,所述第二卷积层的尺寸大于所述第一卷积层。
在上述实施例的基础上,作为一种优选实施方式,所述前馈网络层包括用于预测视听事件的概率或背景的概率的视听事件预测器,所述视听事件预测器采用二分类损失计算全局视频类别损失或全局音频类别损失;
所述二分类损失Lc为:
Figure SMS_101
其中,1≤t≤T,T为视听片段的数量,
Figure SMS_102
,/>
Figure SMS_103
,/>
Figure SMS_104
为第t个视听片段预测得到的视听事件的概率或背景的概率,/>
Figure SMS_105
为第t个视听片段的视听事件类别标签或背景标签。
在上述实施例的基础上,作为一种优选实施方式,所述图卷积层的运算
Figure SMS_106
为:
Figure SMS_107
;其中,W为训练得到的权重矩阵,/>
Figure SMS_108
为第l层的特征,M为预设的二进制掩码矩阵,/>
Figure SMS_109
为训练得到的数据依赖矩阵。
在上述实施例的基础上,作为一种优选实施方式,
Figure SMS_110
中第m个视听片段的特征fm与第n个视听片段的特征fn之间的差值/>
Figure SMS_111
为:
Figure SMS_112
其中,1≤t≤T,T为视听片段的数量,ft为第t个视听片段的特征,
Figure SMS_113
为激活函数,/>
Figure SMS_114
为训练得到的参数向量,用于将/>
Figure SMS_115
的维度降为1。
在上述实施例的基础上,作为一种优选实施方式,所述输出卷积网络包括两个时间卷积层和sigmoid激活函数层。
在上述实施例的基础上,作为一种优选实施方式,所述优化单元具体用于:计算所述全局视频类别损失、所述全局音频类别损失、所述交叉熵损失的损失和,并根据所述损失和反向梯度优化所述注意力机制神经网络模型和所述图卷积层的参数。
在上述实施例的基础上,作为一种优选实施方式,所述训练单元具体用于:当所述损失和小于预设值时,得到训练完成的注意力机制神经网络模型和图卷积层;或,当迭代次数达到预设迭代次数时,得到训练完成的注意力机制神经网络模型和图卷积层。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于上述程序模块的硬件实现,且为了实现本申请实施例的方法,本申请实施例还提供了一种电子设备,图6为根据一示例性实施例示出的一种电子设备的结构图,如图6所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的视听事件定位方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统4。
本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、CD-ROM等存储器。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (22)

1.一种视听事件定位方法,其特征在于,包括:
获取视听数据,按照预设划分方式将所述视听数据划分为多个视听片段;其中,每个所述视听片段包括一个视频段和对应的一个音频段;
利用目标网络模型确定多个所述视听片段的视听事件类别,并确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述视频段的全局视频特征和多个所述音频段的全局音频特征,并确定多个所述视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局视频特征和全局音频特征分别提取多个所述视频段的局部视频特征和多个所述音频段的局部音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述视频段的局部视频特征或不同所述音频段的局部音频特征训练得到;所述输出卷积网络层用于将所述全局视频特征和所述局部视频特征融合为融合视频特征,将所述全局音频特征和所述局部音频特征融合为融合音频特征,并基于所述融合视频特征和所述融合音频特征确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位。
2.根据权利要求1所述视听事件定位方法,其特征在于,所述注意力机制神经网络层包括:
卷积神经网络,用于提取多个视频段的全局视频特征和多个音频段的全局音频特征;
与所述卷积神经网络连接的目标网络层,用于扩展时间感受野;
与所述目标网络层连接的注意力机制层;
与所述注意力机制层连接的前馈网络层,用于预测视听事件的概率或背景的概率;
与所述前馈网络层连接的视听事件类别预测层,用于预测各视听事件类别的概率。
3.根据权利要求2所述视听事件定位方法,其特征在于,所述目标网络层包括依次连接的第一部分、第二部分和第三部分;
所述第一部分包括门控线性单元;
所述第二部分包括并行的预设步长的第一卷积层和平均池化层;
所述第三部分包括第二卷积层;其中,所述第二卷积层的尺寸大于所述第一卷积层。
4.根据权利要求2所述视听事件定位方法,其特征在于,所述前馈网络层包括用于预测视听事件的概率或背景的概率的视听事件预测器,所述视听事件预测器采用二分类损失计算全局视频类别损失或全局音频类别损失;
所述二分类损失Lc为:
Figure QLYQS_1
其中,1≤t≤T,T为视听片段的数量,
Figure QLYQS_2
,/>
Figure QLYQS_3
,/>
Figure QLYQS_4
为第t个视听片段预测得到的视听事件的概率或背景的概率,/>
Figure QLYQS_5
为第t个视听片段的视听事件类别标签或背景标签。/>
5.根据权利要求1所述视听事件定位方法,其特征在于,所述图卷积层的运算
Figure QLYQS_6
为:
Figure QLYQS_7
;其中,W为训练得到的权重矩阵,/>
Figure QLYQS_8
为第l层的特征,M为预设的二进制掩码矩阵,/>
Figure QLYQS_9
为训练得到的数据依赖矩阵。
6.根据权利要求5所述视听事件定位方法,其特征在于,
Figure QLYQS_10
中第m个视听片段的特征fm与第n个视听片段的特征fn之间的差值/>
Figure QLYQS_11
为:
Figure QLYQS_12
其中,1≤t≤T,T为视听片段的数量,ft为第t个视听片段的特征,
Figure QLYQS_13
为激活函数,/>
Figure QLYQS_14
为训练得到的参数向量,用于将/>
Figure QLYQS_15
的维度降为1。
7.根据权利要求1所述视听事件定位方法,其特征在于,所述输出卷积网络包括两个时间卷积层和sigmoid激活函数层。
8.根据权利要求1所述视听事件定位方法,其特征在于,所述按照预设划分方式将所述视听数据划分为多个视听片段,包括:
按照预设时间长度将所述视听数据划分为多个视听片段。
9.一种网络模型的训练方法,其特征在于,包括:
获取训练视听数据,按照预设划分方式将所述训练视听数据划分为多个训练视听片段,并确定多个所述训练视听片段的视听事件类别标签;其中,每个所述训练视听片段包括一个训练视频段和对应的一个训练音频段;
利用多个所述训练视听片段和对应的视听事件类别标签训练目标网络模型;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述训练视频段的全局训练视频特征和多个所述训练音频段的全局训练音频特征,并预测多个所述训练视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述训练视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局训练视频特征和全局训练音频特征分别提取多个所述训练视频段的局部训练视频特征和多个所述训练音频段的局部训练音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述训练视频段的局部训练视频特征或不同所述训练音频段的局部训练音频特征训练得到;所述输出卷积网络层用于将所述全局训练视频特征和所述局部训练视频特征融合为训练融合视频特征,将所述全局训练音频特征和所述局部训练音频特征融合为训练融合音频特征,并基于所述训练融合视频特征和所述训练融合音频特征预测多个所述视听事件类别的起始时间和结束时间。
10.根据权利要求9所述网络模型的训练方法,其特征在于,所述利用多个所述训练视听片段和对应的视听事件类别标签训练目标网络模型,包括:
将多个所述训练视频段输入注意力机制神经网络模型中,以提取多个所述训练视频段的全局训练视频特征,预测多个所述训练视频段对应的视听事件类别,并根据多个所述训练视听片段的视听事件类别标签和预测得到的视听事件类别计算全局视频类别损失;
将多个所述训练音频段输入注意力机制神经网络模型中,以提取多个所述训练音频段的全局训练音频特征,预测多个所述训练音频段对应的视听事件类别,并根据多个所述训练视听片段的视听事件类别标签和预测得到的视听事件类别计算全局音频类别损失;
将多个所述训练视频段的全局训练视频特征输入图卷积层中以提取多个所述训练视频段的局部训练视频特征,将多个所述训练音频段的全局训练音频特征输入图卷积层中以提取多个所述训练音频段的局部训练音频特征;
将所述全局训练视频特征和所述局部训练视频特征融合为训练融合视频特征,将所述全局训练音频特征和所述局部训练音频特征融合为训练融合音频特征;
将所述训练融合视频特征和所述训练融合音频特征同时输入卷积网络中,预测多个所述视听事件类别的起始时间的概率和结束时间的概率,并计算所述训练视频融合特征和所述训练融合音频特征之间的交叉熵损失;
计算所述全局视频类别损失、所述全局音频类别损失、所述交叉熵损失的损失和,并根据所述损失和优化所述注意力机制神经网络模型和所述图卷积层的参数;
当满足预设条件时,得到训练完成的注意力机制神经网络模型和图卷积层。
11.根据权利要求9所述网络模型的训练方法,其特征在于,所述注意力机制神经网络层包括:
卷积神经网络,用于提取多个视频段的全局视频特征和多个音频段的全局音频特征;
与所述卷积神经网络连接的目标网络层,用于扩展时间感受野;
与所述目标网络层连接的注意力机制层;
与所述注意力机制层连接的前馈网络层,用于预测视听事件的概率或背景的概率;
与所述前馈网络层连接的视听事件类别预测层,用于预测各视听事件类别的概率。
12.根据权利要求11所述网络模型的训练方法,其特征在于,所述目标网络层包括依次连接的第一部分、第二部分和第三部分;
所述第一部分包括门控线性单元;
所述第二部分包括并行的预设步长的第一卷积层和平均池化层;
所述第三部分包括第二卷积层;其中,所述第二卷积层的尺寸大于所述第一卷积层。
13.根据权利要求11所述网络模型的训练方法,其特征在于,所述前馈网络层包括用于预测视听事件的概率或背景的概率的视听事件预测器,所述视听事件预测器采用二分类损失计算全局视频类别损失或全局音频类别损失;
所述二分类损失Lc为:
Figure QLYQS_16
其中,1≤t≤T,T为视听片段的数量,
Figure QLYQS_17
,/>
Figure QLYQS_18
,/>
Figure QLYQS_19
为第t个视听片段预测得到的视听事件的概率或背景的概率,/>
Figure QLYQS_20
为第t个视听片段的视听事件类别标签或背景标签。
14.根据权利要求9所述网络模型的训练方法,其特征在于,所述图卷积层的运算
Figure QLYQS_21
为:
Figure QLYQS_22
;其中,W为训练得到的权重矩阵,/>
Figure QLYQS_23
为第l层的特征,M为预设的二进制掩码矩阵,/>
Figure QLYQS_24
为训练得到的数据依赖矩阵。/>
15.根据权利要求14所述网络模型的训练方法,其特征在于,
Figure QLYQS_25
中第m个视听片段的特征fm与第n个视听片段的特征fn之间的差值/>
Figure QLYQS_26
为:
Figure QLYQS_27
其中,1≤t≤T,T为视听片段的数量,ft为第t个视听片段的特征,
Figure QLYQS_28
为激活函数,/>
Figure QLYQS_29
为训练得到的参数向量,用于将/>
Figure QLYQS_30
的维度降为1。
16.根据权利要求9所述网络模型的训练方法,其特征在于,所述输出卷积网络包括两个时间卷积层和sigmoid激活函数层。
17.根据权利要求10所述网络模型的训练方法,其特征在于,所述根据所述损失和优化所述注意力机制神经网络模型和所述图卷积层的参数,包括:
根据所述损失和反向梯度优化所述注意力机制神经网络模型和所述图卷积层的参数。
18.根据权利要求10所述网络模型的训练方法,其特征在于,所述当满足预设条件时,得到训练完成的注意力机制神经网络模型和图卷积层,包括:
当所述损失和小于预设值时,得到训练完成的注意力机制神经网络模型和图卷积层;
或,当迭代次数达到预设迭代次数时,得到训练完成的注意力机制神经网络模型和图卷积层。
19.一种视听事件定位装置,其特征在于,包括:
第一获取模块,用于获取视听数据,按照预设划分方式将所述视听数据划分为多个视听片段;其中,每个所述视听片段包括一个视频段和对应的一个音频段;
定位模块,用于利用目标网络模型确定多个所述视听片段的视听事件类别,并确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述视频段的全局视频特征和多个所述音频段的全局音频特征,并确定多个所述视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局视频特征和全局音频特征分别提取多个所述视频段的局部视频特征和多个所述音频段的局部音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述视频段的局部视频特征或不同所述音频段的局部音频特征训练得到;所述输出卷积网络层用于将所述全局视频特征和所述局部视频特征融合为融合视频特征,将所述全局音频特征和所述局部音频特征融合为融合音频特征,并基于所述融合视频特征和所述融合音频特征确定多个所述视听事件类别的起始时间和结束时间,实现多个所述视听事件类别的定位。
20.一种网络模型的训练装置,其特征在于,包括:
第二获取模块,用于获取训练视听数据,按照预设划分方式将所述训练视听数据划分为多个训练视听片段,并确定多个所述训练视听片段的视听事件类别标签;其中,每个所述训练视听片段包括一个训练视频段和对应的一个训练音频段;
训练模块,用于利用多个所述训练视听片段和对应的视听事件类别标签训练目标网络模型;
其中,所述目标网络模型包括注意力机制神经网络层、图卷积层和输出卷积网络层,所述注意力机制神经网络层用于提取多个所述训练视频段的全局训练视频特征和多个所述训练音频段的全局训练音频特征,并预测多个所述训练视听片段的视听事件类别,所述注意力机制神经网络层采用的损失函数为基于每个所述训练视听片段预测得到的视听事件的概率计算得到的全局视频类别损失或全局音频类别损失;所述图卷积层用于基于所述注意力机制神经网络层提取的全局训练视频特征和全局训练音频特征分别提取多个所述训练视频段的局部训练视频特征和多个所述训练音频段的局部训练音频特征,所述图卷积层采用的数据依赖矩阵基于不同所述训练视频段的局部训练视频特征或不同所述训练音频段的局部训练音频特征训练得到;所述输出卷积网络层用于将所述全局训练视频特征和所述局部训练视频特征融合为训练融合视频特征,将所述全局训练音频特征和所述局部训练音频特征融合为训练融合音频特征,并基于所述训练融合视频特征和所述训练融合音频特征预测多个所述视听事件类别的起始时间和结束时间。
21.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述视听事件定位方法或如权利要求9至18任一项所述网络模型的训练方法的步骤。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述视听事件定位方法或如权利要求9至18任一项所述网络模型的训练方法的步骤。
CN202310509062.4A 2023-05-08 2023-05-08 视听事件定位方法、模型训练方法、装置及设备和介质 Active CN116246214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310509062.4A CN116246214B (zh) 2023-05-08 2023-05-08 视听事件定位方法、模型训练方法、装置及设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310509062.4A CN116246214B (zh) 2023-05-08 2023-05-08 视听事件定位方法、模型训练方法、装置及设备和介质

Publications (2)

Publication Number Publication Date
CN116246214A true CN116246214A (zh) 2023-06-09
CN116246214B CN116246214B (zh) 2023-08-11

Family

ID=86624589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310509062.4A Active CN116246214B (zh) 2023-05-08 2023-05-08 视听事件定位方法、模型训练方法、装置及设备和介质

Country Status (1)

Country Link
CN (1) CN116246214B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037046A (zh) * 2023-10-08 2023-11-10 之江实验室 一种视听事件检测方法、装置、存储介质及电子设备
CN117238298A (zh) * 2023-11-13 2023-12-15 四川师范大学 一种基于声音事件的动物识别与定位方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
US20200285944A1 (en) * 2019-03-08 2020-09-10 Adobe Inc. Graph convolutional networks with motif-based attention
CN112948708A (zh) * 2021-03-05 2021-06-11 清华大学深圳国际研究生院 一种短视频推荐方法
CN112989977A (zh) * 2021-03-03 2021-06-18 复旦大学 一种基于跨模态注意力机制的视听事件定位方法及装置
WO2021169209A1 (zh) * 2020-02-27 2021-09-02 平安科技(深圳)有限公司 一种基于语音及图像特征的异常行为识别方法、装置及设备
CN113688765A (zh) * 2021-08-31 2021-11-23 南京信息工程大学 一种基于注意力机制的自适应图卷积网络的动作识别方法
CN113971776A (zh) * 2021-10-15 2022-01-25 浙江大学 视听事件定位方法和系统
CN114519809A (zh) * 2022-02-14 2022-05-20 复旦大学 一种基于多尺度语义网络的视听视频解析装置及方法
US20220230628A1 (en) * 2021-01-20 2022-07-21 Microsoft Technology Licensing, Llc Generation of optimized spoken language understanding model through joint training with integrated knowledge-language module
CN115861879A (zh) * 2022-11-25 2023-03-28 北京邮电大学 基于事件一致性的视听事件检测方法及装置
CN116070169A (zh) * 2023-01-28 2023-05-05 天翼云科技有限公司 模型训练方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285944A1 (en) * 2019-03-08 2020-09-10 Adobe Inc. Graph convolutional networks with motif-based attention
WO2021169209A1 (zh) * 2020-02-27 2021-09-02 平安科技(深圳)有限公司 一种基于语音及图像特征的异常行为识别方法、装置及设备
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
US20220230628A1 (en) * 2021-01-20 2022-07-21 Microsoft Technology Licensing, Llc Generation of optimized spoken language understanding model through joint training with integrated knowledge-language module
CN112989977A (zh) * 2021-03-03 2021-06-18 复旦大学 一种基于跨模态注意力机制的视听事件定位方法及装置
CN112948708A (zh) * 2021-03-05 2021-06-11 清华大学深圳国际研究生院 一种短视频推荐方法
CN113688765A (zh) * 2021-08-31 2021-11-23 南京信息工程大学 一种基于注意力机制的自适应图卷积网络的动作识别方法
CN113971776A (zh) * 2021-10-15 2022-01-25 浙江大学 视听事件定位方法和系统
CN114519809A (zh) * 2022-02-14 2022-05-20 复旦大学 一种基于多尺度语义网络的视听视频解析装置及方法
CN115861879A (zh) * 2022-11-25 2023-03-28 北京邮电大学 基于事件一致性的视听事件检测方法及装置
CN116070169A (zh) * 2023-01-28 2023-05-05 天翼云科技有限公司 模型训练方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TIAN Y等: "Audio-visual event localization in unconstrained videos", 《ECCV》 *
张亚洲;戎璐;宋大为;张鹏;: "多模态情感分析研究综述", 模式识别与人工智能, no. 05 *
李斌;张正强;张家亮;周世杰;刘建新;: "基于人工智能的跨媒体感知与分析技术研究", 通信技术, no. 01 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037046A (zh) * 2023-10-08 2023-11-10 之江实验室 一种视听事件检测方法、装置、存储介质及电子设备
CN117037046B (zh) * 2023-10-08 2024-01-09 之江实验室 一种视听事件检测方法、装置、存储介质及电子设备
CN117238298A (zh) * 2023-11-13 2023-12-15 四川师范大学 一种基于声音事件的动物识别与定位方法及系统
CN117238298B (zh) * 2023-11-13 2024-02-06 四川师范大学 一种基于声音事件的动物识别与定位方法及系统

Also Published As

Publication number Publication date
CN116246214B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN116246214B (zh) 视听事件定位方法、模型训练方法、装置及设备和介质
CN108520741A (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
CN111837142A (zh) 用于表征视频内容的深度强化学习框架
JP2005208648A (ja) スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
WO2022141706A1 (zh) 语音识别方法、装置及存储介质
Borsos et al. Speechpainter: Text-conditioned speech inpainting
WO2023226839A1 (zh) 音频增强方法、装置、电子设备及可读存储介质
CN114882862A (zh) 一种语音处理方法及相关设备
CN111653270A (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
Vryzas et al. Audiovisual speaker indexing for Web-TV automations
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
CN111462732A (zh) 语音识别方法和装置
Rajavel et al. Adaptive reliability measure and optimum integration weight for decision fusion audio-visual speech recognition
CN116324973A (zh) 包含时间缩减层的基于变换器的自动语音识别系统
Chelali Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
Sophiya et al. Large scale data based audio scene classification
Wei et al. Mapping ultrasound-based articulatory images and vowel sounds with a deep neural network framework
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Takashima et al. Unsupervised domain adaptation for lip reading based on cross-modal knowledge distillation
Abdelaziz Improving acoustic modeling using audio-visual speech
Yang et al. Integrated visual transformer and flash attention for lip-to-speech generation GAN
KR102663654B1 (ko) 적응형 시각적 스피치 인식
WO2024018429A1 (en) Audio signal processing method, audio signal processing apparatus, computer device and storage medium
Nam et al. Audio-Visual-Information-Based Speaker Matching Framework for Selective Hearing in a Recorded Video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant