CN115134676A - 一种音频辅助视频补全的视频重构方法及装置 - Google Patents

一种音频辅助视频补全的视频重构方法及装置 Download PDF

Info

Publication number
CN115134676A
CN115134676A CN202211060490.5A CN202211060490A CN115134676A CN 115134676 A CN115134676 A CN 115134676A CN 202211060490 A CN202211060490 A CN 202211060490A CN 115134676 A CN115134676 A CN 115134676A
Authority
CN
China
Prior art keywords
video
data
frame
vector
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211060490.5A
Other languages
English (en)
Other versions
CN115134676B (zh
Inventor
黄于晏
陈畅新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmi Technology Co ltd
Original Assignee
Youmi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youmi Technology Co ltd filed Critical Youmi Technology Co ltd
Priority to CN202211060490.5A priority Critical patent/CN115134676B/zh
Publication of CN115134676A publication Critical patent/CN115134676A/zh
Application granted granted Critical
Publication of CN115134676B publication Critical patent/CN115134676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种音频辅助视频补全的视频重构方法及装置,该方法包括:对待处理视频执行视频预处理操作,得到音频及画面数据,并根据视频块嵌入层对画面数据执行特征转换操作,得到特征转换向量;根据特征融合层,对特征转换向量执行随机掩码操作,得到掩码数据;根据特征融合层,对掩码数据及音频数据执行特征融合操作,得到特征融合向量;根据视频重构层对特征融合向量执行视频重构操作,以训练视频重构模型;当判断出视频重构模型的模型收敛参数在收敛阈值内时,确定完成训练任务,训练完成的视频重构模型用于对确定出的待重构视频执行视频重构操作。可见,实施本发明能够通过重构模型实现视频重构,丰富视频内容及画面要素。

Description

一种音频辅助视频补全的视频重构方法及装置
技术领域
本发明涉及音视频处理技术领域,尤其涉及一种音频辅助视频补全的视频重构方法及装置。
背景技术
随着手机的发展与普及以及人们生活水平的提升,人手一部手机已经成为常态,在人们的手机娱乐活动中,短视频俨然是最为热门的首选之一。对于用户来说,人们对于短视频的浏览量、视频观看时长的考究要素,除了短视频的配乐及背景声音之外,核心要素仍旧在于短视频的画面内容,究其原因在于别具一格的画面要素、故事性强的画面内容更能带动用户的情绪、实现短视频的价值。然而,在海量的短视频中,大部分的视频素材已被多次复用,视频素材本身的效果已大大下降,此时短视频创作者创作出的作品将会出现视频内容单一、画面要素不够丰富等情况。可见,提供一种解决视频内容单一、画面要素不够丰富的方法显得尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种音频辅助视频补全的视频重构方法及装置,能够智能化重构视频,丰富视频要素,提高视频内容的复杂性与可观赏性。
为了解决上述技术问题,本发明第一方面公开了一种音频辅助视频补全的视频重构方法,所述方法包括:
对获取到的待处理视频执行视频预处理操作,得到所述待处理视频对应的音频数据及画面数据,所述画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据;
将所述画面数据输入预先构建的视频块嵌入层,并根据所述视频块嵌入层对所述画面数据执行特征转换操作,得到所述画面数据对应的特征转换向量;
根据预设的特征融合层,对所述特征转换向量执行随机掩码操作,得到所述特征转换向量的掩码结果,所述掩码结果包括所述特征转换向量对应的掩码数据;
根据所述特征融合层,对所述掩码数据以及所述音频数据执行特征融合操作,得到所述掩码数据与所述音频数据的特征融合向量;
根据预设的视频重构层对所述特征融合向量执行视频重构操作,以训练视频重构模型,所述视频重构模型包括所述视频块嵌入层、所述特征融合层以及所述视频重构层;
当判断出所述视频重构模型对应的模型训练结果表示所述视频重构模型的模型收敛参数在预设收敛阈值内时,确定完成针对所述视频重构模型的训练任务,训练完成后的所述视频重构模型用于对确定出的待重构视频执行视频重构操作。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述特征融合层,对所述掩码数据以及所述音频数据执行特征融合操作,得到所述掩码数据与所述音频数据的特征融合向量,包括:
根据所述特征融合层,在预设维度层级对所述掩码数据以及所述音频数据执行数据拼接操作,得到所述掩码数据与所述音频数据的拼接特征向量;
对所述拼接特征向量的维度顺序变换操作,得到所述拼接特征向量对应的变换特征向量;
将所述变换特征向量输入预设的全连接层,得到所述变换特征向量对应的输出特征向量;
根据预设的激活层对所述输出特征向量执行非线性变换操作,得到所述输出特征向量对应的非线性变换向量;
对所述非线性变换向量执行所述维度顺序变换操作以及类别标记操作,得到所述非线性变换向量对应的目标维度向量,作为所述掩码数据与所述音频数据的特征融合向量,所述特征融合向量包括用于表示该特征融合向量的全局信息的类别标记。
作为一种可选的实施方式,在本发明第一方面中,所述视频重构层包括视频重构编码器以及视频重构解码器,所述根据预设的视频重构层对所述特征融合向量执行视频重构操作,包括:
根据所述视频重构编码器所包括的全连接层,对所述特征融合向量执行所述特征融合操作,得到所述特征融合向量对应的特征输出结果,所述特征输出结果包括每个所述随机掩码对应的掩码标识;
根据所述视频重构解码器以及所述掩码标识,对所述特征输出结果执行特征处理操作,得到所述特征输出结果对应的特征处理向量;
计算所述特征融合向量与所述特征处理向量之间的损失参数,所述损失参数用于确定视频重构模型的模型收敛进度。
作为一种可选的实施方式,在本发明第一方面中,所述掩码结果还包括除所述掩码数据之外的其他数据;所述根据所述视频重构解码器以及所述掩码标识,对所述特征输出结果执行特征处理操作,得到所述特征输出结果对应的特征处理向量,包括:
根据所述掩码标识,对所述特征输出结果以及所述其他数据,按照所述待处理视频中每帧数据对应的帧时刻进行数据排列操作,得到所述特征输出结果以及所述其他数据对应的数据排列结果,其中,所述待处理视频中每帧数据对应的帧时刻越早,在所述数据排列结果中的位置越靠前;
根据所述视频重构解码器,对所述数据排列结果执行数据重构操作,得到所述数据排列结果对应的重构向量;
删除所述重构向量中的所述类别标记,以更新所述重构向量并将所述重构向量确定为所述特征输出结果对应的特征处理向量。
作为一种可选的实施方式,在本发明第一方面中,所述对获取到的待处理视频执行视频预处理操作,得到所述待处理视频对应的音频数据及画面数据,包括:
对获取到的待处理视频执行数据分离操作,得到所述待处理视频对应的原始音频数据以及原始画面数据;
确定所述原始画面数据对应的抽帧间隔,并根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作,得到若干个满足预设抽帧要求的视频帧,将所有所述视频帧确定为所述待处理视频对应的画面数据;
根据预设的音频处理函数以及卷积层,对所述原始音频数据执行音频预处理操作,得到所述原始音频的预处理结果,作为所述待处理视频对应的音频数据,所述预处理结果包括所述原始音频对应的音频特征向量。
作为一种可选的实施方式,在本发明第一方面中,所述确定所述原始画面数据对应的抽帧间隔,包括:
分析所述原始画面数据,得到所述原始画面数据的变帧类型,并根据所述原始画面数据的变帧类型、所述原始画面数据以及预设帧数阈值,确定与该变帧类型对应的抽帧间隔,其中,所述变帧类型包括第一变帧类型或第二变帧类型,所述第一变帧类型为所述原始画面数据的画面内容发生变化的帧数间隔小于所述预设帧数阈值的类型,所述第二变帧类型为所述原始画面数据的画面内容发生变化的帧数间隔大于等于所述预设帧数阈值的类型,或者;
分析所述原始画面数据,得到所述原始画面数据中每帧数据与该帧数据的后一帧数据之间的光流参数;
根据预先设定的标准光流阈值以及所有所述光流参数,确定目标间隔帧数,其中,每间隔所述目标间隔帧数的所有帧数据对应的光流参数的参数总和小于等于所述标准光流阈值;
将所述目标间隔帧数确定为所述原始画面数据对应的抽帧间隔。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作,得到若干个满足预设抽帧要求的视频帧,包括:
根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作,得到与所述原始画面数据对应的若干个原始视频帧;
分析每个所述原始视频帧,得到每个所述原始视频帧的原始帧数以及该原始帧数对应的帧数类型,所述帧数类型包括所述原始视频帧的原始帧数等于预设帧数的合格类型或不等于所述预设帧数的非合格类型;
当所有所述原始视频帧中存在所述非合格类型的原始视频帧时,确定所述非合格类型对应的所有目标视频帧以及每个所述目标视频帧的帧数;
根据每个所述目标视频帧的帧数,对每个所述目标视频帧执行帧数修正操作,得到每个所述目标视频帧对应的修正视频帧并根据所述修正视频帧更新所述原始视频帧,所述修正视频帧的帧数等于所述预设帧数;
将更新后的所有所述原始视频帧确定为所述原始画面数据对应的满足预设抽帧要求的视频帧。
本发明第二方面公开了一种音频辅助视频补全的视频重构装置,所述装置包括:
预处理模块,用于对获取到的待处理视频执行视频预处理操作,得到所述待处理视频对应的音频数据及画面数据,所述画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据;
特征转换模块,用于将所述画面数据输入预先构建的视频块嵌入层,并根据所述视频块嵌入层对所述画面数据执行特征转换操作,得到所述画面数据对应的特征转换向量;
掩码处理模块,用于根据预设的特征融合层,对所述特征转换向量执行随机掩码操作,得到所述特征转换向量的掩码结果,所述掩码结果包括所述特征转换向量对应的掩码数据;
特征融合模块,用于根据所述特征融合层,对所述掩码数据以及所述音频数据执行特征融合操作,得到所述掩码数据与所述音频数据的特征融合向量;
重构训练模块,用于根据预设的视频重构层对所述特征融合向量执行视频重构操作,以训练视频重构模型,所述视频重构模型包括所述视频块嵌入层、所述特征融合层以及所述视频重构层;
确定模块,用于当判断出所述视频重构模型对应的模型训练结果表示所述视频重构模型的模型收敛参数在预设收敛阈值内时,确定完成针对所述视频重构模型的训练任务,训练完成后的所述视频重构模型用于对确定出的待重构视频执行视频重构操作。
作为一种可选的实施方式,在本发明第二方面中,所述特征融合模块根据所述特征融合层,对所述掩码数据以及所述音频数据执行特征融合操作,得到所述掩码数据与所述音频数据的特征融合向量的方式具体包括:
根据所述特征融合层,在预设维度层级对所述掩码数据以及所述音频数据执行数据拼接操作,得到所述掩码数据与所述音频数据的拼接特征向量;
对所述拼接特征向量的维度顺序变换操作,得到所述拼接特征向量对应的变换特征向量;
将所述变换特征向量输入预设的全连接层,得到所述变换特征向量对应的输出特征向量;
根据预设的激活层对所述输出特征向量执行非线性变换操作,得到所述输出特征向量对应的非线性变换向量;
对所述非线性变换向量执行所述维度顺序变换操作以及类别标记操作,得到所述非线性变换向量对应的目标维度向量,作为所述掩码数据与所述音频数据的特征融合向量,所述特征融合向量包括用于表示该特征融合向量的全局信息的类别标记。
作为一种可选的实施方式,在本发明第二方面中,所述视频重构层包括视频重构编码器以及视频重构解码器,所述重构训练模块根据预设的视频重构层对所述特征融合向量执行视频重构操作的方式具体包括:
根据所述视频重构编码器所包括的全连接层,对所述特征融合向量执行所述特征融合操作,得到所述特征融合向量对应的特征输出结果,所述特征输出结果包括每个所述随机掩码对应的掩码标识;
根据所述视频重构解码器以及所述掩码标识,对所述特征输出结果执行特征处理操作,得到所述特征输出结果对应的特征处理向量;
计算所述特征融合向量与所述特征处理向量之间的损失参数,所述损失参数用于确定视频重构模型的模型收敛进度。
作为一种可选的实施方式,在本发明第二方面中,所述掩码结果还包括除所述掩码数据之外的其他数据;所述重构训练模块根据所述视频重构解码器以及所述掩码标识,对所述特征输出结果执行特征处理操作,得到所述特征输出结果对应的特征处理向量的方式具体包括:
根据所述掩码标识,对所述特征输出结果以及所述其他数据,按照所述待处理视频中每帧数据对应的帧时刻进行数据排列操作,得到所述特征输出结果以及所述其他数据对应的数据排列结果,其中,所述待处理视频中每帧数据对应的帧时刻越早,在所述数据排列结果中的位置越靠前;
根据所述视频重构解码器,对所述数据排列结果执行数据重构操作,得到所述数据排列结果对应的重构向量;
删除所述重构向量中的所述类别标记,以更新所述重构向量并将所述重构向量确定为所述特征输出结果对应的特征处理向量。
作为一种可选的实施方式,在本发明第二方面中,所述预处理模块,包括:
分离子模块,用于对获取到的待处理视频执行数据分离操作,得到所述待处理视频对应的原始音频数据以及原始画面数据;
确定子模块,用于确定所述原始画面数据对应的抽帧间隔;
抽帧子模块,用于根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作,得到若干个满足预设抽帧要求的视频帧;
所述确定子模块,还用于将所有所述视频帧确定为所述待处理视频对应的画面数据;
音频处理子模块,用于根据预设的音频处理函数以及卷积层,对所述原始音频数据执行音频预处理操作,得到所述原始音频的预处理结果,作为所述待处理视频对应的音频数据,所述预处理结果包括所述原始音频对应的音频特征向量。
作为一种可选的实施方式,在本发明第二方面中,所述确定子模块确定所述原始画面数据对应的抽帧间隔的方式具体包括:
分析所述原始画面数据,得到所述原始画面数据的变帧类型,并根据所述原始画面数据的变帧类型、所述原始画面数据以及预设帧数阈值,确定与该变帧类型对应的抽帧间隔,其中,所述变帧类型包括第一变帧类型或第二变帧类型,所述第一变帧类型为所述原始画面数据的画面内容发生变化的帧数间隔小于所述预设帧数阈值的类型,所述第二变帧类型为所述原始画面数据的画面内容发生变化的帧数间隔大于等于所述预设帧数阈值的类型,或者;
分析所述原始画面数据,得到所述原始画面数据中每帧数据与该帧数据的后一帧数据之间的光流参数;
根据预先设定的标准光流阈值以及所有所述光流参数,确定目标间隔帧数,其中,每间隔所述目标间隔帧数的所有帧数据对应的光流参数的参数总和小于等于所述标准光流阈值;
将所述目标间隔帧数确定为所述原始画面数据对应的抽帧间隔。
作为一种可选的实施方式,在本发明第二方面中,所述抽帧子模块根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作,得到若干个满足预设抽帧要求的视频帧的方式具体包括:
根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作,得到与所述原始画面数据对应的若干个原始视频帧;
分析每个所述原始视频帧,得到每个所述原始视频帧的原始帧数以及该原始帧数对应的帧数类型,所述帧数类型包括所述原始视频帧的原始帧数等于预设帧数的合格类型或不等于所述预设帧数的非合格类型;
当所有所述原始视频帧中存在所述非合格类型的原始视频帧时,确定所述非合格类型对应的所有目标视频帧以及每个所述目标视频帧的帧数;
根据每个所述目标视频帧的帧数,对每个所述目标视频帧执行帧数修正操作,得到每个所述目标视频帧对应的修正视频帧并根据所述修正视频帧更新所述原始视频帧,所述修正视频帧的帧数等于所述预设帧数;
将更新后的所有所述原始视频帧确定为所述原始画面数据对应的满足预设抽帧要求的视频帧。
本发明第三方面公开了另一种音频辅助视频补全的视频重构装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的音频辅助视频补全的视频重构方法。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的音频辅助视频补全的视频重构方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,提供了一种音频辅助视频补全的视频重构方法,该方法包括:对获取到的待处理视频执行视频预处理操作,得到待处理视频对应的音频数据及画面数据,画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据;将画面数据输入预先构建的视频块嵌入层,并根据视频块嵌入层对画面数据执行特征转换操作,得到画面数据对应的特征转换向量;根据预设的特征融合层,对特征转换向量执行随机掩码操作,得到特征转换向量的掩码结果,掩码结果包括特征转换向量对应的掩码数据;根据特征融合层,对掩码数据以及音频数据执行特征融合操作,得到掩码数据与音频数据的特征融合向量;根据预设的视频重构层对特征融合向量执行视频重构操作,以训练视频重构模型,视频重构模型包括视频块嵌入层、特征融合层以及视频重构层;当判断出视频重构模型对应的模型训练结果表示视频重构模型的模型收敛参数在预设收敛阈值内时,确定完成针对视频重构模型的训练任务,训练完成后的视频重构模型用于对确定出的待重构视频执行视频重构操作。可见,实施本发明能够对获取到的待处理视频执行视频预处理操作,从而将待处理视频分离成音频数据与画面数据,之后通过预设的视频块嵌入层、特征融合层以及视频重构层智能化处理分离得到的音频数据与画面数据,从而实现对视频重构模型的训练操作,最终完成训练的模型用于重构输入的待重构视频,重构的视频在延长了视频时长的基础上,解决了画面内容单一的问题,丰富了视频的画面要素,提高了重构视频的可观赏性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种音频辅助视频补全的视频重构方法的流程示意图;
图2是本发明实施例公开的另一种音频辅助视频补全的视频重构方法的流程示意图;
图3是本发明实施例公开的一种音频辅助视频补全的视频重构装置的结构示意图;
图4是本发明实施例公开的另一种音频辅助视频补全的视频重构装置的结构示意图;
图5是本发明实施例公开的又一种音频辅助视频补全的视频重构装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种音频辅助视频补全的视频重构方法及装置,能够对获取到的待处理视频执行视频预处理操作,从而将待处理视频分离成音频数据与画面数据,之后通过预设的视频块嵌入层、特征融合层以及视频重构层智能化处理分离得到的音频数据与画面数据,从而实现对视频重构模型的训练操作,最终完成训练的模型用于重构输入的待重构视频,重构的视频在延长了视频时长的基础上,解决了画面内容单一的问题,丰富了视频的画面要素,提高了重构视频的可观赏性。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种音频辅助视频补全的视频重构方法的流程示意图。其中,图1所描述的音频辅助视频补全的视频重构方法可以应用于音频辅助视频补全的视频重构装置中,本发明实施例不做限定。如图1所示,该音频辅助视频补全的视频重构方法可以包括以下操作:
101、对获取到的待处理视频执行视频预处理操作,得到待处理视频对应的音频数据及画面数据。
本发明实施例中,画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据。
102、将画面数据输入预先构建的视频块嵌入层,并根据视频块嵌入层对画面数据执行特征转换操作,得到画面数据对应的特征转换向量。
本发明实施例中,假定分离得到的画面数据为N帧的视频帧,且每帧的图像尺寸为a*a,则转换得到的特征转化向量为(N,3,a,a),其中,3代表RGB三通道,每帧的图像尺寸a*a为预先确定出的尺寸,其中,a的取值可以为32的整数倍,取值区间具体可以为[200,300],实际应用中a,N的取值可进行自适应调整,本发明实施例不做限定。
本发明实施例中,该视频块嵌入层可以为3D Patch Embedding层,也即通过一个3D卷积层,同时在空间和时间维度上进行卷积,从而额外提取出前后帧之间的相关性特征,通过该视频块嵌入层,能够把输入的视频帧都转换为对应的特征向量,在将转换特征向量输入特征融合层之前,还会加入余弦初始化得到的位置编码向量,用来表征每个图像块在图像中的位置信息。
103、根据预设的特征融合层,对特征转换向量执行随机掩码操作,得到特征转换向量的掩码结果。
本发明实施例中,掩码结果包括特征转换向量对应的掩码数据。
104、根据特征融合层,对掩码数据以及音频数据执行特征融合操作,得到掩码数据与音频数据的特征融合向量。
本发明实施例中,可选的,步骤104根据特征融合层,对掩码数据以及音频数据执行特征融合操作,得到掩码数据与音频数据的特征融合向量的方式具体可以包括以下操作:
根据特征融合层,在预设维度层级对掩码数据以及音频数据执行数据拼接操作,得到掩码数据与音频数据的拼接特征向量;
对拼接特征向量的维度顺序变换操作,得到拼接特征向量对应的变换特征向量;
将变换特征向量输入预设的全连接层,得到变换特征向量对应的输出特征向量;
根据预设的激活层对输出特征向量执行非线性变换操作,得到输出特征向量对应的非线性变换向量;
对非线性变换向量执行维度顺序变换操作以及类别标记操作,得到非线性变换向量对应的目标维度向量,作为掩码数据与音频数据的特征融合向量,特征融合向量包括用于表示该特征融合向量的全局信息的类别标记。
本发明实施例中,为了便于理解,进一步说明如下,记掩码数据为(N1,L,M),对应的音频数据记为(N2,L,M),得到的拼接特征向量为(N1,L+L,M),之后得到的转换特征向量为(N1,M,L+L),经过全连接层之后得到的输出特征向量为(N1,M,L);在经过预设的激活层(包括预设的激活函数)以及执行维度顺序变换操作、类别标记操作得到的目标维度向量为(N1,L+1,M),其中。音频数据与掩码数据在特征维度上一致,均为上述对应的(L,M),进一步的,N1为掩码数据对应的帧数,N2为音频数据的音频数量,L为向量长度,M为向量维度,N1、N2、L以及M的具体数值本发明实施例不做限定。
105、根据预设的视频重构层对特征融合向量执行视频重构操作,以训练视频重构模型。
本发明实施例中,可选的,视频重构层包括视频重构编码器以及视频重构解码器,步骤105根据预设的视频重构层对特征融合向量执行视频重构操作的方式具体可以包括以下操作:
根据视频重构编码器所包括的全连接层,对特征融合向量执行特征融合操作,得到特征融合向量对应的特征输出结果,特征输出结果包括每个随机掩码对应的掩码标识;
根据视频重构解码器以及掩码标识,对特征输出结果执行特征处理操作,得到特征输出结果对应的特征处理向量;
计算特征融合向量与特征处理向量之间的损失参数,损失参数用于确定视频重构模型的模型收敛进度。
其中,通过最小化特征融合向量与特征处理向量之间的SmoothL1距离,作为损失参数。
进一步的,掩码结果还包括除掩码数据之外的其他数据;上述根据视频重构解码器以及掩码标识,对特征输出结果执行特征处理操作,得到特征输出结果对应的特征处理向量的方式具体可以包括以下操作:
根据掩码标识,对特征输出结果以及其他数据,按照待处理视频中每帧数据对应的帧时刻进行数据排列操作,得到特征输出结果以及其他数据对应的数据排列结果,其中,待处理视频中每帧数据对应的帧时刻越早,在数据排列结果中的位置越靠前;
根据视频重构解码器,对数据排列结果执行数据重构操作,得到数据排列结果对应的重构向量;
删除重构向量中的类别标记,以更新重构向量并将重构向量确定为特征输出结果对应的特征处理向量。
106、当判断出视频重构模型对应的模型训练结果表示视频重构模型的模型收敛参数在预设收敛阈值内时,确定完成针对视频重构模型的训练任务。
本发明实施例中,训练完成后的视频重构模型用于对确定出的待重构视频执行视频重构操作。
本发明实施例中,当判断出视频重构模型对应的模型训练结果表示视频重构模型的模型收敛参数在预设收敛阈值之外时,根据模型收敛参数以及计算出的特征融合向量与特征处理向量之间的损失参数,进行反向传播以更新模型参数。
可见,实施图1所描述的音频辅助视频补全的视频重构方法,能够对获取到的待处理视频执行视频预处理操作,从而将待处理视频分离成音频数据与画面数据,之后通过预设的视频块嵌入层、特征融合层以及视频重构层智能化处理分离得到的音频数据与画面数据,从而实现对视频重构模型的训练操作,最终完成训练的模型用于重构输入的待重构视频,重构的视频在延长了视频时长的基础上,解决了画面内容单一的问题,丰富了视频的画面要素,提高了重构视频的可观赏性以及提高用户对重构视频的观看体验,进而延长用户对重构视频的观看时长。
实施例二
请参阅图2,图2是本发明实施例公开的另一种音频辅助视频补全的视频重构方法的流程示意图。其中,图2所描述的音频辅助视频补全的视频重构方法可以应用于音频辅助视频补全的视频重构装置中,本发明实施例不做限定。如图2所示,该音频辅助视频补全的视频重构方法可以包括以下操作:
201、对获取到的待处理视频执行数据分离操作,得到待处理视频对应的原始音频数据以及原始画面数据。
202、确定原始画面数据对应的抽帧间隔,并根据抽帧间隔对原始画面数据执行数据抽帧操作,得到若干个满足预设抽帧要求的视频帧,将所有视频帧确定为待处理视频对应的画面数据。
本发明实施例中,可选的,步骤202确定原始画面数据对应的抽帧间隔的方式具体可以包括以下操作:
分析原始画面数据,得到原始画面数据的变帧类型,并根据原始画面数据的变帧类型、原始画面数据以及预设帧数阈值,确定与该变帧类型对应的抽帧间隔,其中,变帧类型包括第一变帧类型或第二变帧类型,第一变帧类型为原始画面数据的画面内容发生变化的帧数间隔小于预设帧数阈值的类型,第二变帧类型为原始画面数据的画面内容发生变化的帧数间隔大于等于预设帧数阈值的类型,或者;
分析原始画面数据,得到原始画面数据中每帧数据与该帧数据的后一帧数据之间的光流参数;
根据预先设定的标准光流阈值以及所有光流参数,确定目标间隔帧数,其中,每间隔目标间隔帧数的所有帧数据对应的光流参数的参数总和小于等于标准光流阈值;
将目标间隔帧数确定为原始画面数据对应的抽帧间隔。
本发明实施例中,需要说明的是,该待处理视频具体的内容要求为一个连续的动作或一个连续的场景,也即基本没有发生镜头切换或画面转换(画面镜头也可以连续性的缓慢移动);之后按时间顺序对短视频进行抽帧,抽帧的间隔值取决于短视频的的内容变化速度,可以手动确定抽帧间隔,也可以计算每帧之间的光流值,通过限制每帧之间的光流运动量来确定抽帧间隔,如设定一个光流变化量的阈值,经过统计后发现每K帧的光流变化量刚好超过此阈值,则可以将抽帧间隔设定为K帧。其中,如果每帧之间的光流运动量较大,则可以选用较小的抽帧间隔。
本方面实施例中,当短视频主要是一些人体的动作变化,如是一段人体的上篮动作,整个动作仅持续3-5秒,因此速度较快,每帧之间的变化相对较为明显,则此时可以选用较小的抽帧间隔,如每秒抽8帧等。如果短视频的内容变化速度较慢或存在一定的规律,如汽车缓慢行驶在山间小道中,行车记录仪记录着前方的路况,两旁的树木有规律地朝着镜头移动;这种带有规律或速度较慢的变化,就可以选用更大的抽帧间隔,如每秒3帧。不同的任务场景,抽帧的间隔都有所不同,本发明实施例不做限定。
本发明实施例中,选好适合的抽帧间隔后,提前对所有的短视频进行抽帧,抽取的视频帧绑定好视频路径后进行统一存储。在此为了扩增数据集,同一个短视频会采取N种不同的抽帧间隔进行抽帧(N≥2),例如每秒5帧和每秒2帧,对应的视频帧序列便表现出一慢一快的差别。
进一步的,上述根据抽帧间隔对原始画面数据执行数据抽帧操作,得到若干个满足预设抽帧要求的视频帧的方式具体可以包括以下操作:
根据抽帧间隔对原始画面数据执行数据抽帧操作,得到与原始画面数据对应的若干个原始视频帧;
分析每个原始视频帧,得到每个原始视频帧的原始帧数以及该原始帧数对应的帧数类型,帧数类型包括原始视频帧的原始帧数等于预设帧数的合格类型或不等于预设帧数的非合格类型;
当所有原始视频帧中存在非合格类型的原始视频帧时,确定非合格类型对应的所有目标视频帧以及每个目标视频帧的帧数;
根据每个目标视频帧的帧数,对每个目标视频帧执行帧数修正操作,得到每个目标视频帧对应的修正视频帧并根据修正视频帧更新原始视频帧,修正视频帧的帧数等于预设帧数;
将更新后的所有原始视频帧确定为原始画面数据对应的满足预设抽帧要求的视频帧。
203、根据预设的音频处理函数以及卷积层,对原始音频数据执行音频预处理操作,得到原始音频的预处理结果,作为待处理视频对应的音频数据。
本发明实施例中,预处理结果包括原始音频对应的音频特征向量。
204、将画面数据输入预先构建的视频块嵌入层,并根据视频块嵌入层对画面数据执行特征转换操作,得到画面数据对应的特征转换向量。
205、根据预设的特征融合层,对特征转换向量执行随机掩码操作,得到特征转换向量的掩码结果。
206、根据特征融合层,对掩码数据以及音频数据执行特征融合操作,得到掩码数据与音频数据的特征融合向量。
207、根据预设的视频重构层对特征融合向量执行视频重构操作,以训练视频重构模型。
208、当判断出视频重构模型对应的模型训练结果表示视频重构模型的模型收敛参数在预设收敛阈值内时,确定完成针对视频重构模型的训练任务。
本发明实施例中,针对步骤203-步骤208的其他描述请参阅实施例一中针对步骤102-步骤106的其他具体描述,本发明实施例不再赘述。
可见,实施图2所描述的音频辅助视频补全的视频重构方法,能够对获取到的待处理视频执行视频预处理操作,从而将待处理视频分离成原始音频数据与原始画面数据,之后分别对原始音频数据执行预处理以及根据确定出的抽帧间隔处理原始画面数据,得到若干个满足抽帧要求的视频帧,抽帧后的视频帧丰富了可处理的视频数据量,同时提高了后续融合视频的融合效率;继而通过预设的视频块嵌入层、特征融合层以及视频重构层智能化处理分离得到的音频数据与画面数据,从而实现对视频重构模型的训练操作,最终完成训练的模型用于重构输入的待重构视频,重构的视频在延长了视频时长的基础上,解决了画面内容单一的问题,丰富了视频的画面要素,提高了重构视频的可观赏性以及提高用户对重构视频的观看体验,进而延长用户对重构视频的观看时长。
在一个可选的实施例中,上述的非合格类型包括原始帧数大于预设帧数的超帧类型或原始帧数小于预设帧数的缺帧类型;
以及上述根据每个目标视频帧的帧数,对每个目标视频帧执行帧数修正操作,得到每个目标视频帧对应的修正视频帧的方式具体可以包括以下操作:
当所有原始视频帧中存在超帧类型时,确定超帧类型对应的所有第一视频帧,并以每个第一视频帧对应的起始帧以及结尾帧为截取基准点,分别截取得到与起始帧对应的第一子视频帧以及结尾帧对应的第二子视频帧,其中,第一子视频帧以及第二子视频帧对应的帧数均等于预设帧数;
当所有原始视频帧中存在缺帧类型时,确定缺帧类型对应的所有第二视频帧以及每个第二视频帧的缺帧帧数,缺帧帧数通过计算每个第二视频帧的帧数与预设帧数之差得到;
根据每个第二视频帧的缺帧帧数,对每个第二视频帧执行补帧操作,得到每个第二视频帧的补帧结果,每个第二视频帧的补帧结果中每个第二视频帧的帧数等于预设帧数。
在该可选的实施例中,进一步说明如下,假定预设帧数为30帧,若当某个视频抽帧后的结果为54,应当截取前30帧为一个序列,再从后截取30帧作为第二个序列;如果视频的总帧数小于30,如总共只有24帧,则随机选取其中6帧并按原始时间顺序分别进行拷贝和插入,用以补全30帧,本发明实施例不做限定。
可见,在该可选的实施例中,通过设定一个预设帧数,对超帧、缺帧的视频帧执行修正操作,统一了最终得到的视频帧,减少超帧、缺帧的视频帧占用过多内容,导致模型训练出错或者训练效果下降的情况发生,此外,提前抽帧可以大幅减少训练耗时,如果选择在训练阶段采取动态的抽帧间隔对短视频进行抽帧,虽然可以大幅丰富数据集,实现数据增强,但抽帧的速度往往较慢,每个训练迭代都需要重新抽帧,无疑严重拖累了整个训练进程,也即提前抽帧既能够统一帧数的视频帧数,提高了模型训练学习效率的同时,一定程度上也提高了模型训练的成功率。
实施例三
请参阅图3,图3是本发明实施例公开的一种音频辅助视频补全的视频重构装置的结构示意图。其中,该音频辅助视频补全的视频重构装置可以是音频辅助视频补全的视频重构终端、音频辅助视频补全的视频重构设备、音频辅助视频补全的视频重构系统或者音频辅助视频补全的视频重构服务器,音频辅助视频补全的视频重构服务器可以是本地服务器,也可以是远端服务器,还可以是云服务器(又称云端服务器),当音频辅助视频补全的视频重构服务器为非云服务器时,该非云服务器能够与云服务器进行通信连接,本发明实施例不做限定。如图3所示,该音频辅助视频补全的视频重构装置可以包括预处理模块301、特征转换模块302、掩码处理模块303、特征融合模块304、重构训练模块305以及确定模块306,其中:
预处理模块301,用于对获取到的待处理视频执行视频预处理操作,得到待处理视频对应的音频数据及画面数据,画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据。
特征转换模块302,用于将画面数据输入预先构建的视频块嵌入层,并根据视频块嵌入层对画面数据执行特征转换操作,得到画面数据对应的特征转换向量。
掩码处理模块303,用于根据预设的特征融合层,对特征转换向量执行随机掩码操作,得到特征转换向量的掩码结果,掩码结果包括特征转换向量对应的掩码数据。
特征融合模块304,用于根据特征融合层,对掩码数据以及音频数据执行特征融合操作,得到掩码数据与音频数据的特征融合向量。
重构训练模块305,用于根据预设的视频重构层对特征融合向量执行视频重构操作,以训练视频重构模型,视频重构模型包括视频块嵌入层、特征融合层以及视频重构层。
确定模块306,用于当判断出视频重构模型对应的模型训练结果表示视频重构模型的模型收敛参数在预设收敛阈值内时,确定完成针对视频重构模型的训练任务,训练完成后的视频重构模型用于对确定出的待重构视频执行视频重构操作。
本发明实施例中,可选的,特征融合模块304根据特征融合层,对掩码数据以及音频数据执行特征融合操作,得到掩码数据与音频数据的特征融合向量的方式具体可以包括以下操作:
根据特征融合层,在预设维度层级对掩码数据以及音频数据执行数据拼接操作,得到掩码数据与音频数据的拼接特征向量;
对拼接特征向量的维度顺序变换操作,得到拼接特征向量对应的变换特征向量;
将变换特征向量输入预设的全连接层,得到变换特征向量对应的输出特征向量;
根据预设的激活层对输出特征向量执行非线性变换操作,得到输出特征向量对应的非线性变换向量;
对非线性变换向量执行维度顺序变换操作以及类别标记操作,得到非线性变换向量对应的目标维度向量,作为掩码数据与音频数据的特征融合向量,特征融合向量包括用于表示该特征融合向量的全局信息的类别标记。
本发明实施例中,可选的,视频重构层包括视频重构编码器以及视频重构解码器,重构训练模块305根据预设的视频重构层对特征融合向量执行视频重构操作的方式具体包括:
根据视频重构编码器所包括的全连接层,对特征融合向量执行特征融合操作,得到特征融合向量对应的特征输出结果,特征输出结果包括每个随机掩码对应的掩码标识;
根据视频重构解码器以及掩码标识,对特征输出结果执行特征处理操作,得到特征输出结果对应的特征处理向量;
计算特征融合向量与特征处理向量之间的损失参数,损失参数用于确定视频重构模型的模型收敛进度。
本发明实施例中,进一步可选的,掩码结果还包括除掩码数据之外的其他数据;重构训练模块305根据视频重构解码器以及掩码标识,对特征输出结果执行特征处理操作,得到特征输出结果对应的特征处理向量的方式具体包括:
根据掩码标识,对特征输出结果以及其他数据,按照待处理视频中每帧数据对应的帧时刻进行数据排列操作,得到特征输出结果以及其他数据对应的数据排列结果,其中,待处理视频中每帧数据对应的帧时刻越早,在数据排列结果中的位置越靠前;
根据视频重构解码器,对数据排列结果执行数据重构操作,得到数据排列结果对应的重构向量;
删除重构向量中的类别标记,以更新重构向量并将重构向量确定为特征输出结果对应的特征处理向量。
可见,实施图3所描述的一种音频辅助视频补全的视频重构装置,能够对获取到的待处理视频执行视频预处理操作,从而将待处理视频分离成音频数据与画面数据,之后通过预设的视频块嵌入层、特征融合层以及视频重构层智能化处理分离得到的音频数据与画面数据,从而实现对视频重构模型的训练操作,最终完成训练的模型用于重构输入的待重构视频,重构的视频在延长了视频时长的基础上,解决了画面内容单一的问题,丰富了视频的画面要素,提高了重构视频的可观赏性以及提高用户对重构视频的观看体验,进而延长用户对重构视频的观看时长。
在一个可选的实施例中,如图4所示,预处理模块301可以包括分离子模块3011、确定子模块3012、抽帧子模块3013以及音频处理子模块3014,其中:
分离子模块3011,用于对获取到的待处理视频执行数据分离操作,得到待处理视频对应的原始音频数据以及原始画面数据;
确定子模块3012,用于确定原始画面数据对应的抽帧间隔;
抽帧子模块3013,用于根据抽帧间隔对原始画面数据执行数据抽帧操作,得到若干个满足预设抽帧要求的视频帧;
确定子模块3012,还用于将所有视频帧确定为待处理视频对应的画面数据;
音频处理子模块3014,用于根据预设的音频处理函数以及卷积层,对原始音频数据执行音频预处理操作,得到原始音频的预处理结果,作为待处理视频对应的音频数据,预处理结果包括原始音频对应的音频特征向量。
在该可选的实施例中,可选的,确定子模块3012确定原始画面数据对应的抽帧间隔的方式具体包括:
分析原始画面数据,得到原始画面数据的变帧类型,并根据原始画面数据的变帧类型、原始画面数据以及预设帧数阈值,确定与该变帧类型对应的抽帧间隔,其中,变帧类型包括第一变帧类型或第二变帧类型,第一变帧类型为原始画面数据的画面内容发生变化的帧数间隔小于预设帧数阈值的类型,第二变帧类型为原始画面数据的画面内容发生变化的帧数间隔大于等于预设帧数阈值的类型,或者;
分析原始画面数据,得到原始画面数据中每帧数据与该帧数据的后一帧数据之间的光流参数;
根据预先设定的标准光流阈值以及所有光流参数,确定目标间隔帧数,其中,每间隔目标间隔帧数的所有帧数据对应的光流参数的参数总和小于等于标准光流阈值;
将目标间隔帧数确定为原始画面数据对应的抽帧间隔。
在该可选的实施例中,进一步可选的,抽帧子模块3013根据抽帧间隔对原始画面数据执行数据抽帧操作,得到若干个满足预设抽帧要求的视频帧的方式具体包括:
根据抽帧间隔对原始画面数据执行数据抽帧操作,得到与原始画面数据对应的若干个原始视频帧;
分析每个原始视频帧,得到每个原始视频帧的原始帧数以及该原始帧数对应的帧数类型,帧数类型包括原始视频帧的原始帧数等于预设帧数的合格类型或不等于预设帧数的非合格类型;
当所有原始视频帧中存在非合格类型的原始视频帧时,确定非合格类型对应的所有目标视频帧以及每个目标视频帧的帧数;
根据每个目标视频帧的帧数,对每个目标视频帧执行帧数修正操作,得到每个目标视频帧对应的修正视频帧并根据修正视频帧更新原始视频帧,修正视频帧的帧数等于预设帧数;
将更新后的所有原始视频帧确定为原始画面数据对应的满足预设抽帧要求的视频帧。
可见,实施图4所描述的频辅助视频补全的视频重构装置,能够对获取到的待处理视频执行视频预处理操作,从而将待处理视频分离成原始音频数据与原始画面数据,之后分别对原始音频数据执行预处理以及根据确定出的抽帧间隔处理原始画面数据,得到若干个满足抽帧要求的视频帧,抽帧后的视频帧丰富了可处理的视频数据量,同时提高了后续融合视频的融合效率。
实施例四
请参阅图5,图5是本发明实施例公开的又一种音频辅助视频补全的视频重构装置的结构示意图。如图5所示,该音频辅助视频补全的视频重构装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或本发明实施例二所描述的音频辅助视频补全的视频重构方法中的步骤。
实施例五
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或本发明实施例二所描述的音频辅助视频补全的视频重构方法中的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的音频辅助视频补全的视频重构方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机存储介质中,存储介质包括只读存储器(Read-OnlyMemory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种音频辅助视频补全的视频重构方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (10)

1.一种音频辅助视频补全的视频重构方法,其特征在于,所述方法包括:
对获取到的待处理视频执行视频预处理操作,得到所述待处理视频对应的音频数据及画面数据,所述画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据;
将所述画面数据输入预先构建的视频块嵌入层,并根据所述视频块嵌入层对所述画面数据执行特征转换操作,得到所述画面数据对应的特征转换向量;
根据预设的特征融合层,对所述特征转换向量执行随机掩码操作,得到所述特征转换向量的掩码结果,所述掩码结果包括所述特征转换向量对应的掩码数据;
根据所述特征融合层,对所述掩码数据以及所述音频数据执行特征融合操作,得到所述掩码数据与所述音频数据的特征融合向量;
根据预设的视频重构层对所述特征融合向量执行视频重构操作,以训练视频重构模型,所述视频重构模型包括所述视频块嵌入层、所述特征融合层以及所述视频重构层;
当判断出所述视频重构模型对应的模型训练结果表示所述视频重构模型的模型收敛参数在预设收敛阈值内时,确定完成针对所述视频重构模型的训练任务,训练完成后的所述视频重构模型用于对确定出的待重构视频执行视频重构操作。
2.根据权利要求1所述的一种音频辅助视频补全的视频重构方法,其特征在于,所述根据所述特征融合层,对所述掩码数据以及所述音频数据执行特征融合操作,得到所述掩码数据与所述音频数据的特征融合向量,包括:
根据所述特征融合层,在预设维度层级对所述掩码数据以及所述音频数据执行数据拼接操作,得到所述掩码数据与所述音频数据的拼接特征向量;
对所述拼接特征向量的维度顺序变换操作,得到所述拼接特征向量对应的变换特征向量;
将所述变换特征向量输入预设的全连接层,得到所述变换特征向量对应的输出特征向量;
根据预设的激活层对所述输出特征向量执行非线性变换操作,得到所述输出特征向量对应的非线性变换向量;
对所述非线性变换向量执行所述维度顺序变换操作以及类别标记操作,得到所述非线性变换向量对应的目标维度向量,作为所述掩码数据与所述音频数据的特征融合向量,所述特征融合向量包括用于表示该特征融合向量的全局信息的类别标记。
3.根据权利要求2所述的一种音频辅助视频补全的视频重构方法,其特征在于,所述视频重构层包括视频重构编码器以及视频重构解码器,所述根据预设的视频重构层对所述特征融合向量执行视频重构操作,包括:
根据所述视频重构编码器所包括的全连接层,对所述特征融合向量执行所述特征融合操作,得到所述特征融合向量对应的特征输出结果,所述特征输出结果包括每个所述随机掩码对应的掩码标识;
根据所述视频重构解码器以及所述掩码标识,对所述特征输出结果执行特征处理操作,得到所述特征输出结果对应的特征处理向量;
计算所述特征融合向量与所述特征处理向量之间的损失参数,所述损失参数用于确定视频重构模型的模型收敛进度。
4.根据权利要求3所述的一种音频辅助视频补全的视频重构方法,其特征在于,所述掩码结果还包括除所述掩码数据之外的其他数据;所述根据所述视频重构解码器以及所述掩码标识,对所述特征输出结果执行特征处理操作,得到所述特征输出结果对应的特征处理向量,包括:
根据所述掩码标识,对所述特征输出结果以及所述其他数据,按照所述待处理视频中每帧数据对应的帧时刻进行数据排列操作,得到所述特征输出结果以及所述其他数据对应的数据排列结果,其中,所述待处理视频中每帧数据对应的帧时刻越早,在所述数据排列结果中的位置越靠前;
根据所述视频重构解码器,对所述数据排列结果执行数据重构操作,得到所述数据排列结果对应的重构向量;
删除所述重构向量中的所述类别标记,以更新所述重构向量并将所述重构向量确定为所述特征输出结果对应的特征处理向量。
5.根据权利要求1-4任一项所述的一种音频辅助视频补全的视频重构方法,其特征在于,所述对获取到的待处理视频执行视频预处理操作,得到所述待处理视频对应的音频数据及画面数据,包括:
对获取到的待处理视频执行数据分离操作,得到所述待处理视频对应的原始音频数据以及原始画面数据;
确定所述原始画面数据对应的抽帧间隔,并根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作,得到若干个满足预设抽帧要求的视频帧,将所有所述视频帧确定为所述待处理视频对应的画面数据;
根据预设的音频处理函数以及卷积层,对所述原始音频数据执行音频预处理操作,得到所述原始音频的预处理结果,作为所述待处理视频对应的音频数据,所述预处理结果包括所述原始音频对应的音频特征向量。
6.根据权利要求5所述的一种音频辅助视频补全的视频重构方法,其特征在于,所述确定所述原始画面数据对应的抽帧间隔,包括:
分析所述原始画面数据,得到所述原始画面数据的变帧类型,并根据所述原始画面数据的变帧类型、所述原始画面数据以及预设帧数阈值,确定与该变帧类型对应的抽帧间隔,其中,所述变帧类型包括第一变帧类型或第二变帧类型,所述第一变帧类型为所述原始画面数据的画面内容发生变化的帧数间隔小于所述预设帧数阈值的类型,所述第二变帧类型为所述原始画面数据的画面内容发生变化的帧数间隔大于等于所述预设帧数阈值的类型,或者;
分析所述原始画面数据,得到所述原始画面数据中每帧数据与该帧数据的后一帧数据之间的光流参数;
根据预先设定的标准光流阈值以及所有所述光流参数,确定目标间隔帧数,其中,每间隔所述目标间隔帧数的所有帧数据对应的光流参数的参数总和小于等于所述标准光流阈值;
将所述目标间隔帧数确定为所述原始画面数据对应的抽帧间隔。
7.根据权利要求6所述的一种音频辅助视频补全的视频重构方法,其特征在于,所述根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作,得到若干个满足预设抽帧要求的视频帧,包括:
根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作,得到与所述原始画面数据对应的若干个原始视频帧;
分析每个所述原始视频帧,得到每个所述原始视频帧的原始帧数以及该原始帧数对应的帧数类型,所述帧数类型包括所述原始视频帧的原始帧数等于预设帧数的合格类型或不等于所述预设帧数的非合格类型;
当所有所述原始视频帧中存在所述非合格类型的原始视频帧时,确定所述非合格类型对应的所有目标视频帧以及每个所述目标视频帧的帧数;
根据每个所述目标视频帧的帧数,对每个所述目标视频帧执行帧数修正操作,得到每个所述目标视频帧对应的修正视频帧并根据所述修正视频帧更新所述原始视频帧,所述修正视频帧的帧数等于所述预设帧数;
将更新后的所有所述原始视频帧确定为所述原始画面数据对应的满足预设抽帧要求的视频帧。
8.一种音频辅助视频补全的视频重构装置,其特征在于,所述装置包括:
预处理模块,用于对获取到的待处理视频执行视频预处理操作,得到所述待处理视频对应的音频数据及画面数据,所述画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据;
特征转换模块,用于将所述画面数据输入预先构建的视频块嵌入层,并根据所述视频块嵌入层对所述画面数据执行特征转换操作,得到所述画面数据对应的特征转换向量;
掩码处理模块,用于根据预设的特征融合层,对所述特征转换向量执行随机掩码操作,得到所述特征转换向量的掩码结果,所述掩码结果包括所述特征转换向量对应的掩码数据;
特征融合模块,用于根据所述特征融合层,对所述掩码数据以及所述音频数据执行特征融合操作,得到所述掩码数据与所述音频数据的特征融合向量;
重构训练模块,用于根据预设的视频重构层对所述特征融合向量执行视频重构操作,以训练视频重构模型,所述视频重构模型包括所述视频块嵌入层、所述特征融合层以及所述视频重构层;
确定模块,用于当判断出所述视频重构模型对应的模型训练结果表示所述视频重构模型的模型收敛参数在预设收敛阈值内时,确定完成针对所述视频重构模型的训练任务,训练完成后的所述视频重构模型用于对确定出的待重构视频执行视频重构操作。
9.一种音频辅助视频补全的视频重构装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的音频辅助视频补全的视频重构方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的音频辅助视频补全的视频重构方法。
CN202211060490.5A 2022-09-01 2022-09-01 一种音频辅助视频补全的视频重构方法及装置 Active CN115134676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211060490.5A CN115134676B (zh) 2022-09-01 2022-09-01 一种音频辅助视频补全的视频重构方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211060490.5A CN115134676B (zh) 2022-09-01 2022-09-01 一种音频辅助视频补全的视频重构方法及装置

Publications (2)

Publication Number Publication Date
CN115134676A true CN115134676A (zh) 2022-09-30
CN115134676B CN115134676B (zh) 2022-12-23

Family

ID=83387711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211060490.5A Active CN115134676B (zh) 2022-09-01 2022-09-01 一种音频辅助视频补全的视频重构方法及装置

Country Status (1)

Country Link
CN (1) CN115134676B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083623A1 (en) * 2015-09-21 2017-03-23 Qualcomm Incorporated Semantic multisensory embeddings for video search by text
US20180189572A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Modal Fusion Model
CN110324664A (zh) * 2019-07-11 2019-10-11 南开大学 一种基于神经网络的视频补帧方法及其模型的训练方法
WO2020256471A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
US20210019531A1 (en) * 2019-07-16 2021-01-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for classifying video
WO2021202528A1 (en) * 2020-03-30 2021-10-07 Google Llc Multi-modal neural network architecture search
CN113591902A (zh) * 2021-06-11 2021-11-02 中国科学院自动化研究所 基于多模态预训练模型的跨模态理解与生成方法和装置
CN113792113A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言模型获得及任务处理方法、装置、设备及介质
CN114565816A (zh) * 2022-03-03 2022-05-31 中国科学技术大学 一种基于全局信息融合的多模态医学图像融合方法
CN114663962A (zh) * 2022-05-19 2022-06-24 浙江大学 一种基于图像补全的唇形同步人脸伪造生成方法及系统
CN114724548A (zh) * 2022-03-11 2022-07-08 中国科学技术大学 多模态语音识别模型的训练方法、语音识别方法及设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083623A1 (en) * 2015-09-21 2017-03-23 Qualcomm Incorporated Semantic multisensory embeddings for video search by text
US20180189572A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Modal Fusion Model
WO2020256471A1 (ko) * 2019-06-21 2020-12-24 주식회사 머니브레인 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
CN110324664A (zh) * 2019-07-11 2019-10-11 南开大学 一种基于神经网络的视频补帧方法及其模型的训练方法
US20210019531A1 (en) * 2019-07-16 2021-01-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for classifying video
WO2021202528A1 (en) * 2020-03-30 2021-10-07 Google Llc Multi-modal neural network architecture search
CN113792113A (zh) * 2020-07-31 2021-12-14 北京京东尚科信息技术有限公司 视觉语言模型获得及任务处理方法、装置、设备及介质
CN113591902A (zh) * 2021-06-11 2021-11-02 中国科学院自动化研究所 基于多模态预训练模型的跨模态理解与生成方法和装置
CN114565816A (zh) * 2022-03-03 2022-05-31 中国科学技术大学 一种基于全局信息融合的多模态医学图像融合方法
CN114724548A (zh) * 2022-03-11 2022-07-08 中国科学技术大学 多模态语音识别模型的训练方法、语音识别方法及设备
CN114663962A (zh) * 2022-05-19 2022-06-24 浙江大学 一种基于图像补全的唇形同步人脸伪造生成方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. BULTMANN, J.等: "Real-Time Multi-Modal Semantic Fusion on Unmanned Aerial Vehicles", 《2021 EUROPEAN CONFERENCE ON MOBILE ROBOTS (ECMR)》 *
吴友政等: "多模态信息处理前沿综述:应用、融合和预训练", 《中文信息学报》 *

Also Published As

Publication number Publication date
CN115134676B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
CN110085244B (zh) 直播互动方法、装置、电子设备及可读存储介质
KR102251781B1 (ko) 인공신경망을 이용한 입모양 합성 장치 및 방법
CN113592985B (zh) 混合变形值的输出方法及装置、存储介质、电子装置
CN111988658A (zh) 视频生成方法及装置
CN111711856B (zh) 交互视频的制作方法、装置、终端、存储介质及播放器
CN111563868B (zh) 基于人工智能的头部装饰处理方法及装置
CN113299312A (zh) 一种图像生成方法、装置、设备以及存储介质
CN113630557B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
JP2024513640A (ja) 仮想対象のアクション処理方法およびその装置、コンピュータプログラム
CN111428660A (zh) 视频剪辑方法和装置、存储介质及电子装置
CN114286171A (zh) 视频处理方法、装置、设备及存储介质
CN114466222B (zh) 一种视频合成方法、装置、电子设备及存储介质
CN114630057B (zh) 确定特效视频的方法、装置、电子设备及存储介质
CN112422844A (zh) 在视频中添加特效的方法、装置、设备及可读存储介质
CN107766803A (zh) 基于场景分割的视频人物装扮方法、装置及计算设备
CN114302174A (zh) 视频剪辑方法、装置、计算设备及存储介质
CN114222076A (zh) 一种换脸视频生成方法、装置、设备以及存储介质
CN117440114A (zh) 一种虚拟形象视频生成方法、装置、设备及介质
CN115134676B (zh) 一种音频辅助视频补全的视频重构方法及装置
CN113593587B (zh) 语音分离方法及装置、存储介质、电子装置
CN117014693A (zh) 视频处理方法、装置、设备以及存储介质
CN112800278B (zh) 视频类型的确定方法和装置及电子设备
CN112188116B (zh) 基于对象的视频合成方法、客户端及系统
CN114913058A (zh) 显示对象的确定方法、装置、电子设备及存储介质
CN115035220A (zh) 一种3d虚拟数字人社交方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant