CN111970536A - 一种基于音频生成视频的方法和装置 - Google Patents

一种基于音频生成视频的方法和装置 Download PDF

Info

Publication number
CN111970536A
CN111970536A CN202010728311.5A CN202010728311A CN111970536A CN 111970536 A CN111970536 A CN 111970536A CN 202010728311 A CN202010728311 A CN 202010728311A CN 111970536 A CN111970536 A CN 111970536A
Authority
CN
China
Prior art keywords
image
feature
audio
point
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010728311.5A
Other languages
English (en)
Other versions
CN111970536B (zh
Inventor
李甲
郭鑫
赵一凡
石鼎丰
赵沁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010728311.5A priority Critical patent/CN111970536B/zh
Publication of CN111970536A publication Critical patent/CN111970536A/zh
Application granted granted Critical
Publication of CN111970536B publication Critical patent/CN111970536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

本公开的实施例公开了一种基于音频生成视频方法和装置。该方法的一具体实施方式包括:获取舞蹈视频和音乐片段;确定音频的音频点,得到多个影像点;利用影像得到多个人体关键点集和影像片段;利用每个音频点和影像点确定训练集和舞蹈动作库;确定音频点的特征向量和影像片段的特征向量,得到训练后的特征提取器;利用训练后的特征提取器,提取音乐片段特征;确定音乐片段特征和人体关键点特征距离,得到影像片段并合成视频。该实施方式实现了根据音乐生成更生动流畅的舞蹈的方法,提高了用户体验,为用户的生活提供了便利。

Description

一种基于音频生成视频的方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及一种基于音频生 成视频的方法和装置。
背景技术
基于音频生成视频,是通过对视频进行分析,得到不同特征,然 后,利用这些特征将音频生成视频。当前常用的方法是利用计算机对 视频的特征进行分析提取,把得到的视频特征划为若干部分,利用其 他音频特征和若干视频特征生成新的视频。此种方法仅可生成包含简 单动作的视频,并且,生成的视频节奏不整齐,视频动作视觉效果差, 不能满足用户需求。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后 面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识 要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要 求的保护的技术方案的范围。
本公开的一些实施例提出了一种基于音频生成视频的方法和装 置,来解决以上背景技术部分提到的技术问题。
第一方面,本公开的一些实施例提供了一种基于音频生成视频的 方法,该方法包括:获取舞蹈视频和音频片段,其中,上述舞蹈视频 包括上述舞蹈视频对应的音频和影像;确定上述音频的音频点,利用 上述影像,为上述音频中的每个音频点分别生成一个影像点,得到多 个影像点,其中,相对应的音频点和影像点具有相同的间隔;利用上 述影像,为上述影像的每个影像点分别生成一个人体关键点集,得到 多个人体关键点集,以及将上述影像的每个影像点分别生成一个影像 片段,得到多个影像片段;利用上述每个音频点作为标签,相对应的 上述每个影像点的人体关键点集作为值,构建训练集,以及上述多个 人体关键点集构建舞蹈动作库;确定上述音频点的特征向量和上述影 像片段的特征向量,将上述音频点的特征向量和上述影像片段的特征 向量输入初始的特征提取器,得到训练后的特征提取器;利用上述训 练后的特征提取器,对上述音频片段进行特征提取,得到上述音频片 段的特征点向量组;利用上述训练后的特征提取器,对舞蹈动作库中 的每个人体关键点集进行特征提取,得到人体关键点特征向量集;利 用上述特征点向量组中的每个特征点向量分别与上述人体关键点特征 向量集中每个人体关键点特征向量相比较,得到与上述每个特征点向 量对应的距离最小的人体关键点特征向量,作为人体关键点特征向量组;确定上述人体关键点特征向量组中每个人体关键点特征向量所对 应的影像片段,生成视频。
第二方面,本公开的一些实施例提供了一种基于音频生成视频的 装置,装置包括:获取单元,被配置成获取舞蹈视频和音频片段;第 一确定单元,被配置成确定上述音频的音频点,利用上述影像,为上 述音频中的每个音频点分别生成一个影像点,得到多个影像点,其中, 相对应的音频点和影像点具有相同的间隔;第二确定单元,被配置成 利用上述影像,为上述影像的每个影像点分别生成一个人体关键点集, 得到多个人体关键点集,以及将上述影像的每个影像点分别生成一个 影像片段,得到多个影像片段;第三确定单元,被配置成利用上述每 个音频点作为标签,相对应的上述每个影像点的人体关键点集作为值, 构建训练集,以及上述多个人体关键点集构建舞蹈动作库;第四确定 单元,被配置成确定上述音频点的特征向量和上述影像片段的特征向 量,将上述音频点的特征向量和上述影像片段的特征向量输入初始的 特征提取器,得到训练后的特征提取器;第五确定单元,被配置成利 用上述训练后的特征提取器,对上述音频片段进行特征提取,得到上 述音频片段的特征点向量组;第六确定单元,被配置成利用上述训练 后的特征提取器,对舞蹈动作库中的每个人体关键点集进行特征提取, 得到人体关键点特征向量集;第七确定单元,被配置成利用上述特征 点向量组中的每个特征点向量分别与上述人体关键点特征向量集中每 个人体关键点特征向量相比较,得到与上述每个特征点向量对应的距 离最小的人体关键点特征向量,作为人体关键点特征向量组;生成单 元,被配置成确定上述人体关键点特征向量组中每个人体关键点特征 向量所对应的影像片段,生成视频。
第三方面,本公开的一些实施例提供了电子设备,包括:一个或 多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个 程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方 面中所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其 上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中 所描述的方法。
本公开的上述各个实施例中的一个实施例具有如下有益效果:通 过从上述音频和影像提取得到多个音频点和多个影像点,利用上述多 个音频点和多个影像点构建训练集以及利用影像点所对应的人体关键 点构建舞蹈动作库。然后,构建特征提取器,利用上述训练集训练特 征提取器。其次,再用训练后特征提取器对音乐特征点和人体关键点 进行特征提取,得到音乐特征点特征向量和人体关键点特征向量。而 后,计算得到音频特征向量和人体关键点特征向量之间的距离,根据 距离得到损失函数并以此训练特征提取器。再然后,利用特征提取器 提取音频片段的音频特征向量,与上述每个人体关键点特征向量进行 距离计算,得到距离音乐片段每个音频特征向量最近的人体关键点特 征向量。最后,利用这些人体关键点特征向量提取舞蹈动作库中对应 的舞蹈片段,生成视频。实现了生成复杂舞蹈动作的视频的方法,解 决了视频节奏不准确的问题,增强了视频动作视觉效果。吸引了用户, 为用户的生活提供了便利。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其 他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附 图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元 素不一定按照比例绘制。
图1是本公开的一些实施例的一种基于音频生成视频方法的一个 应用场景的示意图;
图2是根据本公开的一种基于音频生成视频方法的一些实施例的 流程图;
图3是根据本公开的一些实施例的一种基于音频生成视频装置的 一些实施例的结构示例图;
图4是适于用来实现本公开的一些实施例的电子设备的结构示意 图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示 了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形 式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供 这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本 公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护 范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发 明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的 特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不 同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单 元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而 非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出, 否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称 仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限 制。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的一些实施例的一种基于音频生成视 频方法的一个应用场景的示意图。
如图1所示,首先,服务器101可以获取舞蹈视频和音乐片段102。 然后,服务器101可以对舞蹈视频1021分成音频和影像并分别提取特 征点,得到音频特征点1031和人体关键点1032。然后,利用音频特 征点1031和人体关键点1032构建训练集1041,利用人体关键点1032 构建舞蹈动作库1042。再然后,构建特征提取器105,利用训练集1041 去训练特征提取器105。其次,利用特征提取器105提取音频特征点 1031得到音频特征点特征向量1061。进而,利用特征提取器105提取 人体关键点1032得到人体关键点特征向量1062。接着,再利用音频 特征点特征向量1061和人体关键点特征向量1062训练特征提取器 105。从而,特征提取器105对音乐片段1022进行特征提取得到音乐 片段特征向量107。最后,特征提取器105利用音乐片段特征向量107 和舞蹈动作库1042生成视频108。
应该理解,图1中的服务器的数目仅仅是示意性的。根据实现需 要,可以具有任意数目的服务器。
继续参考图2,示出了根据本公开的一种基于音频生成视频方法 一些实施例的流程200。该一种基于音频生成视频方法,包括以下步 骤:
步骤201,获取舞蹈视频和音频片段。
在一些实施例中,一种基于音频生成视频方法的执行主体(例如 图1所示的服务器)可以通过有线连接方式或者无线连接方式获取相 关信息。其中,上述舞蹈视频包括上述舞蹈视频对应的音频和影像, 舞蹈视频可以是固定摄像机角度拍摄的高清分辨率的单人舞蹈视频。
步骤202,确定上述音频的音频点,利用上述影像,为上述音频 中的每个音频点分别生成一个影像点,得到多个影像点,其中,每个 音频点之间和每个影像点之间具有相同的间隔。
在一些实施例中,上述执行主体可以对上述音频进行特征提取, 得到音频点集。然后利用音频点集中的每个音频点分别在影像中相对 应位置确定一个影像点,作为影像点集。
在一些实施例的一些可选的实现方式中,上述执行主体可以用以 下MFCC(梅尔频率倒谱系数,Mel Frequency Cepstrum Coefficient) 算法对音频特征点进行提取:
Figure BDA0002600105790000061
其中,t表示帧数。dt表示对第t帧增加的一阶差分值。ct-st表示 离散余弦变换后第t-st帧的一阶差分的结果。t-st表示第t-st帧。 t-st表示第t-st帧。ct-st表示离散余弦变换后第t-st帧的一阶差分 的结果。常用的ST等于1或2。增加一阶差分和二阶差分后的每帧特 征是39维。具体的,帧率可以是24,窗口大小为1000,提取音频 MFCC特征值。然后,使用带有视频编辑功能的程序FFMPEG(Fast Forward Mpeg)将舞蹈视频以帧率24进行分帧组成对应的舞蹈图片 集。
步骤203,利用上述影像,为上述影像的每个影像点分别生成一 个人体关键点集,得到多个人体关键点集,为上述影像的每个影像点 分别生成一个影像片段,得到多个影像片段。
在一些实施例中,上述执行主体可以利用上述影像点集中的每个 影像点,对影像进行划分得到多个影像片段。然后上述每个影像点生 成一个人体关键点集,得到多个人体关键点集。其中,人体关键点集 是一组影像点中的人体姿态的人体关键骨骼点。
在一些实施例的一些可选的实现方式中,利用人物姿态图像对抗 网络OpenPose算法提取舞蹈视频中每一帧的人体关键点。具体的,检 测上述舞蹈图片集中的人体姿态节点,对于检测过程中出现的抖动现 象,采用平滑算法进行优化,而无法处理的数据自动删除。删除的数 据特征包括:连续帧之间人物节点距离过大,人体手脚没有被检测到。
步骤204,利用上述每个音频点作为标签,相对应的上述每个影 像点的人体关键点集作为值,构建训练集,上述多个人体关键点集构 建舞蹈动作库。
在一些实施例中,上述执行主体可以把每个音频点当做标签,每 个音频点对应的影像点作为值,以秒为单位对应的形式构建训练集。 具体的,将音频MFCC特征点与对应的提取的人体姿态节点以秒为单 位进行合并,分成不同片段后构建训练集。提取的人体姿态节点以秒 为单位分成不同片段构建舞蹈动作库。
步骤205,确定上述音频点的特征向量和上述影像片段的特征向 量,利用上述音频点的特征向量和上述影像片段的特征向量输入初始 的特征提取器,得到训练后的特征提取器。
在一些实施例的一些可选的实现方式中,上述执行主体可以构建 一个初始的特征提取器,利用特征提取器得到音频点的特征向量和影 像片段的特征向量。然后利用这些特征向量再去训练初始特征选择器。 其中特征提取器包括音频编码器和动作编码器。
在一些实施例的一些可选的实现方式中,上述执行主体构建一个 初始的特征提取器。特征提取器采用Bi-LSTM(Bi-directional Long Short-Term Memory)加一层全连接层和时空图卷积网络ST-GCN层。 其中,Bi-LSTM加一层全连接层是为了提取音频MFCC特征点的特征 值,ST-GCN层是为了提取姿态序列特征值。其中,姿态序列特征值 是影像特征向量。计算两个特征值之间的欧拉距离,表达式如下:
Figure BDA0002600105790000071
其中,Lmat表示欧拉距离。a表示MFCC特征点的特征值。p表示姿态 序列的特征值。
Figure BDA0002600105790000072
是第i段姿态序列的特征值。
Figure BDA0002600105790000073
是第j段音频的MFCC 特征点的特征值。∈表示预设参数。i表示第i段音频。j表示第j段音 频。都当i,j满足β(·)中的关系时,β(i,j)=1。当i,j不满足β(·)中的关系时, β(i,j)=0。如果
Figure BDA0002600105790000074
Figure BDA0002600105790000075
是相关特征,损失函数计算两个特征之间的距离 并返回。对于不相关的情况,增加参数∈去增大两个特征之间的距离, 避免训练特征提取器时出现过拟合情况。
步骤206,利用上述训练后的特征提取器,对上述音频片段进行 特征提取,得到上述音频片段的特征点向量组。
步骤207,利用上述训练后的特征提取器,对舞蹈动作库中的每 个人体关键点集进行特征提取,得到人体关键点特征向量集。
在一些实施例中,步骤206-207的具体实现及带来的技术效果可 以参考步骤202-205,在此不再赘述。
步骤208,利用上述音频片段的特征点向量组中的每个特征点向 量分别与上述人体关键点特征向量集中每个人体关键点特征向量比 较,得到多个距离最小人体关键点特征向量,作为人体关键点特征向 量组。
在一些实施例中,上述执行主体可以利用上述音频片段的特征点 向量组中的每个特征点向量分别与上述人体关键点特征向量集中每个 人体关键点特征向量比较,得到多个距离最小人体关键点特征向量, 作为人体关键点特征向量组。
在一些实施例的一些可选的实现方式中,上述执行主体可以利用 欧式距离,计算音频片段的特征点向量组中的每个特征点向量和人体 关键点特征向量集中的每个人体关键点特征向量之间的距离,生成多 个距离最小人体关键点特征向量,得到人体关键点特征向量组。
步骤209,确定上述人体关键点特征向量组中每个人体关键点特 征向量所对应的影像片段,生成视频。
在一些实施例中,上述执行主体可以把影像片段生成视频。此外, 影像点是从影像中提取的,影像片段是利用影像点分割的,人体关键 点是每一帧影像片段提取的。影像片段是根据上述人体关键点特征向 量组中每个人体关键点特征向量所对应的影像点确定的。上述执行主 体可以控制具有显示功能的终端设备将上述分类结果进行显示。
在一些实施例的一些可选的实现方式中,确定上述人体关键点特 征向量组中每个人体关键点特征向量所对应的影像片段,生成视频。 具体的,利用上述人体关键点特征向量组,与舞蹈动作库中的影像片 段进行比较,检索得到最相似的影像片段序列。对于检索到的影像片 段序列中相邻影像片段之间,存在影像不连续情况,然后结合时序模 型做平滑处理。具体的,检索影像片段序列,确定相邻两个影像片段 变化情况。当两个影像片段变化大于10像素时,则确定异常帧pt为中 心,选取相邻窗口:[t-ωa/2,t+ωa/2]中的帧进行时间序列分解。 其中,t表示一个时刻。ωa表示邻近窗口的大小。例如,影像片段时长 是10秒,异常帧为第5秒的影像片段,那么邻近窗口就可以是3秒到 7秒的影像片段。为了保证优化结果中的两个影像片段节点保持不变, 在当前窗口中使用线性拟合:R=F(p),并获得窗口中每个影像片段 的相对距离dt=pt-F(pt)。分解每一个影像点的相对距离: dt=St+Mtt。其中,pt表示t时刻影像片段的位置。F(pt)表示 当前窗口首节点和尾节点之间的直线。p表示参数。dt表示每一个影像 点的相对距离。M代表趋势项。S表示周期项,用于找到最小周期。γ 表示随机项,符合标准正态分布。然后,进行差分运算消除数据的周 期性:
Figure RE-GDA0002681516070000091
其中,
Figure RE-GDA0002681516070000092
表示周期性差分值。Mt表示预测周期 值。其中,α表示系数。t表示周期。差分运算Mt(·)是一个三次方程。 当两个影像片段变化小于阈值5像素时,符合周期性。周期项St是均 值方程:
Figure RE-GDA0002681516070000093
利用选取窗口的前ωb帧,分成相等的长度 为ωa的片段,分别对每个片段提取对应的趋势项和周期项。利用得到 的信息取预测选取的相邻窗口中的影视片段。步骤如下:
第一步,初始化i=0,选取的ωb个帧的首帧。
第二步,对当前ωa个帧做线性拟合:R=F(pi)。计算当前窗口中 每个影像点与直线R的相对距离:di=pi-F(pi)。建立趋势性和周期 性的空间方程:di=Si+Mii。提取对应的Mi和Si,i=i+ωa。响 应于i小于ωb,则重复第二步。
第三步,利用目标窗口中的第一个影像点和最后一个影像点建立 直线:R=F(pt)。目标窗口:dt=St+Mt+γ。最终姿态帧:
Figure RE-GDA0002681516070000094
第四步,通过时序算法平滑处理舞蹈中的不连续情况后,影像片 段序列和音乐片段组合在一起。对于组合中会出现节拍和影像片段节 奏不同。首先,用Librosa库提取音乐片段的节拍点。然后,提取影像 片段中舞者身体的突变点,建立处理方程:
Figure RE-GDA0002681516070000095
i∈[t,t+ωc]。其中,
Figure RE-GDA0002681516070000096
表示该表达式达到最大值时i的取值。μ表 示突变时刻。
Figure RE-GDA0002681516070000097
表示优化后的第i时刻的节点位置。选取音乐片段节拍 点为中心的ωc个姿态帧,分成两个片段[t,μ]和(μ,t+ωc]。t表示起始 时刻。采用三次方程拟合两个音乐片段长度变成ωc/2。
Figure RE-GDA0002681516070000098
其中,
Figure RE-GDA0002681516070000099
表示满足一元三次方程最小值αm的集合。
Figure RE-GDA00026815160700000910
表示满足一元三 次方程最小值α0的集合。m表示系数个数。x表示自变量。
Figure RE-GDA0002681516070000101
表示因 变量。αm表示预设系数。x按照相同间距从[t,μ]中选取ωc/2个值,区 间(μ,t+ωc]计算方法相同。
Figure RE-GDA0002681516070000102
表示表达式达到最小值时α的取值。
Figure RE-GDA0002681516070000103
表示最终姿态序列。从而,得到相互对应的影像片段序列和音乐片 段节拍点。
第五步,获取初始Pose2image和人脸图像对抗网络FaceGAN。 用影像图信息输入到初始Pose2image网络进行训练。然后,把训练结 果输入初始FaceGAN网络进行训练。得到训练好的Pose2image网络 和FaceGAN网络模型后,将生成的影像序列
Figure BDA0002600105790000104
输入到训练好的Pose2image网络,生成对应的人物图像集。再把图像集输入到训练好 的FaceGAN网络进行优化,得到优化后的人物图像集。通过程序 FFMPEG将人物图像集合成视频并把音频片段插入,得到舞蹈视频。
本公开的上述各个实施例中的一个实施例具有如下有益效果:首 先,获取舞蹈视频和音频片段,其中,上述舞蹈视频包括上述舞蹈视 频对应的音频和影像。然后,确定上述音频的音频点,利用上述影像, 为上述音频中的每个音频点分别生成一个影像点,得到多个影像点, 其中,相对应的音频点和影像点具有相同的间隔。再然后,利用上述 影像,为上述影像的每个影像点分别生成一个人体关键点集,得到多 个人体关键点集,以及将上述影像的每个影像点分别生成一个影像片 段,得到多个影像片段。进而,利用上述每个音频点作为标签,相对 应的上述每个影像点的人体关键点集作为值,构建训练集,以及上述 多个人体关键点集构建舞蹈动作库。确定上述音频点的特征向量和上 述影像片段的特征向量,将上述音频点的特征向量和上述影像片段的 特征向量输入初始的特征提取器,得到训练后的特征提取器。其次, 利用上述训练后的特征提取器,对上述音频片段进行特征提取,得到 上述音频片段的特征点向量组。然后,利用上述训练后的特征提取器, 对舞蹈动作库中的每个人体关键点集进行特征提取,得到人体关键点 特征向量集。进而,利用上述特征点向量组中的每个特征点向量分别 与上述人体关键点特征向量集中每个人体关键点特征向量相比较,得 到与上述每个特征点向量对应的距离最小的人体关键点特征向量,作 为人体关键点特征向量组。最后,确定上述人体关键点特征向量组中 每个人体关键点特征向量所对应的影像片段,生成视频。实现了生成 复杂舞蹈动作的视频的方法,解决了视频节奏不准确的问题,增强了 视频动作视觉效果。吸引了用户,为用户的生活提供了便利。
进一步参考图3,作为对上述各图所示方法的实现,本公开提供 了一种基于音频生成视频装置的一些实施例,这些装置实施例与图2 所示的那些方法实施例相对应,该装置具体可以应用于各种电子设备 中。
如图3所示,一些实施例的网页生成装置300包括:获取单元301、 第一确定单元302、第二确定单元303、第三确定单元304、第四确定 单元305、第五确定单元306、第六确定单元307、第七确定单元308、 生成单元。获取单元301,被配置成获取舞蹈视频和音频片段,其中, 上述舞蹈视频包括上述舞蹈视频对应的音频和影像;第一确定单元 302,被配置成确定上述音频的音频点,利用上述影像,为上述音频中 的每个音频点分别生成一个影像点,得到多个影像点,其中,相对应 的音频点和影像点具有相同的间隔;第二确定单元303,被配置成利 用上述影像,为上述影像的每个影像点分别生成一个人体关键点集, 得到多个人体关键点集,为上述影像的每个影像点分别生成一个影像 片段,得到多个影像片段;第三确定单元304,被配置成利用上述每 个音频点作为标签,相对应的上述每个影像点的人体关键点集作为值, 构建训练集,以及上述多个人体关键点集构建舞蹈动作库;第四确定 单元305,被配置成确定上述音频点的特征向量和上述影像片段的特 征向量,利用上述音频点的特征向量和上述影响片段的特征向量输入 初始的特征提取器,得到训练后的特征提取器;第五确定单元306, 被配置成利用上述训练后的特征提取器,对上述音频片段进行特征提 取,得到上述音频片段的特征点向量组;第六确定单元307,被配置 成利用上述训练后的特征提取器,对舞蹈动作库中的每个人体关键点 集进行特征提取,得到人体关键点特征向量集;第七确定单元308, 被配置成利用上述音频片段的特征点向量组中的每个特征点向量分别 与上述人体关键点特征向量集中每个人体关键点特征向量比较,得到 多个距离最小人体关键点特征向量,作为人体关键点特征向量组;生 成单元309,被配置成确定上述人体关键点特征向量组中每个人体关 键点特征向量所对应的影像片段,生成视频。
可以理解的是,该装置300中记载的诸单元与参考图2描述的方 法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及 产生的有益效果同样适用于装置300及其中包含的单元,在此不再赘 述。
下面参考图4,其示出了适于用来实现本公开的一些实施例的电 子设备(例如图1中的服务器101)400的结构示意图。图4示出的电 子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带 来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、 图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的 程序或者从存储装置408加载到随机访问存储器(RAM)403中的程 序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备 400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线 404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸 板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置 406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407; 及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子 设备400,但是应理解的是,并不要求实施或具备所有示出的装置。 可以替代地实施或具备更多或更少的装置。图4中示出的每个方框可 以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程 可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种 计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该 计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一 些实施例中,该计算机程序可以通过通信装置409从网络上被下载和 安装,或者从存储装置408被安装,或者从ROM 402被安装。在该计 算机程序被处理装置401执行时,执行本公开的一些实施例的方法中 限定的上述功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可 以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的 任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、 光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的 组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有 一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储 器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器 件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施 例中,计算机可读存储介质可以是任何包含或存储程序的有形介质, 该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。 而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中 或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序 代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信 号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是 计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号 介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使 用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以 用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等 等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP (HyperText TransferProtocol,超文本传输协议)之类的任何当前已知 或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字 数据通信(例如,通信网络)互连。通信网络的示例包括局域网 (“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端 网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网 络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是 单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一 个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使 得该电子设备:获取舞蹈视频和音频片段,其中,上述舞蹈视频包括 上述舞蹈视频对应的音频和影像。确定上述音频的音频点,利用上述 影像,为上述音频中的每个音频点分别生成一个影像点,得到多个影 像点,其中,相对应的音频点和影像点具有相同的间隔。利用上述影 像,为上述影像的每个影像点分别生成一个人体关键点集,得到多个 人体关键点集,为上述影像的每个影像点分别生成一个影像片段,得 到多个影像片段。利用上述每个音频点作为标签,相对应的上述每个 影像点的人体关键点集作为值,构建训练集,以及上述多个人体关键 点集构建舞蹈动作库。确定上述音频点的特征向量和上述影像片段的 特征向量,利用上述音频点的特征向量和上述影响片段的特征向量输 入初始的特征提取器,得到训练后的特征提取器。利用上述训练后的 特征提取器,对上述音频片段进行特征提取,得到上述音频片段的特 征点向量组。利用上述训练后的特征提取器,对舞蹈动作库中的每个 人体关键点集进行特征提取,得到人体关键点特征向量集。利用上述 音频片段的特征点向量组中的每个特征点向量分别与上述人体关键点 特征向量集中每个人体关键点特征向量比较,得到多个距离最小人体 关键点特征向量,作为人体关键点特征向量组。确定上述人体关键点 特征向量组中每个人体关键点特征向量所对应的影像片段,生成视频。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开 的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向 对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过 程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可 以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一 个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、 或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中, 远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域 网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例 如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点 上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码 的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实 现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实 现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。 例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时 也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是, 框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现, 或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现, 也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中, 例如,可以描述为:一种处理器包括获取单元、第一确定单元、第二 确定单元、第三确定单元、第四确定单元、第五确定单元、第六确定 单元、第七确定单元和生成单元。其中,这些单元的名称在某种情况 下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获 取舞蹈视频集合和音频片段集合的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部 件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件 包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标 准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的 说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范 围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵 盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进 行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例 中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成 的技术方案。

Claims (9)

1.一种基于音频生成视频的方法,包括:
获取舞蹈视频和音频片段,其中,所述舞蹈视频包括所述舞蹈视频对应的音频和影像;
确定所述音频的音频点,利用所述影像,为所述音频中的每个音频点分别生成一个影像点,得到多个影像点,其中,相对应的音频点和影像点具有相同的间隔;
利用所述影像,为所述影像的每个影像点分别生成一个人体关键点集,得到多个人体关键点集,以及将所述影像的每个影像点分别生成一个影像片段,得到多个影像片段;
利用所述每个音频点作为标签,相对应的所述每个影像点的人体关键点集作为值,构建训练集,以及所述多个人体关键点集构建舞蹈动作库;
确定所述音频点的特征向量和所述影像片段的特征向量,将所述音频点的特征向量和所述影像片段的特征向量输入初始的特征提取器,得到训练后的特征提取器;
利用所述训练后的特征提取器,对所述音频片段进行特征提取,得到所述音频片段的特征点向量组;
利用所述训练后的特征提取器,对舞蹈动作库中的每个人体关键点集进行特征提取,得到人体关键点特征向量集;
利用所述特征点向量组中的每个特征点向量分别与所述人体关键点特征向量集中每个人体关键点特征向量相比较,得到与所述每个特征点向量对应的距离最小的人体关键点特征向量,作为人体关键点特征向量组;
确定所述人体关键点特征向量组中每个人体关键点特征向量所对应的影像片段,生成视频。
2.根据权利要求1所述的方法,其中,所述舞蹈视频是通过固定摄像机角度拍摄的单人舞蹈视频。
3.根据权利要求2所述的方法,其中,所述利用所述每个音频点作为标签,相对应的所述每个影像点的人体关键点集作为值,构建训练集,以及所述多个人体关键点集构建舞蹈动作库,包括:
利用梅尔频率倒谱系数MFCC算法提取所述音频中的MFCC特征点,得到MFCC特征点集合;
利用人体姿态识别OpenPose算法提取所述影像中每一秒的人体关键点集;
将所述每个音频点作为标签,相对应的每个影像点生成的人体关键点集作为值,构建训练集;
利用多个人体关键点集并以秒为单位构建舞蹈动作库。
4.根据权利要求3所述的方法,其中,所述确定所述音频点的特征向量和所述影像片段的特征向量,将所述音频点的特征向量和所述影像片段的特征向量输入初始的特征提取器,得到训练后的特征提取器,包括:
构建初始特征提取器,其中,所述初始特征提取器包括音频编码器和动作编码器;
通过所述音频编码器对所述音频中的每个MFCC特征点提取特征向量,生成音频特征向量组;
通过所述动作编码器对所述影像片段提取特征向量,生成影像特征向量组;
得到所述音频特征向量组中的每个音频特征向量和所述影像特征向量组中的每个影像特征向量之间的欧氏距离值,利用每个音频特征向量和对应最小欧式距离值的影像特征向量作为相似度,生成相似度集;
利用所述相似度集作为损失函数输入到初始特征提取器开始训练,得到训练后的特征提取器;
利用所述训练后的特征提取器对所述舞蹈动作库中的每个影像片段进行编码,得到对应的影像片段特征向量组。
5.根据权利要求4所述的方法,其中,所述利用所述训练后的特征提取器,对所述音频片段进行特征提取,得到所述音频片段的特征点向量组,包括:
利用MFCC算法提取所述音频片段中的MFCC特征点,得到音频片段MFCC特征点集合;
利用所述训练后的特征提取器对所述音频片段MFCC特征点集合进行特征提取,得到所述音频片段MFCC特征点的特征点向量组。
6.根据权利要求5所述的方法,其中,所述确定所述人体关键点特征向量组中每个人体关键点特征向量所对应的影像片段,生成视频,包括:
确定所述人体关键点特征向量组中每个人体关键点特征向量,对应的所述舞蹈动作库中的人体关键点集所对应的影像片段;
确定影像片段不连续帧之前动作的局部周期和全局趋势特征,并预测当前帧的动作;
利用信号处理库Librosa提取音频节拍点和音频片段的MFCC特征点中的突变值,得到舞蹈节拍点;
利用三次拟合将舞蹈节拍点和音乐节拍点相对应,得到平滑的影像片段;
利用所述平滑的影像片段和所述音频片段,生成舞蹈视频。
7.一种基于音频生成视频的装置,包括:
获取单元,被配置成获取舞蹈视频和音频片段;
第一确定单元,被配置成确定所述音频的音频点,利用所述影像,为所述音频中的每个音频点分别生成一个影像点,得到多个影像点,其中,相对应的音频点和影像点具有相同的间隔;
第二确定单元,被配置成利用所述影像,为所述影像的每个影像点分别生成一个人体关键点集,得到多个人体关键点集,以及将所述影像的每个影像点分别生成一个影像片段,得到多个影像片段;
第三确定单元,被配置成利用所述每个音频点作为标签,相对应的所述每个影像点的人体关键点集作为值,构建训练集,以及所述多个人体关键点集构建舞蹈动作库;
第四确定单元,被配置成确定所述音频点的特征向量和所述影像片段的特征向量,将所述音频点的特征向量和所述影像片段的特征向量输入初始的特征提取器,得到训练后的特征提取器;
第五确定单元,被配置成利用所述训练后的特征提取器,对所述音频片段进行特征提取,得到所述音频片段的特征点向量组;
第六确定单元,被配置成利用所述训练后的特征提取器,对舞蹈动作库中的每个人体关键点集进行特征提取,得到人体关键点特征向量集;
第七确定单元,被配置成利用所述特征点向量组中的每个特征点向量分别与所述人体关键点特征向量集中每个人体关键点特征向量相比较,得到与所述每个特征点向量对应的距离最小的人体关键点特征向量,作为人体关键点特征向量组;
生成单元,被配置成确定所述人体关键点特征向量组中每个人体关键点特征向量所对应的影像片段,生成视频。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202010728311.5A 2020-07-24 2020-07-24 一种基于音频生成视频的方法和装置 Active CN111970536B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010728311.5A CN111970536B (zh) 2020-07-24 2020-07-24 一种基于音频生成视频的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010728311.5A CN111970536B (zh) 2020-07-24 2020-07-24 一种基于音频生成视频的方法和装置

Publications (2)

Publication Number Publication Date
CN111970536A true CN111970536A (zh) 2020-11-20
CN111970536B CN111970536B (zh) 2021-07-23

Family

ID=73362635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010728311.5A Active CN111970536B (zh) 2020-07-24 2020-07-24 一种基于音频生成视频的方法和装置

Country Status (1)

Country Link
CN (1) CN111970536B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989071A (zh) * 2020-12-14 2021-06-18 北京航空航天大学 一种基于人体舞蹈情感的音乐选择方法
CN113709548A (zh) * 2021-08-09 2021-11-26 北京达佳互联信息技术有限公司 基于图像的多媒体数据合成方法、装置、设备及存储介质
CN115712739A (zh) * 2022-11-17 2023-02-24 腾讯音乐娱乐科技(深圳)有限公司 舞蹈动作生成方法、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101693371A (zh) * 2009-09-30 2010-04-14 深圳先进技术研究院 跟踪音乐节拍跳舞的机器人
CN105702107A (zh) * 2016-04-25 2016-06-22 苏州恒体体育发展有限公司 Vr全息健身、舞蹈课程教学系统
WO2017105691A1 (en) * 2015-12-14 2017-06-22 Intel Corporation Networked sensor systems and methods
WO2018000268A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、系统及机器人
CN110853670A (zh) * 2019-11-04 2020-02-28 南京理工大学 音乐驱动的舞蹈生成方法
CN110955786A (zh) * 2019-11-29 2020-04-03 网易(杭州)网络有限公司 一种舞蹈动作数据的生成方法及装置
CN110992449A (zh) * 2019-11-29 2020-04-10 网易(杭州)网络有限公司 舞蹈动作合成方法、装置、设备及存储介质
CN111128100A (zh) * 2019-12-20 2020-05-08 网易(杭州)网络有限公司 节奏点检测方法、装置及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101693371A (zh) * 2009-09-30 2010-04-14 深圳先进技术研究院 跟踪音乐节拍跳舞的机器人
WO2017105691A1 (en) * 2015-12-14 2017-06-22 Intel Corporation Networked sensor systems and methods
CN105702107A (zh) * 2016-04-25 2016-06-22 苏州恒体体育发展有限公司 Vr全息健身、舞蹈课程教学系统
WO2018000268A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种机器人交互内容的生成方法、系统及机器人
CN110853670A (zh) * 2019-11-04 2020-02-28 南京理工大学 音乐驱动的舞蹈生成方法
CN110955786A (zh) * 2019-11-29 2020-04-03 网易(杭州)网络有限公司 一种舞蹈动作数据的生成方法及装置
CN110992449A (zh) * 2019-11-29 2020-04-10 网易(杭州)网络有限公司 舞蹈动作合成方法、装置、设备及存储介质
CN111128100A (zh) * 2019-12-20 2020-05-08 网易(杭州)网络有限公司 节奏点检测方法、装置及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989071A (zh) * 2020-12-14 2021-06-18 北京航空航天大学 一种基于人体舞蹈情感的音乐选择方法
CN113709548A (zh) * 2021-08-09 2021-11-26 北京达佳互联信息技术有限公司 基于图像的多媒体数据合成方法、装置、设备及存储介质
CN113709548B (zh) * 2021-08-09 2023-08-25 北京达佳互联信息技术有限公司 基于图像的多媒体数据合成方法、装置、设备及存储介质
CN115712739A (zh) * 2022-11-17 2023-02-24 腾讯音乐娱乐科技(深圳)有限公司 舞蹈动作生成方法、计算机设备及存储介质
CN115712739B (zh) * 2022-11-17 2024-03-26 腾讯音乐娱乐科技(深圳)有限公司 舞蹈动作生成方法、计算机设备及存储介质
WO2024103637A1 (zh) * 2022-11-17 2024-05-23 腾讯音乐娱乐科技(深圳)有限公司 舞蹈动作生成方法、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111970536B (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN109816589B (zh) 用于生成漫画风格转换模型的方法和装置
JP7127120B2 (ja) ビデオ分類の方法、情報処理の方法及びサーバー、並びにコンピュータ可読記憶媒体及びコンピュータプログラム
CN111970536B (zh) 一种基于音频生成视频的方法和装置
CN111935537A (zh) 音乐短片视频生成方法、装置、电子设备和存储介质
CN111476871B (zh) 用于生成视频的方法和装置
CN111738010B (zh) 用于生成语义匹配模型的方法和装置
CN112820071B (zh) 一种行为识别方法和装置
CN110163171B (zh) 用于识别人脸属性的方法和装置
JP2018142272A (ja) コンテンツ評価予測システム及びコンテンツ評価予測方法
CN109934142B (zh) 用于生成视频的特征向量的方法和装置
CN112153460A (zh) 一种视频的配乐方法、装置、电子设备和存储介质
CN111898338B (zh) 文本生成方法、装置和电子设备
CN114580425B (zh) 命名实体识别的方法和装置,以及电子设备和存储介质
CN116132711A (zh) 用于生成视频模板的方法、装置和电子设备
CN116977885A (zh) 视频文本任务处理方法、装置、电子设备及可读存储介质
CN108460364B (zh) 用于生成信息的方法和装置
CN113610034A (zh) 识别视频中人物实体的方法、装置、存储介质及电子设备
CN112990176A (zh) 书写质量评价方法、装置和电子设备
JP7113000B2 (ja) 映像を生成するための方法および装置
CN111027495A (zh) 用于检测人体关键点的方法和装置
CN110209878B (zh) 视频处理方法、装置、计算机可读介质及电子设备
CN114625876A (zh) 作者特征模型的生成方法、作者信息处理方法和装置
CN114610996A (zh) 一种信息推送的方法和装置
CN114627556A (zh) 动作检测方法、动作检测装置、电子设备以及存储介质
CN113488083A (zh) 数据匹配方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant