CN115471587A - 视频流生成方法、装置、电子设备及存储介质 - Google Patents
视频流生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115471587A CN115471587A CN202210929830.7A CN202210929830A CN115471587A CN 115471587 A CN115471587 A CN 115471587A CN 202210929830 A CN202210929830 A CN 202210929830A CN 115471587 A CN115471587 A CN 115471587A
- Authority
- CN
- China
- Prior art keywords
- stream
- audio stream
- target audio
- video stream
- action information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000009471 action Effects 0.000 claims abstract description 133
- 230000015654 memory Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 23
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001815 facial effect Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 21
- 230000014509 gene expression Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本公开实施例涉及一种视频流生成方法、装置、电子设备及存储介质,上述方法包括:获取目标音频流;基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作;基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。由此方法,可以基于目标音频流确定的第一对象的第一动作信息和目标音频流,来生成表征第一对象发出目标音频流指示的音频的视频流,从而利用流媒体技术提高了生成虚拟形象视频流的实时性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种视频流生成方法、装置、电子设备及存储介质。
背景技术
虚拟形象在外观、智能等方面与人具有较高程度的相似性。现有技术中,通常利用文本,对其进行ASR(自动语音识别技术,Automatic Speech Recognition)后,将文本转为NLP(自然语言处理,Natural Language Processing),获得音频,进而识别用户的表情来生成虚拟形象视频。
然而,上述方式生成的虚拟形象视频只简单提取了文字结果来进行表情分析,精确性较低,且难以满足实时性的要求。
发明内容
鉴于此,为解决上述部分或全部技术问题,本公开实施例提供一种视频流生成方法、装置、电子设备及存储介质。
第一方面,本公开实施例提供一种视频流生成方法,上述方法包括:
获取目标音频流;
基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作;
基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
在一个可能的实施方式中,所述获取目标音频流,包括:
从目标终端获取符合实时消息传输协议的目标音频流;以及
所述方法还包括:
向所述目标终端发送符合所述实时消息传输协议的视频流,其中,所述目标终端用于播放所述视频流。
在一个可能的实施方式中,所述获取目标音频流,包括:
获取目标音频流,以及发出所述目标音频流指示的音频的第二对象的第二动作信息;以及
所述基于所述目标音频流,确定第一对象的第一动作信息,包括:
基于所述目标音频流和所述第二动作信息,确定第一对象的第一动作信息。
在一个可能的实施方式中,所述获取目标音频流,包括:
获取目标音频流,以及发出所述目标音频流指示的音频的第二对象的第二动作信息;以及
所述基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流,包括:
基于所述第一动作信息、所述第二动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
在一个可能的实施方式中,所述基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流,包括:
将所述第一动作信息和所述目标音频流输入至预先训练的视频流生成模型,得到表征所述第一对象发出所述目标音频流指示的音频的视频流,其中,所述视频流生成模型采用机器学习算法训练得到,所述视频流生成模型用于基于第一动作信息和音频流生成表征所述第一对象发出音频流指示的音频的视频流。
在一个可能的实施方式中,所述视频流生成模型通过如下步骤训练得到:
获取所述第一对象的视频数据;
从所述视频数据中提取音频帧、音频帧的动作信息和音频帧对应的视频流,将所提取的音频帧的音频流作为样本音频流,将音频帧的动作信息作为样本动作信息,将音频帧对应的视频流作为样本视频流;
采用机器学习算法,将样本音频流和样本动作信息作为初始生成式对抗网络中的生成器的输入数据,得到所述生成器生成的视频流,如果所述初始生成式对抗网络中的判别器确定所述生成器生成的视频流和样本视频流满足预设训练结束条件,则将当前的初始生成器作为训练完成的视频流生成模型。
在一个可能的实施方式中,所述第一动作信息包括面部动作信息。
第二方面,本公开实施例提供一种视频流生成装置,上述装置包括:
获取单元,用于获取目标音频流;
确定单元,用于基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作;
生成单元,用于基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
在一个可能的实施方式中,所述获取目标音频流,包括:
从目标终端获取符合实时消息传输协议的目标音频流;以及
所述装置还包括:
向所述目标终端发送符合所述实时消息传输协议的视频流,其中,所述目标终端用于播放所述视频流。
在一个可能的实施方式中,所述获取目标音频流,包括:
获取目标音频流,以及发出所述目标音频流指示的音频的第二对象的第二动作信息;以及
所述基于所述目标音频流,确定第一对象的第一动作信息,包括:
基于所述目标音频流和所述第二动作信息,确定第一对象的第一动作信息。
在一个可能的实施方式中,所述获取目标音频流,包括:
获取目标音频流,以及发出所述目标音频流指示的音频的第二对象的第二动作信息;以及
所述基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流,包括:
基于所述第一动作信息、所述第二动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
在一个可能的实施方式中,所述基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流,包括:
将所述第一动作信息和所述目标音频流输入至预先训练的视频流生成模型,得到表征所述第一对象发出所述目标音频流指示的音频的视频流,其中,所述视频流生成模型采用机器学习算法训练得到,所述视频流生成模型用于基于第一动作信息和音频流生成表征所述第一对象发出音频流指示的音频的视频流。
在一个可能的实施方式中,所述视频流生成模型通过如下步骤训练得到:
获取所述第一对象的视频数据;
从所述视频数据中提取音频帧、音频帧的动作信息和音频帧对应的视频流,将所提取的音频帧的音频流作为样本音频流,将音频帧的动作信息作为样本动作信息,将音频帧对应的视频流作为样本视频流;
采用机器学习算法,将样本音频流和样本动作信息作为初始生成式对抗网络中的生成器的输入数据,得到所述生成器生成的视频流,如果所述初始生成式对抗网络中的判别器确定所述生成器生成的视频流和样本视频流满足预设训练结束条件,则将当前的初始生成器作为训练完成的视频流生成模型。
在一个可能的实施方式中,所述第一动作信息包括面部动作信息。
第三方面,本公开实施例提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行上述存储器中存储的计算机程序,且上述计算机程序被执行时,实现本公开上述第一方面的视频流生成方法中任一实施例的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,该计算机程序被处理器执行时,实现如上述第一方面的视频流生成方法中任一实施例的方法。
第五方面,本公开实施例提供一种计算机程序,该计算机程序包括计算机可读代码,当该计算机可读代码在设备上运行时,使得该设备中的处理器执行用于实现如上述第一方面的视频流生成方法中任一实施例的方法中各步骤的指令。
本公开实施例提供的视频流生成方法,通过获取目标音频流,之后,基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作,然后,基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。由此方法,可以基于目标音频流确定的第一对象的第一动作信息和目标音频流,来生成表征第一对象发出目标音频流指示的音频的视频流,从而利用流媒体技术提高了生成虚拟形象视频流的实时性。
附图说明
图1为本公开实施例提供的一种视频流生成方法的流程示意图;
图2为本公开实施例提供的另一种视频流生成方法的流程示意图;
图3为本公开实施例提供的一种视频流生成方法的应用场景示意图;
图4为本公开实施例提供的一种视频流生成装置的结构示意图;
图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值并不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等对象,既不代表任何特定技术含义,也不表示它们之间的逻辑顺序。
还应理解,在本实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,上述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。为便于对本公开实施例的理解,下面将参考附图并结合实施例来详细说明本公开。显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1为本公开实施例提供的一种视频流生成方法的流程示意图。如图1所示,该方法具体包括:
101、获取目标音频流。
在本实施例中,上述目标音频流,可以是用户输入的语音的音频流。
具体地,在用户向其所使用的用户终端输入语音的过程中,可以实时地获取该用户输入的语音的音频流,并将其作为目标音频流。也即,在用户输入语音完成之前,即可开始目标音频流的获取。
102、基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作。
在本实施例中,上述第一对象可以是任意对象。作为示例,其可以是人物对象,也可以是动物对象。此外,其可以是真实人物的形象,也可以是利用各种技术生成或合成的虚拟形象。
作为示例,可以采用如下方式,来基于所述目标音频流,确定第一对象的第一动作信息:
将所述目标音频流输入至预先训练的第一动作确定模型,生成动作信息,将所生成的动作信息确定为第一对象的第一动作信息。其中,上述第一动作确定模型可以是采用机器学习算法训练的卷积神经网络等模型。上述第一动作确定模型可以基于预先确定的训练样本训练得到。其中,上述训练样本包括音频流,以及音频流对应的动作信息。音频流对应的动作信息,可以是从包括该音频流的视频中提取的动作信息。
作为又一示例,也可以采用如下方式,来基于所述目标音频流,确定第一对象的第一动作信息:
将所述目标音频流输入至预先训练的第二动作确定模型,生成第一对象的第一动作信息。其中,上述第二动作确定模型可以是采用机器学习算法训练的生成式对抗网络中的生成器。
其中,上述第二动作确定模型可以采用如下方式训练得到:
首先,获取第一对象的视频数据。
之后,从上述视频数据中,提取音频流和音频流对应的动作信息。其中,音频流对应的动作信息,可以与该音频流,包含于同一视频流中。将所提取的音频流,作为样本音频流。以及将所提取的动作信息,作为样本动作信息。由此获得样本数据集合。其中,样本数据集合中的样本数据包括样本音频流和对应的样本动作信息。
然后,将上述样本数据集合中的样本数据包括的样本音频流输入至初始生成式对抗网络包括的生成器中,生成对应的动作信息。采用上述生成式对抗网络的判别器确定所生成的动作信息为样本数据集合中的样本数据包括的样本动作信息的概率。如果该概率达到预设概率阈值,则将上述生成器作为第二动作确定模型。如果该概率未达到上述预设概率阈值,则采用反向传播算法,调整初始生成式对抗网络的模型参数,以及基于模型参数调整后的生成式对抗网络中包括的生成器继续生成动作信息。
作为再一示例,还可以采用如下方式,来基于所述目标音频流,确定第一对象的第一动作信息:
将所述目标音频流输入至预先训练的第一动作确定模型集合中的各个第一动作确定模型,生成动作信息集合。其中,动作信息集合中的动作信息的数量,与第一动作确定模型集合中的第一动作确定模型的数量相等。动作信息集合中的每个动作信息可以采用向量或矩阵的方式表征。第一动作确定模型集合中的各个第一动作确定模型分别采用不同的算法训练获得,和/或,具有不同的模型结构。基于所述动作信息集合确定第一对象的第一动作信息。例如,可以将表征各个动作信息的向量或者矩阵在相同位置上的元素取众数,或者,将表征各个动作信息的向量或者矩阵在相同位置上的元素的平均数进行取整(例如向上取整或向下取整),从而获得第一对象的第一动作信息。
此处,通过采用不同的算法训练获得的第一动作确定模型,和/或,采用具有不同的模型结构的第一动作确定模型,来第一对象的第一动作信息,可以提高获得第一对象的第一动作信息的准确度。
在本实施例的一些可选的实现方式中,上述步骤101可以包括:获取目标音频流,以及发出所述目标音频流指示的音频的第二对象的第二动作信息。
在此基础上,上述步骤102可以包括:基于所述目标音频流和所述第二动作信息,确定第一对象的第一动作信息。
其中,上述第二对象,可以与第一对象为不同的对象。
作为示例,第一用户,可以是待在其所使用的用户终端上播放后续步骤103生成的视频流的用户。
第二对象,可以是预先确定的人员。该人员可以提供第二动作信息,以使全部或部分用户的用户终端播放后续步骤103生成的视频流。
具体地,在获取到目标音频流之后,上述预先确定的人员可以重复该目标音频流对应的语音,从而获得第二动作信息。
第二动作信息,可以表征第二对象发出所述目标音频流指示的音频的动作。
这里,可以将所述目标音频流和所述第二动作信息输入至预先训练的卷积神经网络模型或者生成式对抗网络中的生成器,从而获得第一对象的第一动作信息。
在本实施例的一些可选的实现方式中,所述第一动作信息包括面部动作信息。
103、基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
在本实施例中,可以基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
在本实施例的一些可选的实现方式中,上述步骤101可以包括:获取目标音频流,以及发出所述目标音频流指示的音频的第二对象的第二动作信息。
其中,上述第二对象,可以与第一对象为不同的对象。
作为示例,第一用户,可以是待在其所使用的用户终端上播放后续步骤103生成的视频流的用户。
第二对象,可以是预先确定的人员。该人员可以提供第二动作信息,以使全部或部分用户的用户终端播放后续步骤103生成的视频流。
具体地,在获取到目标音频流之后,上述预先确定的人员可以重复该目标音频流对应的语音,从而获得第二动作信息。
第二动作信息,可以表征第二对象发出所述目标音频流指示的音频的动作。
在此基础上,上述步骤103可以包括:
基于所述第一动作信息、所述第二动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
这里,可以将所述第一动作信息、所述第二动作信息和所述目标音频流输入至预先训练的卷积神经网络模型或者生成式对抗网络中的生成器,从而获得第一对象的第一动作信息。
在本实施例的一些可选的实现方式中,上述步骤103可以采用如下方式来执行:
将所述第一动作信息和所述目标音频流输入至预先训练的视频流生成模型,得到表征所述第一对象发出所述目标音频流指示的音频的视频流。其中,所述视频流生成模型采用机器学习算法训练得到,所述视频流生成模型用于基于第一动作信息和音频流生成表征所述第一对象发出音频流指示的音频的视频流。
其中,每个第一对象可以对应一个视频流生成模型。不同第一对象可以对应不同的视频流生成模型。
作为示例,上述所述视频流生成模型,可以基于卷积神经网络模型,或者,生成式对抗网络的生成器,训练得到。
在上述可选的实现方式中的一些应用场景下,所述视频流生成模型通过如下步骤训练得到:
首先,获取所述第一对象的视频数据。
之后,从所述视频数据中提取音频帧、音频帧的动作信息和音频帧对应的视频流,将所提取的音频帧的音频流作为样本音频流,将音频帧的动作信息作为样本动作信息,将音频帧对应的视频流作为样本视频流。
然后,采用机器学习算法,将样本音频流和样本动作信息作为初始生成式对抗网络中的生成器的输入数据,得到所述生成器生成的视频流,如果所述初始生成式对抗网络中的判别器确定所述生成器生成的视频流和样本视频流满足预设训练结束条件,则将当前的初始生成器作为训练完成的视频流生成模型。
其中,上述预设训练结束条件可以包括:所述生成器生成的视频流为样本视频流的概率达到预设概率阈值。
本公开实施例提供的视频流生成方法,通过获取目标音频流,之后,基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作,然后,基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。由本方案,可以基于目标音频流确定的第一对象的第一动作信息和目标音频流,来生成表征第一对象发出目标音频流指示的音频的视频流,从而利用流媒体技术提高了生成虚拟形象视频流的实时性。
图2为本公开实施例提供的另一种视频流生成方法的流程示意图。如图2所示,该方法具体包括:
201、从目标终端获取符合实时消息传输协议的目标音频流。
在本实施例中,目标终端可以是任一发送符合实时消息传输协议(RTMP,Real-Time Messaging Protocol)的目标音频流的终端。
上述目标音频流,可以是用户实时输入的语音的音频流。
具体地,在用户向其所使用的用户终端输入语音的过程中,可以实时地获取该用户输入的语音的音频流,并将其作为目标音频流。也即,在用户输入语音完成之前,即可开始目标音频流的获取。
202、基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作。
在本实施例中,步骤202与图1对应实施例中的步骤102基本一致,这里不再赘述。
203、基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
在本实施例中,步骤203与图1对应实施例中的步骤103基本一致,这里不再赘述。
204、向所述目标终端发送符合所述实时消息传输协议的视频流,其中,所述目标终端用于播放所述视频流。
在本实施例中,可以向所述目标终端发送符合所述实时消息传输协议的视频流。在上述用户终端接收到上述视频流之后,所述目标终端可以播放所述视频流,以呈现表征所述第一对象发出所述目标音频流指示的音频的视频。
需要说明的是,除以上所记载的内容之外,本实施例还可以包括与图1对应的实施例中所描述的技术特征,进而实现图1所示视频流生成方法的技术效果,具体请参照图1相关描述,为简洁描述,在此不作赘述。
本公开实施例提供的视频流生成方法,通过从目标终端获取符合实时消息传输协议的目标音频流,以及向所述目标终端发送符合所述实时消息传输协议的视频流,以便所述目标终端播放所述视频流,从而可以通过视频流展现虚拟形象,用户可持续输入音频,来驱动流程持续进行,进而持续播放表征第一对象相应音频的视频。
图3为本公开实施例提供的又一种视频流生成方法的流程示意图。本方法可以应用于云端服务器、智能手机、笔记本电脑、台式电脑、便携式计算机、服务器等一个或多个电子设备上。此外,本方法的执行主体可以是硬件,也可以是软件。当上述执行主体为硬件时,该执行主体可以为上述电子设备中的一个或多个。例如,单个电子设备可以执行本方法,或者,多个电子设备可以彼此配合来执行本方法。当上述执行主体为软件时,本方法可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块。在此不作具体限定。
具体而言,如图3所示,该方法具体包括:
前端(也即上述目标终端)可以获取用户实时输入的音频,然后将音频转化为符合实时消息传输协议的音频流,之后,将得到的音频流发送到云端进行解析。云端虚拟引擎生成虚拟形象视频流。随后将视频流发送至前端。在前端接收到视频流之后,前端引擎解析视频流,通过界面展示虚拟形象。
具体地,前端用户输入的音频转化为音频流通过RTMP(实时消息传输协议)输送到云端,云端通过算法解析音频流,分析用户的行为。之后,转化为视频流传给前端,前端界面上展示虚拟形象,来模拟用户表情。由此,用户可持续与虚拟人对话来驱动流程持续进行。
需要说明的是,除以上所记载的内容之外,本实施例还可以包括与图1和/或图2对应的实施例中所描述的技术特征,进而实现图1和/或图2所示视频流生成方法的技术效果,具体请参照图1和/或图2相关描述,为简洁描述,在此不作赘述。
本公开实施例提供的视频流生成方法,通过音频结果解析实现对虚拟形象的表情和主体驱动的控制,通过RTMP(实时消息传输协议)来和云端进行交互,并且,可以通过视频流展现虚拟形象表情。
图4为本公开实施例提供的一种视频流生成装置的结构示意图。具体包括:
获取单元401,用于获取目标音频流;
确定单元402,用于基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作;
生成单元403,用于基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
在一个可能的实施方式中,所述获取目标音频流,包括:
从目标终端获取符合实时消息传输协议的目标音频流;以及
所述装置还包括:
向所述目标终端发送符合所述实时消息传输协议的视频流,其中,所述目标终端用于播放所述视频流。
在一个可能的实施方式中,所述获取目标音频流,包括:
获取目标音频流,以及发出所述目标音频流指示的音频的第二对象的第二动作信息;以及
所述基于所述目标音频流,确定第一对象的第一动作信息,包括:
基于所述目标音频流和所述第二动作信息,确定第一对象的第一动作信息。
在一个可能的实施方式中,所述获取目标音频流,包括:
获取目标音频流,以及发出所述目标音频流指示的音频的第二对象的第二动作信息;以及
所述基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流,包括:
基于所述第一动作信息、所述第二动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
在一个可能的实施方式中,所述基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流,包括:
将所述第一动作信息和所述目标音频流输入至预先训练的视频流生成模型,得到表征所述第一对象发出所述目标音频流指示的音频的视频流,其中,所述视频流生成模型采用机器学习算法训练得到,所述视频流生成模型用于基于第一动作信息和音频流生成表征所述第一对象发出音频流指示的音频的视频流。
在一个可能的实施方式中,所述视频流生成模型通过如下步骤训练得到:
获取所述第一对象的视频数据;
从所述视频数据中提取音频帧、音频帧的动作信息和音频帧对应的视频流,将所提取的音频帧的音频流作为样本音频流,将音频帧的动作信息作为样本动作信息,将音频帧对应的视频流作为样本视频流;
采用机器学习算法,将样本音频流和样本动作信息作为初始生成式对抗网络中的生成器的输入数据,得到所述生成器生成的视频流,如果所述初始生成式对抗网络中的判别器确定所述生成器生成的视频流和样本视频流满足预设训练结束条件,则将当前的初始生成器作为训练完成的视频流生成模型。
在一个可能的实施方式中,所述第一动作信息包括面部动作信息。
本实施例提供的视频流生成装置可以是如图4中所示的视频流生成装置,可执行如图1-3中视频流生成方法的所有步骤,进而实现图1-3所示视频流生成方法的技术效果,具体请参照图1-3相关描述,为简洁描述,在此不作赘述。
图5为本公开实施例提供的一种电子设备的结构示意图,图5所示的电子设备500包括:至少一个处理器501、存储器502、至少一个网络接口504和其他用户接口503。电子设备500中的各个组件通过总线系统505耦合在一起。可理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。
其中,用户接口503可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本公开实施例中的存储器502可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器502存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统5021和应用程序5022。
其中,操作系统5021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序5022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序5022中。
在本实施例中,通过调用存储器502存储的程序或指令,具体的,可以是应用程序5022中存储的程序或指令,处理器501用于执行各方法实施例所提供的方法步骤,例如包括:
获取目标音频流;
基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作;
基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
上述本公开实施例揭示的方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本公开的上述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文上述功能的单元来实现本文上述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的电子设备可以是如图5中所示的电子设备,可执行如图1-3中视频流生成方法的所有步骤,进而实现图1-3所示视频流生成方法的技术效果,具体请参照图1-3相关描述,为简洁描述,在此不作赘述。
本公开实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的视频流生成方法。
上述处理器用于执行存储器中存储的视频流生成程序,以实现以下在电子设备侧执行的视频流生成方法的步骤:
获取目标音频流;
基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作;
基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施方式而已,并不用于限定本公开的保护范围,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种视频流生成方法,其特征在于,所述方法包括:
获取目标音频流;
基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作;
基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
2.根据权利要求1所述的方法,其特征在于,所述获取目标音频流,包括:
从目标终端获取符合实时消息传输协议的目标音频流;以及
所述方法还包括:
向所述目标终端发送符合所述实时消息传输协议的视频流,其中,所述目标终端用于播放所述视频流。
3.根据权利要求1所述的方法,其特征在于,所述获取目标音频流,包括:
获取目标音频流,以及发出所述目标音频流指示的音频的第二对象的第二动作信息;以及
所述基于所述目标音频流,确定第一对象的第一动作信息,包括:
基于所述目标音频流和所述第二动作信息,确定第一对象的第一动作信息。
4.根据权利要求1所述的方法,其特征在于,所述获取目标音频流,包括:
获取目标音频流,以及发出所述目标音频流指示的音频的第二对象的第二动作信息;以及
所述基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流,包括:
基于所述第一动作信息、所述第二动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流,包括:
将所述第一动作信息和所述目标音频流输入至预先训练的视频流生成模型,得到表征所述第一对象发出所述目标音频流指示的音频的视频流,其中,所述视频流生成模型采用机器学习算法训练得到,所述视频流生成模型用于基于第一动作信息和音频流生成表征所述第一对象发出音频流指示的音频的视频流。
6.根据权利要求5所述的方法,其特征在于,所述视频流生成模型通过如下步骤训练得到:
获取所述第一对象的视频数据;
从所述视频数据中提取音频帧、音频帧的动作信息和音频帧对应的视频流,将所提取的音频帧的音频流作为样本音频流,将音频帧的动作信息作为样本动作信息,将音频帧对应的视频流作为样本视频流;
采用机器学习算法,将样本音频流和样本动作信息作为初始生成式对抗网络中的生成器的输入数据,得到所述生成器生成的视频流,如果所述初始生成式对抗网络中的判别器确定所述生成器生成的视频流和样本视频流满足预设训练结束条件,则将当前的初始生成器作为训练完成的视频流生成模型。
7.根据权利要求1-6之一所述的方法,其特征在于,所述第一动作信息包括面部动作信息。
8.一种视频流生成装置,其特征在于,所述装置包括:
获取单元,用于获取目标音频流;
确定单元,用于基于所述目标音频流,确定第一对象的第一动作信息,其中,所述第一动作信息表征所述第一对象发出所述目标音频流指示的音频的动作;
生成单元,用于基于所述第一动作信息和所述目标音频流,生成表征所述第一对象发出所述目标音频流指示的音频的视频流。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210929830.7A CN115471587A (zh) | 2022-08-03 | 2022-08-03 | 视频流生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210929830.7A CN115471587A (zh) | 2022-08-03 | 2022-08-03 | 视频流生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115471587A true CN115471587A (zh) | 2022-12-13 |
Family
ID=84366489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210929830.7A Pending CN115471587A (zh) | 2022-08-03 | 2022-08-03 | 视频流生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115471587A (zh) |
-
2022
- 2022-08-03 CN CN202210929830.7A patent/CN115471587A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460463B (zh) | 基于数据处理的模型训练方法、装置、终端及存储介质 | |
CN108319599B (zh) | 一种人机对话的方法和装置 | |
WO2021169431A1 (zh) | 交互方法、装置、电子设备以及存储介质 | |
US20200125920A1 (en) | Interaction method and apparatus of virtual robot, storage medium and electronic device | |
JP2019102063A (ja) | ページ制御方法および装置 | |
CN109514586B (zh) | 实现智能客服机器人的方法及系统 | |
US11631408B2 (en) | Method for controlling data, device, electronic equipment and computer storage medium | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN113886643A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
CN113987269A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
CN111832276A (zh) | 用于对话解交织的丰富消息嵌入 | |
CN113886644A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
CN111324710B (zh) | 一种基于虚拟人的在线调研方法、装置和终端设备 | |
CN117076635A (zh) | 信息处理的方法、装置、设备和存储介质 | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
US9607573B2 (en) | Avatar motion modification | |
CN115471587A (zh) | 视频流生成方法、装置、电子设备及存储介质 | |
CN110706704A (zh) | 用于生成语音交互原型的方法、装置和计算机设备 | |
CN111310847B (zh) | 训练要素分类模型的方法和装置 | |
CN115145434A (zh) | 基于虚拟形象的互动服务方法及装置 | |
CN110610697B (zh) | 一种语音识别方法及装置 | |
CN110516043B (zh) | 用于问答系统的答案生成方法和装置 | |
CN114247143A (zh) | 基于云服务器的数字人互动方法、装置、设备及存储介质 | |
US20220019886A1 (en) | Computer-implemented bond network system for posthumous persona simulation | |
CN110808038B (zh) | 普通话评测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |