CN113873297A - 一种数字人物视频的生成方法及相关装置 - Google Patents

一种数字人物视频的生成方法及相关装置 Download PDF

Info

Publication number
CN113873297A
CN113873297A CN202111212348.3A CN202111212348A CN113873297A CN 113873297 A CN113873297 A CN 113873297A CN 202111212348 A CN202111212348 A CN 202111212348A CN 113873297 A CN113873297 A CN 113873297A
Authority
CN
China
Prior art keywords
parameters
limb action
digital
voice audio
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111212348.3A
Other languages
English (en)
Other versions
CN113873297B (zh
Inventor
杨国基
刘致远
穆少垒
刘炫鹏
刘云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN202111212348.3A priority Critical patent/CN113873297B/zh
Publication of CN113873297A publication Critical patent/CN113873297A/zh
Application granted granted Critical
Publication of CN113873297B publication Critical patent/CN113873297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了一种数字人物视频生成方法,包括:获得由预设文本数据得到的第一语音音频;采集用户关于预设文本数据的阅读语音作为第二语音音频,并采集用户关于所述预设文本数据的肢体动作视频;计算第一语音音频和第二语音音频之间的时间差作为时间调整参数;从肢体动作视频中得到数字肢体动作参数;调整肢体动作关键点的时间信息,得到目标肢体动作参数;生成数字人物模型的多帧图像帧并合成,得到数字人物模型的视频数据。

Description

一种数字人物视频的生成方法及相关装置
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种数字人物视频的生成方法及相关装置。
背景技术
数字人,是信息科学与生命科学融合的产物,是利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真,通过建立多学科和多层次的数字模型以达到对人体从微观到宏观的精确模拟。数字人视频目前已被应用于各种场合,其能够为人们带来比较好的体验。
目前数字人视频的制作方法是,输入已准备好的文本,接着由文本生成声音,接着将声音进行转换得到嘴型关键点,再在时间轴上指定动作,动作从动作库中选择,查出动作关键点,根据动作关键点和嘴型关键点生成图像帧,将多个图像帧进行合成,并结合已生成的声音内容得到数字人视频。
然而,现有技术中,用户在动作库中选择动作时会遇到因动作名称较抽象或很难通过名称区分动作的区别而找不准动作,从而得不到准确的关键点的问题。大大降低了数字人视频生成的效率。
发明内容
本申请实施例提供了一种数字人物视频的生成方法及相关装置。
一种数字人物视频的生成方法,包括:
获得由预设文本数据转换得到的第一语音音频;
采集用户关于所述预设文本数据的阅读语音作为第二语音音频,以及采集所述用户关于所述预设文本数据的肢体动作视频;
计算所述第一语音音频和所述第二语音音频之间的时间差作为时间调整参数,所述时间调整参数包括所述预设文本数据中每一文本单元在所述第一语音音频的时间点与所述第二语音音频的时间点的差值;
从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数,所述数字肢体动作参数包括肢体动作关键点和肢体动作关键点对应的时间信息;
根据所述时间调整参数调整所述肢体动作关键点的时间信息,得到目标肢体动作参数;
根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧;
合成所述数字人物模型的多帧图像帧,得到所述数字人物模型的视频数据。
可选的,根据所述目标肢体动作参数生成数字人物模型的多帧图像帧之前,所述方法还包括:
根据所述第一语音音频得到所述数字人物模型的嘴型动作参数,所述嘴型动作参数包括嘴型关键点和嘴型关键点对应的时间信息;
根据所述时间调整参数调整所述嘴型关键点的时间信息,得到目标嘴型动作参数;
根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧,包括:
根据所述目标嘴型动作参数和所述目标肢体动作参数,生成所述数字人物模型的多帧图像帧。
可选的,根据所述第一语音音频得到所述数字人物模型的嘴型动作参数包括:
基于所述第一语音音频与所述嘴型动作参数的预设关系,根据所述第一语音音频得到所述嘴型动作参数。
可选的,从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数包括:
从所述肢体动作视频中获取所述用户的用户肢体动作参数;
根据所述用户肢体动作参数进行算法识别得到所述数字肢体动作参数。
可选的,从所述肢体动作视频中获取所述用户的用户肢体动作参数之前,所述方法还包括:
根据预设的时间间隔,对所述数字人物模型的候选肢体动作进行提取得到候选参数,所述候选参数包括候选关键点和候选关键点对应的时间信息;
保存所述候选参数;
根据所述用户肢体动作参数进行算法识别得到所述数字肢体动作参数,包括:
将所述用户肢体动作参数与所述候选参数进行匹配,得到所述数字肢体动作参数。
一种数字人物视频的生成装置,包括:
获取单元,用于获得由预设文本数据转换得到的第一语音音频;
采集单元,用于采集用户关于所述预设文本数据的阅读语音作为第二语音音频,以及采集所述用户关于所述预设文本数据的肢体动作视频;
计算单元,用于计算所述第一语音音频和所述第二语音音频之间的时间差作为时间调整参数,所述时间调整参数包括所述预设文本数据中每一文本单元在所述第一语音音频的时间点与所述第二语音音频的时间点的差值;
识别单元,用于从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数,所述数字肢体动作参数包括肢体动作关键点和肢体动作关键点对应的时间信息;
调整单元,用于根据所述时间调整参数调整所述肢体动作关键点的时间信息,得到目标肢体动作参数;
生成单元,用于根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧;
合成单元,用于合成所述数字人物模型的多帧图像帧,得到所述数字人物模型的视频数据。
可选的,数字人物视频生成装置还包括:
第一处理单元,用于根据所述第一语音音频得到所述数字人物模型的嘴型动作参数,所述嘴型动作参数包括嘴型关键点和嘴型关键点对应的时间信息;
第二处理单元,用于根据所述时间调整参数调整所述嘴型关键点的时间信息,得到目标嘴型动作参数;
提取单元,用于根据预设的时间间隔,对所述数字人物模型的候选肢体动作进行提取得到候选参数,所述候选参数包括候选关键点和候选关键点对应的时间信息;
保存单元,用于保存所述候选参数;
所述生成单元,具体用于根据所述目标嘴型动作参数和所述目标肢体动作参数,生成所述数字人物模型的多帧图像帧。
所述第一处理单元,具体用于基于所述第一语音音频与所述嘴型动作参数的预设关系,根据所述第一语音音频得到所述嘴型动作参数。
所述识别单元,具体用于从所述肢体动作视频中获取所述用户的用户肢体动作参数;
所述识别单元,具体用于根据所述用户肢体动作参数进行算法识别得到所述数字肢体动作参数。
所述识别单元,具体用于将所述用户肢体动作参数与所述候选参数进行匹配,得到所述数字肢体动作参数。
一种数字人物视频的生成装置,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行前述方法。
一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行前述方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
可通过第一语音音频和第二语音音频得到时间调整参数。接着通过肢体动作视频进行算法识别出准确的动作,得到数字肢体动作参数。再根据时间调整参数对数字肢体动作参数进行调整,得到目标肢体动作参数,目标肢体动作参数包括了准确的关键点及其对应的时间信息。根据目标肢体动作参数可生成图像帧,进而生成数字人物视频,给用户带来了良好的体验。
附图说明
图1为本申请实施例应用环境示意图;
图2为本申请实施例数字人物视频生成方法一个实施例示意图;
图3为本申请实施例数字人物视频生成方法另一实施例示意图;
图4为本申请实施例数字人物视频生成装置一个实施例示意图;
图5为本申请实施例数字人物视频生成装置另一实施例示意图;
图6为本申请实施例数字人物视频生成装置另一实施例示意图。
具体实施方式
本申请实施例提供了一种数字人物视频的生成方法及相关装置。
随着科学技术的不断发展,数字人物视频已越来越接近人们的生活,在医疗、教育等领域有着不同程度的应用。数字人物视频的出现能够给人们带来便利,提高了工作效率,拥有较好的体验。
请参阅图1,图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的数字人物视频生成方法可以应该用于如图1所示的交互系统100。交互系统100包括终端设备101以及数字人物视频生成装置102,数字人物视频生成装置102与终端设备101通信连接。其中,数字人物视频生成装置102可以是传统服务器,也可以是云端服务器,在此不做具体限定。
其中,终端设备101可以是具有显示屏、具有数据处理模块、具有拍摄相机、具有音频输入/输出等功能,且支持数据输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。具体的,数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等。
其中,终端设备101上可以安装有客户端应用程序,用户可以基于客户端应用程序(例如APP,微信小程序等),其中,本实施例的对话机器人也是配置于终端设备101中的一个客户端应用程序。用户可以基于客户端应用程序在数字人物视频生成装置102注册一个用户账号,并基于该用户账号与数字人物视频生成装置102进行通信,例如用户在客户端应用程序登录用户账号,并基于该用户账号通过客户端应用程序进行输入,可以输入文字信息或语音信息等,客户端应用程序接收到用户输入的信息后,可以将该信息发送至数字人物视频生成装置102,使得数字人物视频生成装置102可以接收该信息并进行处理及存储,数字人物视频生成装置102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。
在一些实施方式中,对待识别数据进行处理的装置也可以设置于终端设备101上,使得终端设备101无需依赖于数字人物视频生成装置102建立通信即可实现与用户的交互,此时交互系统100可以只包括终端设备101。
下面对本申请实施例的数字人物视频生成方法进行描述。请参阅图2,本申请实施例数字人物视频生成方法一个实施例包括:
201、获得由预设文本数据转换得到的第一语音音频;
可通过多种集成信息输入模块获取第一语音音频,该第一语音音频由预设文本数据转换得到。
预设文本数据可以是文字类的文本信息,如中文,英文,日文等。将该预设文本数据转换为第一语音音频,第一语音音频为预设文本数据对应的语音类信息。通过从文本到语音技术(TTS,text to speech)可实现该步骤,其中,TTS产品可以是语音合成助手,PDFMarkup Cloud等其中一种,具体此处不做限定。
202、采集用户关于所述预设文本数据的阅读语音作为第二语音音频,以及采集所述用户关于所述预设文本数据的肢体动作视频;
采集用户的关于预设文本数据的阅读语音和肢体动作视频,其中阅读语音即为第二语音音频。
用户想生成数字人物视频,需根据预设的文本数据进行阅读,发出声音,对该声音进行采集即得到第二语音音频。阅读预设的文本数据的同时做出肢体动作,以供采集用户的一系列肢体动作。例如,用户在说出“再见”并作出挥手的动作时,进行采集,采集“再见”语音和挥手的肢体动作,以执行后续操作。
203、计算所述第一语音音频和所述第二语音音频之间的时间差作为时间调整参数;
得到第一语音音频和第二语音音频后,进行计算得到时间调整参数。时间调整参数包括预设文本数据中每一文本单元在第一语音音频的时间点与第二语音音频的时间点的差值。
由于根据预设文本数据生成的第一语音音频为机器生成,而用户发出的声音第二语音音频,第一语音音频和第二语音音频在每一文本单元的时间点是不完全一样的,且有多个时间差,例如“再见”这个文本单元,在第一语音音频为第3秒,第二语音音频为第3.5秒,时间差为0.5秒。再如“你好”这个文本单元,在第一语音音频为第4秒,第二语音音频为第5秒,时间差为1秒。时间调整参数可简单理解成时间差,该时间差为后续进行调整提供前提条件,以使得数字人物视频给人以较好的体验。
204、从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数,所述数字肢体动作参数包括肢体动作关键点和肢体动作关键点对应的时间信息;
从肢体动作视频中识别出数字肢体动作参数,其中数字肢体动作参数包括肢体动作关键点和肢体动作关键点对应的时间信息。
获取肢体动作视频后,可根据算法进行识别,找出最匹配的动作,该动作为数据库中的数字人物动作。该动作具有对应的关键点和时间信息。每一个关键点对应一个时刻,例如,一秒钟需要的面部特征点数量可以为30个关键点,则一秒内对应有30个时刻。
205、根据所述时间调整参数调整所述肢体动作关键点的时间信息,得到目标肢体动作参数;
求出时间调整参数后,利用时间调整参数对肢体动作关键点的时间信息调整,调整的结果为目标肢体动作参数。
例如,挥手肢体动作的一个关键点,如食指,在第3秒时处于其最高位置,利用时间调整参数,即时间差为0.5秒,对其进行调整,使得食指在第3.5秒时处于其最高位置,将该结果作为目标肢体动作参数。
206、根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧;
得到目标肢体动作参数后,根据目标肢体动作参数生成数字人物模型的图像帧。其中,目标肢体动作参数也包括了关键点及其对应的时间信息。
例如,挥手肢体动作的一个关键点,如食指,在第3秒时处于其最高位置,根据该位置信息即食指最高位置和时间信息即第3秒,生成一帧图像帧。食指在第4秒时处于其最低位置,根据最低位置和第4秒生成另外一帧图像帧。
207、合成所述数字人物模型的多帧图像帧,得到所述数字人物模型的视频数据。
得到多帧图像帧后,将多帧图像帧进行合成,得到视频数据。数字人物视频由多帧数字人物图像帧构成,经过处理可将图像帧连贯合成,使得用户看到播放流畅得数字人物视频。
本申请实施例中,可通过第一语音音频和第二语音音频得到时间调整参数。接着通过肢体动作视频进行算法识别出准确的动作,得到数字肢体动作参数。再根据时间调整参数对数字肢体动作参数进行调整,得到目标肢体动作参数,根据目标肢体动作参数可生成图像帧,进而生成数字人物视频,给用户带来了良好的体验。
请参阅图3,本申请实施例数字人物视频生成方法另一实施例包括:
301、获得由预设文本数据转换得到的第一语音音频;
可通过多种集成信息输入模块获取第一语音音频,该第一语音音频由预设文本数据转换得到。
预设文本数据可以是文字类的文本信息,如中文,英文,日文等。将该预设文本数据转换为第一语音音频,第一语音音频为预设文本数据对应的语音类信息。通过从文本到语音技术(TTS,text to speech)可实现该步骤,其中,TTS产品可以是语音合成助手,PDFMarkup Cloud等其中一种,具体此处不做限定。
302、采集用户关于所述预设文本数据的阅读语音作为第二语音音频,以及采集所述用户关于所述预设文本数据的肢体动作视频;
采集用户的关于预设文本数据的阅读语音和肢体动作视频,其中阅读语音即为第二语音音频。
用户想生成数字人物视频,需根据预设的文本数据进行阅读,发出声音,对该声音进行采集即得到第二语音音频。阅读预设的文本数据的同时做出肢体动作,以供采集用户的一系列肢体动作。例如,用户在说出“再见”并作出挥手的动作时,进行采集,采集“再见”语音和挥手的肢体动作,以执行后续操作。
303、计算所述第一语音音频和所述第二语音音频之间的时间差作为时间调整参数;
得到第一语音音频和第二语音音频后,进行计算得到时间调整参数。时间调整参数包括预设文本数据中每一文本单元在第一语音音频的时间点与第二语音音频的时间点的差值。
由于根据预设文本数据生成的第一语音音频为机器生成,而用户发出的声音第二语音音频,第一语音音频和第二语音音频在每一文本单元的时间点是不完全一样的,且有多个时间差,例如“再见”这个文本单元,在第一语音音频为第3秒,第二语音音频为第3.5秒,时间差为0.5秒。再如“你好”这个文本单元,在第一语音音频为第4秒,第二语音音频为第5秒,时间差为1秒。时间调整参数可简单理解成时间差,该时间差为后续进行调整提供前提条件,以使得数字人物视频给人以较好的体验。
304、根据预设的时间间隔,对所述数字人物模型的候选肢体动作进行提取得到候选参数;
先对时间间隔进行预先设定,再对数字人物模型的候选肢体动作进行提取得到候选参数。候选参数包括候选关键点和候选关键点对应的时间信息。
例如,可预先设定时间间隔为0.2秒,每0.2秒确定一个时间点,将候选肢体动作划分为一个个时间点进行提取,得到每个时间点对应的位置信息,即候选关键点。时间间隔可以是0.2秒,可以是0.5秒,还可以是0.6秒,可根据实际需求设定,具体此处不做限定。
305、保存所述候选参数;
得到候选参数后,将其保存至数据库中,其中候选参数包括候选关键点和与其对应的时间信息,以后续操作进行准备。
306、从所述肢体动作视频中获取所述用户的用户肢体动作参数;
通过肢体动作视频获取用户的用户肢体动作参数。其中该用户肢体动作参数是用户本人的比划出的肢体动作,如挥手、点头、伸手等。
对用户比划的肢体动作提取关键点。例如,数字人物肢体动作经提取可得N个关键点,用户肢体动作关键点也需同样为N个,先取N个随机值数组,再根据随机值数组的值和候选肢体动作的时间间隔确定用户肢体动作关键点的时间间隔。如随机值数组值为1,候选肢体动作的时间间隔为2,则用户肢体动作关键点的时间间隔为3,即两者相加的结果。根据用户肢体动作关键点的时间间隔提取出每个时刻的用户肢体动作关键点。
307、将所述用户肢体动作参数与所述候选参数进行匹配,得到所述数字肢体动作参数,所述数字肢体动作参数包括肢体动作关键点和肢体动作关键点对应的时间信息;
将用户肢体动作参数与候选参数进行匹配,得到数字肢体动作参数,其中,数字肢体动作参数同样包括关键点和时间信息.
可通过多种算法对用户肢体动作参数与候选参数进行匹配,可以是维特比算法,具体此处不做限定。
通过维特比算法对用户肢体动作关键点和候选关键点进行匹配,得出最优路径及得分。上述步骤可重复多次,在从这多次结果再进行挑选得到最优的路径。若该路径达到某个预设的阈值,则确定匹配成功,即选出与用户肢体动作最相似的数字人物肢体动作,得到数字肢体动作参数。
308、根据所述时间调整参数调整所述肢体动作关键点的时间信息,得到目标肢体动作参数;
求出时间调整参数后,利用时间调整参数对肢体动作关键点的时间信息调整,调整的结果为目标肢体动作参数。
例如,挥手肢体动作的一个关键点,如食指,在第3秒时处于其最高位置,利用时间调整参数,即时间差为0.5秒,对其进行调整,使得食指在第3.5秒时处于其最高位置,将该结果作为目标肢体动作参数。
309、基于所述第一语音音频与所述嘴型动作参数的预设关系,根据所述第一语音音频得到所述嘴型动作参数,所述嘴型动作参数包括嘴型关键点和嘴型关键点对应的时间信息;
基于预设关系,可根据第一语音音频得到嘴型动作参数。其中,嘴型动作参数包括嘴型关键点和嘴型关键点对应的时间信息。
为得到嘴型动作参数,可预先设定第一语音音频与嘴型动作参数的映射关系表。作为一种示例,映射关系表可如表1所示:
第一语音音频 嘴型动作参数
音频1 动作a
音频2 动作b
音频3 动作c
表1
若第一语音音频中有音频2,根据映射关系表即可得到动作b,若有音频3,则能够得到动作c,以此类推。
310、根据所述时间调整参数调整所述嘴型关键点的时间信息,得到目标嘴型动作参数;
求出时间调整参数后,利用时间调整参数对嘴型关键点的时间信息调整,调整的结果为目标嘴型动作参数。
例如,微笑嘴型的一个关键点,如左嘴角,在第3秒时处于其水平最左位置,利用时间调整参数,即时间差为0.5秒,对其进行调整,使得食指在第3.5秒时处于其水平最左位置,将该结果作为目标嘴型动作参数。
311、根据所述目标嘴型动作参数和所述目标肢体动作参数,生成所述数字人物模型的多帧图像帧;
得到目标肢体动作参数和目标嘴型动作参数后,根据目标肢体动作参数和目标嘴型动作参数生成数字人物模型的图像帧。其中,目标肢体动作参数和目标嘴型动作参数也包括了关键点及其对应的时间信息。
例如,挥手肢体动作的一个关键点,如食指,在第3秒时处于其最高位置。微笑嘴型的一个关键点,如左嘴角,在第3秒时处于其水平最左位置。根据上述位置信息和时间信息即第3秒,生成一帧图像帧。以此类推。
312、合成所述数字人物模型的多帧图像帧,得到所述数字人物模型的视频数据。
得到多帧图像帧后,将多帧图像帧进行合成,得到视频数据。数字人物视频由多帧数字人物图像帧构成,经过处理可将图像帧连贯合成,使得用户看到播放流畅得数字人物视频。
本实施例中,可通过第一语音音频和第二语音音频得到时间调整参数。接着通过肢体动作视频后去用户肢体动作参数,将用户肢体动作参数与候选参数进行匹配,得到数字肢体动作参数。再根据时间调整参数对数字肢体动作参数和嘴型动作参数进行调整,得到目标肢体动作参数和目标嘴型动作参数,根据目标肢体动作参数和目标嘴型动作参数可生成图像帧,进而生成数字人物视频,给用户带来了良好的体验。
下面对本申请实施例中数字人物视频生成装置进行描述。请参阅图4,本申请实施例数字人物视频生成装置一个实施例包括:
获取单元401,用于获得由预设文本数据转换得到的第一语音音频;
采集单元402,用于采集用户关于所述预设文本数据的阅读语音作为第二语音音频,以及采集所述用户关于所述预设文本数据的肢体动作视频;
计算单元403,用于计算所述第一语音音频和所述第二语音音频之间的时间差作为时间调整参数,所述时间调整参数包括所述预设文本数据中每一文本单元在所述第一语音音频的时间点与所述第二语音音频的时间点的差值;
识别单元404,用于从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数,所述数字肢体动作参数包括肢体动作关键点和肢体动作关键点对应的时间信息;
调整单元405,用于根据所述时间调整参数调整所述肢体动作关键点的时间信息,得到目标肢体动作参数;
生成单元406,用于根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧;
合成单元407,用于合成所述数字人物模型的多帧图像帧,得到所述数字人物模型的视频数据。
本实施例中,可通过计算单元403对第一语音音频和第二语音音频得到时间调整参数。接着通过识别单元404对肢体动作视频进行算法识别出准确的动作,得到数字肢体动作参数。再通过调整单元405根据时间调整参数对数字肢体动作参数进行调整,得到目标肢体动作参数,通过生成单元406根据目标肢体动作参数可生成图像帧,进而通过合成单元407合成数字人物视频,给用户带来了良好的体验。
请参阅图5,本申请实施例数字人物视频生成装置另一实施例包括:
获取单元501,用于获得由预设文本数据转换得到的第一语音音频;
采集单元502,用于采集用户关于所述预设文本数据的阅读语音作为第二语音音频,以及采集所述用户关于所述预设文本数据的肢体动作视频;
计算单元503,用于计算所述第一语音音频和所述第二语音音频之间的时间差作为时间调整参数,所述时间调整参数包括所述预设文本数据中每一文本单元在所述第一语音音频的时间点与所述第二语音音频的时间点的差值;
识别单元504,用于从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数,所述数字肢体动作参数包括肢体动作关键点和肢体动作关键点对应的时间信息;
调整单元505,用于根据所述时间调整参数调整所述肢体动作关键点的时间信息,得到目标肢体动作参数;
生成单元506,用于根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧;
合成单元507,用于合成所述数字人物模型的多帧图像帧,得到所述数字人物模型的视频数据。
第一处理单元508,用于根据所述第一语音音频得到所述数字人物模型的嘴型动作参数,所述嘴型动作参数包括嘴型关键点和嘴型关键点对应的时间信息;
第二处理单元509,用于根据所述时间调整参数调整所述嘴型关键点的时间信息,得到目标嘴型动作参数;
提取单元510,用于根据预设的时间间隔,对所述数字人物模型的候选肢体动作进行提取得到候选参数,所述候选参数包括候选关键点和候选关键点对应的时间信息;
保存单元511,用于保存所述候选参数;
所述生成单元506,具体用于根据所述目标嘴型动作参数和所述目标肢体动作参数,生成所述数字人物模型的多帧图像帧。
所述第一处理单元508,具体用于基于所述第一语音音频与所述嘴型动作参数的预设关系,根据所述第一语音音频得到所述嘴型动作参数。
所述识别单元504,具体用于从所述肢体动作视频中获取所述用户的用户肢体动作参数;
所述识别单元504,具体用于根据所述用户肢体动作参数进行算法识别得到所述数字肢体动作参数。
所述识别单元504,具体用于将所述用户肢体动作参数与所述候选参数进行匹配,得到所述数字肢体动作参数。
本实施例数字人物视频生成装置中各单元所执行的功能以及流程与前述图2至图3中数字人物视频生成装置所执行的功能和流程类似,此处不再赘述。
图6是本申请实施例提供的一种数字人物视频生成装置结构示意图,该数字人物视频生成装置600可以包括一个或一个以上中央处理器(central processing units,CPU)601和存储器605,该存储器605中存储有一个或一个以上的应用程序或数据。
其中,存储器605可以是易失性存储或持久存储。存储在存储器605的程序可以包括一个或一个以上模块,每个模块可以包括对数字人物视频生成装置中的一系列指令操作。更进一步地,中央处理器601可以设置为与存储器605通信,在数字人物视频生成装置600上执行存储器605中的一系列指令操作。
数字人物视频生成装置600还可以包括一个或一个以上电源602,一个或一个以上有线或无线网络接口603,一个或一个以上输入输出接口604,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器601可以执行前述图2至图3所示实施例中数字人物视频生成装置所执行的操作,具体此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (8)

1.一种数字人物视频的生成方法,其特征在于,包括:
获得由预设文本数据转换得到的第一语音音频;
采集用户关于所述预设文本数据的阅读语音作为第二语音音频,以及采集所述用户关于所述预设文本数据的肢体动作视频;
计算所述第一语音音频和所述第二语音音频之间的时间差作为时间调整参数,所述时间调整参数包括所述预设文本数据中每一文本单元在所述第一语音音频的时间点与所述第二语音音频的时间点的差值;
从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数,所述数字肢体动作参数包括肢体动作关键点和与所述肢体动作关键点对应的时间信息;
根据所述时间调整参数调整所述肢体动作关键点的时间信息,得到目标肢体动作参数;
根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧;
合成所述数字人物模型的多帧图像帧,得到所述数字人物模型的视频数据。
2.根据权利要求1所述的数字人物视频的生成方法,其特征在于,根据所述目标肢体动作参数生成数字人物模型的多帧图像帧之前,所述方法还包括:
根据所述第一语音音频得到所述数字人物模型的嘴型动作参数,所述嘴型动作参数包括嘴型关键点和与所述嘴型关键点对应的时间信息;
根据所述时间调整参数调整所述嘴型关键点的时间信息,得到目标嘴型动作参数;
根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧,包括:
根据所述目标嘴型动作参数和所述目标肢体动作参数,生成所述数字人物模型的多帧图像帧。
3.根据权利要求2所述的数字人物视频的生成方法,其特征在于,根据所述第一语音音频得到所述数字人物模型的嘴型动作参数包括:
基于所述第一语音音频与所述嘴型动作参数的预设关系,根据所述第一语音音频得到所述嘴型动作参数。
4.根据权利要求1所述的数字人物视频的生成方法,其特征在于,从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数包括:
从所述肢体动作视频中获取所述用户的用户肢体动作参数;
根据所述用户肢体动作参数进行算法识别得到所述数字肢体动作参数。
5.根据权利要求4所述的数字人物视频的生成方法,其特征在于,从所述肢体动作视频中获取所述用户的用户肢体动作参数之前,所述方法还包括:
根据预设的时间间隔,对所述数字人物模型的候选肢体动作进行提取得到候选参数,所述候选参数包括候选关键点和与所述候选关键点对应的时间信息;
保存所述候选参数;
根据所述用户肢体动作参数进行算法识别得到所述数字肢体动作参数,包括:
将所述用户肢体动作参数与所述候选参数进行匹配,得到所述数字肢体动作参数。
6.一种数字人物视频的生成装置,其特征在于,包括:
获取单元,用于获得由预设文本数据转换得到的第一语音音频;
采集单元,用于采集用户关于所述预设文本数据的阅读语音作为第二语音音频,以及采集所述用户关于所述预设文本数据的肢体动作视频;
计算单元,用于计算所述第一语音音频和所述第二语音音频之间的时间差作为时间调整参数,所述时间调整参数包括所述预设文本数据中每一文本单元在所述第一语音音频的时间点与所述第二语音音频的时间点的差值;
识别单元,用于从所述肢体动作视频中识别得到数字人物模型的数字肢体动作参数,所述数字肢体动作参数包括肢体动作关键点和肢体动作关键点对应的时间信息;
调整单元,用于根据所述时间调整参数调整所述肢体动作关键点的时间信息,得到目标肢体动作参数;
生成单元,用于根据所述目标肢体动作参数生成所述数字人物模型的多帧图像帧;
合成单元,用于合成所述数字人物模型的多帧图像帧,得到所述数字人物模型的视频数据。
7.一种数字人物视频的生成装置,其特征在于,包括:
中央处理器,存储器以及输入输出接口;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行权利要求1至5中任意一项所述的方法。
8.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至5中任意一项所述的方法。
CN202111212348.3A 2021-10-18 2021-10-18 一种数字人物视频的生成方法及相关装置 Active CN113873297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111212348.3A CN113873297B (zh) 2021-10-18 2021-10-18 一种数字人物视频的生成方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111212348.3A CN113873297B (zh) 2021-10-18 2021-10-18 一种数字人物视频的生成方法及相关装置

Publications (2)

Publication Number Publication Date
CN113873297A true CN113873297A (zh) 2021-12-31
CN113873297B CN113873297B (zh) 2024-04-30

Family

ID=79000132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111212348.3A Active CN113873297B (zh) 2021-10-18 2021-10-18 一种数字人物视频的生成方法及相关装置

Country Status (1)

Country Link
CN (1) CN113873297B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497499A (zh) * 2022-08-30 2022-12-20 阿里巴巴(中国)有限公司 语音和动作时间同步的方法
CN117348736A (zh) * 2023-12-06 2024-01-05 彩讯科技股份有限公司 一种基于人工智能的数字交互方法、系统和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN110347867A (zh) * 2019-07-16 2019-10-18 北京百度网讯科技有限公司 用于生成嘴唇动作视频的方法和装置
CN110866968A (zh) * 2019-10-18 2020-03-06 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN110941954A (zh) * 2019-12-04 2020-03-31 深圳追一科技有限公司 文本播报方法、装置、电子设备及存储介质
CN112233210A (zh) * 2020-09-14 2021-01-15 北京百度网讯科技有限公司 生成虚拟人物视频的方法、装置、设备和计算机存储介质
CN112927712A (zh) * 2021-01-25 2021-06-08 网易(杭州)网络有限公司 视频生成方法、装置和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN110347867A (zh) * 2019-07-16 2019-10-18 北京百度网讯科技有限公司 用于生成嘴唇动作视频的方法和装置
CN110866968A (zh) * 2019-10-18 2020-03-06 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
WO2021073416A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 基于神经网络生成虚拟人物视频的方法及相关设备
CN110941954A (zh) * 2019-12-04 2020-03-31 深圳追一科技有限公司 文本播报方法、装置、电子设备及存储介质
CN112233210A (zh) * 2020-09-14 2021-01-15 北京百度网讯科技有限公司 生成虚拟人物视频的方法、装置、设备和计算机存储介质
CN112927712A (zh) * 2021-01-25 2021-06-08 网易(杭州)网络有限公司 视频生成方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜鹏;房宁;赵群飞;: "基于汉语文本驱动的人脸语音同步动画系统", 计算机工程, no. 13, 5 July 2012 (2012-07-05) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497499A (zh) * 2022-08-30 2022-12-20 阿里巴巴(中国)有限公司 语音和动作时间同步的方法
CN117348736A (zh) * 2023-12-06 2024-01-05 彩讯科技股份有限公司 一种基于人工智能的数字交互方法、系统和介质
CN117348736B (zh) * 2023-12-06 2024-03-19 彩讯科技股份有限公司 一种基于人工智能的数字交互方法、系统和介质

Also Published As

Publication number Publication date
CN113873297B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
Zhang et al. Facial: Synthesizing dynamic talking face with implicit attribute learning
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
Olszewski et al. High-fidelity facial and speech animation for VR HMDs
Cao et al. Expressive speech-driven facial animation
EP3885965B1 (en) Image recognition method based on micro facial expressions, apparatus and related device
CN110519636B (zh) 语音信息播放方法、装置、计算机设备及存储介质
CN112581569B (zh) 自适应情感表达的说话人面部动画生成方法及电子装置
CN111260761B (zh) 一种生成动画人物口型的方法及装置
CN111212245B (zh) 一种合成视频的方法和装置
EP4283577A2 (en) Text and audio-based real-time face reenactment
CN106157956A (zh) 语音识别的方法及装置
CN113873297B (zh) 一种数字人物视频的生成方法及相关装置
Madhuri et al. Vision-based sign language translation device
CN111108508B (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
WO2023284435A1 (zh) 生成动画的方法及装置
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN113077537A (zh) 一种视频生成方法、存储介质及设备
Kim et al. Multimodal affect classification at various temporal lengths
CN111126280A (zh) 基于融合手势识别的失语症患者辅助康复训练系统及方法
CN111222854B (zh) 基于面试机器人的面试方法、装置、设备及存储介质
CN114429767A (zh) 视频生成方法、装置、电子设备以及存储介质
Mattos et al. Improving CNN-based viseme recognition using synthetic data
CN114550239A (zh) 视频生成方法及装置、存储介质、终端
Veni et al. Feature fusion in multimodal emotion recognition system for enhancement of human-machine interaction
CN117152308B (zh) 一种虚拟人动作表情优化方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant