CN117315102A - 虚拟主播处理方法、装置、计算设备及存储介质 - Google Patents

虚拟主播处理方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN117315102A
CN117315102A CN202311251922.5A CN202311251922A CN117315102A CN 117315102 A CN117315102 A CN 117315102A CN 202311251922 A CN202311251922 A CN 202311251922A CN 117315102 A CN117315102 A CN 117315102A
Authority
CN
China
Prior art keywords
data
anchor
video
frame
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311251922.5A
Other languages
English (en)
Inventor
常青
黄春华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202311251922.5A priority Critical patent/CN117315102A/zh
Publication of CN117315102A publication Critical patent/CN117315102A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请实施例公开了一种虚拟主播处理方法、装置、计算设备及存储介质,其中,该方法包括:获取待处理的主播角色图像、用户动态形象数据以及与视频文案对应的文案语音数据;依据用户动态形象数据,构建与主播角色图像对应的主播动作同步模型;根据文案语音数据以及主播动作同步模型,对主播角色图像进行处理,生成与文案语音数据对应的多个视频帧的帧图像;将多个视频帧的帧图像与文案语音数据进行合成,得到虚拟主播视频。本申请实现方式简单,大大减少了制作虚拟主播视频的人力成本和时间,有效地提高了虚拟主播视频的生成效率,优化了虚拟主播处理方式。

Description

虚拟主播处理方法、装置、计算设备及存储介质
技术领域
本申请实施例涉及互联网技术领域,具体涉及一种虚拟主播处理方法、装置、计算设备及存储介质。
背景技术
随着虚拟现实、人工智能等技术的发展,出现了越来越多的虚拟主播代替真人主播进行直播、主持节目、宣讲内容等。对于虚拟主播的制作,通常是使用专业的3D建模软件或工具来创建虚拟主播的外貌和形象,具体包括设计虚拟主播的面部特征、身体比例、服装和动作等。并且,为了使虚拟主播能够进行各种动作和表情,还需要进行动画设计,通过关节和骨骼来模拟人体的运动,以赋予虚拟主播生动的动作和表情。然而,这种虚拟主播处理方式较为复杂,且需要耗费较多的人力成本和时间。
发明内容
鉴于上述问题,本申请提出了一种虚拟主播处理方法、装置、计算设备及存储介质,用于解决以下问题:现有的虚拟主播处理方式较为复杂,且需要耗费较多的人力成本和时间。
根据本申请实施例的一个方面,提供了一种虚拟主播处理方法,包括:
获取待处理的主播角色图像、用户动态形象数据以及与视频文案对应的文案语音数据;
依据用户动态形象数据,构建与主播角色图像对应的主播动作同步模型;
根据文案语音数据以及主播动作同步模型,对主播角色图像进行处理,生成与文案语音数据对应的多个视频帧的帧图像;
将多个视频帧的帧图像与文案语音数据进行合成,得到虚拟主播视频。
进一步地,获取用户动态形象数据进一步包括:
利用摄像工具采集用户的实时面部特征,得到用户动态形象数据。
进一步地,获取与视频文案对应的文案语音数据进一步包括:
获取与视频文案对应的文案文本数据;
利用文本语音转换工具,将文案文本数据转换为文案语音数据。
进一步地,获取与视频文案对应的文案文本数据进一步包括:
将视频文案的需求关键数据输入至经过训练的语言生成模型中进行处理,生成文案文本数据。
进一步地,依据用户动态形象数据,构建与主播角色图像对应的主播动作同步模型进一步包括:
对用户动态形象数据进行面部区域检测和面部区域关键点追踪,得到多个第一关键点的动态变化数据;
从主播角色图像的面部区域中提取多个第二关键点;
将多个第二关键点与多个第一关键点的动态变化数据进行关联,构建得到与主播角色图像对应的主播动作同步模型。
进一步地,根据文案语音数据以及主播动作同步模型,对主播角色图像进行处理,生成与文案语音数据对应的多个视频帧的帧图像进一步包括:
按照预设帧长,对文案语音数据进行划分,得到多个视频帧的帧语音数据;
分析多个视频帧的帧语音数据的帧语音幅值;
针对每个视频帧,根据该视频帧的帧语音数据的帧语音幅值以及主播动作同步模型,利用主播角色图像中的多个第二关键点,对主播角色图像的面部区域进行调整,生成与帧语音数据对应的该视频帧的帧图像。
进一步地,将多个视频帧的帧图像与文案语音数据进行合成,得到虚拟主播视频进一步包括:
对多个视频帧的帧图像与多个视频帧的帧语音数据进行对齐和合成处理,得到虚拟主播视频。
根据本申请实施例的另一方面,提供了一种虚拟主播处理装置,包括:
获取模块,适于获取待处理的主播角色图像、用户动态形象数据以及与视频文案对应的文案语音数据;
模型构建模块,适于依据用户动态形象数据,构建与主播角色图像对应的主播动作同步模型;
处理模块,适于根据文案语音数据以及主播动作同步模型,对主播角色图像进行处理,生成与文案语音数据对应的多个视频帧的帧图像;
合成模块,适于将多个视频帧的帧图像与文案语音数据进行合成,得到虚拟主播视频。
根据本申请实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述虚拟主播处理方法对应的操作。
根据本申请实施例的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述虚拟主播处理方法对应的操作。
根据本申请实施例提供的虚拟主播处理方法、装置、计算设备及存储介质,依据记录有用户的面部区域的表情、口型、头部姿势等动态变化的用户动态形象数据,能够便捷地为主播角色图像构建对应的主播动作同步模型;通过文案语音数据和主播动作同步模型来处理主播角色图像,精准地实现了主播角色与用户的面部动作之间的同步,得到多个视频帧的帧图像;通过将多个视频帧的帧图像与文案语音数据进行合成,即可得到虚拟主播以主播角色形象讲述视频文案内容的虚拟主播视频,该方案实现方式简单,大大减少了制作虚拟主播视频的人力成本和时间,有效地提高了虚拟主播视频的生成效率,优化了虚拟主播处理方式;其中,对于文案语音数据的获取,可将视频文案的需求关键数据输入至经过训练的语言生成模型中进行处理,生成文案文本数据,而后利用文本语音转换工具自动地将文案文本数据转换为自然、流畅的文案语音数据,既不需要文案人员编写文案文本数据,也不需要安排人员朗读文案文本数据和录制其朗读的语音,即可便捷地获取文案语音数据,有效地提高了文案语音数据的获取效率,有助于进一步提高虚拟主播视频的生成效率和便捷性。
上述说明仅是本申请实施例技术方案的概述,为了能够更清楚了解本申请实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的虚拟主播处理方法的流程示意图;
图2示出了根据本申请另一个实施例的虚拟主播处理方法的流程示意图;
图3示出了根据本申请一个实施例的虚拟主播处理装置的结构框图;
图4示出了根据本申请一个实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
虚拟主播:由计算机生成的虚拟角色或人物等,通过动画、3D建模、语音合成等技术,以真人形象的方式在网络平台上进行直播或制作视频内容。虚拟主播可以拥有各种不同的外貌特征、声音和个性,从动漫角色、虚拟偶像到独创的虚拟形象都有可能成为虚拟主播。
视频帧率(Frame rate):是指视频在每秒钟内展示的帧图像的数量,它是衡量视频流畅度的一个关键指标。在数字视频领域中,通常使用的视频帧率是24、25或30帧/秒。更高的视频帧率能够提供更流畅的视频体验,但是同时也会增加资源消耗。
OpenCV:是一个基于开源许可的跨平台计算机视觉库,该库包含了大量的图像和视频处理函数,可以用于各种计算机视觉任务,例如图像处理和分析、目标检测和识别、三维重建和立体视觉、视频处理和分析等。
TTS(Text To Speech):是一种将文本转换为语音的技术,能够将计算机自己产生的或外部输入的文本信息智能地转化为自然语音流。
AIGC(Artificial Intelligence Generated Content):是指生成式人工智能,是基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。
cv2.CascadeClassifier:是OpenCV中的一个级联分类器,主要用于目标检测和人脸识别,它可以根据给定的训练数据集来检测图像中的目标。
帧长:指一帧语音信号的长度,如果用时间来进行度量的话,一帧信号通常取在15ms-30ms之间,经验值一般取为25ms。帧长为25ms的一帧信号指的是时长有25毫秒的语音信号。
图1示出了根据本申请一个实施例的虚拟主播处理方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S101,获取待处理的主播角色图像、用户动态形象数据以及与视频文案对应的文案语音数据。
本申请实施例提供了一种无需进行前期3D建模和动画设计,能够自动将主播角色图像转换为虚拟主播视频的方案。为了便于生成包含有虚拟主播的视频,需要获取待处理的主播角色图像。主播角色图像可以是二维角色图像,具体可以为预先设计的主播角色图像,也可以是使用图像生成技术生成的主播角色图像,其中,主播角色可包括虚拟人物等,此处不做限定。
在步骤S101中,还需获取用户动态形象数据以及与视频文案对应的文案语音数据。其中,用户动态形象数据是指采集到的真人用户的动态形象数据,具体可为记录有真人用户的面部区域的表情、口型、头部姿势等动态变化的视频。与视频文案对应的文案语音数据是指虚拟主播视频中主播角色所要播报的、符合视频文案的语音数据。具体地,文案语音数据可以为预先录制的语音数据,也可以为生成的语音数据。
步骤S102,依据用户动态形象数据,构建与主播角色图像对应的主播动作同步模型。
具体地,可以通过面部区域检测和关键点追踪等方式,确定用户动态形象数据和主播角色图像中对应的关键点,并将用户动态形象数据与主播角色图像进行关键点关联,构建得到主播动作同步模型,该主播动作同步模型用于使主播角色图像中的主播角色的表情、口型、头部姿势等动起来,实现主播角色与用户的面部动作之间的同步。
步骤S103,根据文案语音数据以及主播动作同步模型,对主播角色图像进行处理,生成与文案语音数据对应的多个视频帧的帧图像。
视频是按照一定的视频帧率连续显示或播放帧图像的,即视频包含有多个视频帧。在构建了主播动作同步模型之后,可根据文案语音数据,确定各个视频帧的帧语音数据,进而结合各个视频帧的帧语音数据,利用主播动作同步模型,调整主播角色图像中的主播角色的表情、口型等,从而生成各个视频帧的帧图像。
步骤S104,将多个视频帧的帧图像与文案语音数据进行合成,得到虚拟主播视频。
具体地,可按照视频帧,将多个视频帧的帧图像与文案语音数据进行对齐,而后进行合成,即可便捷地得到虚拟主播视频。该虚拟主播视频的视频内容为虚拟主播以二维的主播角色形象讲述视频文案内容。
根据本申请实施例提供的虚拟主播处理方法,依据记录有用户的面部区域的表情、口型、头部姿势等动态变化的用户动态形象数据,能够便捷地为主播角色图像构建对应的主播动作同步模型;通过文案语音数据和主播动作同步模型来处理主播角色图像,精准地实现了主播角色与用户的面部动作之间的同步,得到多个视频帧的帧图像;通过将多个视频帧的帧图像与文案语音数据进行合成,即可得到虚拟主播以主播角色形象讲述视频文案内容的虚拟主播视频,该方案实现方式简单,大大减少了制作虚拟主播视频的人力成本和时间,有效地提高了虚拟主播视频的生成效率,优化了虚拟主播处理方式。
图2示出了根据本申请另一个实施例的虚拟主播处理方法的流程示意图,如图2所示,该方法包括如下步骤:
步骤S201,获取待处理的主播角色图像、用户动态形象数据以及与视频文案对应的文案语音数据。
其中,主播角色图像可以是二维角色图像,主播角色图像中的主播角色可包括虚拟人物等,例如动漫人物等,本领域技术人员可根据实际需要设置主播角色图像,此处不做限定。
用户动态形象数据记录有真人用户的面部区域的表情、口型、头部姿势等动态变化的数据。可利用摄像工具采集用户的实时面部特征,得到用户动态形象数据。具体地,可使用OpenCV启动摄像头,采集用户的实时面部特征,捕捉用户的面部图像,得到用户动态形象数据。
在一种可选的实施方式中,可获取预先录制的与视频文案对应的文案语音数据。
在另一种可选的实施方式,可根据与视频文案对应的文案文本数据自动地转换得到与视频文案对应的文案语音数据,无需专门进行语音录制处理,有效地提高了文案语音数据的获取效率。其中,获取与视频文案对应的文案文本数据,然后利用文本语音转换工具,将文案文本数据转换为文案语音数据。其中,文本语音转换工具具体可为TTS等用于将文本转换为语音的工具。利用TTS工具能够快速、高效地将文案文本数据转换为自然、流畅的文案语音数据。
可选地,与视频文案对应的文案文本数据可以是由文案人员根据视频文案的具体需求进行编写得到的,也可以是利用AIGC技术,根据视频文案的具体需求自动生成的。具体地,可将视频文案的需求关键数据输入至经过训练的语言生成模型中进行处理,生成文案文本数据。
其中,语言生成模型可以是一种生成式大型语言模型(Generative LargeLanguage Mode),如GPT(Generative Pre-Trained Transformer)模型,BERT(Bidirectional Encoder Representation from Transformers)模型,或ERNIE(EnhancedRepresentation through Knowledge Integration)模型等等。语言生成模型本质是一种生成式模型,其是通过大量语言数据对神经网络结构进行训练,得到的一种AI(ArtificialIntelligence)模型,该语言生成模型能够很好地理解自然语言,并输出符合自然语言指令的相关结果。
视频文案的需求关键数据为用于描述视频文案的具体需求的数据,可包括产品数据、品牌、IP、文案字数、文案时长等。例如,某个视频文案的需求关键数据可为:“我需要售卖一款***手办,品牌是**,IP是****,高度20cm,材质是PVC,比例1/2,请帮我生成一个5分钟的直播广告文案文本”。将该视频文案的需求关键数据输入至GPT模型中,GPT模型根据所输入的需求关键数据生成相应的文案文本数据。
在实际应用中,可以将视频文案的需求关键数据输入至经过训练的GPT等模型中进行处理,生成文案文本数据,而后利用TTS工具自动地将文案文本数据转换为自然、流畅的文案语音数据。本申请实施例依据这种处理方式来获取与视频文案对应的文案语音数据,既不需要文案人员编写文案文本数据,也不需要安排人员朗读文案文本数据和录制其朗读的语音,即可便捷地获取文案语音数据,进一步提高了文案语音数据的获取效率。
步骤S202,对用户动态形象数据进行面部区域检测和面部区域关键点追踪,得到多个第一关键点的动态变化数据。
具体地,可使用OpenCV或者面部追踪库,对用户动态形象数据进行面部区域检测和面部区域关键点追踪,如通过OpenCV的cv2.CascadeClassifier或者其他面部追踪库来进行面部区域检测,以获取面部区域中精细的面部特征;对检测到的面部区域中的关键点进行追踪,其中,可以采用68点标准设置的人脸关键点作为面部区域中的关键点进行追踪。为了便于区分,在本申请实施例中,将从用户动态形象数据中检测得到的面部区域中的关键点称为第一关键点,将从主播角色图像的面部区域中提取得到的关键点称为第二关键点。由于用户动态形象数据记录有真人用户的面部区域的表情、口型、头部姿势等动态变化,那么通过对用户动态形象数据进行面部区域关键点追踪,能够得到多个第一关键点的动态变化数据。
步骤S203,从主播角色图像的面部区域中提取多个第二关键点。
可按照针对用户动态形象数据所采用的面部区域关键点确定方式,从主播角色图像的面部区域中提取多个第二关键点。其中,第二关键点与第一关键点具有对应关系,以便进行关键点关联。
步骤S204,将多个第二关键点与多个第一关键点的动态变化数据进行关联,构建得到与主播角色图像对应的主播动作同步模型。
在得到了多个第一关键点的动态变化数据和多个第二关键点之后,按照关键点对应关系,将多个第二关键点与多个第一关键点的动态变化数据一一进行关联,例如将多个第二关键点中的左嘴角关键点与多个第一关键点中左嘴角关键点的动态变化数据进行关联,将多个第二关键点中的嘴唇上侧中心关键点与多个第一关键点中嘴唇上侧中心关键点的动态变化数据进行关联。每个关键点都采用上述方式进行关联,从而构建得到与主播角色图像对应的主播动作同步模型,通过主播动作同步模型,计算主播角色图像中的第二关键点与用户动态形象数据中的第一关键点之间的差异,根据差异调整主播角色图像中的第二关键点的位置,实现了主播角色与用户的面部动作之间的同步。
步骤S205,根据文案语音数据以及主播动作同步模型,对主播角色图像进行处理,生成与文案语音数据对应的多个视频帧的帧图像。
其中,按照预设帧长,对文案语音数据进行划分,得到多个视频帧的帧语音数据;分析多个视频帧的帧语音数据的帧语音幅值;然后针对每个视频帧,根据该视频帧的帧语音数据的帧语音幅值以及主播动作同步模型,利用主播角色图像中的多个第二关键点,对主播角色图像的面部区域进行调整,生成与帧语音数据对应的该视频帧的帧图像。
以预设帧长为25ms为例,可每隔25ms划分一次文案语音数据,通过划分能够得到最终所要得到的虚拟主播视频中的多个视频帧的帧语音数据。考虑到帧语音数据的帧语音幅值与面部区域的表情、口型等存在一定的关联关系,为了使得主播角色的表情、口型等能够随着文案语音数据发生改变,以得到更为真实、自然的主播角色形象讲述视频文案内容的帧图像,针对每个视频帧,根据该视频帧的帧语音数据的帧语音幅值的高低情况,利用主播角色图像中的多个第二关键点在主播动作同步模型中所关联的多个第一关键点的动态变化数据,对主播角色图像的面部区域的表情、口型等以及主播角色的头部姿势等进行调整,以使图像中调整后的主播角色形象能够很好地符合该视频帧的帧语音数据,从而生成得到与帧语音数据对应的该视频帧的帧图像。
步骤S206,将多个视频帧的帧图像与文案语音数据进行合成,得到虚拟主播视频。
在本申请实施例中,按照视频帧对其对应的帧语音数据和帧图像进行处理,那么在步骤S206中,对多个视频帧的帧图像与多个视频帧的帧语音数据进行对齐,即按照视频帧将每个视频帧的帧图像与帧语音数据对齐,而后对帧图像以及包含有多个帧语音数据的文案语音数据进行合成处理,得到虚拟主播视频。所得到的虚拟主播视频的视频内容为虚拟主播以二维的主播角色形象讲述视频文案内容。
在实际应用中,可借助AI绘图工具(如stable-diffusion-webui等)等来实现本方案。具体地,将稳定的AI绘图工具部署在适当的服务器环境中,将主播动作同步模型集成至该AI绘图工具中,主播动作同步模型用于处理主播角色与用户的面部动作之间的关联与同步。并且,还需安装图像语音合成插件(如SadTalker插件)。将主播角色图像和文案语音数据提供给AI绘图工具,AI绘图工具运行所集成的主播动作同步模型生成多个视频帧的帧图像,并通过图像语音合成插件将多个视频帧的帧图像与文案语音数据进行合成,从而便捷地得到虚拟主播视频。
根据本申请实施例提供的虚拟主播处理方法,将视频文案的需求关键数据输入至经过训练的语言生成模型中进行处理,生成文案文本数据,而后利用文本语音转换工具自动地将文案文本数据转换为自然、流畅的文案语音数据,既不需要文案人员编写文案文本数据,也不需要安排人员朗读文案文本数据和录制其朗读的语音,即可便捷地获取文案语音数据,有效地提高了文案语音数据的获取效率;通过将用户动态形象数据和主播角色图像进行关键点关联,能够便捷地为主播角色图像构建对应的主播动作同步模型;通过划分文案语音数据得到多个视频帧的帧语音数据,根据每个视频帧的帧语音数据和主播动作同步模型,对主播角色图像的面部区域的表情、口型等以及主播角色的头部姿势等进行调整,使得图像中调整后的主播角色形象能够很好地符合该视频帧的帧语音数据;将多个视频帧的帧图像与文案语音数据进行合成得到虚拟主播以主播角色形象讲述视频文案内容的虚拟主播视频,该方案实现方式简单,极大地减少了制作虚拟主播视频的人力成本和时间,进一步提高了虚拟主播视频的生成效率和便捷性。
图3示出了根据本申请一个实施例的虚拟主播处理装置的结构框图,如图3所示,该装置包括:获取模块310、模型构建模块320、处理模块330以及合成模块340。
获取模块310适于:获取待处理的主播角色图像、用户动态形象数据以及与视频文案对应的文案语音数据。
模型构建模块320适于:依据用户动态形象数据,构建与主播角色图像对应的主播动作同步模型。
处理模块330适于:根据文案语音数据以及主播动作同步模型,对主播角色图像进行处理,生成与文案语音数据对应的多个视频帧的帧图像。
合成模块340适于:将多个视频帧的帧图像与文案语音数据进行合成,得到虚拟主播视频。
可选地,获取模块310进一步适于:利用摄像工具采集用户的实时面部特征,得到用户动态形象数据。
可选地,获取模块310进一步适于:获取与视频文案对应的文案文本数据;利用文本语音转换工具,将文案文本数据转换为文案语音数据。
可选地,获取模块310进一步适于:将视频文案的需求关键数据输入至经过训练的语言生成模型中进行处理,生成文案文本数据。
可选地,模型构建模块320进一步适于:对用户动态形象数据进行面部区域检测和面部区域关键点追踪,得到多个第一关键点的动态变化数据;从主播角色图像的面部区域中提取多个第二关键点;将多个第二关键点与多个第一关键点的动态变化数据进行关联,构建得到与主播角色图像对应的主播动作同步模型。
可选地,处理模块330进一步适于:按照预设帧长,对文案语音数据进行划分,得到多个视频帧的帧语音数据;分析多个视频帧的帧语音数据的帧语音幅值;针对每个视频帧,根据该视频帧的帧语音数据的帧语音幅值以及主播动作同步模型,利用主播角色图像中的多个第二关键点,对主播角色图像的面部区域进行调整,生成与帧语音数据对应的该视频帧的帧图像。
可选地,合成模块340进一步适于:对多个视频帧的帧图像与多个视频帧的帧语音数据进行对齐和合成处理,得到虚拟主播视频。
以上各模块的描述参照方法实施例中对应的描述,在此不再赘述。
根据本申请实施例提供的虚拟主播处理装置,将视频文案的需求关键数据输入至经过训练的语言生成模型中进行处理,生成文案文本数据,而后利用文本语音转换工具自动地将文案文本数据转换为自然、流畅的文案语音数据,既不需要文案人员编写文案文本数据,也不需要安排人员朗读文案文本数据和录制其朗读的语音,即可便捷地获取文案语音数据,有效地提高了文案语音数据的获取效率;通过将用户动态形象数据和主播角色图像进行关键点关联,能够便捷地为主播角色图像构建对应的主播动作同步模型;通过划分文案语音数据得到多个视频帧的帧语音数据,根据每个视频帧的帧语音数据和主播动作同步模型,对主播角色图像的面部区域的表情、口型等以及主播角色的头部姿势等进行调整,使得图像中调整后的主播角色形象能够很好地符合该视频帧的帧语音数据;将多个视频帧的帧图像与文案语音数据进行合成得到虚拟主播以主播角色形象讲述视频文案内容的虚拟主播视频,该方案实现方式简单,极大地减少了制作虚拟主播视频的人力成本和时间,进一步提高了虚拟主播视频的生成效率和便捷性。
本申请实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的虚拟主播处理方法。
图4示出了根据本申请一个实施例的一种计算设备的结构示意图,本申请实施例的具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述虚拟主播处理方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行上述任意方法实施例中的虚拟主播处理方法。程序410中各步骤的具体实现可以参见上述虚拟主播处理实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本申请实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请实施例的内容,并且上面对特定语言所做的描述是为了披露本申请实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请实施例的示例性实施例的描述中,本申请实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请实施例的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请实施例的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请实施例的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例中的一些或者全部部件的一些或者全部功能。本申请实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请实施例进行说明而不是对本申请实施例进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种虚拟主播处理方法,包括:
获取待处理的主播角色图像、用户动态形象数据以及与视频文案对应的文案语音数据;
依据所述用户动态形象数据,构建与所述主播角色图像对应的主播动作同步模型;
根据所述文案语音数据以及所述主播动作同步模型,对所述主播角色图像进行处理,生成与所述文案语音数据对应的多个视频帧的帧图像;
将多个视频帧的帧图像与所述文案语音数据进行合成,得到虚拟主播视频。
2.根据权利要求1所述的方法,获取用户动态形象数据进一步包括:
利用摄像工具采集用户的实时面部特征,得到所述用户动态形象数据。
3.根据权利要求1所述的方法,获取与视频文案对应的文案语音数据进一步包括:
获取与视频文案对应的文案文本数据;
利用文本语音转换工具,将所述文案文本数据转换为所述文案语音数据。
4.根据权利要求3所述的方法,所述获取与视频文案对应的文案文本数据进一步包括:
将所述视频文案的需求关键数据输入至经过训练的语言生成模型中进行处理,生成所述文案文本数据。
5.根据权利要求1-4任一项所述的方法,所述依据所述用户动态形象数据,构建与所述主播角色图像对应的主播动作同步模型进一步包括:
对所述用户动态形象数据进行面部区域检测和面部区域关键点追踪,得到多个第一关键点的动态变化数据;
从所述主播角色图像的面部区域中提取多个第二关键点;
将多个第二关键点与多个第一关键点的动态变化数据进行关联,构建得到与所述主播角色图像对应的主播动作同步模型。
6.根据权利要求1-5任一项所述的方法,所述根据所述文案语音数据以及所述主播动作同步模型,对所述主播角色图像进行处理,生成与所述文案语音数据对应的多个视频帧的帧图像进一步包括:
按照预设帧长,对所述文案语音数据进行划分,得到多个视频帧的帧语音数据;
分析多个视频帧的帧语音数据的帧语音幅值;
针对每个视频帧,根据该视频帧的帧语音数据的帧语音幅值以及所述主播动作同步模型,利用所述主播角色图像中的多个第二关键点,对所述主播角色图像的面部区域进行调整,生成与所述帧语音数据对应的该视频帧的帧图像。
7.根据权利要求6所述的方法,所述将多个视频帧的帧图像与所述文案语音数据进行合成,得到虚拟主播视频进一步包括:
对多个视频帧的帧图像与多个视频帧的帧语音数据进行对齐和合成处理,得到所述虚拟主播视频。
8.一种虚拟主播处理装置,包括:
获取模块,适于获取待处理的主播角色图像、用户动态形象数据以及与视频文案对应的文案语音数据;
模型构建模块,适于依据所述用户动态形象数据,构建与所述主播角色图像对应的主播动作同步模型;
处理模块,适于根据所述文案语音数据以及所述主播动作同步模型,对所述主播角色图像进行处理,生成与所述文案语音数据对应的多个视频帧的帧图像;
合成模块,适于将多个视频帧的帧图像与所述文案语音数据进行合成,得到虚拟主播视频。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的虚拟主播处理方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的虚拟主播处理方法对应的操作。
CN202311251922.5A 2023-09-25 2023-09-25 虚拟主播处理方法、装置、计算设备及存储介质 Pending CN117315102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311251922.5A CN117315102A (zh) 2023-09-25 2023-09-25 虚拟主播处理方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311251922.5A CN117315102A (zh) 2023-09-25 2023-09-25 虚拟主播处理方法、装置、计算设备及存储介质

Publications (1)

Publication Number Publication Date
CN117315102A true CN117315102A (zh) 2023-12-29

Family

ID=89254854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311251922.5A Pending CN117315102A (zh) 2023-09-25 2023-09-25 虚拟主播处理方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN117315102A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117714763A (zh) * 2024-02-05 2024-03-15 深圳市鸿普森科技股份有限公司 虚拟对象讲话视频生成方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117714763A (zh) * 2024-02-05 2024-03-15 深圳市鸿普森科技股份有限公司 虚拟对象讲话视频生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20230042654A1 (en) Action synchronization for target object
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
JP6019108B2 (ja) 文字に基づく映像生成
Cao et al. Expressive speech-driven facial animation
CN112669417B (zh) 虚拟形象的生成方法、装置、存储介质及电子设备
US20020024519A1 (en) System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character
Cosatto et al. Lifelike talking faces for interactive services
JP2014519082A5 (zh)
CN113256821A (zh) 一种三维虚拟形象唇形生成方法、装置及电子设备
US7257538B2 (en) Generating animation from visual and audio input
CN115049016B (zh) 基于情绪识别的模型驱动方法及设备
CN113077537A (zh) 一种视频生成方法、存储介质及设备
CN117315102A (zh) 虚拟主播处理方法、装置、计算设备及存储介质
RU2721180C1 (ru) Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
CN112381926A (zh) 用于生成视频的方法和装置
CN115529500A (zh) 动态影像的生成方法和装置
KR20240013613A (ko) 영상만으로 ai 휴먼 3차원 모션을 생성하는 방법 및 그 기록매체
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
Li et al. A novel speech-driven lip-sync model with CNN and LSTM
Dhanushkodi et al. SPEECH DRIVEN 3D FACE ANIMATION.
Leone et al. Lucia: An open source 3d expressive avatar for multimodal hmi
Rademan et al. Improved visual speech synthesis using dynamic viseme k-means clustering and decision trees.
Cao et al. Modular Joint Training for Speech-Driven 3D Facial Animation
Anitha et al. NextGen Dynamic Video Generator using AI
Huang et al. An agent based multicultural user interface in a customer service application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination