CN117834935A - 数字人直播方法、装置、电子设备及存储介质 - Google Patents
数字人直播方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117834935A CN117834935A CN202410010314.3A CN202410010314A CN117834935A CN 117834935 A CN117834935 A CN 117834935A CN 202410010314 A CN202410010314 A CN 202410010314A CN 117834935 A CN117834935 A CN 117834935A
- Authority
- CN
- China
- Prior art keywords
- information
- playing
- play
- audio
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 123
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 51
- 239000012634 fragment Substances 0.000 claims abstract description 49
- 230000014509 gene expression Effects 0.000 claims description 122
- 230000009471 action Effects 0.000 claims description 71
- 238000012549 training Methods 0.000 claims description 71
- 238000012545 processing Methods 0.000 claims description 57
- 238000013507 mapping Methods 0.000 claims description 50
- 230000001815 facial effect Effects 0.000 claims description 42
- 238000009877 rendering Methods 0.000 claims description 37
- 238000003062 neural network model Methods 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 230000008859 change Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008451 emotion Effects 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 abstract description 11
- 230000000875 corresponding effect Effects 0.000 description 154
- 238000010586 diagram Methods 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 230000004044 response Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 235000009508 confectionery Nutrition 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004399 eye closure Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44012—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请实施例公开了一种数字人直播方法、装置、电子设备及存储介质,涉及计算机技术领域。该数字人直播方法包括:在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;该播放序列包括至少两个播放时间区间连续的播放片段;确定问题信息对应的答案信息和该答案信息的生成时间;从播放片段中确定出与该生成时间对应的第一播放片段;该生成时间处于第一播放片段的播放时间区间内;根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列后,并将处理后的播放序列推流至观众客户端。采用本申请实施例,能够在数字人直播过程中,与观众客户端进行实时交互。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数字人直播方法、装置、电子设备及存储介质。
背景技术
相关技术中,在进行数字人直播过程中,通常是采用视频生成技术,对预先采集的、真人模特参与的视频进行后期处理后,进行数字人直播的,在数字人直播过程中,无法与观众客户端进行实时交互。
发明内容
本申请实施例提供了一种数字人直播方法,以解决相关技术中,数字人直播过程中,无法与观众客户端进行实时交互的技术问题。
相应的,本申请实施例还提供了一种数字人直播装置、一种电子设备以及一种存储介质,用以保证上述数字人直播方法的实现及应用。
一方面,本申请实施例提供一种数字人直播方法,应用于主播客户端,该方法包括:
在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;该播放序列包括至少两个播放时间区间连续的播放片段;
确定该问题信息对应的答案信息和该答案信息的生成时间;
从上述播放片段中确定出与该生成时间对应的第一播放片段;该生成时间处于第一播放片段的播放时间区间内;
根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,并将处理后的播放序列推流至观众客户端。
在一种可行的实施方式中,上述根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,包括:
确定第一播放片段中与生成时间对应的第一播放帧,以及确定与第一播放帧相邻、且播放时间位于第一播放帧的播放时间之后的第二播放帧;将答案信息插入至第一播放帧和第二播放帧之间;
或
确定播放序列中与第一播放片段相邻、且播放区间位于第一播放片段的播放时间区间之后的第二播放片段;将答案信息插入至第一播放片段和第二播放片段之间。
在一种可行的实施方式中,上述确定答案信息对应的答案信息,包括:
确定问题信息对应的问题文本;
对问题文本中的每个分词进行编码,得到每个分词的编码信息;
确定对应的编码信息处于预设编码信息范围内的分词的数量;
在该数量大于或等于信息回复阈值的情况下,确定该问题文本对应的答案文本,并根据问题信息的信息格式,对答案文本进行格式转换,得到答案信息。
在一种可行的实施方式中,上述确定问题文本对应的答案文本,包括:
通过训练好的答案文本生成模型,根据提示学习范式提取直播过程的风格信息;
根据每个分词在问题文本中的上下文信息以及风格信息,确定答案文本;
其中,风格信息包括播放序列的内容信息、直播空间信息以及直播时间信息中的至少一项。
在一种可行的实施方式中,上述播放序列是通过以下方式确定的:
获取音频文本;
根据从至少一个预设声音特性中确定的目标声音特性,对音频文本进行文字转语音处理,得到音频语音;
对音频语音进行语音转动作处理,得到音频语音对应的姿态信息;该姿态信息包括身体动作信息和表情信息中的至少一种;表情信息包括面部动作信息和唇齿动作信息中的至少一种;
根据姿态信息,对目标数字人形象进行渲染,得到动作图像帧;该目标数字人形象是预设数字人形象中的一个或多个;
对音频语音和动作图像帧进行合成,得到播放序列。
在一种可行的实施方式中,上述根据姿态信息,对目标数字人形象进行渲染,得到动作图像帧,包括:
确定目标数字人形象的身体区域信息、面部区域信息和唇齿区域信息,以及所述目标数字人形象中对应于身体区域信息的第一身体部位、对应于面部区域信息的第二身体部位以及对应于唇齿区域信息的第三身体部位之间的体积比例关系;
分别根据身体动作信息、面部动作信息以及唇齿动作信息,对第一身体部位、第二身体部位以及第三身体部位进行渲染;
根据上述体积比例信息,对渲染后的第一身体部位、渲染后的第二身体部位、渲染后的第三身体部位进行缩放处理,得到动作图像帧。
在一种可行的实施方式中,上述对音频语音进行语音转动作处理,得到音频语音对应的身体动作信息,包括:
确定音频语音的音强变化信息;
从预设视频库中确定音强变化信息对应的目标视频;其中,预设视频库中包括至少一个预设视频;每个预设视频中包括预设身体动作信息和预设音频语音;上述音强变化信息与目标视频中预设音频语音的音强变化信息相匹配;
将目标视频中的预设身体动作信息确定为上述身体动作信息。
在一种可行的实施方式中,上述对音频语音进行语音转动作处理,得到音频语音对应的表情信息,包括:
通过训练好的唇形驱动模型,根据音频语音,确定音频语音与表情基系数之间的第一映射关系;并根据第一映射关系,对音频语音进行映射,得到表情基系数;
根据表情基系数,得到表情信息。
在一种可行的实施方式中,上述唇形驱动模型是通过以下方式训练得到的:
获取第一训练数据集,该第一训练数据集中包括多个第一训练样本,每个第一训练样本包括第一样本音频语音以及与第一样本音频语音对应的第一样本表情基系数;
通过第一神经网络模型提取第一样本音频语音和第一样本表情基系数之间的第一样本映射关系;根据第一样本映射关系,对第一样本音频语音进行映射,得到预测表情基系数;根据预测表情基系数和第一样本表情基系数,确定第一损失孩子;
根据第一损失值训练第一神经网络模型,将满足第一训练结束条件的第一神经网络模型确定为唇形驱动模型。
在一种可行的实施方式中,上述获取音频文本,包括:
实时获取主播客户端采集的第一音频文本;
和/或
预先获取第二音频文本。
另一方面,本申请实施例提供了一种数字人直播装置,应用于主播客户端,该数字人直播装置可以包括:
问题信息采集模块,用于在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;该播放序列包括至少两个播放时间区间连续的播放片段;
答案信息生成模块,用于确定该问题信息对应的答案信息和该答案信息的生成时间;
播放片段确定模块,用于从上述播放片段中确定出与该生成时间对应的第一播放片段;该生成时间处于第一播放片段的播放时间区间内;
播放序列推流模块,用于根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,并将处理后的播放序列推流至观众客户端。
在一种可行的实施方式中,上述播放序列推流模块根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,包括:
确定第一播放片段中与生成时间对应的第一播放帧,以及确定与第一播放帧相邻、且播放时间位于第一播放帧的播放时间之后的第二播放帧;将答案信息插入至第一播放帧和第二播放帧之间;
或
确定播放序列中与第一播放片段相邻、且播放区间位于第一播放片段的播放时间区间之后的第二播放片段;将答案信息插入至第一播放片段和第二播放片段之间。
在一种可行的实施方式中,答案信息生成模块确定答案信息对应的答案信息,包括:
确定问题信息对应的问题文本;
对问题文本中的每个分词进行编码,得到每个分词的编码信息;
确定对应的编码信息处于预设编码信息范围内的分词的数量;
在该数量大于或等于信息回复阈值的情况下,确定该问题文本对应的答案文本,并根据问题信息的信息格式,对答案文本进行格式转换,得到答案信息。
在一种可行的实施方式中,上述答案信息生成模块确定问题文本对应的答案文本,包括:
通过训练好的答案文本生成模型,根据提示学习范式提取直播过程的风格信息;
根据每个分词在问题文本中的上下文信息以及风格信息,确定答案文本;
其中,风格信息包括播放序列的内容信息、直播空间信息以及直播时间信息中的至少一项。
在一种可行的实施方式中,上述播放序列是通过以下方式确定的:
获取音频文本;
根据从至少一个预设声音特性中确定的目标声音特性,对音频文本进行文字转语音处理,得到音频语音;
对音频语音进行语音转动作处理,得到音频语音对应的姿态信息;该姿态信息包括身体动作信息和表情信息中的至少一种;表情信息包括面部动作信息和唇齿动作信息中的至少一种;
根据姿态信息,对目标数字人形象进行渲染,得到动作图像帧;该目标数字人形象是预设数字人形象中的一个或多个;
对音频语音和动作图像帧进行合成,得到播放序列。
在一种可行的实施方式中,上述根据姿态信息,对目标数字人形象进行渲染,得到动作图像帧,包括:
确定目标数字人形象的身体区域信息、面部区域信息和唇齿区域信息,以及所述目标数字人形象中对应于身体区域信息的第一身体部位、对应于面部区域信息的第二身体部位以及对应于唇齿区域信息的第三身体部位之间的体积比例关系;
分别根据身体动作信息、面部动作信息以及唇齿动作信息,对第一身体部位、第二身体部位以及第三身体部位进行渲染;
根据上述体积比例信息,对渲染后的第一身体部位、渲染后的第二身体部位、渲染后的第三身体部位进行缩放处理,得到动作图像帧。
在一种可行的实施方式中,上述对音频语音进行语音转动作处理,得到音频语音对应的身体动作信息,包括:
确定音频语音的音强变化信息;
从预设视频库中确定音强变化信息对应的目标视频;其中,预设视频库中包括至少一个预设视频;每个预设视频中包括预设身体动作信息和预设音频语音;上述音强变化信息与目标视频中预设音频语音的音强变化信息相匹配;
将目标视频中的预设身体动作信息确定为上述身体动作信息。
在一种可行的实施方式中,上述对音频语音进行语音转动作处理,得到音频语音对应的表情信息,包括:
通过训练好的唇形驱动模型,根据音频语音,确定音频语音与表情基系数之间的第一映射关系;并根据第一映射关系,对音频语音进行映射,得到表情基系数;
根据表情基系数,得到表情信息。
在一种可行的实施方式中,上述唇形驱动模型是通过以下方式训练得到的:
获取第一训练数据集,该第一训练数据集中包括多个第一训练样本,每个第一训练样本包括第一样本音频语音以及与第一样本音频语音对应的第一样本表情基系数;
通过第一神经网络模型提取第一样本音频语音和第一样本表情基系数之间的第一样本映射关系;根据第一样本映射关系,对第一样本音频语音进行映射,得到预测表情基系数;根据预测表情基系数和第一样本表情基系数,确定第一损失孩子;
根据第一损失值训练第一神经网络模型,将满足第一训练结束条件的第一神经网络模型确定为唇形驱动模型。
在一种可行的实施方式中,上述获取音频文本,包括:
实时获取主播客户端采集的第一音频文本;
和/或
预先获取第二音频文本。
另一方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;
上述存储器用于存储计算机程序;
上述处理器被配置用于在调用上述计算机程序时,执行本申请实施例提供的数字人直播方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本申请实施例提供的数字人直播方法。
在本申请实施例中,播放序列包括至少两个播放时间区间连续的播放片段;通过在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;确定该问题信息对应的答案信息和该答案信息的生成时间;从上述播放片段中确定出与该生成时间对应的第一播放片段;该生成时间处于第一播放片段的播放时间区间内;根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,并将处理后的播放序列推流至观众客户端;这样,在数字人直播的过程中,可以实时对观众客户端发起的问题信息进行答复,与观众进行实时交互,提高数字人直播过程的趣味性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种数字人直播方法的流程示意图;
图2示出了本申请实施例提供的一种数字人直播方法的场景示意图之一;
图3示出了本申请实施例提供的一种数字人直播方法的场景示意图之二;
图4示出了本申请实施例提供的一种数字人直播方法的场景示意图之三;
图5示出了本申请实施例提供的一种数字人直播方法的场景示意图之四;
图6示出了本申请实施例提供的一种数字人直播方法的场景示意图之五;
图7示出了本申请实施例提供的一种数字人直播方法的场景示意图之六;
图8示出了本申请实施例提供的一种数字人直播方法的场景示意图之七;
图9示出了本申请实施例提供的一种数字人直播方法的场景示意图之八;
图10示出了本申请实施例提供的一种数字人直播方法的场景示意图之九;
图11示出了本申请实施例提供的一种数字人直播方法的场景示意图之十;
图12示出了本申请实施例提供的一种数字人直播方法的场景示意图之十一;
图13示出了本申请实施例提供的一种数字人直播方法的场景示意图之十二;
图14示出了本申请实施例提供的一种数字人直播方法的场景示意图之十三;
图15示出了本申请实施例提供的一种数字人直播装置的结构示意图;
图16示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种数字人直播方法,该数字人直播方法可以通过任意电子设备实现,如可以由用户终端(也可称为终端、终端设备或用户设备等)或服务器执行。
其中,用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备(例如智能音箱)、可穿戴电子设备(例如智能手表)、车载终端、智能家电(例如智能电视)、AR/VR设备等,但并不局限于此。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器,可以根据实际情况确定服务器的种类。
本申请实施例提供的数字人直播方法,可以应用于数字人直播过程中,如可以通过本申请实施例提供的数字人直播方法,生成实时视频流进行视频直播,并对观众客户端提出的问题信息进行实时答复等。
如图1所示,本申请实施例提供的数字人直播方法,可以包括以下步骤:
步骤S110,在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;该播放序列包括至少两个播放时间区间连续的播放片段。
数字人(Digital Human/Meta Human)指运用数字技术创造出来的、与人类形象接近的数字化人物形象。数字人直播即通过数字人代替真人进行直播。
在数字人直播的过程中,可以根据播放序列中播放片段的播放时间区间的先后顺序,对各播放片段进行分段推送。观众客户端在任一播放片段的推送过程中,通过发布评论、发布弹幕、与主播客户端进行实时连线等方式发起问题信息。
可选地,问题信息的信息格式可以为文字、语音、视频等。本申请实施例对问题信息的语种也作限制,可以为中文、英文、阿拉伯语等。
步骤S120,确定该问题信息对应的答案信息和该答案信息的生成时间。
在本申请实施例中,如图2所示,可以预先根据预设播放片段的内容信息、空间信息以及时间信息等,构建问题-答案对,并基于所构建的问题-答案对,生成预设的QA库(question-answer库,即问题-答案库)。
可选地,如图2所示,还可以根据通过相似数据库聚类挖掘、大语言模型(LargeLanguage Model)等方式,基于所构建的原始问题信息,扩充相似问题信息,并基于原始问题信息对应的答案信息以及相似问题信息,构建新的问题-答案对,对QA库进行丰富。
在确定问题信息对应的答案信息时,可以将问题信息作为待查询信息query,确定预设的QA库中的与该问题信息相似度最高的原始问题信息,并将该原始问题信息对应的问题-答案对中的答案,作为该问题信息对应的答案信息。
答案信息的生成时间,即确定出答案信息的实际时间。
步骤S130,从上述播放片段中确定出与该生成时间对应的第一播放片段;该生成时间处于第一播放片段的播放时间区间内。
可选地,每个播放片段都存在与其对应的播放时间区间,例如,对于播放片段A,其对应的播放时间区间为开始直播后的第36分钟至第59分钟,若开始直播的时间为20:00,则该播放时间区间为20:36-20:59。
在确定生成时间的第一播放片段时,可以根据答案信息的生成时间与每个播放片段对应的播放时间区间进行匹配,若该生成时间处于某一播放片段对应的播放时间区间,则将该播放片段确定为第一播放片段。例如,若生成时间为20:28,该生成时间处于上述播放片段A的播放时间区间20:36-20:59内,则将该播放片段A确定为第一播放片段。
可选地,在确定出答案信息后,还可以根据问题信息的信息格式,对答案信息进行格式转换,使得答案信息的信息格式与问题信息的信息格式一致,提高问答过程的一致性。
步骤S140,根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,并将处理后的播放序列推流至观众客户端。
可选地,播放片段在播放序列中的序列位置,即播放片段的播放顺序。
作为一个实例,在播放序列中包括n个播放片段的情况下,播放序列中各播放片段的序列位置可以依次为1、2、3、……n。
需要说明的是,在该播放序列应用于实时播放序列的推送过程的情况下,可以在对排序在前的子音频语音段对应的音视频合成片段并推送的过程中,可以对排序在后的子音频语音段进行语音转动作化处理、确定相应的音视频合成片段等操作。即语音转动作化处理、音视频合成处理模块、推送模块等可以同时执行操作,以提高播放序列的推送实时性。
在本申请实施例中,播放序列包括至少两个播放时间区间连续的播放片段;通过在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;确定该问题信息对应的答案信息和该答案信息的生成时间;从上述播放片段中确定出与该生成时间对应的第一播放片段;该生成时间处于第一播放片段的播放时间区间内;根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,并将处理后的播放序列推流至观众客户端;这样,在数字人直播的过程中,可以实时对观众客户端发起的问题信息进行实时应答,与观众进行实时交互,提高数字人直播过程的趣味性。
并且,由于该实时播放序列是以目标数字人形象为视频主体,通过该目标数字人形象以声情并茂的方式播报音频文本,并对观众提出的问题信息进行实时应答,且该数字人直播方法可以不间断地(例如,24小时不停止)生成播放序列,针对于此,可以将本申请实施例提供的数字人直播方法应用于智能会议、电商直播等应用场景中,提高这些应用场景下的工作效率。
具体地,在本申请实施例提供的数字人直播方法应用于电商直播过程中时,可以代替真人主播进行24小时直播,解决目前电商商家也会面临真人主播培养成本较高、人员流失风险较高、直播内容生产速度较慢等问题,提高直播内容生产速度,更符合实际需求。
在一种可行的实施方式中,上述根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,包括:
确定第一播放片段中与生成时间对应的第一播放帧,以及确定与第一播放帧相邻、且播放时间位于第一播放帧的播放时间之后的第二播放帧;将答案信息插入至第一播放帧和第二播放帧之间;
或
确定播放序列中与第一播放片段相邻、且播放区间位于第一播放片段的播放时间区间之后的第二播放片段;将答案信息插入至第一播放片段和第二播放片段之间。
可选地,播放片段中可以包括一帧或多帧播放帧。每帧播放帧存在与其对应的播放时间。
其中,若播放片段中包括一帧播放帧,则采用方式一(将答案信息插入至第一播放帧和第二播放帧之间),将答案信息插入至第一播放帧和第二播放帧之间,即在推流完成第一播放帧后,对答案信息进行推流,并在推流完成答案信息后,对第二播放帧进行推流;若播放片段中包括多帧播放帧,则采用方式二(将答案信息插入至第一播放片段和第二播放片段之间),将答案信息插入至第一播放帧和第二播放帧之间,即在推流完成第一播放片段后,对答案信息进行推流,并在推流完成答案信息后,对第二播放片段进行推流。
可选地,在播放片段中包括多帧播放帧的情况下,为了进一步保障数字人直播过程中播放内容的连续性,可以将答案信息插入至第一播放片段和第二播放片段之间。也可以在确定第一播放帧后,确定与第一播放帧的播放内容关联的第三播放帧,在推流完成第一播放帧后,对第三播放帧进行推流,并在推流完成第三播放帧后,对答案信息进行推流。其中,第三播放帧的数量可以为一帧或者多帧。
作为一个示例,播放片段B包括100帧播放帧,且播放片段B的播放时间区间为21:00-21:50,其中,播放片段B中的第30帧播放帧的播放时间为21:17,第31帧播放帧的播放时间为21:18,第50帧播放帧的播放时间为21:30。若答案信息的生成时间为21:17,则可以确定播放片段B中的第30帧播放帧为第一播放帧,播放片段B中的第31帧播放帧为第二播放帧,即在推流完成第一播放帧后,对答案信息进行推流,并在推流完成答案信息后,根据答案信息所占用的时长,将第二播放帧的播放时间进行顺延,对第二播放帧进行推流。
在本申请实施例中,通过采用方式一(将答案信息插入至第一播放帧和第二播放帧之间),将答案信息插入至第一播放帧和第二播放帧之间,或采用方式二(将答案信息插入至第一播放片段和第二播放片段之间),将答案信息插入至第一播放帧和第二播放帧之间,从而实现对答案信息的推流,可以在保证数字人直播过程中播放内容的连续性的同时,实时对观众客户端发起的问题信息进行实时应答。
在一种可行的实施方式中,上述确定答案信息对应的答案信息,包括:
确定问题信息对应的问题文本;
对问题文本中的每个分词进行编码,得到每个分词的编码信息;
确定对应的编码信息处于预设编码信息范围内的分词的数量;
在该数量大于或等于信息回复阈值的情况下,确定该问题文本对应的答案文本,并根据问题信息的信息格式,对答案文本进行格式转换,得到答案信息。
本申请实施例对问题文本进行分词处理的方式不做限制,可以根据实际情况确定。例如,可以采用“jiebar”包(一种分词组件)问题文本进行分词处理。例如,在问题文本为“物品1多少钱?”的情况下,可以将该问题文本划分为“物品1”、“多少”、“钱”和“?”四个分词。
可选地,在对问题文本中的分词进行编码时,可以具体为将分词转换为ASCII码。
预设编码信息范围可以为经验值或实验值,也可以根据实际情况确定。例如,可以根据数字人直播的直播内容确定。
作为一个示例,若数字人直播的直播内容为物品销售,则可以根据所销售的物品的关联信息(例如,物品种类、物品数量、物品售价等),设置ASCII码范围。
可以根据问题文本中的分词的编码信息是否处于该预设编码信息范围内,确定该问题文本中的分词是否与当前数字人直播的直播内容关联,是否相对于当前数字人直播的直播内容,具有信息量。
以上述数字人直播的直播内容为物品销售为例,在问题文本中的分词的编码信息处于所销售的物品的关联信息对应的ASCII码范围内时,可以确定该分词具备信息量。
在确定出分词是否具有信息量后,可以进一步确定包括该分词的问题文本中具有信息量的分词数量,并根据该分词数量,确定该问题文本是否具有回复意义。
可选地,可以将该分词数量与信息回复阈值进行对比,在该分词数量大于或等于信息回复阈值的情况下,确定该问题文本具有回复意义;在该分词数量小于信息回复阈值的情况下,确定该问题文本不具有回复意义。其中,可信息回复阈值以为经验值或实验值,也可以根据实际情况确定。例如,可以设置信息回复阈值为3,对应地,在问题文本中对应的分词数量大于或等于3的情况下,确定该问题文本具有回复意义。
可选地,还可以预先对二分类模型进行训练,得到训练好的信息量识别模型,通过该训练好的信息量识别模型,确定输入至该信息量识别模型的问题文本是否具有回复意义。
如前文所记载的,问题信息的信息格式可以为文字、语音、视频等。本申请实施例中,可以根据问题信息的信息格式,对答案文本进行格式转换,将答案文本的信息格式转换为问题信息的信息格式,得到答案信息。
在本申请实施例中,通过对问题信息对应的问题文本中的分词进行编码,得到该分词的编码信息,并确定问题文本中对应的编码信息处于预设编码信息范围内的分词的数量,在该数量大于或等于信息回复阈值的情况下,确定该问题信息对应的答案文本,可以根据问题文本是否具有回复意义,对具有回复意义的问题信息进行筛选并回复,提高问题信息进行实时应答的效率和实时性。并且,通过进一步将答案文本的信息格式转换为问题信息的信息格式,得到答案信息,使得答案信息的信息格式与问题信息的信息格式一致,提高问答过程的一致性。
在一种可行的实施方式中,上述确定问题文本对应的答案文本,包括:
通过训练好的答案文本生成模型,根据提示学习范式提取直播过程的风格信息;
根据每个分词在问题文本中的上下文信息以及风格信息,确定答案文本;
其中,风格信息包括播放序列的内容信息、直播空间信息以及直播时间信息中的至少一项。
可选地,可以基于自注意力机制,根据分词本身的含义、分词所在问题文本的含义以及分词在问题文本中的位置信息,确定分词在问题文本中的上下文信息。其中,以在问题文本为“物品1多少钱?”,将该问题文本划分为“物品1”、“多少”、“钱”和“?”四个分词为例,可以根据每个分词在该问题文本中的出现顺序,确定该分词在问题文本中的位置信息,例如,可以根据“物品1”在该问题文本中的出现顺序,确定“物品1”在问题文本中的位置信息为“1”;根据“多少”在该问题文本中的出现顺序,确定“多少”在问题文本中的位置信息为“2”;以此类推,确定“钱”在问题文本中的位置信息为“3”,“?”在问题文本中的位置信息为“4”。
答案信息生成模型可以是通过对第二神经网络模型进行训练后得到的,该第二神经网络模型可以基于自注意力机制和prompt(即提示学习范式)实现的。在本申请实施例中,提示学习范式可以根据数字人直播过程的风格信息确定,例如,可以设置提示学习范式为“当前数字人直播过程为在A虚拟空间内,B时间发布的有关C内容的直播过程”,其中,A、B、C的具体内容可以根据当前数字人直播过程的实际情况进行补充。
具体地,可以预先对第二神经网络模型进行以下训练操作,得到训练好的答案信息生成模型:
获取第二训练数据集,第二训练数据集中包括多个第二训练样本,第二训练样本包括样本问题文本、样本答案文本以及样本问题文本的来源信息(即样本问题文本的内容信息、空间信息以及时间信息);其中,样本答案文本即预设的样本问题文本对应的真实答案文本;
通过第二神经网络模型对样本问题文本、样本问题文本中的每个样本分词以及样本分词在样本问题文本中的位置信息进行自注意机制学习,确定样本分词在样本问题文本中的样本上下文信息;通过第二神经网络模型对样本问题文本的内容信息、空间信息以及时间信息进行学习,获取样本问题文本对应于提示学习范式中的A、B、C的具体内容,并根据包含A、B、C具体内容的提示学习范式,确定样本问题文本的来源信息所对应的样本风格信息;进一步根据样本上下文信息以及样本风格信息,预测样本问题文本对应的预测答案文本;
根据预测答案文本以及样本答案文本之间的差异,通过第二损失函数,确定第二损失值;
在该第二损失值满足第二训练结束条件时,得到训练好的答案文本生成模型;在该第二损失值不满足该第二训练结束条件时,根据第二损失值调整第二神经网络模型的模型参数,并根据第二训练数据集,继续训练调整后的第二神经网络模型,直至第二损失值满足第二训练结束条件时,得到训练好的答案文本生成模型。
其中,第二训练结束条件包括但不限于第二损失函数收敛、第二损失值小于或等于第二预设值、针对第二神经网络模型的训练次数达到第二次数阈值、或者所得到的预测答案文本的准确度满足第二准确度阈值等。其中,本申请实施例对该第二预设值、第二次数阈值以及第二准确度阈值的具体取值不做限制,可以为经验值或实验值,也可以根据实际情况确定。
在实际应用过程中,还可以通过大语言模型,例如ChatGPT(Chat GenerativePre-trained Transformer,聊天生成预训练转换器)的API(Application ProgrammingInterface,应用程序编程接口)接口,将训练好的答案文本生成模型接入至ChatGPT使用。
在本申请实施例中,通过在数字人直播过程中,如图3所示,通过训练好的答案文本生成模型(即大语言模型),根据提示学习范式提取播放序列的风格信息;并根据问题文本中的分词在该问题文本中的上下文信息以及播放序列的风格信息,确定问题信息对应的答案文本,能够根据当前播放序列的风格信息,适应性地确定问题信息对应的答案文本,使得所获取的答案文本与播放序列的风格信息相吻合,符合实际需求。
参见图4,在实际处理过程中,在获取到观众客户端提出的问题信息后,可以将问题信息转换为问题文本,将该问题文本输入至信息量识别模型,通过信息量识别模型确定该问题文本是否具有回复意义;在确定该问题文本具有回复意义的情况下,将该问题文本输入至答案文本生成模型中,通过答案文本生成模型确定该问题文本对应的答案文本;并将该问题文本信息-答案文本对输入至排序模块,通过该排序模块确定在预设时间内(例如5分钟),重复出现的问题文本的数量以及相似度较高的问题文本的数量,在重复出现的问题文本或者相似度较高的问题文本的数量大于预设值的情况下,优先推送该问题文本对应的答案文本,以根据该推送的答案文本进行后续操作。
在一种可行的实施方式中,上述播放序列是通过以下方式确定的:
获取音频文本;
根据从至少一个预设声音特性中确定的目标声音特性,对音频文本进行文字转语音处理,得到音频语音;
对音频语音进行语音转动作处理,得到音频语音对应的姿态信息;该姿态信息包括身体动作信息和表情信息中的至少一种;表情信息包括面部动作信息和唇齿动作信息中的至少一种;
根据姿态信息,对目标数字人形象进行渲染,得到动作图像帧;该目标数字人形象是预设数字人形象中的一个或多个;
对音频语音和动作图像帧进行合成,得到播放序列。
可选地,音频文本可以指待转化为音频的文本,具体可以包括但不限于台词、剧本、脚本等。
声音特性可以包括但不限于音调、音量、音色、语速等中的至少一项,本申请实施例对此不做限制。
在本申请实施例中,可以预先对一种或多种声音特性进行组合,得到至少一个预设声音特性,并根据实际需求,从至少一个预先声音特性中,选择出目标声音特性,提高了数字人直播过程中实际所采用的目标声音特性的可拓展性。
作为具体的示例,根据音调和音色设置的预设声音特性可以包括但不限于知性女声、新闻播报女声、甜美女声、卡通女声、知性男声、新闻播报男声、甜美男声、卡通男声等,本申请实施例对此不做限制。根据语速确定的预设声音特性可以包括但不限于0.8倍速、0.9倍速、1倍速、1.1倍速、1.2倍速等,本申请实施例对此不做限制。
可选地,可以根据不同的预设声音特性设置相应的触发控件,通过对至少一种预设声音特性对应的触发控件进行触发操作,并将触发操作对应的所有预设声音特性进行组合,得到目标声音特性。
可选地,如图5所示,可以通过基于TTS(Text To Speech,从文本到语音)技术实现的文本转语音化处理模块,对音频文本进行文字转语音处理,将文本格式的音频文本,转化为语音格式的音频语音。
身体动作信息可以包括躯干动作信息,具体包括但不限于头部动作信息(例如,点头、摇头等)、手部动作信息(即手势,例如,握手、握拳、挥拳等)和至少两个身体部位组合的动作信息(例如,弯腰、抬腿、举手等),本申请实施例对此不做限制。
表情信息可以包括面部动作信息,可以包括但不限于微笑、愤怒、眨眼、闭眼等,本申请实施例对此不做限制。
在对音频语音进行语音转动作化处理时,可以通过语音转动作化处理模块实现,由于所得到的姿态信息是通过音频语音转化得到的,也可以将该语音转动作化处理模块成为语音驱动动作处理模块。
随着语音转动作化处理过程所需的数据量的增多,也需要数据处理性能更强的语音转动作化处理模块,给语音转动作化处理模块带来较大的数据处理压力。在本申请实施例中,为了进一步降低语音转动作化处理模块的数据处理压力,在音频语音对应的时长较长的情况下,可以根据音频语音所对应的目标声音特性,对音频语音进行分段处理,并对子音频语音段进行语音转动作化处理,得到该子音频语音段对应的姿态信息。
目标数字人形象可以为从多个预设数字人形象中筛选得到的数字人形象,提高了直播过程中的直播主体的可拓展性。其中,预设数字人形象可以为根据人类的职业、性别等创造得到的数字人形象,也可以为虚拟空间中的数字人形象。
可选地,可以根据预设数字人形象设置相应的触发控件,通过响应于对某一预设数字人形象对应的触发控件进行触发操作,将该触发操作对应的预设数字人形象作为目标数字人形象。
在对目标数字人形象进行渲染时,可以包括但不限于进行光栅化处理、纹理化填充等操作。
可选地,在对目标数字人形象进行渲染之前,还可以选择目标数字人形象对应的背景信息、前景贴纸等,并根据上述姿态信息、所选择的背景信息、前景贴纸,对目标数字人形象进行渲染,使得所得到的动作图像帧中包括姿态信息为上述姿态信息的目标数字人形象,且该动作图像帧的背景信息为所选择的背景信息、前景贴纸为所选择的前景贴纸。
由于动作图像帧中的姿态信息是根据音频语音进行语音转动作化处理得到的,每个姿态信息对应于相应的子音频语音段,可以根据姿态信息和子音频语音段之间的对应关系,进行时间戳对齐的操作,将音频语音和动作图像帧进行合成,得到播放序列。
在本申请实施例中,通过根据目标声音特性,对获取的音频文本进行文字转语音化处理,得到音频语音;并对该音频语音进行语音转动作化处理,得到该音频语音对应的数字人形象的姿态信息,实现从语音到动作的驱动处理;进而根据上述姿态信息,对目标数字人形象进行渲染,得到动作图像帧;并对音频语音和动作图像帧进行合成,得到包括目标数字人形象的播放序列;这样,在该播放序列中,能够通过目标数字人形象声情并茂地进行表达音频文本对应的内容信息,且该方法并不局限于所生成的播放序列的应用场景,能够弥补相关技术中,无法在视频直播过程中应用数字人直播方法的缺陷。
可选地,为了进一步提高数字人直播过程的内容连续性,在得到答案文本后,也可以通过以下方式将答案文本插入至播放序列中:
方式1:将答案文本转化为答案语音;将该答案语音插入至音频语音中,得到子音频语音段;根据子音频语音段,进行相应的语音转动作化处理等操作,得到相应的动作图像帧,将子音频语音段和该动作图像帧合成后的播放片段,插入至播放队列。
方式2:将答案信息转化为答案语音,根据答案语音进行相应的语音转动作化处理等操作,得到该答案语音对应的动作图像帧;并将该答案语音与该该动作图像帧合成后的播放片段,插入至播放队列。
在一种可行的实施方式中,上述获取音频文本,包括:
实时获取主播客户端采集的第一音频文本;
和/或
预先获取第二音频文本。
主播客户端实时采集的第一音频文本可以是对主播客户端通过实时录制的语音进行语音转文本处理后,得到的音频文本。
预先获取的第二音频文本可以是从音频网站、视频网站、提供音频播放服务的应用程序、提供视频观看服务的应用程序等中获取到音频或视频后,对所获取的音频或视频进行语音提取后,再对提取到的语音进行语音转文本处理后,得到的音频文本。
在本申请实施例中,通过实时获取主播客户端采集的第一音频文本;和/或预先获取第二音频文本,并进行后续视频生成操作,可以使得本申请实施例提供的数字人直播方法可以丰富了音频文本的获取方式。
在一种可行的实施方式中,上述对音频语音进行语音转动作处理,得到音频语音对应的身体动作信息,包括:
确定音频语音的音强变化信息;
从预设视频库中确定音强变化信息对应的目标视频;其中,预设视频库中包括至少一个预设视频;每个预设视频中包括预设身体动作信息和预设音频语音;上述音强变化信息与目标视频中预设音频语音的音强变化信息相匹配;
将目标视频中的预设身体动作信息确定为上述身体动作信息。
音频语音的音强变化信息可以包括但不限于音频语音中重音、长音等。
预设视频可以是预先采集到的包括预设身体动作信息和预设音频语音的视频。可选地,预设视频中还可以包括预设表情信息。
为了便于提取预设视频中的预设身体动作信息、预设音频语音、预设表情信息等,需要设置预设视频的时间长度不小于5分钟,且所采集的预设视频中必须包括身体动作和表情等,否则视为无效视频。
可选地,可以预先设置身体动作信息、表情信息和音频语音,并采集模特对身体动作、表情信息和音频语音进行表现产生的视频,将所采集的视频作为预设视频。
其中,可以设置以下与预设视频的采集场景关联的要求:
①场地要求
光照要求:光照充足且固定,模特的面部两侧颜色均匀,无明显阴阳脸,画面的不同区域打光需尽量均匀。
环境声音要求:录制场地环境的底噪尽可能低(例如,可以采用降噪收音设备进行收音,关闭录制场地的空调吹风机等容易产生噪音的设备),无其他人声混入。
背景物体:录制画面中没有除了模特外的其他物品,背景采用绿色幕布,且该绿色幕布需要覆盖完全模特所在位置。
②模特要求
发型:面部无遮挡。
穿着:模特的衣服颜色与背景颜色有明显区分。例如,模特的衣服颜色中不出现绿色图案。
③图像采集设备要求
图像采集设备位置固定,曝光参数固定。
在采集到预设视频后,可以对预设视频进行去噪等预处理操作后,对去噪后的视频进行视频解码操作,得到预设视频的解码码流;对该解码码流进行语音提取操作,获取到预设视频中的预设音频语音;对该解码码流进行抠图操作,获取预设视频中包括身体动作的图像序列或包括表情的图像;通过对包括表情的图像继续进行人脸获取操作(例如,landmark操作),获取crop人脸图像(只包括人脸的图像,例如免冠照片等),并通过对包括表情的图像继续进行3D重建操作,获取该图像中的表情基系数;通过对包括身体动作的图像序列进行动作特征提取,获取对应的身体动作信息。
可选的,可以将每个预设视频、该预设视频对应的预设音频语音、预设身体动作信息、预设crop人脸图像、预设表情信息进行关联存储,得到视频库。
在确定出音频语音的音强变化信息后,可以将该音强变化信息与预设音频语音的音强变化信息进行匹配,进一步确定所匹配到的预设音频语音对应的预设视频;将该预设视频对应的预设身体动作信息作为音频语音对应的身体动作信息。
如图6所示,可以通过该音强变化信息匹配技术生成的身体驱动和合成模型,根据音频语音的音强变化信息,生成相应的身体动作信息。
在本申请实施例中,通过确定音频语音的音强变化信息,根据该音强变化信息与该预设音频语音中的音强变化信息进行匹配,匹配得到预设视频,并将匹配到的预设视频对应的预设身体动作信息,作为该音频语音对应的身体动作信息,可以使得所确定出的身体动作信息与音频语音相匹配,为后续渲染声情并茂的目标数字人形象做铺垫。
在一种可行的实施方式中,上述对音频语音进行语音转动作处理,得到音频语音对应的表情信息,包括:
通过训练好的唇形驱动模型,根据音频语音,确定音频语音与表情基系数之间的第一映射关系;并根据第一映射关系,对音频语音进行映射,得到表情基系数;
根据表情基系数,得到表情信息。
如图7所示,可以将音频语音输入至训练好的唇形驱动模型,通过训练好的唇形驱动模型,确定音频语音与表情基系数之间的第一映射关系;并根据第一映射关系,对音频语音进行映射,输出表情基系数。其中,表情基系数可以包括面部动作信息对应的表情集系数,也可以包括唇齿动作信息对应的表情基系数。
可选地,可以通过训练好的面部合成模型,根据该表情基系数,确定该表情基系数和面部特征之间的第二映射关系;并根据该第二映射关系,对表情基系数进行映射,得到上述面部特征,并将该面部特征作为表情信息。其中,面部特征可以包括唇齿区域特征以及脸部区域特征。
可选地,面部合成模型可以通过以下方式训练得到:
获取第三训练数据集,第三训练数据集中包括多个第三训练样本,第三训练样本包括第二样本表情基系数以及与该第二样本表情基系数对应的样本面部特征;
通过第三神经网络模型提取第二样本表情基系数与样本面部特征之间的第三样本映射关系;根据该第三样本映射关系,对第二样本表情基系数进行映射,得到预测面部特征;根据预测面部特征和样本面部特征,确定第三损失值;
在该第三损失值满足第三训练结束条件时,得到训练好的面部合成模型;在该第三损失值不满足该第三训练结束条件时,根据第三损失值调整第三神经网络模型的模型参数,并根据第三训练数据集,继续训练调整后的第三神经网络模型,直至得到训练好的面部合成模型。
本申请实施例对第二样本表情基系数以及与该第二样本表情基系数对应的样本面部特征的获取方式不做具体限制。为了进一步减少数据处理量,可以在得到上述预设视频之后,对预设视频对应的crop人脸图像进行面部特征提取,将提取到的面部特征作为样本面部特征,将预设视频对应的预设表情基系数作为第二样本表情基系数,从而根据第二样本表情基系数和对应的样本面部特征,构建第三训练样本。
第三神经网络模型可以基于编码解码模型(Encoder-Decoder)、LSTM模型(LongShort Term Memory,长短期记忆)、RNN(Recurrent neural networks,循环神经网络)等模型实现。
可选地,根据第三损失函数,以及预测面部特征和样本面部特征,确定第三损失值,在此不做限制。
其中,第三训练结束条件包括但不限于第三损失函数收敛、第三损失值小于或等于第三预设值、针对第三神经网络模型的训练次数达到第三次数阈值、或者所得到的预测面部特征的准确度满足第三准确度阈值等。其中,本申请实施例对该第三预设值、第三次数阈值以及第三准确度阈值的具体取值不做限制,可以为经验值或实验值,也可以根据实际情况确定。
如图8所示,可以通过训练好的面部合成模型,根据表情基系数,生成相应的表情信息。
在本申请实施例中,通过预先训练面部合成模型,使得可以通过该面部合成模型,提取出表情基系数与面部特征之间的映射关系,进而在确定出表情基系数后,可以通过训练好的面部合成模型,根据该表情基系数,确定该表情基系数和面部特征之间的第二映射关系;根据该第二映射关系,对表情基系数进行映射,得到上述面部特征,并将该面部特征作为表情信息,精准确定出表情基系数对应的表情信息,实现对音频语音的语音转动作化处理,可以使得所确定出的表情信息与音频语音相匹配,为后续渲染声情并茂的目标数字人形象做铺垫。
在本申请实施例中,通过预先训练唇形驱动模型,使得可以通过该训练好的唇形驱动模型,提取出音频语音与表情基系数之间的映射关系,进而在确定出音频语音后,可以通过训练好的唇形驱动模型,根据该音频语音,确定该音频语音与表情基系数之间的第一映射关系;并根据该第一映射关系,对该音频语音进行映射,得到表情基系数,并根据该表情基系数,得到表情信息,实现对音频语音的语音转动作化处理,可以使得所确定出的表情信息与音频语音相匹配,为后续渲染声情并茂的目标数字人形象做铺垫。
在一种可行的实施方式中,上述唇形驱动模型是通过以下方式训练得到的:
获取第一训练数据集,该第一训练数据集中包括多个第一训练样本,每个第一训练样本包括第一样本音频语音以及与第一样本音频语音对应的第一样本表情基系数;
通过第一神经网络模型提取第一样本音频语音和第一样本表情基系数之间的第一样本映射关系;根据第一样本映射关系,对第一样本音频语音进行映射,得到预测表情基系数;根据预测表情基系数和第一样本表情基系数,确定第一损失值;
根据第一损失值训练第一神经网络模型,将满足第一训练结束条件的第一神经网络模型确定为唇形驱动模型。
本申请实施例对第一样本音频语音和该第一样本语音音频对应的第一表情基系数的获取方式不做具体限制。为了进一步减少数据处理量,可以在得到上述预设视频之后,将预设视频对应的预设音频语音作为第一样本音频语音,将预设视频对应的预设表情基系数作为第一样本表情基系数,从而根据第一样本音频语音和对应的第一样本表情基系数,构建第一训练样本。
第一神经网络模型可以基于编码解码模型(Encoder-Decoder)、LSTM模型(LongShort Term Memory,长短期记忆)、RNN(Recurrent neural networks,循环神经网络)等模型实现。
可选地,根据第一损失函数,以及预测表情基系数和第一样本表情基系数,确定第一损失值,在此不做限制。
其中,第一训练结束条件包括但不限于第一损失函数收敛、第一损失值小于或等于第一预设值、针对第一神经网络模型的训练次数达到第一次数阈值、或者所得到的预测表情基系数的准确度满足第一准确度阈值等。其中,本申请实施例对该第一预设值、第一次数阈值以及第一准确度阈值的具体取值不做限制,可以为经验值或实验值,也可以根据实际情况确定。
在本申请实施例中,通过采用第一训练集,对第一神经网络模型进行训练,通过第一神经网络模型提取第一训练集中各第一训练样本的第一样本音频语音和第一样本表情基系数之间的第一样本映射关系;根据第一样本映射关系,对第一样本音频语音进行映射,得到预测表情基系数;根据预测表情基系数和第一样本表情基系数,确定第一损失值;并根据第一损失值对第一神经网络模型的模型参数进行调整,直至得到满足第一训练结束条件的唇形驱动模型,可以提高训练好的唇形驱动模型的准确度,以通过该训练好的唇形驱动模型确定实际音频语音对应的表情基系数。
具体地,如图9所示,在获取到音频语音后,可以分别通过身体驱动和合成模型对应的分支,根据音频语音的音强变化信息,生成相应的身体动作信息;通过唇形驱动模型和面部合成模型级联的模型,生成相应的表情信息,从而根据身体动作信息和表情信息,得到姿态信息。
在一种可行的实施方式中,上述根据姿态信息,对目标数字人形象进行渲染,得到动作图像帧,包括:
确定目标数字人形象的身体区域信息、面部区域信息和唇齿区域信息,以及所述目标数字人形象中对应于身体区域信息的第一身体部位、对应于面部区域信息的第二身体部位以及对应于唇齿区域信息的第三身体部位之间的体积比例关系;
分别根据身体动作信息、面部动作信息以及唇齿动作信息,对第一身体部位、第二身体部位以及第三身体部位进行渲染;
根据上述体积比例信息,对渲染后的第一身体部位、渲染后的第二身体部位、渲染后的第三身体部位进行缩放处理,得到动作图像帧。
在该实现方式中,可以通过faster-RCNN(faster-Regions with CNN feature,快速-基于区域的卷积神经网络)、SSD(Single Shot Multi-Box Detector,单步多框目标检测)、YOLO算法(一种算法)等算法进行目标检测操作。
参照上述渲染处理方式,可以采用上述渲染处理方式,分别根据身体动作信息,对目标数字人形象中对应于身体区域信息的第一身体部位进行渲染;根据面部动作信息,对目标数字人形象中对应于面部区域信息的第二身体部位进行渲染;根据唇齿动作信息,对目标数字人形象中对应于唇齿区域信息的第三身体部位进行渲染,在此不做赘述。
可选地,本申请实施例对第一身体部位、第二身体部位以及第三身体部位进行渲染的顺序不做限制,可以同时进行渲染,也可以按照设定顺序进行渲染。
可选地,体积比例信息可以包括但不限于长度比例、宽度比例、高度比例等。
作为一个示例,在第一身体部位、第二身体部位以及第三身体部位对应的高度比例为5:1:18的情况下,可以对渲染后的第一身体部位、渲染后的第二身体部位、渲染后的第三身体部位进行缩放处理,使得渲染后的第一身体部位、渲染后的第二身体部位、渲染后的第三身体部位的高度比例为5:1:18。
在确定出目标数字人形象对应的背景信息、前景贴纸等后,可以根据渲染得到的完整的渲染后的数字人形象、背景信息、前景贴纸等进行再次渲染,得到动作图像帧,使得所得到的动作图像帧中包括姿态信息为上述姿态信息的目标数字人形象,且该动作图像帧的背景信息为所选择的背景信息、前景贴纸为所选择的前景贴纸。
在本申请实施例中,通过对目标数字人形象进行目标检测操作,确定目标数字人形象的身体区域信息、面部区域信息和唇齿区域信息,以及所述目标数字人形象中对应于身体区域信息的第一身体部位、对应于面部区域信息的第二身体部位以及对应于唇齿区域信息的第三身体部位之间的体积比例关系;并分别根据身体动作信息、面部动作信息以及唇齿动作信息,对第一身体部位、第二身体部位以及第三身体部位进行渲染;以及根据上述体积比例信息,对渲染后的第一身体部位、渲染后的第二身体部位、渲染后的第三身体部位进行缩放处理,得到动作图像帧,可以实现对目标数字人形象的精准渲染,提高渲染后的数字人形象的表情动作的流畅性、自然性和可识别度,实现对音频语音的语音转动作化处理,可以使得所确定出的表情信息与音频语音相匹配,为后续渲染声情并茂的目标数字人形象做铺垫。
为了更清楚地对本申请实施例提供的数字人直播方法进行说明,以下以将该数字人直播方法应用于直播过程中为例,通过商家(即主播客户端)配置直播剧本(即音频文本,也可以称为直播脚本),控制数字人形象(即目标数字人形象)代替真人,按照直播剧本进行直播,并与观众(即观众客户端)进行Q&A互动,回复观众提出的问题,对本申请实施例提供的数字人直播方法进行详细说明:
可选地,可以设置与配置声音特性、配置音频文本、配置背景图像、配置前景贴纸等关联的配置组件,并将配置组件设置在GUI界面(Graphical User Interface,图形用户界面,又称图形用户接口)中,形成配置平台。并响应于商家在配置平台中对配置组件的触发操作,确定目标声音特性、目标数字人形象、目标背景图像、目标前景贴纸等。
如图10所示,可以在配置平台的新建剧本页面,设置与配置剧本名称、屏幕尺寸、虚拟人形象(即数字人形象)、主播音色、主播语速、主播姿势、直播背景、前景贴图、背景音乐关联的组件。
在新建剧本页面中,响应于商家对剧本名称的输入操作,生成剧本名称;响应于商家在新建剧本页面对屏幕尺寸、虚拟人形象(即数字人形象)、主播音色、主播语速、主播姿势、直播背景、前景贴图、背景音乐等对应的关联组件的选中操作,生成播放序列的目标显示特性(竖屏720p)、目标声音特性(1倍速的知性女声)、目标数字人形象(形象2)、目标背景图像(背景1)、目标前景贴纸(无贴纸)、目标数字人形象在音视频合成文本中的姿势(坐姿居中竖屏)、目标背景音乐(无音乐)等(如图10实线框所示)。
如图11所示,可以在配置平台的编辑剧本页面,设置与配置物品种类、台词类型、台词具体内容、台词播放时间等关联的组件。
在编辑剧本页面中,响应于商家对台词类型的选择操作,显示与所选中的台词类型关联的台词设置页面(如图11显示的为与开场白关联的台词设置页面);响应于关联商品的选择操作,生成显示相应的商品;响应于商家对台词内容的输入操作,在台词预览框中显示输入的台词(如图11中的“哈喽老铁们,我是招聘主播xx,我的直播间会不定期给大家介绍工作岗位,各个城市各种岗位应有尽有,老铁们可以点点关注,这样就不会错过适合你的岗位啦。今天教老铁们如何先人一步拿到理想工作!第一步就是及时完善个人简历!”);响应于商家对输入的台词内容和对应播放时间的关联程度,可以在后续文本转语音化处理的过程中,设置对应文本的播放时间(如图11中“我是招聘主播xx”的播放时间为“00:02”)。
可选地,在对目标声音特性、目标数字人形象、目标背景图像、目标前景贴纸等设置完成后,可以通过图12示出的视频生成框架,生成播放序列,并将播放序列推送至观众客户端,与观众客户端进行问答交互操作。具体地,
步骤一:可以通过文字转语音化处理模块,根据台词文本对应的播放时间以及目标声音特性,将所编辑的文本格式的台词文本转化为语音格式的音频语音。
步骤二:可以通过基于语音驱动的视频合成模块,根据文字转语音化处理模块转化得到的音频语音,合成一段口型、身体动作、表情信息均与音频声音匹配,且动作自然的数字人表演视频。具体可以包括图13示出的三个阶段:
阶段1:视频数据录制阶段(即训练数据集生成阶段),在该阶段,可以通过上述采集预设视频的方式采集真人口播视频和真人动作视频,并采用图14示出的方式,对所采集到的视频进行预处理,得到预设视频对应的<预设音频语音,预设人脸图像,预设表情基系数>以及预设动作信息。具体的处理方式,参见上述描述部分,在此不做赘述。
阶段2:模型训练阶段(即身体驱动与生成模型、唇形驱动模型、面部生成模型的训练阶段),在该阶段,可以根据<预设音频语音,预设动作信息>,生成视频库,并基于视频搜索算法(即根据音强变化信息进行匹配),生成身体驱动与生成模型;根据<预设音频语音,预设表情基系数>,对第一神经网络模型进行训练,得到唇形驱动模型;根据<预设人脸图像,预设表情基系数>,对第三神经网络模型进行训练,得到面部合成模型。具体的训练方式,参见上述描述部分,在此不做赘述。
阶段3:模型推理阶段,在该阶段,可以根据文字转语音化处理模块转化得到的音频语音,依次通过训练好的身体驱动与生成模型,生成身体动作信息;通过训练好的唇形驱动模型,生成表情基系数;通过训练好的面部合成模型,生成表情信息;并根据身体动作信息、表情信息、目标前景贴纸和目标背景图像,对目标数字人形象进行渲染后,与音频语音进行合成,得到播放序列。
步骤四:可以通过客户端推流模块将所生成的播放序列实时推流到观众用户端。
步骤五:可以通过问答Q&A交互模块采集观众手机端输入的问题信息,并将确定问题信息对应的答案信息,根据该答案信息的确定时间,将该答案信息插入至播放序列中与该确定时间对应的音视频合成片段中,并向观众客户端推送处理后的音视频合成片段,可以实现实时播放序列的实时推送,并对观众客户端发起的问题信息进行实时应答。。
在该示例中,通过商家(即主播客户端)配置直播脚本(即音频文本),控制数字人形象(即目标数字人形象)代替真人,按照直播脚本进行直播,并与观众(即观众客户端)进行Q&A互动,回复观众提出的问题,能够为观众提供如同真人主播般的真实的观看体验,具有更强的主观感染力,受众群体更广,降低商家培养/雇佣真人主播的成本。并且,在该应用场景中,可以控制数字人形象开直播的时长,实现24小时不间断直播带货,提高物品的曝光度,获取长尾流量,提高GMV(Gross Merchandise Volume,一定时间段内的成交总额)收入。
基于与本申请实施例提供的数字人直播方法相同的原理,本申请实施例中还提供了一种数字人直播装置。如图15所示,该数字人直播装置150应用于主播客户端,可以包括:
问题信息采集模块151,用于在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;该播放序列包括至少两个播放时间区间连续的播放片段;
答案信息生成模块152,用于确定该问题信息对应的答案信息和该答案信息的生成时间;
播放片段确定模块153,用于从上述播放片段中确定出与该生成时间对应的第一播放片段;该生成时间处于第一播放片段的播放时间区间内;
播放序列推流模块154,用于根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,并将处理后的播放序列推流至观众客户端。
在本申请实施例中,播放序列包括至少两个播放时间区间连续的播放片段;通过在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;确定该问题信息对应的答案信息和该答案信息的生成时间;从上述播放片段中确定出与该生成时间对应的第一播放片段;该生成时间处于第一播放片段的播放时间区间内;根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,并将处理后的播放序列推流至观众客户端;这样,在数字人直播的过程中,可以实时对观众客户端发起的问题信息进行答复,与观众进行实时交互,提高数字人直播过程的趣味性。
在一种可行的实施方式中,上述播放序列推流模块154根据第一播放片段在播放序列中的序列位置,将答案信息插入至播放序列,包括:
确定第一播放片段中与生成时间对应的第一播放帧,以及确定与第一播放帧相邻、且播放时间位于第一播放帧的播放时间之后的第二播放帧;将答案信息插入至第一播放帧和第二播放帧之间;
或
确定播放序列中与第一播放片段相邻、且播放区间位于第一播放片段的播放时间区间之后的第二播放片段;将答案信息插入至第一播放片段和第二播放片段之间。
在一种可行的实施方式中,答案信息生成模块152确定答案信息对应的答案信息,包括:
确定问题信息对应的问题文本;
对问题文本中的每个分词进行编码,得到每个分词的编码信息;
确定对应的编码信息处于预设编码信息范围内的分词的数量;
在该数量大于或等于信息回复阈值的情况下,确定该问题文本对应的答案文本,并根据问题信息的信息格式,对答案文本进行格式转换,得到答案信息。
在一种可行的实施方式中,上述答案信息生成模块152确定问题文本对应的答案文本,包括:
通过训练好的答案文本生成模型,根据提示学习范式提取直播过程的风格信息;
根据每个分词在问题文本中的上下文信息以及风格信息,确定答案文本;
其中,风格信息包括播放序列的内容信息、直播空间信息以及直播时间信息中的至少一项。
在一种可行的实施方式中,上述播放序列是通过以下方式确定的:
获取音频文本;
根据从至少一个预设声音特性中确定的目标声音特性,对音频文本进行文字转语音处理,得到音频语音;
对音频语音进行语音转动作处理,得到音频语音对应的姿态信息;该姿态信息包括身体动作信息和表情信息中的至少一种;表情信息包括面部动作信息和唇齿动作信息中的至少一种;
根据姿态信息,对目标数字人形象进行渲染,得到动作图像帧;该目标数字人形象是预设数字人形象中的一个或多个;
对音频语音和动作图像帧进行合成,得到播放序列。
在一种可行的实施方式中,上述根据姿态信息,对目标数字人形象进行渲染,得到动作图像帧,包括:
确定目标数字人形象的身体区域信息、面部区域信息和唇齿区域信息,以及所述目标数字人形象中对应于身体区域信息的第一身体部位、对应于面部区域信息的第二身体部位以及对应于唇齿区域信息的第三身体部位之间的体积比例关系;
分别根据身体动作信息、面部动作信息以及唇齿动作信息,对第一身体部位、第二身体部位以及第三身体部位进行渲染;
根据上述体积比例信息,对渲染后的第一身体部位、渲染后的第二身体部位、渲染后的第三身体部位进行缩放处理,得到动作图像帧。
在一种可行的实施方式中,上述对音频语音进行语音转动作处理,得到音频语音对应的身体动作信息,包括:
确定音频语音的音强变化信息;
从预设视频库中确定音强变化信息对应的目标视频;其中,预设视频库中包括至少一个预设视频;每个预设视频中包括预设身体动作信息和预设音频语音;上述音强变化信息与目标视频中预设音频语音的音强变化信息相匹配;
将目标视频中的预设身体动作信息确定为上述身体动作信息。
在一种可行的实施方式中,上述对音频语音进行语音转动作处理,得到音频语音对应的表情信息,包括:
通过训练好的唇形驱动模型,根据音频语音,确定音频语音与表情基系数之间的第一映射关系;并根据第一映射关系,对音频语音进行映射,得到表情基系数;
根据表情基系数,得到表情信息。
在一种可行的实施方式中,上述唇形驱动模型是通过以下方式训练得到的:
获取第一训练数据集,该第一训练数据集中包括多个第一训练样本,每个第一训练样本包括第一样本音频语音以及与第一样本音频语音对应的第一样本表情基系数;
通过第一神经网络模型提取第一样本音频语音和第一样本表情基系数之间的第一样本映射关系;根据第一样本映射关系,对第一样本音频语音进行映射,得到预测表情基系数;根据预测表情基系数和第一样本表情基系数,确定第一损失孩子;
根据第一损失值训练第一神经网络模型,将满足第一训练结束条件的第一神经网络模型确定为唇形驱动模型。
在一种可行的实施方式中,上述获取音频文本,包括:
实时获取主播客户端采集的第一音频文本;
和/或
预先获取第二音频文本。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
基于与本申请实施例提供的数字人直播方法及装置相同的原理,本申请实施例中还提供了一种电子设备(如服务器),该电子设备可以包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现本申请任一可选实施例中提供的方法。
参见图16,图16示出了本申请实施例提供的一种电子设备的结构示意图。如图16所示,本实施例中的电子设备1600可以包括:处理器1601,网络接口1604和存储器1605,此外,上述电子设备1600还可以包括:对象接口1603,和至少一个通信总线1602。其中,通信总线1602用于实现这些组件之间的连接通信。其中,对象接口1603可以包括显示屏(Display)、键盘(Keyboard),可选对象接口1603还可以包括标准的有线接口、无线接口。网络接口1604可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1605可以是高速RAM存储器,也可以是非易失性存储器(non-volatile memory,NVM),例如至少一个磁盘存储器。存储器1605可选的还可以是至少一个位于远离前述处理器1601的存储装置。如图16所示,作为一种计算机可读存储介质的存储器1605中可以包括操作系统、网络通信模块、对象接口模块以及设备控制应用程序。
在图16所示的电子设备1600中,网络接口1604可提供网络通讯功能;而对象接口1603主要用于为对象提供输入的接口;而处理器1601可以用于调用存储器1605中存储的设备控制应用程序,以实现:
在一些可行的实施方式中,上述处理器1601用于:
应当理解,在一些可行的实施方式中,上述处理器1601可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
具体实现中,上述电子设备1600可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,被处理器执行以实现图1中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的数字人直播装置或电子设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart mediacard,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行图1中各个步骤所提供的方法。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
此外,本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (13)
1.一种数字人直播方法,其特征在于,所述方法应用于主播客户端,包括:
在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;所述播放序列包括至少两个播放时间区间连续的播放片段;
确定所述问题信息对应的答案信息和所述答案信息的生成时间;
从所述播放片段中确定出与所述生成时间对应的第一播放片段;所述生成时间处于所述第一播放片段的播放时间区间内;
根据所述第一播放片段在所述播放序列中的序列位置,将所述答案信息插入至所述播放序列,并将处理后的播放序列推流至所述观众客户端。
2.根据权利要求1所述的数字人直播方法,其特征在于,所述根据所述第一播放片段在所述播放序列中的序列位置,将所述答案信息插入至所述播放序列,包括:
确定所述第一播放片段中与所述生成时间对应的第一播放帧,以及确定与所述第一播放帧相邻、且播放时间位于所述第一播放帧的播放时间之后的第二播放帧;将所述答案信息插入至所述第一播放帧和所述第二播放帧之间;
或
确定所述播放序列中与所述第一播放片段相邻、且播放时间区间位于所述第一播放片段的播放时间区间之后的第二播放片段;将所述答案信息插入至所述第一播放片段和所述第二播放片段之间。
3.根据权利要求2所述的数字人直播方法,其特征在于,所述确定所述问题信息对应的答案信息,包括:
确定所述问题信息对应的问题文本;
分别对所述问题文本中的每个分词进行编码,得到每个所述分词的编码信息;
确定对应的编码信息处于预设编码信息范围内的分词的数量;
在所述数量大于或等于信息回复阈值的情况下,确定所述问题文本对应的答案文本,并根据所述问题信息的信息格式,对所述答案文本进行格式转换,得到所述答案信息。
4.根据权利要求3所述的数字人直播方法,其特征在于,所述确定所述问题文本对应的答案文本,包括:
通过训练好的答案文本生成模型,根据提示学习范式提取直播过程的风格信息;
根据每个所述分词在所述问题文本中的上下文信息以及所述风格信息,确定所述答案文本;
其中,所述风格信息包括所述播放序列的内容信息、直播空间信息以及直播时间信息中的至少一项。
5.根据权利要求1所述的数字人直播方法,其特征在于,所述播放序列是通过以下方式确定的:
获取音频文本;
根据从至少一个预设声音特性中确定的目标声音特性,对所述音频文本进行文字转语音处理,得到音频语音;
对所述音频语音进行语音转动作处理,得到所述音频语音对应的姿态信息;所述姿态信息包括身体动作信息和表情信息中的至少一种;所述表情信息包括面部动作信息和唇齿动作信息中的至少一种;
根据所述姿态信息,对目标数字人形象进行渲染,得到动作图像帧;所述目标数字人形象是预设数字人形象中的一个或多个;
对所述音频语音和所述动作图像帧进行合成,得到所述播放序列。
6.根据权利要求5所述的数字人直播方法,其特征在于,所述根据所述姿态信息,对目标数字人形象进行渲染,得到动作图像帧,包括:
确定所述目标数字人形象的身体区域信息、面部区域信息和唇齿区域信息,以及所述目标数字人形象中对应于所述身体区域信息的第一身体部位、对应于所述面部区域信息的第二身体部位以及对应于所述唇齿区域信息的第三身体部位之间的体积比例关系;
分别根据所述身体动作信息、所述面部动作信息以及所述唇齿动作信息,对所述第一身体部位、所述第二身体部位以及所述第三身体部位进行渲染;
根据所述体积比例关系,对渲染后的第一身体部位、渲染后的第二身体部位以及渲染后的第三身体部位进行缩放处理,得到所述动作图像帧。
7.根据权利要求5或6所述的数字人直播方法,其特征在于,所述对所述音频语音进行语音转动作处理,得到所述音频语音对应的身体动作信息,包括:
确定所述音频语音的音强变化信息;
从预设视频库中确定所述音强变化信息对应的目标视频;其中,所述预设视频库中包括至少一个预设视频;每个所述预设视频中包括预设身体动作信息和预设音频语音;所述音强变化信息与所述目标视频中预设音频语音的音强变化信息相匹配;
将所述目标视频中的预设身体动作信息作为所述身体动作信息。
8.根据权利要求5或6所述的数字人直播方法,其特征在于,所述对所述音频语音进行语音转动作处理,得到所述音频语音对应的表情信息,包括:
通过训练好的唇形驱动模型,根据所述音频语音,确定所述音频语音与表情基系数之间的第一映射关系;并根据所述第一映射关系,对所述音频语音进行映射,得到所述表情基系数;
根据所述表情基系数,得到所述表情信息。
9.根据权利要求8所述的数字人直播方法,其特征在于,所述唇形驱动模型是通过以下方式训练得到的:
获取第一训练数据集,所述第一训练数据集中包括多个第一训练样本,每个所述第一训练样本包括第一样本音频语音以及与所述第一样本音频语音对应的第一样本表情基系数;
通过第一神经网络模型提取所述第一样本音频语音和所述第一样本表情基系数之间的第一样本映射关系;根据所述第一样本映射关系,对所述第一样本音频语音进行映射,得到预测表情基系数;根据所述预测表情基系数和所述第一样本表情基系数,确定第一损失值;
根据所述第一损失值训练所述第一神经网络模型,将满足第一训练结束条件的第一神经网络模型确定为所述唇形驱动模型。
10.根据权利要求5或6所述的数字人直播方法,其特征在于,所述获取音频文本,包括:
实时获取通过所述主播客户端采集的第一音频文本;
和/或
预先获取第二音频文本。
11.一种数字人直播装置,其特征在于,所述装置应用于主播客户端,包括:
问题信息采集模块,用于在根据播放序列进行数字人直播的过程中,实时采集观众客户端发起的问题信息;所述播放序列包括至少两个播放时间区间连续的播放片段;
答案信息生成模块,用于确定所述问题信息对应的答案信息和所述答案信息的生成时间;
播放片段确定模块,用于从所述播放片段中确定出与所述生成时间对应的第一播放片段;所述生成时间处于所述第一播放片段的播放时间区间内;
播放序列推流模块,用于根据所述第一播放片段在所述播放序列中的序列位置,将所述答案信息插入至所述播放序列,并将处理后的播放序列推流至所述观众客户端。
12.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序;
所述处理器被配置用于在调用所述计算机程序时,执行权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410010314.3A CN117834935A (zh) | 2024-01-02 | 2024-01-02 | 数字人直播方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410010314.3A CN117834935A (zh) | 2024-01-02 | 2024-01-02 | 数字人直播方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117834935A true CN117834935A (zh) | 2024-04-05 |
Family
ID=90522713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410010314.3A Pending CN117834935A (zh) | 2024-01-02 | 2024-01-02 | 数字人直播方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117834935A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118338029A (zh) * | 2024-06-12 | 2024-07-12 | 江苏物润船联网络股份有限公司 | 一种多数字分身管理方法和系统 |
-
2024
- 2024-01-02 CN CN202410010314.3A patent/CN117834935A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118338029A (zh) * | 2024-06-12 | 2024-07-12 | 江苏物润船联网络股份有限公司 | 一种多数字分身管理方法和系统 |
CN118338029B (zh) * | 2024-06-12 | 2024-09-10 | 江苏物润船联网络股份有限公司 | 一种多数字分身管理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112562720B (zh) | 一种唇形同步的视频生成方法、装置、设备及存储介质 | |
Cao et al. | Expressive speech-driven facial animation | |
Mattheyses et al. | Audiovisual speech synthesis: An overview of the state-of-the-art | |
CN111145322B (zh) | 用于驱动虚拟形象的方法、设备和计算机可读存储介质 | |
WO2018049979A1 (zh) | 一种动画合成的方法及装置 | |
WO2021248473A1 (en) | Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses | |
WO2021259322A1 (zh) | 一种生成视频的系统和方法 | |
US6662161B1 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
US7388586B2 (en) | Method and apparatus for animation of a human speaker | |
US20120130717A1 (en) | Real-time Animation for an Expressive Avatar | |
EP4283577A2 (en) | Text and audio-based real-time face reenactment | |
US20020024519A1 (en) | System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character | |
US7630897B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
JP2009533786A (ja) | 自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法 | |
JPH02234285A (ja) | 画像合成方法及びその装置 | |
JP2003530654A (ja) | キャラクタのアニメ化 | |
US20030163315A1 (en) | Method and system for generating caricaturized talking heads | |
CN117834935A (zh) | 数字人直播方法、装置、电子设备及存储介质 | |
US20040068408A1 (en) | Generating animation from visual and audio input | |
US7117155B2 (en) | Coarticulation method for audio-visual text-to-speech synthesis | |
CN117171392A (zh) | 一种基于神经辐射场和隐属性的虚拟主播生成方法与系统 | |
CN116597857A (zh) | 一种语音驱动图像的方法、系统、装置及存储介质 | |
CN112002005A (zh) | 一种基于云端的远程虚拟协同主持的方法 | |
Liu et al. | Real-time speech-driven animation of expressive talking faces | |
Perng et al. | Image talk: a real time synthetic talking head using one single image with chinese text-to-speech capability |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |