CN116704082A - 虚拟对象驱动方法、装置、电子设备和存储介质 - Google Patents
虚拟对象驱动方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116704082A CN116704082A CN202310691844.4A CN202310691844A CN116704082A CN 116704082 A CN116704082 A CN 116704082A CN 202310691844 A CN202310691844 A CN 202310691844A CN 116704082 A CN116704082 A CN 116704082A
- Authority
- CN
- China
- Prior art keywords
- audio
- dry
- volume
- information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 239000012634 fragment Substances 0.000 claims abstract description 59
- 230000004044 response Effects 0.000 claims description 77
- 238000012545 processing Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000586 desensitisation Methods 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000006243 chemical reaction Methods 0.000 description 24
- 230000003321 amplification Effects 0.000 description 11
- 238000003199 nucleic acid amplification method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000001149 cognitive effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 230000008451 emotion Effects 0.000 description 7
- 230000033764 rhythmic process Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000002441 reversible effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000036651 mood Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
- H04N21/8113—Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8146—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Graphics (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供一种虚拟对象驱动方法、装置、电子设备和存储介质,涉及人工智能技术领域,其中方法包括:获取目标对象的歌曲干声音频和第一干声音频片段,第一干声音频片段包括至少两个第一音频子片段,歌曲干声音频包括至少两个第二干声音频片段;基于各第一音频子片段的音量,确定是否对各第二干声音频片段的音量进行放大处理;在确定对目标第二干声音频片段的音量进行放大处理时,基于目标第二干声音频片段的放大处理后的音量、及除目标第二干声音频片段之外的其他第二干声音频片段的音量对虚拟对象进行驱动。本发明基于目标对象的歌曲干声音频的音量对虚拟对象进行驱动,提高了虚拟对象的驱动与播放的歌曲干声音频的同步性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种虚拟对象驱动方法、装置、电子设备和存储介质。
背景技术
随着社会科技的不断发展和虚拟形象行业的发展,越来越多的人开始进入虚拟直播行业,作为孵化虚拟形象的企业来说,并不想将驱动虚拟形象的中之人与虚拟形象绑定的过紧,防止中之人曝光或劣迹影响虚拟形象的价值。因此,脱离中之人的人工智能(Artificial Intelligence,AI)的虚拟形象的需求及其强烈。
相关技术中,通常是通过系统在直播间中播放歌曲,在播放歌曲的过程中,对虚拟形象的口唇等部位以预设方式进行驱动。
但上述相关技术中,虚拟形象的驱动和播放的歌曲没有关联,从而导致虚拟形象的驱动无法与播放的歌曲同步。
发明内容
本发明提供一种虚拟对象驱动方法、装置、电子设备和存储介质,用以解决现有技术中虚拟形象的驱动无法与播放的歌曲同步的缺陷,实现只要歌曲干声音频有音量就能够驱动虚拟对象,从而提高了虚拟对象的驱动与播放的歌曲干声音频的同步性。
本发明提供一种虚拟对象驱动方法,包括:
获取目标对象的歌曲干声音频和第一干声音频片段,所述第一干声音频片段为所述歌曲干声音频中前预设时间段内的音频;所述第一干声音频片段包括至少两个第一音频子片段,所述歌曲干声音频包括至少两个第二干声音频片段;
基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理;
在确定对目标第二干声音频片段的音量进行放大处理的情况下,基于所述目标第二干声音频片段的放大处理后的音量、以及除所述目标第二干声音频片段之外的其他第二干声音频片段的音量对所述虚拟对象进行驱动。
根据本发明提供的一种虚拟对象驱动方法,各所述第二干声音频片段包括至少两个第二音频子片段;
所述基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理,包括:
基于各所述第一音频子片段的音量,对各所述第二音频子片段的音量进行归一化;
针对各所述第二干声音频片段,基于所述第二干声音频片段中各第二音频子片段归一化后的音量,确定所述第二干声音频片段的第一中位音量;
在所述第一中位音量小于预设值的情况下,确定对所述第二干声音频片段中各所述第二音频子片段归一化后的音量进行放大处理。
根据本发明提供的一种虚拟对象驱动方法,所述基于各所述第一音频子片段的音量,对各所述第二音频子片段的音量进行归一化,包括:
在各所述第一音频子片段的音量中,确定最大音量和第二中位音量;
确定所述最大音量和所述第二中位音量之间的音量差值;
基于所述第二中位音量和所述音量差值对各所述第二音频子片段的音量进行归一化。
根据本发明提供的一种虚拟对象驱动方法,所述获取目标对象的歌曲干声音频,包括:
对原始歌曲干声音频中的声学特征进行编码,得到第一编码信息,所述第一编码信息中包括所述原始歌曲干声音频中的第一音色信息;
基于所述原始歌曲干声音频提取源对象的音色特征,基于所述源对象的音色特征,从所述第一编码信息中剔除所述原始歌曲干声音频中的第一音色信息,得到第二编码信息;
将所述第二编码信息和所述目标对象的音色特征进行融合,得到第三编码信息;
基于所述第三编码信息,确定所述目标对象的歌曲干声音频。
根据本发明提供的一种虚拟对象驱动方法,所述方法还包括:
在接收到目标信息的情况下,采用异步方式基于所述目标信息,获取与所述目标信息对应的响应信息;
在所述响应信息为文本信息的情况下,采用异步方式将所述响应信息转换为初始音频;
基于所述初始音频对应的音量,对所述虚拟对象进行驱动。
根据本发明提供的一种虚拟对象驱动方法,所述基于所述初始音频对应的音量,对所述虚拟对象进行驱动,包括:
对所述初始音频的声学特征进行编码,得到第四编码信息,所述第四编码信息中包括所述初始音频中的第二音色信息;
基于所述初始音频提取初始对象的音色特征,基于所述初始对象的音色特征,从所述第四编码信息中剔除所述初始音频的第二音色信息,得到第五编码信息;
将所述第五编码信息和所述目标对象的音色特征进行融合,得到第六编码信息;
基于所述第六编码信息,确定所述目标音频;
基于所述目标音频对应的音量,对所述虚拟对象进行驱动。
根据本发明提供的一种虚拟对象驱动方法,所述采用异步方式将所述文本信息转换为初始音频,包括:
在所述响应信息中包括敏感信息的情况下,对所述响应信息进行脱敏处理;所述脱敏处理包括将所述响应信息中的敏感信息替换为预设信息,或者,将所述响应信息中的敏感信息删除;
采用异步方式将脱敏处理后的响应信息转换为所述初始音频。
根据本发明提供的一种虚拟对象驱动装置,包括:
第一获取单元,用于获取目标对象的歌曲干声音频和第一干声音频片段,所述第一干声音频片段为所述歌曲干声音频中前预设时间段内的音频;所述第一干声音频片段包括至少两个第一音频子片段,所述歌曲干声音频包括至少两个第二干声音频片段;
确定单元,用于基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理;
第一驱动单元,用于在确定对目标第二干声音频片段的音量进行放大处理的情况下,基于所述目标第二干声音频片段的放大处理后的音量、以及除所述目标第二干声音频片段之外的其他第二干声音频片段的音量对所述虚拟对象进行驱动。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述虚拟对象驱动方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述虚拟对象驱动方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述虚拟对象驱动方法。
本发明提供的虚拟对象驱动方法、装置、电子设备和存储介质,获取目标对象的歌曲干声音频和歌曲干声音频中前预设时间段内的第一干声音频片段,将第一干声音频片段划分为至少两个第一音频子片段,并将歌曲干声音频划分为至少两个第二干声音频片段,在基于各第一音频子片段的音量确定需要对目标第二干声音频片段的音量进行方法处理的情况下,基于目标第二干声音频片段的放大处理后的音量、以及除目标第二干声音频片段之外的其他第二干声音频片段的音量对虚拟对象进行驱动。可知,本发明是基于目标对象的歌曲干声音频的音量对虚拟对象进行驱动,且将需要音量放大处理的目标第二干声音频片段的音量进行放大,避免目标第二干声音频片段的音量较小时无法驱动虚拟对象,实现了只要歌曲干声音频有音量就能够驱动虚拟对象动作,从而提高了虚拟对象的驱动与播放的歌曲干声音频的同步性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的虚拟对象驱动方法的流程示意图之一;
图2是本发明提供的虚拟对象驱动方法的流程示意图之二;
图3是本发明提供的虚拟对象驱动方法的流程示意图之三;
图4是本发明实施例提供的多队列异步通信机制的示意图;
图5是本发明实施例提供的响应信息的生成流程示意图;
图6是本发明提供的虚拟对象驱动装置的结构示意图;
图7是本发明提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于Live2D模型或3D动捕设备的虚拟对象在直播中,大多使用中之人,不论是说话、唱歌、动作都是中之人驱动虚拟对象进行直播展示。近期随着以ChatGPT为代表的认知大模型的出现,也出现基于认知大模型来回复用户问题、与用户沟通交流的完全AI虚拟对象的直播。现有的虚拟对象在直播中,特别是在完全AI直播的场景中,在播放一首完整的歌曲时,无法通过播放的歌曲驱动虚拟形象的口唇等部位进行动作,导致虚拟形象的驱动无法与播放的歌曲同步,让用户趣味性和可玩性大幅降低。
基于此,本发明提供一种虚拟对象驱动方法,基于目标对象的歌曲干声音频的音量对虚拟对象进行驱动,且将需要音量放大处理的目标第二干声音频片段的音量进行放大,避免目标第二干声音频片段的音量较小时无法驱动虚拟对象,实现了只要歌曲干声音频有音量就能够驱动虚拟对象动作,从而提高了虚拟对象的驱动与播放的歌曲干声音频的同步性,让用户趣味性和可玩性大幅提高。
下面结合图1-图5描述本发明的虚拟对象驱动方法。
图1是本发明实施例提供的虚拟对象驱动方法的流程示意图之一,本方法的执行主体可以是终端设备或者计算机等电子设备,也可以是设置在该电子设备中的虚拟对象驱动装置,该虚拟对象驱动装置可以通过软件、硬件或两者的结合来实现。本方法可以应用在通过虚拟对象进行直播的应用场景,或者通过虚拟对象进行主持等应用场景中。如图1所示,该虚拟对象驱动方法包括以下步骤:
步骤101、获取目标对象的歌曲干声音频和第一干声音频片段,所述第一干声音频片段为所述歌曲干声音频中前预设时间段内的音频;所述第一干声音频片段包括至少两个第一音频子片段,所述歌曲干声音频包括至少两个第二干声音频片段。
其中,目标对象可以为目标歌手,目标对象的歌曲干声音频为在应用场景中采用目标歌手的音色播放的歌曲对应的音频;目标对象还可以为虚拟歌手,虚拟歌手的音色可以为预设的甜美的音色、女性音色等,目标对象的歌曲干声音频可以为一整首歌曲对应的干声音频;由于每首歌曲的干声音频的音量可能不同,为了驱动虚拟对象的口唇等部位的动作不受干声音频本身默认音量差异的影响,需要获取歌曲干声音频中前预设时间段内的第一干声音频片段,基于第一干声音频片段计算基准音量。通常歌曲中人声出现在30秒(s)前,所以为了确保采样准确,可以将预设时间段设置为60s。
示例地,由于同一首歌曲根据演唱情绪和节奏的变化,所以在获取到歌曲干声音频中前预设时间段内的第一干声音频片段时,还可以进一步对第一干声音频片段按照第一预设时间区间进行划分,得到至少两个第一音频子片段,第一预设时间区间可以基于需求进行设定,例如,第一预设时间区间可以为100毫秒(ms);另外,为了实现虚拟对象的口唇等部位只要有人声就产生波动效果,还需要将目标对象的歌曲干声音频基于第二预设时间区间进行划分,得到至少两个第二干声音频片段;第二预设时间区间可以基于需求进行设定,例如,第二预设时间区间可以为1s。
需要说明的是,本发明中可以管理应用场景中的各个歌曲干声音频,即将各个歌曲干声音频存储在音频列表中。
步骤102、基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理。
示例地,在获取到各第一音频子片段和各第二干声音频片段时,计算各第一音频子片段的音量和各第二干声音频片段的音量,然后针对各第二干声音频片段,基于各第一音频子片段的音量,确定第二干声音频片段的音量是否小于预设值,将小于预设值的音量对应的第二干声音频片段确定为目标第二干声音频片段,将目标第二干声音频片段确定为需要进行音量放大处理的片段;将大于或等于预设值的音量对应的第二干声音频片段确定为其他第二干声音频片段,将其他第二干声音频片段确定为不需要进行音量放大处理的片段。
具体计算音量的方法如下:
1)针对各第一音频子片段,将第一音频子片段转化为字节数组byte[]buffer,设置字节数组的长度为r。
2)基于以下公式(1)进行字节数组平方和计算:
其中,buffer[i]表示字节数组中数组元素对应的音频数据,i为数组元素的序号,v表示第一音频子片段对应的音量。
3)基于以下公式(2)计算第一音频子片段对应的音量的平均值mean。
4)在确定平均值mean大于预设阈值时,确定第一音频子片段的音量=10*log10(mean);在确定平均值mean小于或等于预设阈值时,确定第一音频子片段的音量为零,音量的单位为分贝;预设阈值可以基于需求进行设定,例如,预设阈值可以为0.1。
需要说明的是,第二干声音频片段的音量计算方法和第一音频子片段的音量计算方法相同,本发明在此不再赘述。
步骤103、在确定对目标第二干声音频片段的音量进行放大处理的情况下,基于所述目标第二干声音频片段的放大处理后的音量、以及除所述目标第二干声音频片段之外的其他第二干声音频片段的音量对所述虚拟对象进行驱动。
示例地,在确定目标第二干声音频片段的音量小于预设值时,说明目标第二干声音频片段的音量太小,此时需要将目标第二干声音频片段的音量进行放大处理,具体可以以预设倍数进行放大处理,预设倍数可以为1倍等,得到目标第二干声音频片段的放大处理后的音量;而大于或等于预设值的音量对应的其他第二干声音频片段由于音量较高,所以无需对其他第二干声音频片段的音量进行放大处理;最后基于各目标第二干声音频片段的放大处理后的音量、以及除目标第二干声音频片段之外的其他第二干声音频片段的音量对虚拟对象进行驱动;具体地,向面捕软件(VTube Studio,VTS)发送第一自定义参数消息,在该第一自定义参数消息中携带各目标第二干声音频片段的放大处理后的音量、以及除目标第二干声音频片段之外的其他第二干声音频片段的音量,使得VTS基于各目标第二干声音频片段的放大处理后的音量、以及除目标第二干声音频片段之外的其他第二干声音频片段的音量控制虚拟对象动作。
需要说明的是,对虚拟对象进行驱动可以包括控制虚拟对象的口唇进行张合,还可以控制虚拟对象的表情或者肢体等部位,本发明对此不做限定。
需要说明的是,还可以将与歌曲干声音频对应的歌曲伴奏音频的音量携带在第一自定义参数消息中,使得VTS还能够基于歌曲伴奏音频的音量对虚拟对象进行驱动,本发明对此不做限定。
需要说明的是,在获取到的目标对象的歌曲干声音频的音频格式不为wav格式时,需要先将歌曲干声音频的音频格式转化为wav格式;当然,若电子设备能够兼容不为wav格式的音频格式时,也可以不对歌曲干声音频的音频格式进行转化,本发明对此不做限定。
需要说明的是,在向VTS发送携带各目标第二干声音频片段的放大处理后的音量、以及除目标第二干声音频片段之外的其他第二干声音频片段的音量的第一自定义参数消息时,还需要同时将目标对象的歌曲干声音频发送至扬声器,通过扬声器在应用场景中播放目标对象的歌曲干声音频,以实现在应用场景中播放目标对象的歌曲干声音频的过程中,虚拟对象的口唇等部位能够同步动作。当然,也可以将目标对象的歌曲干声音频和歌曲伴奏音频均发送至扬声器,通过扬声器在应用场景中播放目标对象的歌曲干声音频和歌曲伴奏音频。
本发明提供的虚拟对象驱动方法,获取目标对象的歌曲干声音频和歌曲干声音频中前预设时间段内的第一干声音频片段,将第一干声音频片段划分为至少两个第一音频子片段,并将歌曲干声音频划分为至少两个第二干声音频片段,在基于各第一音频子片段的音量确定需要对目标第二干声音频片段的音量进行方法处理的情况下,基于目标第二干声音频片段的放大处理后的音量、以及除目标第二干声音频片段之外的其他第二干声音频片段的音量对虚拟对象进行驱动。可知,本发明是基于目标对象的歌曲干声音频的音量对虚拟对象进行驱动,且将需要音量放大处理的目标第二干声音频片段的音量进行放大,避免目标第二干声音频片段的音量较小时无法驱动虚拟对象,实现了只要歌曲干声音频有音量就能够驱动虚拟对象动作,从而提高了虚拟对象的驱动与播放的歌曲干声音频的同步性。
在一实施例中,各所述第二干声音频片段包括至少两个第二音频子片段,图2是本发明实施例提供的虚拟对象驱动方法的流程示意图之二,如图2所示,上述步骤102具体可通过以下方式实现:
步骤1021、基于各所述第一音频子片段的音量,对各所述第二音频子片段的音量进行归一化。
为了使得播放器和VTS能够达到音画同步的效果,针对各第二干声音频片段,可以将第二干声音频片段基于预设时间子区间进行划分,得到第二干声音频片段对应的至少两个第二音频子片段;预设时间子区间可以基于需求进行设定,例如,预设时间子区间可以为100ms。
示例地,在计算得到各第一音频子片段的音量时,基于各第一音频子片段的音量组成音量时间序列,从音量时间序列中确定基准参数,将基准参数确定为全局音量数据,基于基准参数对各第二音频子片段的音量进行归一化,,将归一化后的音量确定为区间音量数据,由于歌曲干声音频文件的格式、采样率、比特率以及声道等不固定,而且同一首歌曲根据演唱情绪和节奏的变化,不同时间段音量分布会有波动,所以本发明基于全局音量数据和区间音量数据进行比对修正,让音量波动更明显,达到虚拟对象的口唇张闭的效果,归一化计算是为了将各第二音频子片段的音量的数值映射到0到1的区间范围。
需要说明的是,第二音频子片段的音量计算方法和第一音频子片段的音量计算方法相同,本发明在此不再赘述。
步骤1022、针对各所述第二干声音频片段,基于所述第二干声音频片段中各第二音频子片段归一化后的音量,确定所述第二干声音频片段的第一中位音量。
示例地,遍历各第二干声音频片段,将当前遍历的第二干声音频片段中各第二音频子片段归一化后的音量按照从小到大的顺序进行排序,得到排序后的音量序列,从排序后的音量序列中获取中位音量,并将从排序后的音量序列中获取的中位音量确定为当前遍历的第二干声音频片段的第一中位音量,按照此方法可以得到每个第二干声音频片段的第一中位音量。
步骤1023、在所述第一中位音量小于预设值的情况下,确定对所述第二干声音频片段中各所述第二音频子片段归一化后的音量进行放大处理。
示例地,在确定第二干声音频片段的第一中位音量时,将第一中位音量与预设值进行比较,在确定第一中位音量小于预设值时,说明对应的第二干声音频片段的音量较低,此时将该第二干声音频片段确定为目标第二干声音频片段,需要对目标第二干声音频片段归一化后的音量进行放大处理,以避免音量较低时无法驱动虚拟对象的口唇等部位动作;在确定第一中位音量大于或等于预设值时,说明对应的第二干声音频片段的音量较大,此时将该第二干声音频片段确定为其他第二干声音频片段,无需对其他第二干声音频片段归一化后的音量进行放大处理。
在本实施例中,采样的各第二音频子片段对应的数据较小,在对整个歌曲干声音频进行遍历时,以采样100ms的第二音频子片段为一个时间窗口进行滑块滚动,先向系统的播放器发送当前的第二音频子片段的数据,同时向VTS发送当前的第二音频子片段对应的目标音量。因为采样数据小,所以播放器和VTS的响应较快,从而能够达到音画同步的效果。这里,音画中的音指的是播放器播放当前的第二音频子片段的声音,音画中的画指的是虚拟对象的口唇等部位的动作;另外,在对当前的第二音频子片段归一化后的音量进行放大处理时,则目标音量为当前的第二音频子片段放大处理后的音量;在对当前的第二音频子片段归一化后的音频没有进行放大处理时,则目标音量为当前的第二音频子片段归一化后的音量。
在本实施例中,在第二干声音频片段的第一中位音量小于预设值时,对第二干声音频片段中各第二音频子片段归一化后的音量进行放大处理,以避免音量较低时无法驱动虚拟对象的口唇等部位动作,实现了只要歌曲干声音频有音量就能够驱动虚拟对象动作,提高了虚拟对象的驱动与播放的歌曲干声音频的同步性。
在一实施例中,上述步骤1021具体可通过以下方式实现:
在各所述第一音频子片段的音量中,确定最大音量和第二中位音量;确定所述最大音量和所述第二中位音量之间的音量差值;基于所述第二中位音量和所述音量差值对各所述第二音频子片段的音量进行归一化。
示例地,在由各第一音频子片段的音量组成的音量时间序列中,将各第一音频子片段的音量按照从小到大的顺序进行排序,得到新的音量时间序列,并在新的音量时间序列中获取最大音量max和第二中位音量mid,计算最大音量max和第二中位音量mid之间的音量差值,即音量差值diff=max-mid,将音量差值diff和第二中位音量mid确定为基准参数,然后基于以下公式(3)对各第二音频子片段的音量进行归一化。
aj=(bj-mid)/diff (3)
其中,a表示第j个第二音频子片段归一化后的音量,bj表示第j个第二音频子片段的音量,j的取值为1到n,n表示第二音频子片段的总数量。
在本实施例中,基于音量差值和第二中位音量对各第二音频子片段的音量进行归一化,使得各第二音频子片段归一化后的音量更加准确。
在一实施例中,上述步骤101中获取目标对象的歌曲干声音频,具体可通过以下方式实现:
对原始歌曲干声音频中的声学特征进行编码,得到第一编码信息,所述第一编码信息中包括所述原始歌曲干声音频中的第一音色信息;基于所述原始歌曲干声音频提取源对象的音色特征,基于所述源对象的音色特征,从所述第一编码信息中剔除所述原始歌曲干声音频中的第一音色信息,得到第二编码信息;将所述第二编码信息和所述目标对象的音色特征进行融合,得到第三编码信息;基于所述第三编码信息,确定所述目标对象的歌曲干声音频。
其中,源对象可以为源歌手,即歌唱原始歌曲干声音频对应的歌曲的人员。
具体地,通过预先训练的歌曲转换模型,对原始歌曲干声音频的声学特征进行编码,得到第一编码信息,基于原始歌曲干声音频中源对象的音色特征,从第一编码信息中剔除原始歌曲干声音频中的第一音色信息,得到第二编码信息,将第二编码信息与目标对象的音色特征进行融合,得到第三编码信息;通过对原始歌曲干声音频的基频信息以及第三编码信息进行解码,生成目标对象的歌曲干声音频。
其中,歌曲转换模型包括:编码网络、音色编码网络、可逆概率分布模型和解码网络。
示例地,在歌曲转换模型应用过程中,将原始歌曲干声音频输入至音色编码网络,通过音色编码网络对原始歌曲干声音频的声学特征进行编码,得到原始歌曲干声音频中源对象的音色特征;其中,原始歌曲干声音频的声学特征可以为语音波形特征、线性幅度谱特征、梅尔频谱特征等;并将原始歌曲干声音频的声学特征输入到编码网络中,通过编码网络对原始歌曲干声音频的声学特征进行编码,得到第一编码信息。然后将第一编码信息和源对象的音色特征输入至可逆概率分布模型中,通过可逆概率分布模型进行正变换得到与音色无关的第二编码信息,再将第二编码信息和目标对象的音色特征再次输入至可逆概率分布模型中,通过可逆概率分布模型进行逆变换得到具有目标对象的音色特征的第三编码信息,最后将该第三编码信息传输到解码网络中。解码网络通过对原始歌曲干声音频的基频信息以及第三编码信息进行解码,得到目标对象的歌曲干声音频。
需要说明的是,由于在对第三编码信息进行解码过程中,可能会存在基频抖动、不连续等问题,影响解码后生成的歌曲干声音频的音准。在歌曲干声音频制作过程中,音准是影响制作的音频效果的基本因素之一,而歌曲干声音频的基频信息是体现音准效果的数据,在歌曲干声音频制作中可以根据基频信息来保证歌曲干声音频的音准效果。因此,为了保证制作出的歌曲干声音频具有稳定的音准效果,本实施例需要对原始歌曲干声音频进行基频提取,得到该原始干声音频的基频信息,在对第三编码信息进行解码的同时,利用原始干声音频的基频信息进行音准的控制,以使解码后生成的歌曲干声音频具有稳定连续的基频,符合原始歌曲干声音频的基频信息对应的音准,从而提高歌曲干声音频的音准效果。
对于原始歌曲干声音频的基频提取,本实施例可以采用现有的语音信号处理工具,如,STRAIGHT、Praat、WORLD等,还可以采用预先训练好的基于神经网络的基频提取模型,该基频提取模型为现有的模型,本实施例不再具体赘述。
进一步地,在采用上述基频提取方式对原始歌曲干声音频进行基频提取时,可能会存在基频提取不准的问题,例如,清浊音错误、半/二倍频问题、喉声提取不准等问题,从而影响最终确定的歌曲干声音频的效果。因此,本实施例在提取到原始歌曲干声音频的基频信息之后,还需要对该基频信息进行检查和修正,以保证该基频信息与原始歌曲干声音频的基频是相同的,从而达到发行级别的目标对象的歌曲干声音频。
本实施例中,编码网络和解码网络与变分自编码器中的后验编码网络和解码网络相同,音色编码网络可以采用现有的对语音进行音色提取的网络,可逆概率分布模型可以采用Glow模型或者NICE流模型等,本实施例在此不再阐述。
需要说明的是,为了保证原始歌曲干声音频的声学特征的准确度,源歌手在对原始歌曲干声音频进行真人演绎录制时,需要在无噪声的录音室内录制,从而能够保证获取到的原始歌曲干声音频为高保真演唱歌曲干声。由于真人歌手演唱歌曲时能够体现出歌唱细节,例如,演唱歌曲时的情感、韵律或者语气等。因此,原始歌曲干声音频中不仅包含发音内容信息、音色信息,还包含源歌手演唱时的歌唱细节信息,那么,对原始歌曲干声音频的声学特征进行编码后的第一编码信息中也包括发音内容信息、源歌手的音色信息以及歌唱细节信息,其中歌唱细节信息至少包括情感信息、韵律信息、语气信息中的至少一种。所以最终得到的目标对象的歌曲干声音频中包含有目标对象的音色信息,还包含有源对象的歌唱细节信息。
需要说明的是,在训练歌曲转换模型时,可以收集一些目标对象的歌曲干声音频样本,基于多个歌曲干声音频样本对初始歌曲转换模型进行训练,得到歌曲转换模型。该歌曲干声音频样本需要在高保真录音环境下录制,数据格式可以为48kHz/16bit,歌曲干声音频样本的长度可以为预设长度,例如,预设长度为十五秒。
在本实施例中,确定原始歌曲干声音频的音色特征,然后根据原始歌曲干声音频的音色特征,将原始歌曲干声音频对应的第一编码信息中的源对象的第一音色信息剔除掉,从而得到不包含源对象的音色信息(即与音色无关)的第二编码信息,该第二编码信息仅仅是将源对象的第一音色信息剔除,因此第二编码信息种依旧包含有源对象的歌唱细节信息,再将第二编码信息与目标对象的音色特征进行融合,从而得到包括目标对象的音色特征的第三编码信息,该第三编码信息包括目标对象的音色特征和源对象的歌唱细节信息。即只将源对象真人演唱的源歌曲对应的原始歌曲干声音频中的音色替换为目标对象的音色,保留源歌曲中的情感、韵律或语气等细节,实现了将包括源对象的音色的原始歌曲干声音频至包括目标对象的音色的歌曲干声音频的转换。
为保证对用户发送的目标信息回复的及时性,本发明采用多队列、异步处理的设计,将整个流程分为消息预处理队列、对话模型待处理队列、声音合成待处理队列和待播放队列。每个队列对应的线程独立互不干扰,非阻塞,每个队列在完成本阶段处理后即可加入下一流程的处理,这样可以保证多个目标信息的并行处理,当存在多个目标信息时,待播放队列的播放间隔可基于需求自适应调整。
在一实施例中,图3是本发明实施例提供的虚拟对象驱动方法的流程示意图之三,如图3所示,该虚拟对象驱动方法还包括以下步骤:
步骤104、在接收到目标信息的情况下,采用异步方式基于所述目标信息,获取与所述目标信息对应的响应信息。
其中,目标信息可以为用户发送的弹幕信息,也可以为预先存储的用于在应用场景中播放的信息,例如,在直播场景中,目标信息可以为“欢迎来到直播间”。响应信息即为针对目标信息的回复信息。
示例地,在接收到各目标信息的情况下,可以通过消息预处理队列对各目标信息进行预处理,然后将预处理后的目标信息发送至对话模型待处理队列,对话模型待处理队列调用问答模型,将预处理后的目标信息输入至问答模型中,得到问答模型输出的响应信息,该响应信息可以为文本信息,也可以为音频信息。在响应信息为文本信息的情况下,将该响应信息发送至声音合成待处理队列;其中,回答模型可以为认知大模型,将预处理后的目标信息作为问题,再结合预置的Prompt一并作为消息提交给认知大模型,例如,认知大模型可以为ChatGPT(Chat Generative Pre-trained Transformer)或者讯飞星火大模型(IFlytek Spark)等,认知大模型返回响应信息。另外,为了得到符合预期的回答,该Prompt需要依据虚拟对象的具体情况进行定制调教,包括虚拟对象的年龄、姓名等基本信息;性格、爱好等人物特点;朋友、偶像等人际关系以及社会定位等信息。
其中,对目标信息进行预处理具体包括以下至少一项:基于过滤规则对目标信息进行预处理、基于信息的优先级对目标信息进行预处理、或者基于消息处理池的最大长度对目标信息进行预处理等。
其中,过滤规则可以为:大于预设字符数的目标信息为有效信息,以减少低质量信息;即在目标信息的字符数小于预设字符数时,将该目标信息确认为低质量信息,丢弃该目标信息;在目标信息的字符数大于或等于预设字符数时,将该目标信息确定为有效信息发送至对话模型待处理队列。
过滤规则还可以为过滤包括敏感信息的目标信息。
过滤规则还可以为将带特定字符的目标信息确定为有效信息,特定字符可以为“?”等;例如,目标信息为“**产品已经上车了吗?”,则确定该目标信息为有效信息,即不被过滤的信息;例如,目标信息为“这个产品我上次买了!”,则确定该目标信息为无效信息,即需要被过滤掉的信息。
在目标信息为弹幕信息时,过滤规则还可以是按照弹幕信息的生成时间获取有效信息,即在将当前目标信息处理完成后,获取最新生成的一条弹幕信息作为有效信息。
预设设置信息的优先级例如可以为:平台礼物信息的优先级大于弹幕信息的优先级。即优先处理优先级高的目标信息,例如在接收到的目标信息为平台礼物信息时,则将该目标信息确定为有效信息,优先处理。
基于消息处理池的最大长度对目标信息进行预处理可以为:在消息处理池有空闲时,将目标信息发送至对话模型待处理队列;在消息处理池没有空闲时,丢弃该目标信息。另外,在消息处理池有空闲时,还可以将优先级低的目标信息发送至对话模型待处理队列,例如,在目标信息为弹幕信息时,可以将该目标信息发送至对话模型待处理队列。
步骤105、在所述响应信息为文本信息的情况下,采用异步方式将所述响应信息转换为初始音频。
示例地,通过声音合成待处理队列接收对话模型待处理队列发送的响应信息,为了达到完全AI的应用场景,例如,达到完全AI直播,声音合成待处理队列在接收到响应信息时,可以调用文本转语音(Text-To-Speech,TTS)模型,将响应信息基于TTS模型转换为初始音频,该初始音频中包括初始对象的音色信息,初始对象可以为预设用户,也可以为自动生成的具有音色信息的音频。
需要说明的是,在响应信息为音频信息的情况下,直接基于响应信息对应的音量对虚拟对象进行驱动。
步骤106、基于所述初始音频对应的音量,对所述虚拟对象进行驱动。
示例地,声音合成待处理队列在得到初始音频时,将初始音频发送至待播放队列,通过待播放队列计算初始音频对应的音量,并将初始音频对应的音量发送至VTS,使得VTS基于初始音频对应的音量控制虚拟对象动作。
需要说明的是,上述各队列、以及队列中的各模型之间的通信均使用异步通信机制。
图4是本发明实施例提供的多队列异步通信机制的示意图,如图4所示,包括消息预处理队列、对话模型待处理队列、声音合成待处理队列和待播放队列;通过消息预处理队列对各目标信息进行预处理,然后将预处理后的目标信息发送至对话模型待处理队列,对话模型待处理队列调用问答模型,将预处理后的目标信息输入至问答模型中,得到问答模型输出的响应信息。
在响应信息为文本信息的情况下,将该响应信息发送至声音合成待处理队列;声音合成待处理队列在接收到响应信息时,可以调用TTS模型,将响应信息基于TTS模型转换为初始音频,再基于语音转换模型将初始音频转换为包括目标对象的音色特征的目标音频,将包括目标对象的音色特征的目标音频发送至待播放队列,通过待播放队列计算目标音频的音量,并基于目标音频的音量对虚拟对象进行驱动。
在本实施例中,通过多队列异步处理方式确定接收到的目标信息的响应信息,并将响应信息转换为初始音频,基于初始音频对应的音量对虚拟对象进行驱动,同时通过播放器播放初始音频,提高了初始音频播放的及时性,同时也提高了基于初始音频的音量对虚拟对象进行驱动的及时性。
在一实施例中,上述基于所述初始音频对应的音量,对所述虚拟对象进行驱动,具体可通过以下方式实现:
对所述初始音频的声学特征进行编码,得到第四编码信息,所述第四编码信息中包括所述初始音频中的第二音色信息;基于所述初始音频提取初始对象的音色特征,基于所述初始对象的音色特征,从所述第四编码信息中剔除所述初始音频的第二音色信息,得到第五编码信息;将所述第五编码信息和所述目标对象的音色特征进行融合,得到第六编码信息;基于所述第六编码信息,确定所述目标音频;基于所述目标音频对应的音量,对所述虚拟对象进行驱动。
具体地,通过预先训练的语音转换模型,对初始音频的声学特征进行编码,得到第四编码信息,基于初始音频中初始对象的音色特征,从第四编码信息中剔除初始音频中的第二音色信息,得到第五编码信息,将第五编码信息与目标对象的音色特征进行融合,得到第六编码信息;通过对初始音频的基频信息以及第六编码信息进行解码,生成目标音频,基于目标音频的音量对虚拟对象进行驱动。
其中,语音转换模型与上述歌曲转换模型的网络结构相同,具体可参考歌曲转换模型的相关描述,本发明在此不再赘述。
示例地,在得到初始音频时,声音合成待处理队列再调用语音转换模型,将初始音频输入至语音转换模型中,通过语音转换模型将初始音频中初始对象的音色特征替换为目标对象的音色特征,得到语音转换模型输出的目标音频,目标音频即为需要在应用场景中播放的语音,该目标音频中包括目标对象的音色特征以及初始对象的声学细节信息,例如音频内容、初始对象的情感、韵律和语气等信息。
可选地,基于目标音频对应的音量对虚拟对象进行驱动,具体可通过以下方式实现:
获取目标音频的前目标预设时间段的目标音频片段,将目标音频片段划分为至少两个第三音频子片段,确定各第三音频子片段的音量,将各第三音频子片段的音量从小到大进行排序,得到目标音量时间序列,从目标音量时间序列中获取目标最大音量和目标中位音量,并确定目标最大音量与目标中位音量之间的目标音量差值,基于目标音量差值和目标中位音量对各第三音频子片段的音量进行归一化,基于各第三音频子片段归一化后的音量对虚拟对象进行驱动。
其中,针对说话场景,也就是语音场景,声音是由TTS模块和语音转换模型合成的,目标音频的音量相对固定,所以可以采集目标音频的前目标预设时间段的目标音频片段进行音量基准的计算即可,目标预设时间段可以基于需求进行设定,例如,目标预设时间段可以为10s。
示例地,声音合成待处理队列在得到目标音频时,将目标音频发送至待播放队列,通过待播放队列确定目标音频对应的各第三音频子片段归一化后的音量,并基于各第三音频子片段归一化后的音量对虚拟对象进行驱动;基于目标音量差值和目标中位音量对各第三音频子片段的音量进行归一化的过程可以参考上述公式(3),本发明在此不再赘述。
具体地,基于各第三音频子片段归一化后的音量对虚拟对象进行驱动具体为:向VTS发送第二自定义参数消息,在该第二自定义参数消息中携带各第三音频子片段归一化后的音量,使得VTS基于各第三音频子片段归一化后的音量控制虚拟对象动作。
需要说明的是,对虚拟对象进行驱动可以包括控制虚拟对象的口唇进行张合,即控制虚拟对象在应用场景中说话,还可以控制虚拟对象的表情或者肢体等部位,本发明对此不做限定。
需要说明的是,在向VTS发送携带各第三音频子片段归一化后的音量的第二自定义参数消息时,还需要同时将目标音频发送至扬声器,通过扬声器在应用场景中播放目标音频,以实现在应用场景中播放目标音频的过程中,虚拟对象的口唇等部位能够同步动作。
需要说明的是,由于同一个人说话和歌唱的声学特征不相同,所以在训练语音转换模型时,需要收集一些目标对象的语音干声音频样本,也就是说话干声音频样本,基于多个语音干声音频样本对初始语音转换模型进行训练,得到语音转换模型。该语音干声音频样本需要在高保真录音环境下录制,数据格式可以为48kHz/16bit,语音干声音频样本的长度可以与上述歌曲干声音频样本的长度相同,例如,语音干声音频样本的长度也为预设长度,例如,预设长度为十五秒。
本实施例中,确定初始音频的音色特征,然后根据初始音频的音色特征,将初始音频对应的第四编码信息中的初始对象的第二音色信息剔除掉,从而得到不包含初始对象的音色信息(即与音色无关)的第五编码信息,该第五编码信息仅仅是将初始对象的第二音色信息剔除,因此第五编码信息中依旧包含有初始对象的语音细节信息,再将第五编码信息与目标对象的音色特征进行融合,从而得到包括目标对象的音色特征的第六编码信息,该第六编码信息包括目标对象的音色特征和初始对象的语音细节信息。即只将初始音频中的音色替换为目标对象的音色,保留初始音频中的情感、韵律或语气等细节,实现了将包括初始对象的音色的初始音频至包括目标对象的音色的目标音频的转换。由于目标音频和歌曲干声音频中均包括目标对象的音色,从而保证应用场景中说话的音色和播放的歌曲的音色一致。
在一实施例中,上述采用异步方式将所述响应信息转换为初始音频,具体可通过以下方式实现:
在所述响应信息中包括敏感信息的情况下,对所述响应信息进行脱敏处理;所述脱敏处理包括将所述响应信息中的敏感信息替换为预设信息,或者,将所述响应信息中的敏感信息删除;采用异步方式将脱敏处理后的响应信息转换为所述初始音频。
示例地,在获取到响应信息时,基于敏感词数据库确定响应信息中是否包含敏感词数据库中的敏感信息,在确定响应信息中包含敏感词数据库中的敏感信息时,确定该响应信息为不安全的响应信息,可以将响应信息中的敏感信息替换为预设信息,得到脱敏处理后的响应信息,例如,预设信息可以为某某、叉叉等,具体可基于需求设定预设信息;还可以将响应信息中的敏感信息删除,得到脱敏处理后的响应信息,再采用异步方式将脱敏处理后的响应信息转换为初始音频,使得最终播放器播放的初始音频中不包含敏感信息。
在确定响应信息中不包含敏感词数据库中的敏感信息时,确定该响应信息为安全的响应信息,直接采用异步方式将响应信息转换为初始音频即可。
图5是本发明实施例提供的响应信息的生成流程示意图,如图5所示,在接收到目标信息时,将目标信息输入至认知大模型,认知大模型输出目标信息对应的响应信息,并将响应信息进行审核,若响应信息合格,则将响应信息进行说话合成,得到初始音频,将初始音频基于语音转换模型进行转换,得到包括目标对象的音色特征的目标音频,基于目标音频的音量对虚拟对象进行驱动。
在本实施例中,在获取到每个响应信息时,对每个响应信息进行审核,在响应信息中包括敏感信息时,对响应信息进行脱敏处理,基于脱敏处理后的响应信息确定目标音频,从而提高了应用场景中播放目标音频的安全性。
下面对本发明提供的虚拟对象驱动装置进行描述,下文描述的虚拟对象驱动装置与上文描述的虚拟对象驱动方法可相互对应参照。
图6是本发明实施例提供的虚拟对象驱动装置的结构示意图,如图6所示,该虚拟对象驱动装置600包括第一获取单元601、确定单元602和第一驱动单元603;其中:
第一获取单元601,用于获取目标对象的歌曲干声音频和第一干声音频片段,所述第一干声音频片段为所述歌曲干声音频中前预设时间段内的音频;所述第一干声音频片段包括至少两个第一音频子片段,所述歌曲干声音频包括至少两个第二干声音频片段;
确定单元602,用于基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理;
第一驱动单元603,用于在确定对目标第二干声音频片段的音量进行放大处理的情况下,基于所述目标第二干声音频片段的放大处理后的音量、以及除所述目标第二干声音频片段之外的其他第二干声音频片段的音量对所述虚拟对象进行驱动。
本发明提供的虚拟对象驱动装置,获取目标对象的歌曲干声音频和歌曲干声音频中前预设时间段内的第一干声音频片段,将第一干声音频片段划分为至少两个第一音频子片段,并将歌曲干声音频划分为至少两个第二干声音频片段,在基于各第一音频子片段的音量确定需要对目标第二干声音频片段的音量进行方法处理的情况下,基于目标第二干声音频片段的放大处理后的音量、以及除目标第二干声音频片段之外的其他第二干声音频片段的音量对虚拟对象进行驱动。可知,本发明是基于目标对象的歌曲干声音频的音量对虚拟对象进行驱动,且将需要音量放大处理的目标第二干声音频片段的音量进行放大,避免目标第二干声音频片段的音量较小时无法驱动虚拟对象,实现了只要歌曲干声音频有音量就能够驱动虚拟对象动作,从而提高了虚拟对象的驱动与播放的歌曲干声音频的同步性。
基于上述任一实施例,各所述第二干声音频片段包括至少两个第二音频子片段;所述确定单元602具体用于:
基于各所述第一音频子片段的音量,对各所述第二音频子片段的音量进行归一化;
针对各所述第二干声音频片段,基于所述第二干声音频片段中各第二音频子片段归一化后的音量,确定所述第二干声音频片段的第一中位音量;
在所述第一中位音量小于预设值的情况下,确定对所述第二干声音频片段中各所述第二音频子片段归一化后的音量进行放大处理。
基于上述任一实施例,所述确定单元602还具体用于:
在各所述第一音频子片段的音量中,确定最大音量和第二中位音量;
确定所述最大音量和所述第二中位音量之间的音量差值;
基于所述第二中位音量和所述音量差值对各所述第二音频子片段的音量进行归一化。
基于上述任一实施例,所述第一获取单元601具体用于:
对原始歌曲干声音频中的声学特征进行编码,得到第一编码信息,所述第一编码信息中包括所述原始歌曲干声音频中的第一音色信息;
基于所述原始歌曲干声音频提取源对象的音色特征,基于所述源对象的音色特征,从所述第一编码信息中剔除所述原始歌曲干声音频中的第一音色信息,得到第二编码信息;
将所述第二编码信息和所述目标对象的音色特征进行融合,得到第三编码信息;
基于所述第三编码信息,确定所述目标对象的歌曲干声音频。
基于上述任一实施例,该虚拟对象驱动装置600还包括:
第二获取单元,用于在接收到目标信息的情况下,采用异步方式基于所述目标信息,获取与所述目标信息对应的响应信息;
转换单元,用于在所述响应信息为文本信息的情况下,采用异步方式将所述响应信息转换为初始音频;
第二驱动单元,用于基于所述初始音频对应的音量,对所述虚拟对象进行驱动。
基于上述任一实施例,所述第二驱动单元具体用于:
对所述初始音频的声学特征进行编码,得到第四编码信息,所述第四编码信息中包括所述初始音频中的第二音色信息;
基于所述初始音频提取初始对象的音色特征,基于所述初始对象的音色特征,从所述第四编码信息中剔除所述初始音频的第二音色信息,得到第五编码信息;
将所述第五编码信息和所述目标对象的音色特征进行融合,得到第六编码信息;
基于所述第六编码信息,确定所述目标音频;
基于所述目标音频对应的音量,对所述虚拟对象进行驱动。
基于上述任一实施例,所述转换单元具体用于:
在所述响应信息中包括敏感信息的情况下,对所述响应信息进行脱敏处理;所述脱敏处理包括将所述响应信息中的敏感信息替换为预设信息,或者,将所述响应信息中的敏感信息删除;
采用异步方式将脱敏处理后的响应信息转换为所述初始音频。
图7是本发明实施例提供的电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行虚拟对象驱动方法,该方法包括:获取目标对象的歌曲干声音频和第一干声音频片段,所述第一干声音频片段为所述歌曲干声音频中前预设时间段内的音频;所述第一干声音频片段包括至少两个第一音频子片段,所述歌曲干声音频包括至少两个第二干声音频片段;
基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理;
在确定对目标第二干声音频片段的音量进行放大处理的情况下,基于所述目标第二干声音频片段的放大处理后的音量、以及除所述目标第二干声音频片段之外的其他第二干声音频片段的音量对所述虚拟对象进行驱动。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的虚拟对象驱动方法,该方法包括:获取目标对象的歌曲干声音频和第一干声音频片段,所述第一干声音频片段为所述歌曲干声音频中前预设时间段内的音频;所述第一干声音频片段包括至少两个第一音频子片段,所述歌曲干声音频包括至少两个第二干声音频片段;
基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理;
在确定对目标第二干声音频片段的音量进行放大处理的情况下,基于所述目标第二干声音频片段的放大处理后的音量、以及除所述目标第二干声音频片段之外的其他第二干声音频片段的音量对所述虚拟对象进行驱动。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的虚拟对象驱动方法,该方法包括:获取目标对象的歌曲干声音频和第一干声音频片段,所述第一干声音频片段为所述歌曲干声音频中前预设时间段内的音频;所述第一干声音频片段包括至少两个第一音频子片段,所述歌曲干声音频包括至少两个第二干声音频片段;
基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理;
在确定对目标第二干声音频片段的音量进行放大处理的情况下,基于所述目标第二干声音频片段的放大处理后的音量、以及除所述目标第二干声音频片段之外的其他第二干声音频片段的音量对所述虚拟对象进行驱动。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种虚拟对象驱动方法,其特征在于,包括:
获取目标对象的歌曲干声音频和第一干声音频片段,所述第一干声音频片段为所述歌曲干声音频中前预设时间段内的音频;所述第一干声音频片段包括至少两个第一音频子片段,所述歌曲干声音频包括至少两个第二干声音频片段;
基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理;
在确定对目标第二干声音频片段的音量进行放大处理的情况下,基于所述目标第二干声音频片段的放大处理后的音量、以及除所述目标第二干声音频片段之外的其他第二干声音频片段的音量对所述虚拟对象进行驱动。
2.根据权利要求1所述的虚拟对象驱动方法,其特征在于,各所述第二干声音频片段包括至少两个第二音频子片段;
所述基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理,包括:
基于各所述第一音频子片段的音量,对各所述第二音频子片段的音量进行归一化;
针对各所述第二干声音频片段,基于所述第二干声音频片段中各第二音频子片段归一化后的音量,确定所述第二干声音频片段的第一中位音量;
在所述第一中位音量小于预设值的情况下,确定对所述第二干声音频片段中各所述第二音频子片段归一化后的音量进行放大处理。
3.根据权利要求2所述的虚拟对象驱动方法,其特征在于,所述基于各所述第一音频子片段的音量,对各所述第二音频子片段的音量进行归一化,包括:
在各所述第一音频子片段的音量中,确定最大音量和第二中位音量;
确定所述最大音量和所述第二中位音量之间的音量差值;
基于所述第二中位音量和所述音量差值对各所述第二音频子片段的音量进行归一化。
4.根据权利要求1-3任一项所述的虚拟对象驱动方法,其特征在于,所述获取目标对象的歌曲干声音频,包括:
对原始歌曲干声音频中的声学特征进行编码,得到第一编码信息,所述第一编码信息中包括所述原始歌曲干声音频中的第一音色信息;
基于所述原始歌曲干声音频提取源对象的音色特征,基于所述源对象的音色特征,从所述第一编码信息中剔除所述原始歌曲干声音频中的第一音色信息,得到第二编码信息;
将所述第二编码信息和所述目标对象的音色特征进行融合,得到第三编码信息;
基于所述第三编码信息,确定所述目标对象的歌曲干声音频。
5.根据权利要求1-3任一项所述的虚拟对象驱动方法,其特征在于,所述方法还包括:
在接收到目标信息的情况下,采用异步方式基于所述目标信息,获取与所述目标信息对应的响应信息;
在所述响应信息为文本信息的情况下,采用异步方式将所述响应信息转换为初始音频;
基于所述初始音频对应的音量,对所述虚拟对象进行驱动。
6.根据权利要求5所述的虚拟对象驱动方法,其特征在于,所述基于所述初始音频对应的音量,对所述虚拟对象进行驱动,包括:
对所述初始音频的声学特征进行编码,得到第四编码信息,所述第四编码信息中包括所述初始音频中的第二音色信息;
基于所述初始音频提取初始对象的音色特征,基于所述初始对象的音色特征,从所述第四编码信息中剔除所述初始音频的第二音色信息,得到第五编码信息;
将所述第五编码信息和所述目标对象的音色特征进行融合,得到第六编码信息;
基于所述第六编码信息,确定所述目标音频;
基于所述目标音频对应的音量,对所述虚拟对象进行驱动。
7.根据权利要求5所述的虚拟对象驱动方法,其特征在于,所述采用异步方式将所述文本信息转换为初始音频,包括:
在所述响应信息中包括敏感信息的情况下,对所述响应信息进行脱敏处理;所述脱敏处理包括将所述响应信息中的敏感信息替换为预设信息,或者,将所述响应信息中的敏感信息删除;
采用异步方式将脱敏处理后的响应信息转换为所述初始音频。
8.一种虚拟对象驱动装置,其特征在于,包括:
第一获取单元,用于获取目标对象的歌曲干声音频和第一干声音频片段,所述第一干声音频片段为所述歌曲干声音频中前预设时间段内的音频;所述第一干声音频片段包括至少两个第一音频子片段,所述歌曲干声音频包括至少两个第二干声音频片段;
确定单元,用于基于各所述第一音频子片段的音量,确定是否对各所述第二干声音频片段的音量进行放大处理;
第一驱动单元,用于在确定对目标第二干声音频片段的音量进行放大处理的情况下,基于所述目标第二干声音频片段的放大处理后的音量、以及除所述目标第二干声音频片段之外的其他第二干声音频片段的音量对所述虚拟对象进行驱动。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述虚拟对象驱动方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述虚拟对象驱动方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310691844.4A CN116704082A (zh) | 2023-06-09 | 2023-06-09 | 虚拟对象驱动方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310691844.4A CN116704082A (zh) | 2023-06-09 | 2023-06-09 | 虚拟对象驱动方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704082A true CN116704082A (zh) | 2023-09-05 |
Family
ID=87833545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310691844.4A Pending CN116704082A (zh) | 2023-06-09 | 2023-06-09 | 虚拟对象驱动方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704082A (zh) |
-
2023
- 2023-06-09 CN CN202310691844.4A patent/CN116704082A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10861210B2 (en) | Techniques for providing audio and video effects | |
JP6876752B2 (ja) | 応答方法及び装置 | |
CN111489424A (zh) | 虚拟角色表情生成方法、控制方法、装置和终端设备 | |
WO2017168870A1 (ja) | 情報処理装置及び情報処理方法 | |
CN108847215B (zh) | 基于用户音色进行语音合成的方法及装置 | |
CN107112026A (zh) | 用于智能语音识别和处理的系统、方法和装置 | |
JP2008500573A (ja) | メッセージを変更するための方法及びシステム | |
CN107993665A (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
CN108159702B (zh) | 基于多人语音游戏处理方法和装置 | |
WO2016063879A1 (ja) | 音声合成装置および方法 | |
CN111862934B (zh) | 语音合成模型的改进方法和语音合成方法及装置 | |
WO2022048404A1 (zh) | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 | |
JP2024501933A (ja) | オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器及びコンピュータープログラム | |
JP2017021125A (ja) | 音声対話装置 | |
CN112530400A (zh) | 基于深度学习的文本生成语音的方法、系统、装置及介质 | |
CN112185363A (zh) | 音频处理方法及装置 | |
CN116420188A (zh) | 从呼叫和音频消息中对其他说话者进行语音过滤 | |
WO2020013891A1 (en) | Techniques for providing audio and video effects | |
WO2022041192A1 (zh) | 语音消息处理方法、设备及即时通信客户端 | |
CN112885318A (zh) | 多媒体数据生成方法、装置、电子设备及计算机存储介质 | |
CN112885326A (zh) | 个性化语音合成模型创建、语音合成和测试方法及装置 | |
CN116959464A (zh) | 音频生成网络的训练方法、音频生成方法以及装置 | |
CN113948062B (zh) | 数据转换方法及计算机存储介质 | |
CN116704082A (zh) | 虚拟对象驱动方法、装置、电子设备和存储介质 | |
CN112235183B (zh) | 通信消息处理方法、设备及即时通信客户端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |