CN116994600A - 基于音频驱动角色口型的方法及系统 - Google Patents
基于音频驱动角色口型的方法及系统 Download PDFInfo
- Publication number
- CN116994600A CN116994600A CN202311264980.1A CN202311264980A CN116994600A CN 116994600 A CN116994600 A CN 116994600A CN 202311264980 A CN202311264980 A CN 202311264980A CN 116994600 A CN116994600 A CN 116994600A
- Authority
- CN
- China
- Prior art keywords
- audio
- semantic
- driving
- waveform
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 125
- 241000282414 Homo sapiens Species 0.000 claims abstract description 43
- 239000012634 fragment Substances 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 abstract description 13
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 238000006243 chemical reaction Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 13
- 230000007246 mechanism Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000003044 adaptive effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种基于音频驱动角色口型的方法及系统。其首先获取数字人驱动音频,接着,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,然后,基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令。其中,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,包括:对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列;以及,从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。这样,可以利用深度神经网络从音频信号中提取出语音特征,并将这些特征自动化地映射到角色的口型参数上,从而实现音频到口型的转换。
Description
技术领域
本申请涉及数字人领域,且更为具体地,涉及一种基于音频驱动角色口型的方法及系统。
背景技术
数字人是一种利用计算机图形学技术生成的具有高度真实感和表现力的虚拟人物,可以在各种媒体平台上进行展示和交互。数字人的口型动画是影响其真实感和自然性的重要因素之一,因为口型动画可以反映数字人的语言和情感信息。
传统的口型动画生成方法通常需要手工标注音素或者使用预定义的音素-口型映射规则,这些方法不仅耗时耗力,而且难以适应不同语言和不同角色的多样性。
因此,期待一种优化的方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于音频驱动角色口型的方法及系统。其可以利用深度神经网络从音频信号中提取出语音特征,并将这些特征自动化地映射到角色的口型参数上,从而实现音频到口型的转换。
根据本申请的一个方面,提供了一种基于音频驱动角色口型的方法,其包括:
获取数字人驱动音频;
对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量;
以及基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令;
其中,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,包括:
对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列;
以及从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。
根据本申请的另一个方面,提供了一种基于音频驱动角色口型的系统,其包括:
音频获取模块,用于获取数字人驱动音频;
语音波形特征提取模块,用于对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量;
以及指令生成模块,用于基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令;
其中,所述语音波形特征提取模块,包括:
数据预处理单元,用于对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列;
以及音频语义特征提取单元,用于从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。
与现有技术相比,本申请提供的基于音频驱动角色口型的方法及系统,其首先获取数字人驱动音频,接着,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,然后,基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令。其中,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,包括:对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列;以及,从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。这样,可以利用深度神经网络从音频信号中提取出语音特征,并将这些特征自动化地映射到角色的口型参数上,从而实现音频到口型的转换。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本申请的主旨。
图1为根据本申请实施例的基于音频驱动角色口型的方法的流程图。
图2为根据本申请实施例的基于音频驱动角色口型的方法的架构示意图。
图3为根据本申请实施例的基于音频驱动角色口型的方法的子步骤S120的流程图。
图4为根据本申请实施例的基于音频驱动角色口型的方法的子步骤S122的流程图。
图5为根据本申请实施例的基于音频驱动角色口型的方法的子步骤S130的流程图。
图6为根据本申请实施例的基于音频驱动角色口型的系统的框图。
图7为根据本申请实施例的基于音频驱动角色口型的方法的应用场景图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
针对上述技术问题,本申请的技术构思为利用深度神经网络从音频信号中提取出语音特征,然后将这些特征自动化地映射到角色的口型参数上,从而实现音频到口型的转换。
基于此,图1为根据本申请实施例的基于音频驱动角色口型的方法的流程图。图2为根据本申请实施例的基于音频驱动角色口型的方法的架构示意图。如图1和图2所示,根据本申请实施例的基于音频驱动角色口型的方法,包括步骤:S110,获取数字人驱动音频;S120,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量;以及,S130,基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令。应可以理解,在步骤S110中,系统会获取用于驱动数字人口型的音频输入,这可以是通过麦克风捕捉到的实时音频,或者是从文件或其他来源中获取的预先录制的音频。在步骤S120中,系统会对数字人驱动音频进行处理,提取语音波形的特征。这些特征可能包括声音的频率、幅度、声调、语速等信息,通过提取这些特征,系统可以获得驱动音频的波形语义全局特征向量,该向量可以用于后续步骤中的数字人口型驱动控制。在步骤S130中,系统利用前面提取的驱动音频波形语义全局特征向量,生成用于驱动数字人口型的控制指令,这些控制指令可能包括口型的形状、运动和表情等信息,用于使数字人的口型与驱动音频的语音内容相匹配。换言之,这个基于音频驱动角色口型的方法通过获取驱动音频、提取语音波形特征并生成控制指令,实现了将音频内容转化为数字人口型的驱动方式。
更具体地,在步骤S120中,如图3所示,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,包括:S121,对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列;以及,S122,从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。应可以理解,在S121步骤中,数字人驱动音频需要进行数据预处理,以便将其转换为驱动音频片段的序列,这可能涉及到音频的分割、降噪、音量归一化等处理步骤,以确保后续的特征提取步骤能够准确地对每个驱动音频片段进行分析。在S122步骤中,从驱动音频片段的序列中提取音频语义特征,以获得驱动音频波形的语义全局特征向量,这些特征可能包括音频的频谱特征、时域特征、声学特征等。通过提取这些特征,可以捕捉到音频波形的重要信息,例如音频的节奏、音调、语速等,从而表示音频的语义内容。综合起来,S121步骤用于将数字人驱动音频进行预处理,将其转换为驱动音频片段的序列,而S122步骤用于从这些驱动音频片段中提取音频语义特征,以得到驱动音频波形的语义全局特征向量。这些特征向量可以用于进一步分析和处理音频数据,例如语音识别、情感分析、语音合成等应用中。
在本申请的技术方案中,首先,获取数字人驱动音频,并对所述数字人驱动音频进行滑窗采样以得到驱动音频片段的序列。
然后,从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。也就是,捕捉所述驱动音频片段的序列中所蕴含的语音波形特征和语义特征。
在本申请的一个具体示例中,从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量的编码过程,包括:先将所述驱动音频片段的序列通过基于卷积神经网络模型的音频波形特征提取器以得到驱动音频片段波形特征向量的序列;再将所述驱动音频片段波形特征向量的序列通过基于转换器模型的音频波动全局语义编码器以得到驱动音频波形语义全局特征向量。
相应地,在步骤S121中,对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列,包括:对所述数字人驱动音频进行滑窗采样以得到所述驱动音频片段的序列。值得一提的是,滑窗采样(Windowing)是一种常见的信号处理技术,用于将连续的音频信号分割成较短的片段,即驱动音频片段的序列。它的原理是将一个固定长度的窗口应用于音频信号,并以一定的步幅滑动窗口,从而在整个音频信号上生成一系列重叠的片段。滑窗采样在驱动音频处理中的作用主要有两个方面:1.片段化:通过将音频信号分割成较短的片段,可以将长时间的音频序列转换为一系列短时的片段。这有助于在后续的特征提取和分析过程中更好地捕捉音频的局部特征,例如语音的短时频谱变化、语音的短时能量等。此外,片段化还可以提高计算效率,因为短时片段的处理通常比整个音频序列更高效。2.重叠处理:滑窗采样通常使用重叠的方式进行,即相邻的窗口之间有一定的重叠区域。这样做的目的是为了保留音频片段之间的连续性和平滑性,以避免在分割点产生不连续的跳变。重叠处理可以减少分割带来的信息丢失,并提供更平滑的过渡,使得后续的特征提取更加准确和可靠。换言之,滑窗采样在驱动音频处理中起到了将连续的音频信号分割成短时片段的作用,以便后续的特征提取和分析,它可以提高特征提取的准确性和计算效率,并保持音频片段之间的连续性和平滑性。
相应地,在步骤S122中,如图4所示,从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量,包括:S1221,将所述驱动音频片段的序列通过基于卷积神经网络模型的音频波形特征提取器以得到驱动音频片段波形特征向量的序列;以及,S1222,将所述驱动音频片段波形特征向量的序列通过基于转换器模型的音频波动全局语义编码器以得到所述驱动音频波形语义全局特征向量。应可以理解,在步骤S1221中,通过使用基于卷积神经网络(Convolutional Neural Network,CNN)的音频波形特征提取器,对驱动音频片段的序列进行处理,以获得驱动音频片段的波形特征向量的序列。卷积神经网络模型可以有效地捕捉音频波形的局部特征,例如频谱形状、时域变化等,通过提取波形特征向量,可以表示每个驱动音频片段的重要波形信息。在步骤S1222中,通过使用基于转换器模型(Transformer)的音频波动全局语义编码器,对驱动音频片段波形特征向量的序列进行处理,以获得驱动音频波形的语义全局特征向量。转换器模型是一种强大的序列建模工具,能够捕捉序列中的长距离依赖关系和全局语义信息。通过使用转换器模型,可以将驱动音频片段波形特征向量的序列转化为表示整个驱动音频波形语义的全局特征向量。综合起来,S1221步骤使用基于卷积神经网络模型的特征提取器提取驱动音频片段的波形特征向量,而S1222步骤使用基于转换器模型的语义编码器将这些特征向量转化为驱动音频波形的语义全局特征向量。这些特征向量可以用于表示音频的重要波形信息和语义内容,从而支持后续的音频分析和处理任务。
具体地,值得一提的是,转换器模型(Transformer)是一种基于自注意力机制(self-attention mechanism)的序列到序列(sequence-to-sequence)模型。传统的序列模型(如循环神经网络)在处理长距离依赖关系时存在一些限制,而转换器模型通过引入自注意力机制解决了这个问题。自注意力机制允许模型在处理序列时对序列中的不同位置进行自适应地加权注意力,从而捕捉到序列中不同位置之间的依赖关系。转换器模型由编码器(Encoder)和解码器(Decoder)组成。编码器负责将输入序列转化为一系列特征表示,而解码器则根据编码器的输出和上下文信息生成目标序列,每个编码器和解码器层都由多个注意力机制和前馈神经网络组成。在转换器模型中,自注意力机制允许模型在计算注意力权重时同时考虑输入序列中的所有位置,而不是像传统的循环神经网络一样逐步处理序列。这种并行计算的方式使得转换器模型能够更好地捕捉序列中的长距离依赖关系,并且具有更好的并行性,从而加速了训练和推理过程。转换器模型的优点包括:能够处理长距离依赖关系,适用于处理长序列数据;具有更好的并行性,可以高效地进行训练和推理;自注意力机制允许模型在计算注意力权重时对不同位置进行自适应加权,更好地捕捉序列中的重要信息。即,转换器模型是一种基于自注意力机制的序列到序列模型,通过并行计算和自适应的注意力机制,能够有效地处理长序列数据并捕捉序列中的重要依赖关系。
进一步地,将所述驱动音频波形语义全局特征向量通过基于AIGC的口型参数映射器以得到口型参数序列;并基于所述口型参数序列,生成数字人口型驱动控制指令。
相应地,如图5所示,基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令,包括:S131,对所述驱动音频波形语义全局特征向量进行特征分布增益以得到优化驱动音频波形语义全局特征向量;S132,将所述优化驱动音频波形语义全局特征向量通过基于AIGC的口型参数映射器以得到口型参数序列;以及,S133,基于所述口型参数序列,生成所述数字人口型驱动控制指令。应可以理解,在步骤S131中,通过对驱动音频波形语义全局特征向量进行特征分布增益处理,可以调整特征向量的分布,以优化其表示能力,这个过程可以通过一系列数学操作,如归一化、标准化、缩放等,来调整特征向量的值范围或分布,使其更适合后续处理步骤的需求。在步骤S132中,通过使用基于自适应迭代增益控制(Adaptive Iterative Gain Control,AIGC)的口型参数映射器,将优化后的驱动音频波形语义全局特征向量转化为口型参数序列,口型参数是描述口腔形状和声道特性的参数,对于生成口型准确的数字人声音非常重要,AIGC可以根据驱动音频波形的特征和目标口型的要求,自适应地调整口型参数的映射关系,以获得更准确的口型参数序列。在步骤S133中,根据口型参数序列,生成用于驱动数字人口型的控制指令,这些控制指令可以包括口型的形状、舌位、声道长度等信息,用于控制数字人的口型运动,从而生成与驱动音频相匹配的口型动画或合成语音。综合起来,S131步骤对驱动音频波形语义全局特征向量进行特征分布增益处理,S132步骤将优化后的特征向量转化为口型参数序列,并使用基于AIGC的口型参数映射器进行映射,最后S133步骤基于口型参数序列生成用于驱动数字人口型的控制指令,这些步骤共同完成了从驱动音频到数字人口型控制指令的转换过程。
更具体地,值得一提的是,AIGC是自适应迭代增益控制(Adaptive IterativeGain Control)的缩写。它是一种用于音频处理和信号增强的技术,常用于语音合成和语音识别等领域。自适应迭代增益控制的主要目标是通过自适应调整信号的增益,使得信号在不同环境下具有一致的感知音量或能量。它可以根据输入信号的特性和环境条件,动态地调整信号的增益,以便在不同的噪声环境或音频场景下获得更好的声音质量和可听性。AIGC在口型参数映射中的应用是为了生成与驱动音频相匹配的口型参数序列,用于数字人口型的控制。通过自适应迭代增益控制技术,可以根据驱动音频的特征和目标口型的要求,自适应地调整口型参数的映射关系,以获得更准确的口型参数序列。这样可以提高数字人口型的准确性和自然度,使其更好地与驱动音频相匹配。换言之,AIGC是一种自适应的增益控制技术,用于调整信号的增益以获得一致的感知音量或能量。在口型参数映射中的应用中,自适应迭代增益控制可以根据驱动音频的特征和目标口型的要求,自适应地调整口型参数的映射关系,以生成准确的口型参数序列,用于驱动数字人口型的控制。
在本申请的技术方案中,所述驱动音频片段波形特征向量的序列中的每个驱动音频片段波形特征向量可以表达局部时域下的驱动音频信号波形的图像语义局部关联特征,由此在通过基于转换器模块的音频波动全局语义编码器后,可以进一步提取全局时域下的各个局部时域间的图像语义局部关联特征的上下文关联表达,因此,如果将每个驱动音频片段波形特征向量所表达的局部时域下的驱动音频信号波形的图像语义局部关联特征作为前景对象特征,则在进行全局时域下的局部时域间上下文关联编码时,也会引入与局部时域下的所述驱动音频信号波形的图像语义局部关联特征分布干涉相关的背景分布噪声,并且,所述驱动音频波形语义全局特征向量也具有局部时域和全局时域下的分级时域空间时序关联特征表达,由此,期望基于所述驱动音频波形语义全局特征向量的分布特性来增强其表达效果。
因此,本申请的申请人对所述驱动音频波形语义全局特征向量进行基于概率密度特征模仿范式的分布增益。
相应地,在一个具体示例中,对所述驱动音频波形语义全局特征向量进行特征分布增益以得到优化驱动音频波形语义全局特征向量,包括:以如下优化公式对所述驱动音频波形语义全局特征向量进行特征分布增益以得到所述优化驱动音频波形语义全局特征向量;其中,所述优化公式为:
其中,是所述驱动音频波形语义全局特征向量,/>是所述驱动音频波形语义全局特征向量的长度,/>是所述驱动音频波形语义全局特征向量的第/>个位置的特征值,/>表示所述驱动音频波形语义全局特征向量的二范数的平方,且/>是加权超参数,/>表示数值的指数运算,所述数值的指数运算表示计算以所述数值为幂的自然指数函数值,/>是所述优化驱动音频波形语义全局特征向量的第/>个位置的特征值。
这里,基于标准柯西分布对于自然高斯分布在概率密度上的特征模仿范式,所述基于概率密度特征模仿范式的分布增益可以将特征尺度作为模仿掩码,在高维特征空间内区分前景对象特征和背景分布噪声,从而基于高维特征的时域空间分级语义来对高维空间进行特征空间映射的语义认知的分布软匹配,来获得高维特征分布的无约束的分布增益,提升所述驱动音频波形语义全局特征向量基于特征分布特性的表达效果,也就提升了所述驱动音频波形语义全局特征向量通过基于AIGC的口型参数映射器得到的口型参数序列的数值准确性,从而提升了数字人口型的驱动控制效果。
综上,基于本申请实施例的基于音频驱动角色口型的方法被阐明,其可以利用深度神经网络从音频信号中提取出语音特征,并将这些特征自动化地映射到角色的口型参数上,从而实现音频到口型的转换。
图6为根据本申请实施例的基于音频驱动角色口型的系统100的框图。如图6所示,根据本申请实施例的基于音频驱动角色口型的系统100,包括:音频获取模块110,用于获取数字人驱动音频;语音波形特征提取模块120,用于对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量;以及,指令生成模块130,用于基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令。
在一个示例中,在上述基于音频驱动角色口型的系统100中,所述语音波形特征提取模块120,包括:数据预处理单元,用于对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列;以及,音频语义特征提取单元,用于从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。
在一个示例中,在上述基于音频驱动角色口型的系统100中,所述数据预处理单元,用于:对所述数字人驱动音频进行滑窗采样以得到所述驱动音频片段的序列。
在一个示例中,在上述基于音频驱动角色口型的系统100中,所述音频语义特征提取单元,包括:音频波形特征提取器子单元,用于将所述驱动音频片段的序列通过基于卷积神经网络模型的音频波形特征提取器以得到驱动音频片段波形特征向量的序列;以及,全局语义编码子单元,用于将所述驱动音频片段波形特征向量的序列通过基于转换器模型的音频波动全局语义编码器以得到所述驱动音频波形语义全局特征向量。
在一个示例中,在上述基于音频驱动角色口型的系统100中,所述指令生成模块130,包括:特征分布增益单元,用于对所述驱动音频波形语义全局特征向量进行特征分布增益以得到优化驱动音频波形语义全局特征向量;口型参数映射单元,用于将所述优化驱动音频波形语义全局特征向量通过基于AIGC的口型参数映射器以得到口型参数序列;以及,数字人口型驱动控制指令生成单元,用于基于所述口型参数序列,生成所述数字人口型驱动控制指令。
在一个示例中,在上述基于音频驱动角色口型的系统100中,所述特征分布增益单元,用于:以如下优化公式对所述驱动音频波形语义全局特征向量进行特征分布增益以得到所述优化驱动音频波形语义全局特征向量;其中,所述优化公式为:
其中,是所述驱动音频波形语义全局特征向量,/>是所述驱动音频波形语义全局特征向量的长度,/>是所述驱动音频波形语义全局特征向量的第/>个位置的特征值,/>表示所述驱动音频波形语义全局特征向量的二范数的平方,且/>是加权超参数,/>表示数值的指数运算,所述数值的指数运算表示计算以所述数值为幂的自然指数函数值,/>是所述优化驱动音频波形语义全局特征向量的第/>个位置的特征值。
这里,本领域技术人员可以理解,上述基于音频驱动角色口型的系统100中的各个模块的具体功能和操作已经在上面参考图1到图5的基于音频驱动角色口型的方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的基于音频驱动角色口型的系统100可以实现在各种无线终端中,例如具有基于音频驱动角色口型的算法的服务器等。在一个示例中,根据本申请实施例的基于音频驱动角色口型的系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于音频驱动角色口型的系统100可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于音频驱动角色口型的系统100同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于音频驱动角色口型的系统100与该无线终端也可以是分立的设备,并且该基于音频驱动角色口型的系统100可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
图7为根据本申请实施例的基于音频驱动角色口型的方法的应用场景图。如图7所示,在该应用场景中,首先,数字人驱动音频(例如,图7中所示意的D),然后,将所述数字人驱动音频输入至部署有基于音频驱动角色口型的算法的服务器中(例如,图7中所示意的S),其中,所述服务器能够使用所述基于音频驱动角色口型的算法对所述数字人驱动音频进行处理以生成数字人口型驱动控制指令。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
Claims (10)
1.一种基于音频驱动角色口型的方法,其特征在于,包括:
获取数字人驱动音频;
对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量;
以及基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令;
其中,对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量,包括:
对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列;
以及从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。
2.根据权利要求1所述的基于音频驱动角色口型的方法,其特征在于,对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列,包括:
对所述数字人驱动音频进行滑窗采样以得到所述驱动音频片段的序列。
3.根据权利要求2所述的基于音频驱动角色口型的方法,其特征在于,从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量,包括:
将所述驱动音频片段的序列通过基于卷积神经网络模型的音频波形特征提取器以得到驱动音频片段波形特征向量的序列;
以及将所述驱动音频片段波形特征向量的序列通过基于转换器模型的音频波动全局语义编码器以得到所述驱动音频波形语义全局特征向量。
4.根据权利要求3所述的基于音频驱动角色口型的方法,其特征在于,基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令,包括:
对所述驱动音频波形语义全局特征向量进行特征分布增益以得到优化驱动音频波形语义全局特征向量;
将所述优化驱动音频波形语义全局特征向量通过基于AIGC的口型参数映射器以得到口型参数序列;
以及基于所述口型参数序列,生成所述数字人口型驱动控制指令。
5.根据权利要求4所述的基于音频驱动角色口型的方法,其特征在于,对所述驱动音频波形语义全局特征向量进行特征分布增益以得到优化驱动音频波形语义全局特征向量,包括:
以如下优化公式对所述驱动音频波形语义全局特征向量进行特征分布增益以得到所述优化驱动音频波形语义全局特征向量;
其中,所述优化公式为:其中,/>是所述驱动音频波形语义全局特征向量,/>是所述驱动音频波形语义全局特征向量的长度,/>是所述驱动音频波形语义全局特征向量的第/>个位置的特征值,/>表示所述驱动音频波形语义全局特征向量的二范数的平方,且/>是加权超参数,/>表示数值的指数运算,所述数值的指数运算表示计算以所述数值为幂的自然指数函数值,/>是所述优化驱动音频波形语义全局特征向量的第/>个位置的特征值。
6.一种基于音频驱动角色口型的系统,其特征在于,包括:
音频获取模块,用于获取数字人驱动音频;
语音波形特征提取模块,用于对所述数字人驱动音频进行语音波形特征提取以得到驱动音频波形语义全局特征向量;
以及指令生成模块,用于基于所述驱动音频波形语义全局特征向量,生成数字人口型驱动控制指令;
其中,所述语音波形特征提取模块,包括:
数据预处理单元,用于对所述数字人驱动音频进行数据预处理以得到驱动音频片段的序列;
以及音频语义特征提取单元,用于从所述驱动音频片段的序列中提取音频语义特征以得到所述驱动音频波形语义全局特征向量。
7.根据权利要求6所述的基于音频驱动角色口型的系统,其特征在于,所述数据预处理单元,用于:
对所述数字人驱动音频进行滑窗采样以得到所述驱动音频片段的序列。
8.根据权利要求7所述的基于音频驱动角色口型的系统,其特征在于,所述音频语义特征提取单元,包括:
音频波形特征提取器子单元,用于将所述驱动音频片段的序列通过基于卷积神经网络模型的音频波形特征提取器以得到驱动音频片段波形特征向量的序列;
以及全局语义编码子单元,用于将所述驱动音频片段波形特征向量的序列通过基于转换器模型的音频波动全局语义编码器以得到所述驱动音频波形语义全局特征向量。
9.根据权利要求8所述的基于音频驱动角色口型的系统,其特征在于,所述指令生成模块,包括:
特征分布增益单元,用于对所述驱动音频波形语义全局特征向量进行特征分布增益以得到优化驱动音频波形语义全局特征向量;
口型参数映射单元,用于将所述优化驱动音频波形语义全局特征向量通过基于AIGC的口型参数映射器以得到口型参数序列;以及
数字人口型驱动控制指令生成单元,用于基于所述口型参数序列,生成所述数字人口型驱动控制指令。
10.根据权利要求9所述的基于音频驱动角色口型的系统,其特征在于,所述特征分布增益单元,用于:
以如下优化公式对所述驱动音频波形语义全局特征向量进行特征分布增益以得到所述优化驱动音频波形语义全局特征向量;
其中,所述优化公式为:其中,/>是所述驱动音频波形语义全局特征向量,/>是所述驱动音频波形语义全局特征向量的长度,/>是所述驱动音频波形语义全局特征向量的第/>个位置的特征值,/>表示所述驱动音频波形语义全局特征向量的二范数的平方,且/>是加权超参数,/>表示数值的指数运算,所述数值的指数运算表示计算以所述数值为幂的自然指数函数值,/>是所述优化驱动音频波形语义全局特征向量的第/>个位置的特征值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311264980.1A CN116994600B (zh) | 2023-09-28 | 2023-09-28 | 基于音频驱动角色口型的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311264980.1A CN116994600B (zh) | 2023-09-28 | 2023-09-28 | 基于音频驱动角色口型的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116994600A true CN116994600A (zh) | 2023-11-03 |
CN116994600B CN116994600B (zh) | 2023-12-12 |
Family
ID=88530663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311264980.1A Active CN116994600B (zh) | 2023-09-28 | 2023-09-28 | 基于音频驱动角色口型的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994600B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080013751A1 (en) * | 2006-07-17 | 2008-01-17 | Per Hiselius | Volume dependent audio frequency gain profile |
US20080044039A1 (en) * | 2006-08-17 | 2008-02-21 | Chung-Ko Chiu | Audio signal processing method and related device |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
CN106653041A (zh) * | 2017-01-17 | 2017-05-10 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN106875937A (zh) * | 2017-01-13 | 2017-06-20 | 西北工业大学 | 基于键盘输入感知的活动识别方法 |
US20180007398A1 (en) * | 2014-11-12 | 2018-01-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Decoder for decoding a media signal and encoder for encoding secondary media data comprising metadata or control data for primary media data |
CN109523616A (zh) * | 2018-12-04 | 2019-03-26 | 科大讯飞股份有限公司 | 一种面部动画生成方法、装置、设备及可读存储介质 |
CN110689041A (zh) * | 2019-08-20 | 2020-01-14 | 陈羽旻 | 一种多目标行为动作识别预测方法、电子设备及存储介质 |
CN111050269A (zh) * | 2018-10-15 | 2020-04-21 | 华为技术有限公司 | 音频处理方法和电子设备 |
CN112562722A (zh) * | 2020-12-01 | 2021-03-26 | 新华智云科技有限公司 | 基于语义的音频驱动数字人生成方法及系统 |
CN115205949A (zh) * | 2022-09-05 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 图像生成方法以及相关设备 |
CN115273823A (zh) * | 2022-07-28 | 2022-11-01 | 杭州鲸道科技有限公司 | 一种基于高斯混合概率密度的数据处理方法、装置、设备及介质 |
CN115330913A (zh) * | 2022-10-17 | 2022-11-11 | 广州趣丸网络科技有限公司 | 三维数字人口型生成方法、装置、电子设备及存储介质 |
CN115482832A (zh) * | 2022-08-08 | 2022-12-16 | 深圳元象信息科技有限公司 | 虚拟人脸生成方法、装置、计算机设备及可读存储介质 |
CN116309975A (zh) * | 2023-02-08 | 2023-06-23 | 北京智美源素科技有限公司 | 数字人驱动方法、装置、存储介质及计算机设备 |
CN116390238A (zh) * | 2023-04-19 | 2023-07-04 | 南京邮电大学 | 基于深度强化学习的语义通信系统的资源分配方法 |
US20230260527A1 (en) * | 2021-09-03 | 2023-08-17 | Tencent Technology (Shenzhen) Company Limited | Audio data processing method and apparatus, device, and medium |
-
2023
- 2023-09-28 CN CN202311264980.1A patent/CN116994600B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080013751A1 (en) * | 2006-07-17 | 2008-01-17 | Per Hiselius | Volume dependent audio frequency gain profile |
US20080044039A1 (en) * | 2006-08-17 | 2008-02-21 | Chung-Ko Chiu | Audio signal processing method and related device |
CN103218842A (zh) * | 2013-03-12 | 2013-07-24 | 西南交通大学 | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 |
US20180007398A1 (en) * | 2014-11-12 | 2018-01-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Decoder for decoding a media signal and encoder for encoding secondary media data comprising metadata or control data for primary media data |
CN106875937A (zh) * | 2017-01-13 | 2017-06-20 | 西北工业大学 | 基于键盘输入感知的活动识别方法 |
CN106653041A (zh) * | 2017-01-17 | 2017-05-10 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN111050269A (zh) * | 2018-10-15 | 2020-04-21 | 华为技术有限公司 | 音频处理方法和电子设备 |
CN109523616A (zh) * | 2018-12-04 | 2019-03-26 | 科大讯飞股份有限公司 | 一种面部动画生成方法、装置、设备及可读存储介质 |
CN110689041A (zh) * | 2019-08-20 | 2020-01-14 | 陈羽旻 | 一种多目标行为动作识别预测方法、电子设备及存储介质 |
CN112562722A (zh) * | 2020-12-01 | 2021-03-26 | 新华智云科技有限公司 | 基于语义的音频驱动数字人生成方法及系统 |
US20230260527A1 (en) * | 2021-09-03 | 2023-08-17 | Tencent Technology (Shenzhen) Company Limited | Audio data processing method and apparatus, device, and medium |
CN115273823A (zh) * | 2022-07-28 | 2022-11-01 | 杭州鲸道科技有限公司 | 一种基于高斯混合概率密度的数据处理方法、装置、设备及介质 |
CN115482832A (zh) * | 2022-08-08 | 2022-12-16 | 深圳元象信息科技有限公司 | 虚拟人脸生成方法、装置、计算机设备及可读存储介质 |
CN115205949A (zh) * | 2022-09-05 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 图像生成方法以及相关设备 |
CN115330913A (zh) * | 2022-10-17 | 2022-11-11 | 广州趣丸网络科技有限公司 | 三维数字人口型生成方法、装置、电子设备及存储介质 |
CN116309975A (zh) * | 2023-02-08 | 2023-06-23 | 北京智美源素科技有限公司 | 数字人驱动方法、装置、存储介质及计算机设备 |
CN116390238A (zh) * | 2023-04-19 | 2023-07-04 | 南京邮电大学 | 基于深度强化学习的语义通信系统的资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116994600B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaneko et al. | Generative adversarial network-based postfilter for statistical parametric speech synthesis | |
US11908451B2 (en) | Text-based virtual object animation generation method, apparatus, storage medium, and terminal | |
CN110838289A (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN110767210A (zh) | 一种生成个性化语音的方法及装置 | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
US20210073611A1 (en) | Dynamic data structures for data-driven modeling | |
JP2022046731A (ja) | 音声生成方法、装置、電子機器及び記憶媒体 | |
CN114895817B (zh) | 交互信息处理方法、网络模型的训练方法及装置 | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CA3195582A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
Mian Qaisar | Isolated speech recognition and its transformation in visual signs | |
CN114678032B (zh) | 一种训练方法、语音转换方法及装置和电子设备 | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN116095357B (zh) | 虚拟主播的直播方法、装置及系统 | |
CN116994600B (zh) | 基于音频驱动角色口型的方法及系统 | |
CN114898018A (zh) | 数字对象的动画生成方法、装置、电子设备及存储介质 | |
CN113838169A (zh) | 一种基于文本驱动的虚拟人微表情表达方法 | |
Razak et al. | Towards automatic recognition of emotion in speech | |
Jagadeeshwar et al. | ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN | |
CN117935766B (zh) | 一种aigc模型的语音数据处理方法及系统 | |
CN114360559B (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN117095674B (zh) | 智能门窗的交互控制方法及系统 | |
CN115171700B (zh) | 一种基于脉冲神经网络的声纹识别语音助手方法 | |
CN113066476B (zh) | 合成语音处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 701, 7th floor, and 801, 8th floor, Building 1, Courtyard 8, Gouzitou Street, Changping District, Beijing, 102200 Patentee after: Zhongying Nian Nian (Beijing) Technology Co.,Ltd. Country or region after: China Address before: No. 6304, Beijing shunhouyu Business Co., Ltd., No. 32, Wangfu street, Beiqijia Town, Changping District, Beijing 102200 Patentee before: China Film annual (Beijing) culture media Co.,Ltd. Country or region before: China |