CN118212934B - 基于语音识别的数字人嘴型智能驱动方法 - Google Patents
基于语音识别的数字人嘴型智能驱动方法 Download PDFInfo
- Publication number
- CN118212934B CN118212934B CN202410628938.1A CN202410628938A CN118212934B CN 118212934 B CN118212934 B CN 118212934B CN 202410628938 A CN202410628938 A CN 202410628938A CN 118212934 B CN118212934 B CN 118212934B
- Authority
- CN
- China
- Prior art keywords
- signal
- fractal dimension
- difference
- audio
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000035772 mutation Effects 0.000 claims abstract description 72
- 239000013598 vector Substances 0.000 claims abstract description 63
- 238000003062 neural network model Methods 0.000 claims abstract description 17
- 230000036961 partial effect Effects 0.000 claims description 47
- 230000011218 segmentation Effects 0.000 claims description 31
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 230000001419 dependent effect Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 230000007423 decrease Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请涉及语音识别技术领域,具体涉及基于语音识别的数字人嘴型智能驱动方法,该方法包括:采集低信噪比音频数据,分解后得到各音频分信号,分析低信噪比音频数据的分形维信号及各音频分信号的分形维信号中元素的分布,得到各分信号分形维语音特征度,获取各音频分信号的分形维信号各位置的分信号分形维突变度,结合各分信号分形维语音特征度及各分信号分形维突变度得到低信噪比音频数据各位置的原始信号突变点分布值,根据原始信号突变点分布值获取低信噪比音频数据的各音素向量,结合神经网络模型完成数字人嘴型智能驱动。本申请旨在提高低信噪比音频数据进行数字人嘴型驱动的准确度。
Description
技术领域
本申请涉及语音识别技术领域,具体涉及基于语音识别的数字人嘴型智能驱动方法。
背景技术
生成数字人的基本要求是指在语音播放时同步做出口型,使人感觉到数字人在说话,而人脑对视频中画面与音频不同步情况极度敏感,甚至可以轻易地察觉出0.05秒的时间差,因此生成语音与人脸口型同步是数字人嘴型驱动时的主要难点。
常用的语音驱动嘴型方法第一步是先将语音进行分割,然后为分割出的每一段语音进行匹配嘴型,根据匹配的嘴型驱动人嘴运动,达到数字人正在说话的视觉效果。而语音分割将以音素为单位进行分割,如将英文单词分割为不同的音标,而音标就是一种音素。进一步根据所获取音素的顺序和强度选择预设的口型,达成语音数据对数字人的嘴型驱动。因此如何对音频数据进行更准确的音素分割是提高语音驱动数字人嘴型效果的关键。
传统的音素分割算法在高信噪比条件下已经取得了良好的效果,但在低信噪比条件下,音素分割算法的性能急剧下降,造成难以提高数字人嘴型语音驱动在低信噪比条件下的驱动能力的问题。
发明内容
为了解决上述技术问题,本申请提供基于语音识别的数字人嘴型智能驱动方法,以解决现有的问题。
本申请的基于语音识别的数字人嘴型智能驱动方法采用如下技术方案:
本申请一个实施例提供了基于语音识别的数字人嘴型智能驱动方法,该方法包括以下步骤:
采集低信噪比音频数据,分解后得到各音频分信号;
分析低信噪比音频数据的分形维信号及各音频分信号的分形维信号中元素的分布,得到各分信号分形维语音特征度;
分析各音频分信号的分形维信号的局部频域分布特征,得到各音频分信号的分形维信号各位置的分信号分形维突变度;
结合各分信号分形维语音特征度及各分信号分形维突变度得到低信噪比音频数据各位置的原始信号突变点分布值;
根据所述原始信号突变点分布值获取低信噪比音频数据的各音素向量,结合神经网络模型完成数字人嘴型智能驱动。
在其中一种实施例中,所述分信号分形维语音特征度的确定方法为:
分析各音频分信号的分形维信号中各元素的重要程度得到各分信号分形维分布向量;
计算低信噪比音频数据的分形维信号中所有元素的标准差与各音频分信号的分形维信号中所有元素的标准差的比值,确定为第一分布差异,计算低信噪比音频数据的分形维信号中所有元素的均值与各音频分信号的分形维信号中所有元素的均值的差值绝对值,确定为第二分布差异;
计算低信噪比音频数据的分形维信号及各音频分信号的分形维信号中相同位置元素的差值绝对值,确定为第三分布差异,计算所述第三分布差异与音频分信号对应的分信号分形维分布向量中相同位置元素的乘积,计算各音频分信号的所述第二分布差异与对应音频分信号的分形维信号中所有所述乘积的和值的比值,确定为第四分布差异,各分信号分形维语音特征度与所述第一分布差异、所述第四分布差异成正相关关系。
在其中一种实施例中,所述分信号分形维分布向量的确定过程为:
将各音频分信号的分形维信号中各元素与所有元素的比值,组成各分信号分形维分布向量。
在其中一种实施例中,所述分信号分形维突变度的确定过程为:
对各音频分信号的分形维信号中各位置元素划分第1窗口、第2窗口,分析功率谱向量分布特征,得到各音频分信号的分形维信号中各位置第1窗口、第2窗口的频率统计分布向量;
分别计算分形维信号中各位置元素所述第1窗口与所述第2窗口内所有元素的均值的差值绝对值、求和结果,将所述差值绝对值确定为第一分形局部差异,将所述求和结果确定为分形局部累积,计算所述各位置第1窗口、第2窗口的频率统计分布向量的差值的模长,计算所述分形局部累积与对应的音频分信号的分形维信号中所有元素的均值的差值绝对值,确定为第二分形局部差异,将所述模长、所述第一分形局部差异、所述第二分形局部差异均正比例映射,得到各音频分信号的分形维信号各位置的分信号分形维突变度。
在其中一种实施例中,所述频率统计分布向量的确定过程为:
针对各音频分信号的分形维信号,以各位置元素为中心取预设长度的总窗口,将所述总窗口均分为两部分,依次记为第1窗口、第2窗口,分别将第1窗口、第2窗口内的元素进行频域转换,获取对应的功率谱向量,将功率谱向量进行直方图统计,将统计结果归一化得到第1窗口、第2窗口的频率统计分布向量。
在其中一种实施例中,所述原始信号突变点分布值的确定方法为:
采用各音频分信号的分形维信号各位置的分信号分形维突变度相同的计算方法,针对低信噪比音频数据的分形维信号,计算各位置的分信号分形维突变度,分析低信噪比音频数据的分形维信号与各音频分信号的分形维信号相同位置的分信号分形维突变度的差异,结合各分信号分形维语音特征度,得到各音频分信号的分形维信号各位置的人声含量估计度;
基于所述人声含量估计度确定各音频分信号的分形维信号各位置的人声含量估计度权重;
分别计算各音频分信号的分形维信号中各位置元素的总窗口、第1窗口、第2窗口内所有元素的信息熵,计算所述第1窗口、第2窗口内所有元素的信息熵的和值,计算所述总窗口内所有元素的信息熵与所述和值的比值,确定为局部波动因子,将所有音频分信号的分形维信号各位置的人声含量估计度权重、所述局部波动因子正比例映射,得到低信噪比音频数据对应位置的原始信号突变点分布值。
在其中一种实施例中,所述人声含量估计度的确定方法为:
计算各音频分信号的分形维信号各位置与低信噪比音频数据的分形维信号中对应位置的所述分信号分形维突变度的差异,确定为突变差异,将所述突变差异与对应的分信号分形维语音特征度的乘积作为各音频分信号的分形维信号各位置的人声含量估计度。
在其中一种实施例中,所述人声含量估计度权重的确定过程为:
计算所述各位置的人声含量估计度与所有音频分信号的分形维信号中相同位置人声含量估计度最大值的差值,确定为人声含量区分度,计算所有音频分信号的分形维信号各位置的所述人声含量区分度的累加和,将所述人声含量区分度与所述累加和的比值作为各音频分信号的分形维信号各位置的人声含量估计度权重。
在其中一种实施例中,所述各音素向量的确定过程为:
将低信噪比音频数据所有位置的原始信号突变点分布值进行阈值分割,将原始信号突变点分布值大于分割阈值的对应位置作为分割断点,对低信噪比音频数据进行分割,并重采样,得到各音素向量。
在其中一种实施例中,所述结合神经网络模型完成数字人嘴型智能驱动,包括:
将各音素向量作为神经网络模型的输入,输出为各音素向量对应的嘴型。
本申请至少具有如下有益效果:
本申请通过对低信噪比音频数据进行分解,得到各音频分信号,进而获取低信噪比音频数据及各音频分信号的分形维信号,分析低信噪比音频数据的分形维信号及各音频分信号的分形维信号中元素的分布,得到各分信号分形维语音特征度,反映了对应的音频分信号中非人声的噪音含量,降低了噪音对音素分割产生的误差。
进一步分析各音频分信号的分形维信号的局部频域分布特征,得到各音频分信号的分形维信号各位置的分信号分形维突变度,表征出音频分信号不同位置处噪音与人声的区别特征,作为进行音素分割的判断依据。
结合各分信号分形维语音特征度及各分信号分形维突变度得到低信噪比音频数据各位置的原始信号突变点分布值,反映了低信噪比音频数据各位置作为分割断点的可能性,提高了分割断点确定的准确性。
根据原始信号突变点分布值获取低信噪比音频数据的各音素向量,结合神经网络模型完成数字人嘴型智能驱动,减少了噪音对音素分割的干扰,能够在非专业录音环境,低信噪比下完成对数字人的嘴型驱动,提高了数字人嘴型语音驱动的场景适应性及准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本申请提供的基于语音识别的数字人嘴型智能驱动方法的步骤流程图;
图2为音频原始数据VMD分解示意图;
图3为音频分信号的分形维信号中第1窗口数据示意图;
图4为音频分信号的分形维信号中第1窗口功率谱向量示意图;
图5为低信噪比音频数据分割局部示意图;
图6为音素向量示意图。
具体实施方式
在本申请实施例的描述中,“示例性”、“或者”、“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性”、“或者”、“例如”等词旨在以具体方式呈现相关概念。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。应理解,本申请中除非另有说明,“/”表示或的意思。例如,A/B可以表示A或B。本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B三种情况。“至少一个”是指一个或者多个。“多个”是指两个或多于两个。例如,a、b或c中的至少一个,可以表示:a,b,c,a和b,a和c,b和c,a、b和c七种情况。
另外需要说明的是,本申请中的术语“第一”、“第二”是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。本申请实施例中公开的方法或流程图所示出的方法,包括用于实现方法的一个或多个步骤,在不脱离权利要求的范围的情况下,多个步骤的执行顺序可以彼此互换,其中某些步骤也可以被删除。
下面结合附图具体的说明本申请所提供的基于语音识别的数字人嘴型智能驱动方法的具体方案。
本申请一个实施例提供的基于语音识别的数字人嘴型智能驱动方法,具体的,提供了如下的基于语音识别的数字人嘴型智能驱动方法,请参阅图1,该方法包括以下步骤:
步骤S001,采集需要数字人播报的低信噪比音频数据。
采集需要数字人播报的低信噪比音频数据,记为音频原始数据,表示为一个长度为N的音频向量,其中,音频向量中的第n个元素代表在第n时刻语音信号的强度值。
作为本申请的一个实施例,低信噪比音频数据的采样率为8kHz,音频向量的长度N=50000,实施者可根据实际情况自行设定,本申请对此不做限制。
步骤S002,分析低信噪比音频数据的分形维信号及各音频分信号的分形维信号中元素的分布,得到各分信号分形维语音特征度。
语音信号进行语音分割时以音素为分割依据,音素对应了语音中的元音,元音与元音的不同主要体现在共振峰的分布上,而共振峰是元音持续时间内语音信号频率谱上的峰值部位,为了得到更好的音素分割效果,需要对语音的频域特征进行提取。
因此,将低信噪比音频数据作为输入,采用变分模态分解VMD算法,得到M个音频分信号,VMD算法为现有公知技术,本申请对此不做详细赘述。
在本申请的一个实施例中,VMD算法的分解次数确定为7,即M=7,得到7个音频分信号,实施者可根据实际情况自行确定VMD算法的分解次数,本申请对此不做限制。音频原始数据VMD分解示意图如图2所示。
语音信号中不同的音素由于其对应的频谱成分不同,导致其局部信号的复杂程度不同,而语音信号可以视为一种一维的线性图像,而一维线性图像可以通过其局部的分形维数表征局部特征,因此在音素分割技术中,常用分形维提取算法获取语音信号特征。
由此,分别计算低信噪比音频数据,以及各音频分信号的分形维信号,表示为一定长度的向量,在本申请的一个实施例中,分形维信号的计算方法为计盒维算法,参数盒数量为K=500,计盒维算法为现有公知技术,本申请对此不做详细赘述,实施者可根据实际情况选择其他现有可行的分形维信号的计算方法,本申请在此不做限制。
语音信号的分形维数在理论上分布在1和2之间,且通常发音部分的分形维数普遍大于无声段,且发声时的音素变化会引起分形维数的突变,因此语音信号的分形维信号通常用于音节分割。由于噪音干扰,语音信号的分形维数据在没有人声发声时也会出现分形维数的突变,但由于语音信号的噪音通常为白噪音,因此噪音的分形维数突变通常在时间上均匀分布且信号波形相似。
因此,针对各音频分信号的分形维信号,计算其中各元素与对应分形维信号中所有元素的和值的比值,按照分形维信号中的元素顺序,组成各音频分信号的分信号分形维分布向量。计算各音频分信号的分信号分形维语音特征度,具体为:
计算低信噪比音频数据的分形维信号中所有元素的标准差与各音频分信号的分形维信号中所有元素的标准差的比值,确定为第一分布差异,计算低信噪比音频数据的分形维信号中所有元素的均值与各音频分信号的分形维信号中所有元素的均值的差值绝对值,确定为第二分布差异;
计算低信噪比音频数据的分形维信号及各音频分信号的分形维信号中相同位置元素的差值绝对值,确定为第三分布差异,计算所述第三分布差异与音频分信号对应的分信号分形维分布向量中相同位置元素的乘积,计算各音频分信号的所述第二分布差异与对应音频分信号的分形维信号中所有所述乘积的和值的比值,确定为第四分布差异,各分信号分形维语音特征度与所述第一分布差异、所述第四分布差异成正相关关系。
应当理解的是,正相关关系表示因变量会随着自变量的增大而增大,因变量会随着自变量的减小而减小,具体可以为相乘关系、相加关系等,负相关关系表示因变量会随着自变量的增大而减小,因变量会随着自变量的减小而增大,具体可以为相减关系、相除关系等。
在本申请的一个实施例中,各音频分信号的分信号分形维语音特征度为对应的所述第一分布差异与所述第四分布差异的乘积。
分形维信号中所有元素的标准差越大,代表分形维信号中的数值变异情况越突出,对应的音频分信号中人的语音信息越多,对应的分信号分形维语音特征度越强。
分信号分形维分布向量中对应位置的元素越大,代表对应位置的分形维数值越大,而分形维数值大的区域通常是人声语音区域;进一步通过计算所有所述第三分布差异与音频分信号对应的分信号分形维分布向量中相同位置元素的乘积的和值,获取所述第四分布差异,结合所述第一分布差异。确定分信号分形维语音特征度,分信号分形维语音特征度越大则表示对应的音频分信号中噪音含量越少。
步骤S003,分析各音频分信号的分形维信号的局部频域分布特征,得到各音频分信号的分形维信号各位置的分信号分形维突变度。
由于分形维信号中发生突变的点通常为音素分割的分割点,因此对分形维信号中的突变点进行分析:
首先,以各音频分信号的分形维信号中的各元素为中心,取长度为R的窗口,记为总窗口,进一步,将总窗口均分为2部分,前半部分为第1窗口,后半部分为第2窗口。
在本申请的一个实施例中,总窗口的长度R=51,实施者可根据实际情况自行确定总窗口的长度,本申请对此不做限制。
进一步,分别将各音频分信号的分形维信号中各元素第1窗口内的数据、第2窗口内的数据进行频域转换,获取第1窗口、第2窗口对应的功率谱向量。
在本申请的一个实施例中,进行频域转换采用的算法为快速傅里叶算法,快速傅里叶算法为现有公知技术,本申请在此不做详细赘述,实施者可根据实际情况选择其他频域转换算法,本申请在此不做限制。音频分信号的分形维信号中第1窗口数据示意图如图3所示,音频分信号的分形维信号中第1窗口功率谱向量示意图如图4所示。
进一步将第1窗口、第2窗口的功率谱向量作为输入,采用直方图算法进行统计,将统计结果归一化得到第1窗口、第2窗口的频率统计分布向量。直方图算法、向量归一化算法均为现有公知技术,本申请在此不做详细赘述。
由于语音信号的噪声为白噪声,因此若对应窗口内的噪音数据越多,则对应的频率统计分布向量的分布越接近高斯分布。
针对各音频分信号,分别计算分形维信号中各位置元素所述第1窗口与所述第2窗口内所有元素的均值的差值绝对值、求和结果,将所述差值绝对值确定为第一分形局部差异,将所述求和结果确定为分形局部累积,计算各位置元素第1窗口、第2窗口的频率统计分布向量的差值的模长,计算所述分形局部累积与对应的音频分信号的分形维信号中所有元素的均值的差值绝对值,确定为第二分形局部差异,将所述模长、所述第一分形局部差异、所述第二分形局部差异均正比例映射,得到各音频分信号的分形维信号各位置的分信号分形维突变度。
需要说明的是,正比例映射表示变量与变量之间为正相关关系,因变量会随着自变量的增大而增大,因变量会随着自变量的减小而减小。
在本申请的一个实施例中,各音频分信号的分形维信号各位置的分信号分形维突变度为对应的所述模长、所述第一分形局部差异、所述第二分形局部差异三者的乘积。
在本申请的另一个实施例中,各音频分信号的分形维信号各位置的分信号分形维突变度为对应的所述模长、所述第一分形局部差异、所述第二分形局部差异三者的和值。
分形维信号中各元素位置处第1窗口与第2窗口的频率统计分布向量之差的模长越大,或第一分形局部差异越大,代表两个窗口中的数据分布越不相似,前后两个窗口越有可能是不同的两个语音音节,或一个是没有语音的噪音部分,另一个是有噪音的语音部分。第二分形局部差异越大,说明元素所在位置越可能为整个信号的特征点,越有可能存在人语音。分信号分形维突变度越大,代表对应位置处越可能是分割不同音素的突变点。
其次,采用各音频分信号的分形维信号各位置的分信号分形维突变度相同的计算方法,针对低信噪比音频数据的分形维信号,计算各位置的分信号分形维突变度。
步骤S004,结合各分信号分形维语音特征度及各分信号分形维突变度得到低信噪比音频数据各位置的原始信号突变点分布值。
分析低信噪比音频数据的分形维信号与各音频分信号的分形维信号相同位置的分信号分形维突变度的差异,结合各分信号分形维语音特征度,得到各音频分信号的分形维信号各位置的人声含量估计度,具体为:
计算各音频分信号的分形维信号各位置与低信噪比音频数据的分形维信号对应位置的所述分信号分形维突变度的差异,确定为突变差异,然后,计算突变差异与对应音频分信号的分信号分形维语音特征度的乘积,作为各音频分信号的分形维信号各位置的人声含量估计度。
在本申请的一个实施例中,计算各音频分信号的分形维信号各位置与低信噪比音频数据的分形维信号对应位置的所述分信号分形维突变度的差异,具体为计算各音频分信号的分形维信号各位置与低信噪比音频数据的分形维信号对应位置的所述分信号分形维突变度的差值绝对值。
基于人声含量估计度确定各音频分信号的分形维信号各位置的人声含量估计度权重,具体为:
计算各音频分信号的分形维信号中各位置的人声含量估计度与所有音频分信号的分形维信号中相同位置人声含量估计度最大值的差值,确定为人声含量区分度,计算所有音频分信号的分形维信号各位置的所述人声含量区分度的累加和,将所述人声含量区分度与所述累加和的比值作为各音频分信号的分形维信号各位置的人声含量估计度权重。
最后,分别计算各音频分信号的分形维信号中各位置元素的总窗口、第1窗口、第2窗口内所有元素的信息熵,计算所述第1窗口、第2窗口内所有元素的信息熵的和值,计算所述总窗口内所有元素的信息熵与所述和值的比值,确定为局部波动因子,将所有音频分信号的分形维信号各位置的人声含量估计度权重、所述局部波动因子正比例映射,得到低信噪比音频数据各位置的原始信号突变点分布值。
在本申请的一个实施例中,计算各音频分信号的分形维信号各位置的人声含量估计度权重与对应的所述局部波动因子的相乘结果,将所有音频分信号的分形维信号相同位置的所述相乘结果的和值,作为低信噪比音频数据对应位置的原始信号突变点分布值。
低信噪比音频数据和音频分信号的分信号分形维突变度差异越大,或音频分信号的分信号分形维语音特征度越大,对应的人声含量估计度越大,代表音频分信号中的人声含量越多;进一步将人声含量估计度反向归一化得到人声含量估计度权重。
局部波动因子越大,代表在音频分信号中对应位置处的突变点将窗口内信号分割后,窗口内信号的混乱度下降越多,而分割后混乱度下降越多,代表分割出的第1窗口和第2窗口内的数据自相关性越好,对应位置处越可能处于两个不同音素之间,或处于无人声白噪音和人声之间。
最终得到原始信号突变点分布值,原始信号突变点分布值越大,越应该在对应位置处将低信噪比音频数据进行分割。
步骤S005,根据原始信号突变点分布值获取低信噪比音频数据的各音素向量,结合神经网络模型完成数字人嘴型智能驱动。
将低信噪比音频数据所有位置的原始信号突变点分布值进行阈值分割,将原始信号突变点分布值大于分割阈值的对应位置作为分割断点,对低信噪比音频数据进行分割,并重采样,得到各音素向量。
在本申请的一个实施例中,采用大津阈值算法获取分割阈值,大津阈值算法为现有公知技术,本申请在此不做详细赘述,实施者可自行选择其他阈值分割算法,本申请对此不做限制,重采样的采样数为200,实施者可根据实际情况自行设定,本申请对此不做限制。低信噪比音频数据分割局部示意图如图5所示,音素向量示意图如图6所示。
进一步,对各音素向量进行分类标签处理,并且每一种标签对应一种数字人嘴型。最终每一个音素向量都有其对应的标签值。
进一步将各音素向量和其对应的标签值作为各组数据,由多组数据构成数据集。以数据集为输入,采用LSTM神经网络模型进行训练,得到训练完成的LSTM神经网络模型。LSTM神经网络模型及LSTM神经网络模型的训练过程均为现有公知技术,本申请在此不做详细赘述。
最终,将要用于驱动数字人嘴型的低信噪比语音数据,按照上述方法转化为各音素向量,将各音素向量作为输入,采用训练完成的LSTM神经网络模型,输出为对应的标签值,根据标签值获取对应的嘴型,通过获取的嘴型驱动数字人嘴部运动。
综上所述,本申请通过对低信噪比音频数据进行分解,得到各音频分信号,进而获取低信噪比音频数据及各音频分信号的分形维信号,分析低信噪比音频数据的分形维信号及各音频分信号的分形维信号中元素的分布,得到各分信号分形维语音特征度,反映了对应的音频分信号中非人声的噪音含量,降低了噪音对音素分割产生的误差。
进一步分析各音频分信号的分形维信号的局部频域分布特征,得到各音频分信号的分形维信号各位置的分信号分形维突变度,表征出音频分信号不同位置处噪音与人声的区别特征,作为进行音素分割的判断依据。
结合各分信号分形维语音特征度及各分信号分形维突变度得到低信噪比音频数据各位置的原始信号突变点分布值,反映了低信噪比音频数据各位置作为分割断点的可能性,提高了分割断点确定的准确性。
根据原始信号突变点分布值获取低信噪比音频数据的各音素向量,结合神经网络模型完成数字人嘴型智能驱动,减少了噪音对音素分割的干扰,能够在非专业录音环境,低信噪比下完成对数字人的嘴型驱动,提高了数字人嘴型语音驱动的场景适应性。
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (5)
1.基于语音识别的数字人嘴型智能驱动方法,其特征在于,该方法包括以下步骤:
采集低信噪比音频数据,分解后得到各音频分信号;
分析低信噪比音频数据的分形维信号及各音频分信号的分形维信号中元素的分布,得到各分信号分形维语音特征度;
分析各音频分信号的分形维信号的局部频域分布特征,得到各音频分信号的分形维信号各位置的分信号分形维突变度;
结合各分信号分形维语音特征度及各分信号分形维突变度得到低信噪比音频数据各位置的原始信号突变点分布值;
根据所述原始信号突变点分布值获取低信噪比音频数据的各音素向量,结合神经网络模型完成数字人嘴型智能驱动;
其中,所述分信号分形维语音特征度的确定方法为:
分析各音频分信号的分形维信号中各元素的重要程度得到各分信号分形维分布向量;
计算低信噪比音频数据的分形维信号中所有元素的标准差与各音频分信号的分形维信号中所有元素的标准差的比值,确定为第一分布差异,计算低信噪比音频数据的分形维信号中所有元素的均值与各音频分信号的分形维信号中所有元素的均值的差值绝对值,确定为第二分布差异;
计算低信噪比音频数据的分形维信号及各音频分信号的分形维信号中相同位置元素的差值绝对值,确定为第三分布差异,计算所述第三分布差异与音频分信号对应的分信号分形维分布向量中相同位置元素的乘积,计算各音频分信号的所述第二分布差异与对应音频分信号的分形维信号中所有所述乘积的和值的比值,确定为第四分布差异,各分信号分形维语音特征度与所述第一分布差异、所述第四分布差异成正相关关系;
所述分信号分形维突变度的确定过程为:
对各音频分信号的分形维信号中各位置元素划分第1窗口、第2窗口,分析功率谱向量分布特征,得到各音频分信号的分形维信号中各位置第1窗口、第2窗口的频率统计分布向量;
分别计算分形维信号中各位置元素所述第1窗口与所述第2窗口内所有元素的均值的差值绝对值、求和结果,将所述差值绝对值确定为第一分形局部差异,将所述求和结果确定为分形局部累积,计算所述各位置第1窗口、第2窗口的频率统计分布向量的差值的模长,计算所述分形局部累积与对应的音频分信号的分形维信号中所有元素的均值的差值绝对值,确定为第二分形局部差异,将所述模长、所述第一分形局部差异、所述第二分形局部差异均正比例映射,得到各音频分信号的分形维信号各位置的分信号分形维突变度;
所述原始信号突变点分布值的确定方法为:
采用各音频分信号的分形维信号各位置的分信号分形维突变度相同的计算方法,针对低信噪比音频数据的分形维信号,计算各位置的分信号分形维突变度,分析低信噪比音频数据的分形维信号与各音频分信号的分形维信号相同位置的分信号分形维突变度的差异,结合各分信号分形维语音特征度,得到各音频分信号的分形维信号各位置的人声含量估计度;
基于所述人声含量估计度确定各音频分信号的分形维信号各位置的人声含量估计度权重;
分别计算各音频分信号的分形维信号中各位置元素的总窗口、第1窗口、第2窗口内所有元素的信息熵,计算所述第1窗口、第2窗口内所有元素的信息熵的和值,计算所述总窗口内所有元素的信息熵与所述和值的比值,确定为局部波动因子,将所有音频分信号的分形维信号各位置的人声含量估计度权重、所述局部波动因子正比例映射,得到低信噪比音频数据对应位置的原始信号突变点分布值;
所述各音素向量的确定过程为:
将低信噪比音频数据所有位置的原始信号突变点分布值进行阈值分割,将原始信号突变点分布值大于分割阈值的对应位置作为分割断点,对低信噪比音频数据进行分割,并重采样,得到各音素向量;
所述结合神经网络模型完成数字人嘴型智能驱动,包括:
将各音素向量作为神经网络模型的输入,输出为各音素向量对应的嘴型。
2.如权利要求1所述的基于语音识别的数字人嘴型智能驱动方法,其特征在于,所述分信号分形维分布向量的确定过程为:
将各音频分信号的分形维信号中各元素与所有元素的比值,组成各分信号分形维分布向量。
3.如权利要求1所述的基于语音识别的数字人嘴型智能驱动方法,其特征在于,所述频率统计分布向量的确定过程为:
针对各音频分信号的分形维信号,以各位置元素为中心取预设长度的总窗口,将所述总窗口均分为两部分,依次记为第1窗口、第2窗口,分别将第1窗口、第2窗口内的元素进行频域转换,获取对应的功率谱向量,将功率谱向量进行直方图统计,将统计结果归一化得到第1窗口、第2窗口的频率统计分布向量。
4.如权利要求1所述的基于语音识别的数字人嘴型智能驱动方法,其特征在于,所述人声含量估计度的确定方法为:
计算各音频分信号的分形维信号各位置与低信噪比音频数据的分形维信号中对应位置的所述分信号分形维突变度的差异,确定为突变差异,将所述突变差异与对应的分信号分形维语音特征度的乘积作为各音频分信号的分形维信号各位置的人声含量估计度。
5.如权利要求1所述的基于语音识别的数字人嘴型智能驱动方法,其特征在于,所述人声含量估计度权重的确定过程为:
计算所述各位置的人声含量估计度与所有音频分信号的分形维信号中相同位置人声含量估计度最大值的差值,确定为人声含量区分度,计算所有音频分信号的分形维信号各位置的所述人声含量区分度的累加和,将所述人声含量区分度与所述累加和的比值作为各音频分信号的分形维信号各位置的人声含量估计度权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410628938.1A CN118212934B (zh) | 2024-05-21 | 2024-05-21 | 基于语音识别的数字人嘴型智能驱动方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410628938.1A CN118212934B (zh) | 2024-05-21 | 2024-05-21 | 基于语音识别的数字人嘴型智能驱动方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118212934A CN118212934A (zh) | 2024-06-18 |
CN118212934B true CN118212934B (zh) | 2024-09-06 |
Family
ID=91454877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410628938.1A Active CN118212934B (zh) | 2024-05-21 | 2024-05-21 | 基于语音识别的数字人嘴型智能驱动方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118212934B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331184A (zh) * | 2020-10-29 | 2021-02-05 | 网易(杭州)网络有限公司 | 语音口型同步方法、装置、电子设备及存储介质 |
CN116310004A (zh) * | 2023-03-22 | 2023-06-23 | 平安科技(深圳)有限公司 | 虚拟人授课动画生成方法、装置、计算机设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111354370B (zh) * | 2020-02-13 | 2021-06-25 | 百度在线网络技术(北京)有限公司 | 一种唇形特征预测方法、装置和电子设备 |
EP3965102B1 (en) * | 2020-08-23 | 2024-07-17 | Tata Consultancy Services Limited | Method and system for generating 2d animated lip images synchronizing to an audio signal |
KR102498667B1 (ko) * | 2020-08-27 | 2023-02-10 | 네오사피엔스 주식회사 | 합성 음성을 화자 이미지에 적용하는 방법 및 시스템 |
EP4352727A1 (en) * | 2021-08-09 | 2024-04-17 | Google LLC | Systems and methods for assisted translation and lip matching for voice dubbing |
CN116597858A (zh) * | 2023-04-06 | 2023-08-15 | 湖北星纪魅族科技有限公司 | 语音口型匹配方法、装置、存储介质及电子设备 |
CN116863045A (zh) * | 2023-07-07 | 2023-10-10 | 重庆邮电大学 | 一种轻量级语音驱动三维脸部模型生成方法 |
CN117746887A (zh) * | 2023-11-24 | 2024-03-22 | 世优(北京)科技有限公司 | 基于离散编码的语音驱动嘴型生成方法及装置 |
CN117975991B (zh) * | 2024-03-29 | 2024-07-02 | 华东交通大学 | 基于人工智能的数字人驱动方法及装置 |
-
2024
- 2024-05-21 CN CN202410628938.1A patent/CN118212934B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331184A (zh) * | 2020-10-29 | 2021-02-05 | 网易(杭州)网络有限公司 | 语音口型同步方法、装置、电子设备及存储介质 |
CN116310004A (zh) * | 2023-03-22 | 2023-06-23 | 平安科技(深圳)有限公司 | 虚拟人授课动画生成方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN118212934A (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100745976B1 (ko) | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 | |
Hu et al. | Pitch‐based gender identification with two‐stage classification | |
CN102089803A (zh) | 用以将信号的不同段分类的方法与鉴别器 | |
Weninger et al. | Non-negative matrix factorization for highly noise-robust asr: To enhance or to recognize? | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
JP3298858B2 (ja) | 低複雑性スピーチ認識器の区分ベースの類似性方法 | |
WO1996008005A1 (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
Sharma et al. | A real time speech to text conversion system using bidirectional Kalman filter in Matlab | |
Hung et al. | Automatic metric-based speech segmentation for broadcast news via principal component analysis. | |
Ziółko et al. | Wavelet method of speech segmentation | |
CN117935789A (zh) | 语音识别方法及系统、设备、存储介质 | |
CN118212934B (zh) | 基于语音识别的数字人嘴型智能驱动方法 | |
KR100969138B1 (ko) | 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치 | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
Ma et al. | Combining speech fragment decoding and adaptive noise floor modeling | |
Razak et al. | Towards automatic recognition of emotion in speech | |
CN113742515A (zh) | 一种音频分类方法及系统及设备及存储介质 | |
Baggenstoss | A multi-resolution hidden markov model using class-specific features | |
Yingle et al. | Speaker gender identification based on combining linear and nonlinear features | |
Koc | Acoustic feature analysis for robust speech recognition | |
CN112562726B (zh) | 一种基于mfcc相似矩阵的语音音乐分离方法 | |
RU2807170C2 (ru) | Детектор диалогов | |
Biswas et al. | Audio visual isolated Hindi digits recognition using HMM | |
Sahoo et al. | Word extraction from speech recognition using correlation coefficients | |
EP3956890B1 (en) | A dialog detector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |