CN112700520B - 基于共振峰的口型表情动画生成方法、装置及存储介质 - Google Patents

基于共振峰的口型表情动画生成方法、装置及存储介质 Download PDF

Info

Publication number
CN112700520B
CN112700520B CN202011618339.XA CN202011618339A CN112700520B CN 112700520 B CN112700520 B CN 112700520B CN 202011618339 A CN202011618339 A CN 202011618339A CN 112700520 B CN112700520 B CN 112700520B
Authority
CN
China
Prior art keywords
formant
frame
mouth shape
sequence
expression animation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011618339.XA
Other languages
English (en)
Other versions
CN112700520A (zh
Inventor
吴强
季晓枫
施恩铭
马俊
郭翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Magic Digital Creative Technology Co ltd
Original Assignee
Shanghai Magic Digital Creative Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Magic Digital Creative Technology Co ltd filed Critical Shanghai Magic Digital Creative Technology Co ltd
Priority to CN202011618339.XA priority Critical patent/CN112700520B/zh
Publication of CN112700520A publication Critical patent/CN112700520A/zh
Application granted granted Critical
Publication of CN112700520B publication Critical patent/CN112700520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种基于共振峰的口型表情动画生成方法、装置及存储介质,方法包括以下步骤:对音频信号进行分帧处理;进行快速傅里叶变换,得到每个语音帧的频谱,获取每个语音帧的共振峰数据;基于共振峰数据得到每个语音帧对应的控制字;替换控制序列中的奇异点,得到元音序列,基于元音序列,生成口型动画和表情动画。与现有技术相比,本发明基于共振峰数据,得到每个声音帧对应的元音,再通过替换奇异点,可以减少抖动,口型和表情的变化更加自然流畅,保证了视觉效果,提升了用户体验;每次自元音序列中读取多个控制字,将出现次数最多的控制字作为目标控制字,进一步抑制了因声音突变而造成的口型和表情突变。

Description

基于共振峰的口型表情动画生成方法、装置及存储介质
技术领域
本发明涉及语音处理领域,尤其是涉及一种基于共振峰的口型表情动画生成方法、装置及存储介质。
背景技术
随着动画、游戏等娱乐产业的发展以及人机交互的普及,动画与音频的配合越来越重要,将人脸的口型与语音相匹配在增加人脸动画的逼真性方面起着重要的作用。鉴于语音和唇部运动之间存在较为直观的确定性关系,研究人员提出了基于语音自动生成与语音匹配的唇形动画,如中国专利CN201810671470.9公开的一种游戏角色中文语音自动识别方法、一定程度上满足了需求,可以生成与语音相匹配的口型动画。该申请基于中文元音在共振峰上的特征,识别当前帧发的元音口型,基于整段语音生成每帧的口型动画数据。
但是,在现实生活中,语音不仅与唇形匹配,也与面部表情匹配,已有的工作大多关注于合成与语音匹配的唇形动画,而忽略了相应的面部表情。现有技术已经公开了一些面部表情动画的合成方法,如中国专利CN201611261096.2公开的基于语音实时驱动人物模型的表情和姿态的方法,将语音与表情相对应,根据语音切换表情。一些游戏制作公司也基于语音驱动生成与语音相匹配的口型动画和表情动画。
但是,由于声音变化较快,而实际上人的口型和表情变化较慢,因此,如果将每个语音分别对应一个口型和表情动画时,口型动画和表情动画会快速切换,变化时间非常短,在肉眼看来,好像是口型和表情发生了突变,非常不自然,影响视觉效果,用户体验不佳。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于共振峰的口型表情动画生成方法、装置及存储介质,基于共振峰数据,得到每个声音帧对应的元音,再通过替换奇异点,可以减少抖动,口型和表情的变化更加自然流畅,保证了视觉效果,提升了用户体验;每次自元音序列中读取多个控制字,将出现次数最多的控制字作为目标控制字,进一步抑制了因声音突变而造成的口型和表情突变。
本发明的目的可以通过以下技术方案来实现:
一种基于共振峰的口型表情动画生成方法,包括以下步骤:
S1:获取音频信号,对音频信号进行分帧处理,得到N(N>0)个语音帧;
S2:对每个语音帧分别进行快速傅里叶变换,得到每个语音帧的频谱,基于频谱分别得到每个语音帧的共振峰数据;
S3:基于共振峰数据,分别得到每个语音帧对应的控制字,N个语音帧的控制字组成了控制序列{k1、k2、…、kN},每一个控制字ki(1≤i≤N)对应一个元音;
S4:遍历控制序列,替换控制序列中的所有奇异点,得到元音序列,具体为:对于控制序列中的控制字ks(2≤s≤N-2),如果ks≠ks-1,且ks-1=ks+1=ks+2,则控制字ks为奇异点,将ks的值替换为ks-1
S5:基于元音序列,生成口型动画和表情动画。
进一步的,所述步骤S1具体为:
S11:采集声音信号,并将声音信号转换为数字信号,对数字信号进行预加重处理,得到音频信号;
S12:对音频信号进行分帧处理得到N个帧,每一帧的长度均为L,20ms≤L≤50ms,相邻两帧之间的重叠区域的长度为M,L-M=λ*L,0<λ≤0.5;
S13:对每一帧分别进行加窗处理,得到N个语音帧。
更进一步的,所述步骤S11中,声音信号的采样频率为44.1kHz,量化位数为16位。
更进一步的,所述步骤S12中,每一帧的长度L=23.2ms,相邻两帧之间的重叠区域的长度M=13.2ms。
进一步的,所述步骤S13中,采用汉明窗对每一帧分别进行加窗处理,具体为将每一帧分别乘以汉明窗的窗函数。
进一步的,所述步骤S2中基于频谱分别得到每个语音帧的共振峰数据具体为:获取每个语音帧的前3个共振峰F1、F2、F3。
进一步的,所述步骤S5具体为:根据预设置的读取速度,每次自元音序列中读取q(q>0)个控制字,取q个控制字中出现次数最多的控制字为目标控制字,获取目标控制字对应的目标元音,获取目标元音对应的目标口型和目标表情,生成目标口型动画和目标表情动画。
更进一步的,所述读取速度为10次/s,q的取值为10,即每秒读取10次,每次自元音序列中读取10个控制字。
一种基于共振峰的口型表情动画生成装置,基于如上所述的口型表情动画生成方法,包括依次连接的声音采集模块、声音处理模块、计算模块和动画生成模块,其中:
声音采集模块,用于获取音频信号;
声音处理模块,用于对音频进行分帧处理、快速傅里叶变换,得到控制序列;
计算模块,用于替换控制序列中的所有奇异点,得到元音序列;
动画生成模块,用于根据元音序列生成口型动画和表情动画。
一种计算机可读存储介质,所述存储介质中存储有基于共振峰的口型表情动画生成程序,所述基于共振峰的口型表情动画生成程序由处理器执行以实现如上所述的基于共振峰的口型表情动画生成方法。
与现有技术相比,本发明具有以下有益效果:
(1)基于共振峰数据,得到每个声音帧对应的元音,再通过替换奇异点,可以减少抖动,口型和表情的变化更加自然流畅,保证了视觉效果,提升了用户体验。
(2)每次自元音序列中读取多个控制字,将出现次数最多的控制字作为目标控制字,进一步抑制了因声音突变而造成的口型和表情突变。
(3)将声音帧进行快速傅里叶变换得到频谱,从而获得共振峰数据,基于共振峰数据F1、F2、F3判断声音帧对应的元音,操作过程简单,判断速度快,而且判断较为准确。
附图说明
图1为基于共振峰的口型表情动画生成方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1:
一种基于共振峰的口型表情动画生成方法,如图1所示,包括以下步骤:
S1:获取音频信号,对音频信号进行分帧处理,得到N(N>0)个语音帧;
步骤S1具体为:
S11:采集声音信号,并将声音信号转换为数字信号,对数字信号进行预加重处理,得到音频信号;
S12:对音频信号进行分帧处理得到N个帧,每一帧的长度均为L,20ms≤L≤50ms,相邻两帧之间的重叠区域的长度为M,M=(1-λ)*L,0<λ≤0.5;
S13:对每一帧分别进行加窗处理,得到N个语音帧。
本实施例中,声音信号的采样频率为44.1kHz,量化位数为16位,每一帧的长度L=23.2ms,即1024个样本点,相邻两帧之间的重叠区域的长度M=13.2ms,即583个样本点,具体分帧过程为:生成一个长度为23.3ms的取样段,落在取样段内的样本点为一个帧,取样段的初始起点为音频信号的起点,得到第一帧,之后,取样段移动10ms(即帧移),即441个样本点,得到第二帧,第一帧和第二帧之间的重叠区域即1024-441=583,继续移动取样段,每次移动10ms,这样,每一秒声音信号可以取到100个帧。
将每一帧的长度L设为1024个样本点,在后续进行快速傅里叶变换时,计算机更容易计算。相邻帧之间有重叠区域,能够使帧与帧之间平滑过渡,本实施例中,帧移取10ms,在其他实施方式中,也可以根据需要改变帧移的大小,从而调整相邻两帧之间的重叠区域的长度M。
采用汉明窗对每一帧分别进行加窗处理,具体为将每一帧分别乘以汉明窗的窗函数。
S2:对每个语音帧分别进行快速傅里叶变换,得到每个语音帧的频谱,基于频谱分别得到每个语音帧的共振峰数据,具体为:获取每个语音帧的前3个共振峰F1、F2、F3。
声音信号处理过程中,转换为数字信号、预加重处理、分帧、加窗、快速傅里叶变换等均为现有声音处理方法中常用的技术手段,故不再赘述。
S3:基于共振峰数据,分别得到每个语音帧对应的控制字,N个语音帧的控制字组成了控制序列{k1、k2、…、kN},每一个控制字ki(1≤i≤N)对应一个元音。
通过对多种不同口型进行综合分析,发现口型的形状与元音基本呈对应关系。即对于不同的文字读音而言,只要元音相同,则发音者的口型形状和张开的大小是基本固定的,在没有特定情绪时,面部表情也是与元音和口型相对应的,所以只需要分析出声音当中的元音,就可以制作出相对准确的口型动画和表情动画。
而共振峰是区别不同元音的重要参数。共振峰是指在声音的频谱中能量相对集中的一些区域,声音在经过共振腔时,受到腔体的滤波作用,使得频域中不同频率的能量重新分配,一部分因为共振腔的共振作用得到强化,另一部分则受到衰减。由于能量分布不均匀,强的部分犹如山峰一般,故而称之为共振峰。
本实施例中,对人群进行抽样调查,选取16名成人男性和16名成人女性,年龄在18~30岁,得到其发音的6个元音a、o、e、i、u、v的共振峰数据F1、F2、F3的统计平均值,如表1所示,F1主要分布在290Hz~1kHz范围内,F2分布于500Hz~2.5kHz范围内,而F3分布于2.5kHz~4.0kHz范围内。
表1
而且,如表2所示,各个元音对应于一组不同的共振峰数据,可以互相错开,因此可使用共振峰数据F1、F2、F3作为识别元音的基础。
表2
元音 F1/Hz F2/Hz F3/Hz 控制字
a 960~1080 1030~1410 2780~3360 1
o 500~800 650~960 2890~3590 2
e 520~820 1000~1300 3000~3200 3
i 240~380 2270~3250 3430~3870 5
u 350~450 430~670 3020~3790 4
v 240~380 2090~2740 3330~3830 6
本实施例中,控制字ki∈{1、2、3、4、5、6},如表2所示,6个控制字1、2、3、4、5、6分别对应元音a、o、e、i、u、v。分别得到每一个声音帧的共振峰数据,再基于共振峰数据,分别得到每个语音帧对应的控制字,这样就得到了由控制字组成的控制序列。
如第一个声音帧的共振峰数据F1、F2、F3为980Hz、1.2kHz、3kHz,则该声音帧对应的控制字为1,对应元音a。
现有技术中也公开了各个元音对应的共振峰数据,与本申请中元音与共振峰数据的对应有所区别,其元音可能是发音群体的不同、发音习惯的不同、测量方法的不同,因此,在其他实施方式中,也可以根据语音的特点,重新确定各个元音对应的共振峰数据,以增加精确度。
S4:遍历控制序列,替换控制序列中的所有奇异点,得到元音序列,具体为:对于控制序列中的控制字ks(2≤s≤N-2),如果ks≠ks-1,且ks-1=ks+1=ks+2,则控制字ks为奇异点,将ks的值替换为ks-1
语音变化时,口型和面部表情会随之发生变化。当声音突然发生改变时,该声音所对应的控制字与左右控制字不一样,为了避免出现抖动,将右侧的2个控制字与左侧的1个控制字进行对比,如果左侧控制字与右侧两个控制字相同,即ks≠ks-1,且ks-1=ks+1=ks+2,则将ks的值替换为ks-1,如控制序列“1611”中的“6”为奇异点,使用“1”替换“6”。这样,可以减少抖动。
S5:基于元音序列,生成口型动画和表情动画。
具体为:根据预设置的读取速度,每次自元音序列中读取q(q>0)个控制字,取q个控制字中出现次数最多的控制字为目标控制字,获取目标控制字对应的目标元音,获取目标元音对应的目标口型和目标表情,生成目标口型动画和目标表情动画。
本实施例中,每一秒声音信号可以取到100个帧,读取速度为10次/s,q的取值为10,即每秒读取10次,每次自元音序列中读取10个控制字。取这10个控制字中出现次数最多的控制字为目标控制字,获取目标控制字对应的目标元音,获取目标元音对应的目标口型和目标表情,生成目标口型动画和目标表情动画。这样,使用出现次数最多的控制字作为目标控制字,进一步抑制了因声音突变而造成的口型和表情突变。
一种基于共振峰的口型表情动画生成装置,包括依次连接的声音采集模块、声音处理模块、计算模块和动画生成模块,其中:
声音采集模块,用于获取音频信号;
声音处理模块,用于对音频进行分帧处理、快速傅里叶变换,得到控制序列;
计算模块,用于替换控制序列中的所有奇异点,得到元音序列;
动画生成模块,用于根据元音序列生成口型动画和表情动画。
一种计算机可读存储介质,存储介质中存储有基于共振峰的口型表情动画生成程序,基于共振峰的口型表情动画生成程序由处理器执行以实现基于共振峰的口型表情动画生成方法。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (7)

1.一种基于共振峰的口型表情动画生成方法,其特征在于,包括以下步骤:
S1:获取音频信号,对音频信号进行分帧处理,得到N个语音帧,N>0;
S2:对每个语音帧分别进行快速傅里叶变换,得到每个语音帧的频谱,基于频谱分别得到每个语音帧的共振峰数据;
S3:基于共振峰数据,分别得到每个语音帧对应的控制字,N个语音帧的控制字组成了控制序列{k1、k2、…、kN},每一个控制字ki对应一个元音,1≤i≤N;
S4:遍历控制序列,替换控制序列中的所有奇异点,得到元音序列,具体为:对于控制序列中的控制字ks,2≤s≤N-2,如果ks≠ks-1,且ks-1=ks+1=ks+2,则控制字ks为奇异点,将ks的值替换为ks-1
S5:基于元音序列,生成口型动画和表情动画;
所述步骤S2中基于频谱分别得到每个语音帧的共振峰数据具体为:获取每个语音帧的前3个共振峰F1、F2、F3;
所述步骤S5具体为:根据预设置的读取速度,每次自元音序列中读取q个控制字,q>0,取q个控制字中出现次数最多的控制字为目标控制字,获取目标控制字对应的目标元音,获取目标元音对应的目标口型和目标表情,生成目标口型动画和目标表情动画;
所述读取速度为10次/s,q的取值为10,即每秒读取10次,每次自元音序列中读取10个控制字。
2.根据权利要求1所述的基于共振峰的口型表情动画生成方法,其特征在于,所述步骤S1具体为:
S11:采集声音信号,并将声音信号转换为数字信号,对数字信号进行预加重处理,得到音频信号;
S12:对音频信号进行分帧处理得到N个帧,每一帧的长度均为L,20ms≤L≤50ms,相邻两帧之间的重叠区域的长度为M,L-M=λ*L,0<λ≤0.5;
S13:对每一帧分别进行加窗处理,得到N个语音帧。
3.根据权利要求2所述的基于共振峰的口型表情动画生成方法,其特征在于,所述步骤S11中,声音信号的采样频率为44.1kHz。
4.根据权利要求3所述的基于共振峰的口型表情动画生成方法,其特征在于,所述步骤S12中,每一帧的长度L=23.2ms,相邻两帧之间的重叠区域的长度M=13.2ms。
5.根据权利要求2所述的基于共振峰的口型表情动画生成方法,其特征在于,所述步骤S13中,采用汉明窗对每一帧分别进行加窗处理,具体为将每一帧分别乘以汉明窗的窗函数。
6.一种基于共振峰的口型表情动画生成装置,其特征在于,基于如权利要求1-5中任一所述的口型表情动画生成方法,包括依次连接的声音采集模块、声音处理模块、计算模块和动画生成模块,其中:
声音采集模块,用于获取音频信号;
声音处理模块,用于对音频进行分帧处理、快速傅里叶变换,得到控制序列;
计算模块,用于替换控制序列中的所有奇异点,得到元音序列;
动画生成模块,用于根据元音序列生成口型动画和表情动画。
7.一种计算机可读存储介质,其特征在于,所述存储介质中存储有基于共振峰的口型表情动画生成程序,所述基于共振峰的口型表情动画生成程序由处理器执行以实现如权利要求1-5中任一所述的基于共振峰的口型表情动画生成方法。
CN202011618339.XA 2020-12-30 2020-12-30 基于共振峰的口型表情动画生成方法、装置及存储介质 Active CN112700520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011618339.XA CN112700520B (zh) 2020-12-30 2020-12-30 基于共振峰的口型表情动画生成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011618339.XA CN112700520B (zh) 2020-12-30 2020-12-30 基于共振峰的口型表情动画生成方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112700520A CN112700520A (zh) 2021-04-23
CN112700520B true CN112700520B (zh) 2024-03-26

Family

ID=75511581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011618339.XA Active CN112700520B (zh) 2020-12-30 2020-12-30 基于共振峰的口型表情动画生成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112700520B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744368A (zh) * 2021-08-12 2021-12-03 北京百度网讯科技有限公司 动画合成方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02239297A (ja) * 1989-03-14 1990-09-21 Fuji Xerox Co Ltd 音声認識方法
US5703311A (en) * 1995-08-03 1997-12-30 Yamaha Corporation Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
JPH1115489A (ja) * 1997-06-24 1999-01-22 Yamaha Corp 歌唱音合成装置
KR20080018408A (ko) * 2006-08-24 2008-02-28 한국문화콘텐츠진흥원 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을기록한 컴퓨터에서 읽을 수 있는 기록매체
CN101201980A (zh) * 2007-12-19 2008-06-18 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN108962251A (zh) * 2018-06-26 2018-12-07 珠海金山网络游戏科技有限公司 一种游戏角色中文语音自动识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070168187A1 (en) * 2006-01-13 2007-07-19 Samuel Fletcher Real time voice analysis and method for providing speech therapy
US20120013620A1 (en) * 2010-07-13 2012-01-19 International Business Machines Corporation Animating Speech Of An Avatar Representing A Participant In A Mobile Communications With Background Media
US20120078625A1 (en) * 2010-09-23 2012-03-29 Waveform Communications, Llc Waveform analysis of speech
US20150364146A1 (en) * 2014-06-11 2015-12-17 David Larsen Method for Providing Visual Feedback for Vowel Quality

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02239297A (ja) * 1989-03-14 1990-09-21 Fuji Xerox Co Ltd 音声認識方法
US5703311A (en) * 1995-08-03 1997-12-30 Yamaha Corporation Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
JPH1115489A (ja) * 1997-06-24 1999-01-22 Yamaha Corp 歌唱音合成装置
KR20080018408A (ko) * 2006-08-24 2008-02-28 한국문화콘텐츠진흥원 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을기록한 컴퓨터에서 읽을 수 있는 기록매체
CN101201980A (zh) * 2007-12-19 2008-06-18 北京交通大学 一种基于语音情感识别的远程汉语教学系统
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN108962251A (zh) * 2018-06-26 2018-12-07 珠海金山网络游戏科技有限公司 一种游戏角色中文语音自动识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multiple Vowels Repair Based on Pitch Extraction and Line Spectrum Pair Feature for Voice Disorder;Zhang, T等;《IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》;20200731;第24卷(第7期);全文 *
一种基于共振峰分析的语音驱动人脸动画方法;潘晋等;《电声技术》;20090517;第33卷(第5期);全文 *

Also Published As

Publication number Publication date
CN112700520A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
US11908451B2 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN111260761B (zh) 一种生成动画人物口型的方法及装置
CN108831463B (zh) 唇语合成方法、装置、电子设备及存储介质
CN110060665A (zh) 语速检测方法及装置、可读存储介质
WO2022048404A1 (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN112700520B (zh) 基于共振峰的口型表情动画生成方法、装置及存储介质
CN108269574A (zh) 语音信号处理方法及装置、存储介质、电子设备
Ohnaka et al. Visual onoma-to-wave: environmental sound synthesis from visual onomatopoeias and sound-source images
CN116095357B (zh) 虚拟主播的直播方法、装置及系统
CN114125506A (zh) 语音审核方法及装置
CN111402919A (zh) 一种基于多尺度多视图的戏曲唱腔风格识别方法
CN116366872A (zh) 基于中之人和人工智能的直播方法、装置及系统
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
Li et al. Real-Time End-to-End Monaural Multi-Speaker Speech Recognition}}
Nikitaras et al. Fine-grained noise control for multispeaker speech synthesis
Xie et al. A new high quality trajectory tiling based hybrid TTS in real time
CN104851421B (zh) 语音处理方法及装置
Parisae et al. Adaptive attention mechanism for single channel speech enhancement
CN116580721B (zh) 表情动画的生成方法、装置和数字人平台
CN117953914B (zh) 用于智能办公的语音数据增强优化方法
Luong et al. Controlling Multi-Class Human Vocalization Generation via a Simple Segment-based Labeling Scheme
Hu Research on Speech Recognition Technology in English Pronunciation Similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant