CN111554318A - 一种手机端发音可视化系统的实现方法 - Google Patents
一种手机端发音可视化系统的实现方法 Download PDFInfo
- Publication number
- CN111554318A CN111554318A CN202010344324.2A CN202010344324A CN111554318A CN 111554318 A CN111554318 A CN 111554318A CN 202010344324 A CN202010344324 A CN 202010344324A CN 111554318 A CN111554318 A CN 111554318A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- data
- mobile phone
- visualization
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012800 visualization Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000009471 action Effects 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims description 18
- 210000000056 organ Anatomy 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000001584 soft palate Anatomy 0.000 description 3
- 235000020289 caffè mocha Nutrition 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 210000004283 incisor Anatomy 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开一种手机端发音可视化系统的实现方法,包括步骤:建立发音运动数据库,提取语音数据的特征使语音数据能转换为机器所能处理分析的特征向量形式,然后与原始数据共同组成数据集;利用上述数据集对选择的GMM模型进行训练,得到发音可视化模型;将所述发音可视化模型与预创建的声音录入模块与可视化处模块连接,应用到移动平台,形成手机端发音可视化系统。本发明所形成的手机端发音可视化系统,应用于手机等移动平台上,可以实现发音动作可以移动平台,如手机显示面上的可视化显示,通过直观的展示方便了解相应的使用者的语音的发音动作。
Description
技术领域
本发明涉及语音识别和可视化技术领域,特别是涉及一种手机端发音可视化系统的实现方法。
背景技术
传统的发音的教学采用跟读模仿的教学方式,需要学生通过听觉反馈发觉自己存在的问题,然后反复尝试,寻找正确的发音方法。学生的学习效率较低。发音过程可视化技术将人发音过程中发音器官的运动用影像的形式展示出来,提供发音时的视觉反馈,使人们在学习发音时能够更快地发现问题,找到正确的发音方式。发音过程可视化也能够帮助听力障碍人士矫正发音。
然而目前的发音可视化系统不能在手机等终端上使用,因此,开发一种适用于手机上的发音可视化系统,具有重要的意义。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种手机端发音可视化系统的实现方法,以对用户录入声音时发音器官的生理信息进行可视化。
为实现本发明的目的所采用的技术方案是:
一种手机端发音可视化系统的实现方法,包括步骤:
S1.建立发音运动数据库,提取语音数据的特征使语音数据能转换为机器所能处理分析的特征向量形式,然后与原始数据共同组成数据集;
S2.利用上述数据集对选择的GMM模型进行训练,得到发音可视化模型;
S3.将所述发音可视化模型与预创建的声音录入模块与可视化处模块连接,应用到移动平台,形成手机端发音可视化系统。
其中,所述数据集中每对数据文件包括一个MFCC数据文件和一个对应EMA数据文件,MFCC数据文件描述的是语音数据的特征EMA数据描文件述的是对应语音数据产生时的发音动作。
其中,所述声音录入模块采集的音频数据为PCM,并通过转换形成WAV格式,使得从手机上获得的语音信号能够转换为机器可以识别处理的语音特征向量。
其中,所述提取语音数据的特征为MFCC特征。
其中,所述发音可视化模型为基于max_comp的GMM映射模型,输出为一个14维的数据,对应EMA数据记录的七个不同口腔器官的横纵坐标。
其中,所述可视化处模块的处理过程的步骤如下:
建立坐标系,将发音可视化模型预测出的数据实时进行预处理、坐标第转换后,实时在建立的坐标系中标出,并实现实时动态显示。
本发明所形成的手机端发音可视化系统,应用于手机等移动平台上,可以实现发音动作可以移动平台,如手机显示面上的可视化显示,通过直观的展示方便了解相应的使用者的语音的发音动作。
附图说明
图1是手机移动端发音可视化系统的原理结构图;
图2是七个不同口腔器官对应的的横纵坐标的示意图
图3是7个坐标节点显示于view坐标系下的示意图;
图4是实现动态显示功能的流程图;
图5-7所示分别是分别使用MMSE、MLE、max_comp后,第一个关节点软腭的横坐标的估计值与真实值的轨迹曲线。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的手机移动端发音可视化系统,通过以下方法实现:
步骤S0101:发音运动数据库建立
使用爱丁堡玛格丽特大学学院开发的多渠道发音(MOCHA)数据库中的EMA数据和WAV声波数据,构成了所需发音运动数据库。MOCHA数据库中数据采集是通过扬声器同步记录声波(16kHz,16位)与EMA数据至计算机中。
步骤S0201:WAV声音数据特征提取
对声音进行了特征值提取,使得数据库中的语音数据能转换为机器所能处理分析的特征向量形式。使用python_speech_features提取MFCC的具体步骤:
(1)安装python_speech_features库:pip install python_speech_features
(2)import导入所需要的库:语音识别库python_speech_features、scipy.io.wavfile库提供加载WAV音频的函数(语音处理过程中以WAV文件作为语音输入数据)和处理numpy数组的库numpy;
(3)获取录制好的WAV文件的采样率以及形成的语音信号数据数组,通过函数wav.read()得到一个结果组(采样率:samplerate,numpy语音信号数组:signal);
(4)调用python_speech_features.mfcc()函数执行提取MFCC特征值过程,具体规定如下:
python_speech_features.mfcc(signal,samplerate,winlen=0.025,winstep=0.01,numcep=12,nfilt=26,nfft=512,lowfreq=0,highfreq=None,preemph=0.97,win-16func=numpy.hamming);
(5)将最终得到的特征值numpy数组保存到指定路径下,该文件格式为一般的npy文件,使用np.save(file_path,feature_mfcc);
(6)查看形成的npy文件中特征值向量的内容,先进行读取np.load(file_path),然后将其打印print()。
步骤S0301:数据集划分。
数据集由460对数据文件组成,其中每对数据文件包括一个MFCC数据文件和一个对应EMA数据文件。MFCC数据描述的是语音数据的特征,而EMA数据描述的是对应语音数据产生时的发音动作。
该数据集将被划分为三部分,其中一部分作为训练集,包含整个数据集80%的数据;另外两个部分分别作为测试集和验证集,都占整个数据集的10%。
步骤S0401:GMM映射模型构建。
执行命令:python./Inversion_gmm.py-t-s-n 64-C'full'进行模型训练,最终训练得到的GMM模型将用joblib保存在本地:gmm_combined_64components_11frames_trajetory.joblib。
步骤S0501:发音可视化系统实现。
(1)声音录入模块的实现
使用Android提供的录音类AudioRecord来采集音频。
第一步,构造一个AudioRecord类下的对象,并设置该类下的一些基本参数。
第二步,初始化一个与所创建对象相联系的、存储声音数据的buffer,主要是用于写入所要录制的新的声音数据。
第三步,开始采集并读入音频数据。
第四步,停止采集音频数据,获得原始音频数据PCM。
第五步,将原有的PCM格式转换成WAV格式。使得从手机上获得的语音信号能够转换为机器可以识别处理的语音特征向量。
(2)预测模块的实现
第一步,对当前获取的用户的录入声音进行声音特征MFCC提取,需要调用python_speech_features库中的mfcc函数进行提取,得到相对应的特征文件。
第二步,将提取的MFCC作为模型预测的X输入,利用基于max_comp的GMM映射模型预测出Y输出,它表示为一个14维的数据,对应预测EMA数据记录的七个不同口腔器官(软腭、舌根、舌身、舌尖、下切牙、下唇、上唇)的横纵坐标,如图2所示
(3)可视化模块的实现
第一步,建立坐标系。
1,建立一个自定义的view坐标系:确定view坐标系的原点。调用函数getHeight()与getWidth()获取当前view的高度height与宽度width,然后计算原点坐标。
2,利用Canvas类提供的函数canvas.drawLine()画出横纵坐标轴并标出刻度。
第二步,实现静态描点功能,如图2所示。
1,数据预处理。读取数据,并调用replace()函数去除特殊字符,保存处理好的数据与DataPointlist.txt文件中。
2,坐标系转换。将保存在DataPointList文件中的数据的坐标转换到第一步建立的view坐标系下,并将转换后的数据坐标保存到PointList文件中。
3,调用Canvas类提供函数drawPoint(),根据PointList中七个器官的坐标,在自定义的view坐标系下将他们标出。如图3所示,图3中显示了7个坐标节点显示于view坐标系下。
第三步,实现动态显示功能。
对之前预测的关节数据进行显示时,不仅要显示每一时刻下的记录的7个器官的点坐标,还要连续显示所有时刻的情况,以实现动态显示功能。
因此具体实现时,将每一时刻看作一个包含7个点坐标数据的分组,然后设计一个自动切换、读取分组的控件,进而实现模拟动态演示。即把14维数据还原成7个发音器官的横纵坐标,并通过坐标变换,将他们映射到自定义的View坐标系下,用7个点口腔器官点坐标来表征口腔发音的运动情况。
进而,通过构造一个循环,让程序可以连续顺次显示7个点坐标,实现发音的可视化的动态显示。具体实现流程为如图4所示。
1.设置数据变化监听器。对数据进行分组,每个分组包含14维数据,即7个坐标。每当分组发生切换时,会回调用数据变化监听器DataChangeListener下的函数onDateChanged(int groupId),获得下一帧要显示的分组编号groupId,来更新坐标显示;
2.循环执行,直至所有数据组都跑完。调用数据变化监听器DataChangeListener下的函数onDataEnd(),通知当前activity数据已跑完;
3.activity接收到数据完结的通知后,会改变自动切换、读取分组的控件中的开始/暂停文字,变为“开始”,动态显示任务结束。
由于基于训练得到的传统GMM模型可以进一步建立映射模型模型,得到映射函数(X,Y),并选取合适的损失函数来描述估计值Y与真实值Y之间的接近程度。因此,调研了三种基于不同估计方式(损失函数)的GMM映射模型:基于MMSE的GMM映射;基于MLE的GMM映射;基于max_comp的GMM映射,分别分析他们对结果造成的影响。
本发明中将使用两个评估指标来评估上述三种模型:一个是估计误差RMSE,用来衡量每个点处真实值与预测值之间的误差;另一个是R^2,用来说明整体上真实值与预测值的相关程度。
实验的数据集由460对数据文件组成,每对数据文件包括一个MFCC数据文件和一个对应的EMA数据文件。MFCC数据描述的是语音数据的特征,而EMA数据描述的是对应语音数据产生时的发音动作。
构建GMM映射模型,分别用MMSE、MLE和max_comp的估计方式来计算损失函数,训练模型。
首先,计算在使用MMSE、MLE、max_comp这三种不同估计方式时,每一通道真实值与估计值之间的RMSE以及它们的拟合程度R^2。表1、2分别显示了在这三种估计方式下每一通道的RMSE值、R^2值。
表1
表2
结果分析:RMSE是一个误差值,当RMSE值越小时,就代表真实值与估计值之间的的偏差程度越小。所以对三种估计方式在14个通道下的RMSE值进行对比,可以得出基于max_comp的GMM映射预测出的值与真实值的偏差程度最小,故而在RMSE性能指标下,该映射模型在点处的估计准确度高,表现出的估计max_comp性能是最好的。RMSE值在这三种估计方式中的关系大致呈现为:max_comp<MLE<MMSE,相对应的在此性能指标下,模型性能好坏呈现为:max_comp>MLE>MMSE。
R^2衡量了预测值与真实值之间的符合程度。它从整体上描述了真实值轨迹曲线与预测值估计曲线的拟合度。当R^2值越大并且越接近1,则表明两个曲线的吻合度在提高。通过对三种估计方式在14个通道下的R^2值的对比,分析出采用max_comp估计方式时,R^2值更大且接近1的情况更多,所以其真实值与预测值的拟合程度优于其他两个估计方式。故而在R^2的性能指标下,基于max_comp的GMM映射模型整体的吻合程度更高,表现出的性能依然是最好的。
其次,对同一个声音特征MFCC,分别绘制14个通道的估计值与真实值的轨迹曲线。图5、6、7显示的是分别使用MMSE、MLE、max_comp后,第一个关节点软腭的横坐标的估计值与真实值的轨迹曲线。
结果分析:通过观察图5、6、7这三个图,可以看出使用基于max_comp的GMM映射模型所得到的预测值的轨迹曲线的平滑性是最好的,其次是基于MLE的映射,最后是MMSE。
综上,根据性能指标RMSE、R^2与估计值轨迹曲线的平滑性,可以得出基于max_comp的GMM映射模型相较于其他两个模型性能更好,故而选择其应用到后续的可视化系统实现中。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种手机端发音可视化系统的实现方法,其特征在于,包括步骤:
S1.建立发音运动数据库,提取语音数据的特征使语音数据能转换为机器所能处理分析的特征向量形式,然后与原始数据共同组成数据集;
S2.利用上述数据集对选择的GMM模型进行训练,得到发音可视化模型;
S3.将所述发音可视化模型与预创建的声音录入模块与可视化处模块连接,应用到移动平台,形成手机端发音可视化系统。
2.根据权利要求1所述手机端发音可视化系统的实现方法,其特征在于,所述数据集中每对数据文件包括一个MFCC数据文件和一个对应EMA数据文件,MFCC数据文件描述的是语音数据的特征EMA数据描文件述的是对应语音数据产生时的发音动作。
3.根据权利要求1所述手机端发音可视化系统的实现方法,其特征在于,所述声音录入模块采集的音频数据为PCM,并通过转换形成WAV格式,使得从手机上获得的语音信号能够转换为机器可以识别处理的语音特征向量。
4.根据权利要求1所述手机端发音可视化系统的实现方法,其特征在于,所述提取语音数据的特征为MFCC特征。
5.根据权利要求1所述手机端发音可视化系统的实现方法,其特征在于,所述发音可视化模型为基于max_comp的GMM映射模型,输出为一个14维的数据,对应EMA数据记录的七个不同口腔器官的横纵坐标。
6.根据权利要求1所述手机端发音可视化系统的实现方法,其特征在于,所述可视化处模块的处理过程的步骤如下:
建立坐标系,将发音可视化模型预测出的数据实时进行预处理、坐标第转换后,实时在建立的坐标系中标出,并实现实时动态显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010344324.2A CN111554318B (zh) | 2020-04-27 | 2020-04-27 | 一种手机端发音可视化系统的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010344324.2A CN111554318B (zh) | 2020-04-27 | 2020-04-27 | 一种手机端发音可视化系统的实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111554318A true CN111554318A (zh) | 2020-08-18 |
CN111554318B CN111554318B (zh) | 2023-12-05 |
Family
ID=72007727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010344324.2A Active CN111554318B (zh) | 2020-04-27 | 2020-04-27 | 一种手机端发音可视化系统的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111554318B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185186A (zh) * | 2020-09-30 | 2021-01-05 | 北京有竹居网络技术有限公司 | 一种发音纠正方法、装置、电子设备及存储介质 |
CN112908307A (zh) * | 2021-01-29 | 2021-06-04 | 云从科技集团股份有限公司 | 一种音频特征提取方法、系统、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290720A (zh) * | 2008-06-17 | 2008-10-22 | 李伟 | 可视化发音教学方法及装置 |
CN101488346A (zh) * | 2009-02-24 | 2009-07-22 | 深圳先进技术研究院 | 语音可视化系统及语音可视化方法 |
CN102820030A (zh) * | 2012-07-27 | 2012-12-12 | 中国科学院自动化研究所 | 发音器官可视语音合成系统 |
WO2013031677A1 (ja) * | 2011-08-26 | 2013-03-07 | 国立大学法人豊橋技術科学大学 | 発音動作可視化装置および発音学習装置 |
CN103700130A (zh) * | 2013-12-30 | 2014-04-02 | 中国科学院自动化研究所 | 发音器官的网格动画生成方法 |
CN103778661A (zh) * | 2013-12-24 | 2014-05-07 | 中国科学院深圳先进技术研究院 | 一种生成说话人三维运动模型的方法、系统及计算机 |
CN106780202A (zh) * | 2015-11-24 | 2017-05-31 | 上海十牛科技有限公司 | 一种图文动画方式模拟显示发音动作状态的控制系统 |
JP2020030376A (ja) * | 2018-08-24 | 2020-02-27 | 本田技研工業株式会社 | 音響シーン再構成装置、音響シーン再構成方法、およびプログラム |
-
2020
- 2020-04-27 CN CN202010344324.2A patent/CN111554318B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290720A (zh) * | 2008-06-17 | 2008-10-22 | 李伟 | 可视化发音教学方法及装置 |
CN101488346A (zh) * | 2009-02-24 | 2009-07-22 | 深圳先进技术研究院 | 语音可视化系统及语音可视化方法 |
WO2013031677A1 (ja) * | 2011-08-26 | 2013-03-07 | 国立大学法人豊橋技術科学大学 | 発音動作可視化装置および発音学習装置 |
CN102820030A (zh) * | 2012-07-27 | 2012-12-12 | 中国科学院自动化研究所 | 发音器官可视语音合成系统 |
CN103778661A (zh) * | 2013-12-24 | 2014-05-07 | 中国科学院深圳先进技术研究院 | 一种生成说话人三维运动模型的方法、系统及计算机 |
CN103700130A (zh) * | 2013-12-30 | 2014-04-02 | 中国科学院自动化研究所 | 发音器官的网格动画生成方法 |
CN106780202A (zh) * | 2015-11-24 | 2017-05-31 | 上海十牛科技有限公司 | 一种图文动画方式模拟显示发音动作状态的控制系统 |
JP2020030376A (ja) * | 2018-08-24 | 2020-02-27 | 本田技研工業株式会社 | 音響シーン再構成装置、音響シーン再構成方法、およびプログラム |
Non-Patent Citations (2)
Title |
---|
贾艳洁等: "基于特征语谱图和自适应聚类SOM的快速说话人识别", 《科学技术与工程》 * |
贾艳洁等: "基于特征语谱图和自适应聚类SOM的快速说话人识别", 《科学技术与工程》, no. 15, 28 May 2019 (2019-05-28) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185186A (zh) * | 2020-09-30 | 2021-01-05 | 北京有竹居网络技术有限公司 | 一种发音纠正方法、装置、电子设备及存储介质 |
CN112185186B (zh) * | 2020-09-30 | 2022-07-01 | 北京有竹居网络技术有限公司 | 一种发音纠正方法、装置、电子设备及存储介质 |
CN112908307A (zh) * | 2021-01-29 | 2021-06-04 | 云从科技集团股份有限公司 | 一种音频特征提取方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111554318B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230042654A1 (en) | Action synchronization for target object | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN108847215B (zh) | 基于用户音色进行语音合成的方法及装置 | |
CN106531185B (zh) | 基于语音相似度的语音评测方法及系统 | |
CN110610534B (zh) | 基于Actor-Critic算法的口型动画自动生成方法 | |
CN111048064B (zh) | 基于单说话人语音合成数据集的声音克隆方法及装置 | |
CN110019683A (zh) | 智能语音交互机器人及其语音交互方法 | |
WO2020248388A1 (zh) | 歌声合成模型的训练方法、装置、计算机设备以及存储介质 | |
CN105427708A (zh) | 一种声乐发音训练系统 | |
CN113423005B (zh) | 一种基于改进神经网络的智能音乐生成方法及系统 | |
CN111554318A (zh) | 一种手机端发音可视化系统的实现方法 | |
CN116109455B (zh) | 一种基于人工智能的语言教学辅助系统 | |
CN110610698A (zh) | 一种语音标注方法及装置 | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
CN117115316A (zh) | 一种基于多层级语音特征的语音驱动三维人脸动画方法 | |
CN110956142A (zh) | 一种智能交互培训系统 | |
CN1952850A (zh) | 基于动态基元选取的语音驱动三维人脸动画方法 | |
CN116665275A (zh) | 基于文本到汉语拼音的面部表情合成与交互控制方法 | |
CN117636704A (zh) | 一种用于养老护理的语音模拟训练智能系统及训练方法 | |
CN111950480A (zh) | 一种基于人工智能的英语发音自检方法和自检系统 | |
CN110956859A (zh) | 基于深度学习的vr智能语音交互英语方法 | |
CN110070869A (zh) | 语音互动生成方法、装置、设备和介质 | |
Li et al. | A novel speech-driven lip-sync model with CNN and LSTM | |
Kacorri et al. | Evaluating a dynamic time warping based scoring algorithm for facial expressions in ASL animations | |
Takács et al. | Speech to facial animation conversion for deaf customers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |