CN110428812B - 基于动态时间规划根据语音信息合成舌超声视频的方法 - Google Patents

基于动态时间规划根据语音信息合成舌超声视频的方法 Download PDF

Info

Publication number
CN110428812B
CN110428812B CN201910696959.6A CN201910696959A CN110428812B CN 110428812 B CN110428812 B CN 110428812B CN 201910696959 A CN201910696959 A CN 201910696959A CN 110428812 B CN110428812 B CN 110428812B
Authority
CN
China
Prior art keywords
voice
tongue
ultrasonic
speech
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910696959.6A
Other languages
English (en)
Other versions
CN110428812A (zh
Inventor
燕昭
吕绪康
路文焕
何宇清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910696959.6A priority Critical patent/CN110428812B/zh
Publication of CN110428812A publication Critical patent/CN110428812A/zh
Application granted granted Critical
Publication of CN110428812B publication Critical patent/CN110428812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

本发明涉及语音与图像合成技术领域,为获得连贯自然且较为清晰的舌超声运动图像。为此,本发明采取的技术方案是,基于动态时间规划根据语音信息合成舌超声视频的方法,首先基于语音识别技术识别输入的语音文字,之后根据共振峰能量根据识别结果按独立发音切割语音段,通过动态时间规划的方法,将输入语音中每个字的舌运动图像自语音‑超声图像库中选择出来,在单词拼接过程中使用全连接神经网络自编码器提取特征值进行插值,最终合成出连贯的舌超声图像。本发明主要应用于超声视频图像处理场合。

Description

基于动态时间规划根据语音信息合成舌超声视频的方法
技术领域
本发明涉及语音与图像合成技术领域,具体是涉及一种基于动态时间规划的舌超声视频合成方法,用于将中文语音分析合成出连续的舌超声运动视频。
背景技术
超声成像是利用超声声束扫描人体,通过对反射信号的接收、处理,以获得体内器官的图象。由于超声使用成本低,对人体伤害小,成为了语音学习领域一个重要的辅助工具。舌作为发声的重要器官,每个人都有各自的发声特点和口音差别,这些都与舌的运动相关联。
目前的舌超声成像技术都需要超声仪的辅助,需要在专业人士的指导下使用,但是超声仪对于家庭日常生活娱乐使用成本仍然过高,家庭购买也不现实,通过本发明可以简单借助手机等app方式录取说话人的语音就可以生成出连贯自然的舌超声图像,大大降低了实验和学习成本,本发明可应用于舌运动障碍人员的康复训练,幼儿发声学习等方面,降低了学习了解语音和舌运动关系的门槛,有助于培养幼龄儿童对医学和人体身体构造的兴趣等。
发明内容
为克服现有技术的不足,本发明旨在提出一种基于动态时间规划的舌超声图像合成方法,最终获得连贯自然且较为清晰的舌超声运动图像。为此,本发明采取的技术方案是,基于动态时间规划根据语音信息合成舌超声视频的方法,首先基于语音识别技术识别输入的语音文字,之后根据共振峰能量根据识别结果按独立发音切割语音段,通过动态时间规划的方法,将输入语音中每个字的舌运动图像自语音-超声图像库中选择出来,在单词拼接过程中使用全连接神经网络自编码器提取特征值进行插值,最终合成出连贯的舌超声图像。
对于所录取的所有超声图像,裁剪出舌体的位置后输入到自编码器模型进行训练,最终使自编码器模型实现对于图片进行特征值提取和还原;
对于输入的语音,通过语音识别转化成汉字,再根据识别的汉字将输入语音根据共振峰能量变化进行切割,从而使每个字与语音片段相匹配,对于每个语音片段,使用动态时间规划的方法与语音-超声图像库中所录取的语音片段进行比对和调整,生成出单个汉字发音的连贯的舌运动超声图像;
最后将所有的所述单个汉字发音的连贯的舌运动超声图像进行拼接处理,在每个汉字发音之间使用之前训练好的自编码器模型进行编码、插值、解码处理,使得在每个发音之间舌运动图像流畅自然;最后将所有生成的图像按照时间顺序,合成为视频图像,并附上输入语音作为背景音。
具体训练过程如下:
对所采集的所有超声图片进行切割处理,选择切除图像中大部分边界,只保留图像中间的舌头运动区域进行训练;
自编码器可选用卷积+全连接层神经网络或全连接层神经网络,把切割好的图像输入到自编码器中,在每一个全连接层处理之后再使用线性整流函数ReLU处理:
ReLU计算方式如下:
f(x)=max(0,x)
x为每层神经网络的输出结果,进行ReLU函数处理后作为下一层网络的输入。
最后将图像经过编码处理后转化成特征值向量,解码与编码模型每层参数相反,最后将特征值向量再次还原成图像,实现图片特征值提取和还原。
根据识别的汉字将输入语音根据共振峰能量变化进行切割具体步骤是,将识别结果转化成汉字的拼音序列,根据拼音序列,对于待处理语音引入共振峰能量量FE(FormantEnergy)来检测语音段,在汉语连续语音中,利用这些词与词、句与句之间存在的短时停顿从连续语音信号中检测出语音段与静音段;进行短时傅里叶变换取前n维参数的绝对值后在时间维度上求和得到共振峰能量图,在共振峰能量图中,根据识别汉字数量提取相对应的波峰,根据波峰的横轴坐标切割出每个汉字发音。
对于已经切割好的每个汉字的语音片段提取梅尔频率倒谱系数MFCC,使用动态时间规划DTW与数据库中的语音信息进行匹配,具体操作方式为:梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换,MFCC(Mel-Frequency CepstralCoefficients)就是组成梅尔频率倒谱的系数,MFCC的计算方式如下:
1)对第m帧语音信号s(n,m)n=0,1,…N-1加汉明窗处理
Figure BDA0002149632840000021
2)进行FFT变换
进行FFT变换后语音信号第m帧的频谱为
Figure BDA0002149632840000022
对语音信号的频谱取模平方得到语音信号的功率谱;
3)三角滤波器组进行滤波
对语音信号的功率谱用依照Mel梅尔频率平均分布的三角滤波器组进行滤波,得到一组系数ml,m2,……,这组系数为每一个滤波器输出的能量,Mel频率与一般频率的关系式为:
Figure BDA0002149632840000023
4)利用离散余弦变换DCT对得到的系数进行计算,求得L阶MFCC参数,Cl,l=1,2…L:
Figure BDA0002149632840000024
其中p是上一步三角滤波器的个数。
对于每个语音片段,提取n’维MFCC,与数据库中对应汉字发音的语音MFCC作对比,使用动态时间规划方法进行对齐,对于给定的两个离散序列,动态时间规划方法能够衡量这两个序列的相似度,同时能够对两个序列的延展或者压缩能够有一定的适应性,因此通过DTW可以将每个切割好的语音片段通过对数据库中的语音片段进行一系列的延展和选择操作获得,同时对于数据库中已有语音片段的的每一帧,都对应到了一张舌超声的图像,从而由数据库中的舌超声图像进行选取合成出对应的切割语音的舌运动图像,选取MFCC对于切割语音段X和数据库中的比对语音段Y,DTW首先会根据序列点之间的欧氏距离,获得一个序列距离矩阵M,其中行对应X序列,列对应Y序列,矩阵元素为对应行列中X序列和Y序列点到点的欧氏距离,然后根据距离矩阵生成损失矩阵(Cost Matrix)或者叫累积距离矩阵Mc,其计算方法如下:
1)第一行第一列元素为MM的第一行第一列元素,在这里就是0;
2)其他位置的元素(Mc(i,j))的值则需要逐步计算,具体值的计算方法为Mc(i,j)=Min(Mc(i-1,j-1),Mc(i-1,j),Mc(i,j-1))+M(i,j)
最后在损失矩阵中选取每列最小值所在的位置,提取该帧语音在数据库中的舌超声图像作为切割片段在此帧对应的舌运动位置,按照顺序依次计算每个语音片段的所有帧的超声图像,依顺序保存。
插值处理是指对于每个语音片段的结尾处和下一个语音片段的开头处进行插值平滑处理,具体操作为舍弃前语音片段的最后15帧和后语音片段的前15帧,总共30帧图像,约0.6秒,将前片段舍弃之后的最后一帧和后一片段舍弃后的第一帧使用自编码器模型中的编码模型进行特征值提取,转换为12维向量,将生成的2个12维向量中间进行插值操作,生成30对平滑过渡的12维向量,再经过decoder模型处理转换成30张舌超声图像,使用生成的这30张超声图像来替代删除的30张图像,使得最终合成的视频中的舌头运动在每个语音段之间流畅自然。
本发明的特点及有益效果是:
本发明使用动态时间规划的方法,通过对给定语音的切分,与数据库中录取的声音片段进行动态时间规整,从而通过已有的超声图像合成出目标语音的舌超声运动图,在切割点出使用预先在数据集上已经训练好的自编码器模型进行特征值提取和插值操作,解决了在每个汉字发音间舌运动不连贯的问题。结果表明,该方法达到了良好的舌运动超声图像合成结果,舌运动状态与声音能够对应,合成出的视频具有延迟低,清晰度高,运动流畅自然等优点,是一种可行的舌超声图像合成方法。
附图说明:
图1为基于动态时间规划根据语音信息合成舌超声视频结构图。
图2为基于共振峰能量的语音切割示意图。
图3为自编码器模型图。
图4为经过自编码器还原后的图像对比图。左图:原始图像右图:还原后图像。
具体实施方式
实现本发明目的的技术解决方案为:基于动态时间规划根据语音信息合成舌超声视频的方法,首先基于现有的语音识别技术识别输入的语音文字,之后根据共振峰能量根据识别结果按独立发音切割语音段,通过动态时间规划的方法,将输入语音中每个字的舌运动图像选择出来,在单词拼接过程中使用自编码器提取特征值进行插值,最终合成出连贯的舌超声图像。
由于整个系统的进行需要发音数据的支持,首先需要建立每个汉字发音的舌运动超声图,超声图像采集使用Terason公司的Terason T3000超声仪、配套超声采集软件和供开发人员使用的SDK开发包,使用型号为8MC3的超声探头放置于采集者的下巴处,调整位置直到显示出清晰完整的舌轮廓图,调整完毕后开始录音,声音信号通过电脑的麦克风进行记录,录取下每个汉字发音的舌超声图像,基于SDK开发包,我们可以将录取的超声视频按照50帧/秒的速度以bmp图片方式存储在硬盘中,声音以8000Hz的采样率存成wav格式。
对于所录取的所有超声图像,裁剪出舌体的位置后输入到自编码器模型进行训练,自编码器使用基础的全连接神经网络,最终可以使自编码器模型可以实现对于图片进行特征值提取和还原。
对于输入的语音,先调整采样率至8000Hz,使用目前市场上成熟的语音识别技术转化成汉字,再根据识别的汉字将输入语音根据共振峰能量变化进行切割,从而使每个字与语音片段相匹配,对于每个语音片段,使用动态时间规划的方法与库中所录取的语音片段进行比对和调整,生成出单个汉字发音的连贯的舌运动超声图像。
最后将所有的超声图像进行拼接处理,在每个汉字发音之间使用之前训练好的自编码器模型进行encoder(编码),插值,decoder(解码)处理,使得在每个发音之间舌运动图像流畅自然。最后将所有生成的图像按照时间顺序,以50帧/秒的速度合成为视频图像,并附上输入语音作为背景音。
下面结合附图来描述本发明实施的基于动态时间规划根据语音信息合成舌超声视频的方法。该方法包含以下步骤:
步骤一:使用Terason T3000超声仪录取超声数据,进行数据处理,切割操作。
具体地,结合汉字发音特征,汉语普通话共由23个声母,24韵母组成,结合汉语拼音音节列表共413个汉字发音,使用TerasonT3000超声仪探头抵在说话人下颚位置,调整探头知道可以在窗口显示完成清晰的舌超声轮廓即可开始通过设备提供的SDK进行视频录制,使用设备自带的麦克风记录下每个字的发音,发音以44100Hz的采样率记录下来,并进行降采样处理至8000Hz,每个字发音约2s,按照50帧每秒的速度截取超声图片以bmp格式存储,即每个字约由120张连续的超声图片组成,与对应录音相匹配。
步骤二:对所采集的所有超声图片进行切割处理,由于超声成像的特性,上颚以上部分无法清晰显示,且会对之后自编码器训练产生影响,所以选择切除图像中大部分边界,只保留了图像中间的舌头运动区域进行训练,选取横坐标180到360像素,纵坐标170到470像素方框内的270*270像素的正方形图像。
经过试验,分别使用了卷积+全连接层和全连接层两种自编码器进行测试,把切割好的正方形图像调整大小为112*112,输入到自编码器中,发现普通的全连接层即可较好的完成图像特征值提取和还原工作,本文使用的自编码器共10使用5层全连接层,前5层作为encoder模型,神经元数分别为12544,3600,2160,36,12,在每一个全连接层处理之后再使用线性整流函数(ReLU)处理。
ReLU计算方式如下:
f(x)=max(0,x)
x为每层神经网络的输出结果,进行ReLU函数处理后作为下一层网络的输入。
最后将112*112维度的图像经过encoder处理后转化成12维特征值向量,decoder与encoder模型每层参数相反,最后将12维特征值向量再次还原成112*112的正方形图像。经过训练后的自编码器还原后的图片如图4所示,相比较左图,自编码器可以清晰地还原出舌头轮廓信息。
步骤三:对于待处理语音,调整采样至8000Hz与录取语音采样率一致,之后进行语音识别,将识别结果转化成汉字的拼音序列,根据拼音序列,对于待处理语音引入共振峰能量(Formant Energy,FE)来检测语音段,声韵母结构是汉语特有的结构,所有汉语音节都是由声母(包括零声母)加韵母组成。在汉语连续语音中,由于语义、情感表达的需要,词与词、句与句之间存在短时停顿。利用这些短时停顿可以从连续语音信号中检测出语音段与静音段;设置窗口长度为1024,帧移320,使用python中的librosa库进行短时傅里叶变换取前300维参数的绝对值后在时间维度上求和得到共振峰能量图。在共振峰能量图中,根据识别汉字数量提取相对应的波峰,根据波峰的横轴坐标切割出每个汉字发音,提取的共振峰能量图和切割结果如图2所示。
步骤四:对于已经切割好的每个汉字的语音片段提取MFCC(梅尔频率倒谱系数),使用动态时间规划(DTW方法)与数据库中的语音信息进行匹配。
具体操作方式为:梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)就是组成梅尔频率倒谱的系数。MFCC的计算方式如下:
1.对第m帧语音信号s(n,m)n=0,1,…N-1加汉明窗处理
Figure BDA0002149632840000051
2.进行FFT变换
进行FFT变换后语音信号第m帧的频谱为
Figure BDA0002149632840000052
对语音信号的频谱取模平方得到语音信号的功率谱。
3.三角滤波器组进行滤波
对语音信号的功率谱用依照Mel梅尔频率平均分布的三角滤波器组进行滤波。得到一组系数ml,m2,……。这组系数为每一个滤波器输出的能量。Mel频率与一般频率的关系式为:
Figure BDA0002149632840000053
4.利用离散余弦变换DCT对得到的系数进行计算,求得L阶MFCC参数,Cl,l=1,2…L。
Figure BDA0002149632840000061
其中p是上一步三角滤波器的个数。
对于每个语音片段,按照1024位窗口长度,320位帧移提取13维MFCC,与数据库中对应汉字发音的语音MFCC作对比,使用动态时间规划方法进行对齐。对于给定的两个离散序列,动态时间规划方法能够衡量这两个序列的相似度,同时能够对两个序列的延展或者压缩能够有一定的适应性。因此通过DTW可以将每个切割好的语音片段通过对数据库中的语音片段进行一系列的延展和选择操作获得,同时对于数据库中已有语音片段的的每一帧,都对应到了一张舌超声的图像,从而可以由数据库中的舌超声图像进行选取合成出对应的切割语音的舌运动图像。我们选取MFCC对于切割语音段X和数据库中的比对语音段Y,DTW首先会根据序列点之间的距离(欧氏距离),获得一个序列距离矩阵M,其中行对应X序列,列对应Y序列,矩阵元素为对应行列中X序列和Y序列点到点的欧氏距离,然后根据距离矩阵生成损失矩阵(Cost Matrix)或者叫累积距离矩阵Mc,其计算方法如下:
1.第一行第一列元素为MM的第一行第一列元素,在这里就是0;
2.其他位置的元素(Mc(i,j))的值则需要逐步计算,具体值的计算方法为Mc(i,j)=Min(Mc(i-1,j-1),Mc(i-1,j),Mc(i,j-1))+M(i,j)
最后在损失矩阵中选取每列最小值所在的位置,提取该帧语音在数据库中的舌超声图像作为切割片段在此帧对应的舌运动位置,按照顺序依次计算每个语音片段的所有帧的超声图像,依顺序保存。
步骤五:将所有提取出来的超声图像,使用步骤二中训练好的自编码器模型处理,得到经过decoder后的超声图像。由于使用DTW方法在不同语音片段之间提取出的图片会存在舌头运动不连续的情况,所以对于每个语音片段的结尾处和下一个语音片段的开头处进行插值平滑处理。
具体操作为舍弃前语音片段的最后15帧和后语音片段的前15帧,总共30帧图像,约0.6秒,将前片段舍弃之后的最后一帧和后一片段舍弃后的第一帧使用自编码器模型中的encoder模型进行特征值提取,转换为12维向量。将生成的2个12维向量中间进行插值操作,生成30对平滑过渡的12维向量,再经过decoder模型处理转换成30张舌超声图像。使用生成的这30张超声图像来替代删除的30张图像,使得最终合成的视频中的舌头运动在每个语音段之间流畅自然。
步骤六:使用python中的opencv库按顺序读取所有生成的超声图像,按照50fps的速度合成出连贯的视频,最后再将处理的语音作为视频的背景音插入到视频中,完成基于动态时间规划根据语音信息合成舌超声视频的整个流程。

Claims (5)

1.一种基于动态时间规划根据语音信息合成舌超声视频的方法,其特征是,首先基于语音识别技术识别输入的语音文字,之后根据共振峰能量根据识别结果按独立发音切割语音段,通过动态时间规划的方法,将输入语音中每个字的舌运动图像自语音-超声图像库中选择出来,在单词拼接过程中使用全连接神经网络自编码器提取特征值进行插值,最终合成出连贯的舌超声图像;
对于所录取的所有超声图像,裁剪出舌体的位置后输入到自编码器模型进行训练,最终使自编码器模型实现对于图片进行特征值提取和还原;
对于输入的语音,通过语音识别转化成汉字,再根据识别的汉字将输入语音根据共振峰能量变化进行切割,从而使每个字与语音片段相匹配,对于每个语音片段,使用动态时间规划的方法与语音-超声图像库中所录取的语音片段进行比对和调整,生成出单个汉字发音的连贯的舌运动超声图像;
最后将所有的所述单个汉字发音的连贯的舌运动超声图像进行拼接处理,在每个汉字发音之间使用之前训练好的自编码器模型进行编码、插值、解码处理,使得在每个发音之间舌运动图像流畅自然;最后将所有生成的图像按照时间顺序,合成为视频图像,并附上输入语音作为背景音;
插值处理是指对于每个语音片段的结尾处和下一个语音片段的开头处进行插值平滑处理,具体操作为舍弃前语音片段的最后15帧和后语音片段的前15帧,总共30帧图像,约0.6秒,将前片段舍弃之后的最后一帧和后一片段舍弃后的第一帧使用自编码器模型中的编码模型进行特征值提取,转换为12维向量,将生成的2个12维向量中间进行插值操作,生成30对平滑过渡的12维向量,再经过decoder模型处理转换成30张舌超声图像,使用生成的这30张超声图像来替代删除的30张图像,使得最终合成的视频中的舌头运动在每个语音段之间流畅自然。
2.如权利要求1所述的基于动态时间规划根据语音信息合成舌超声视频的方法,其特征是,具体训练过程如下:
对所采集的所有超声图片进行切割处理,选择切除图像中大部分边界,只保留图像中间的舌头运动区域进行训练;
自编码器选用卷积+全连接层神经网络或全连接层神经网络,把切割好的图像输入到自编码器中,在每一个全连接层处理之后再使用线性整流函数ReLU处理:
ReLU计算方式如下:
f(x)=max(0,x)
x为每层神经网络的输出结果,进行ReLU函数处理后作为下一层网络的输入;
最后将图像经过编码处理后转化成特征值向量,解码与编码模型每层参数相反,最后将特征值向量再次还原成图像,实现图片特征值提取和还原。
3.如权利要求1所述的基于动态时间规划根据语音信息合成舌超声视频的方法,其特征是,根据识别的汉字将输入语音根据共振峰能量变化进行切割具体步骤是,将识别结果转化成汉字的拼音序列,根据拼音序列,对于待处理语音引入共振峰能量FE(FormantEnergy)来检测语音段,在汉语连续语音中,利用这些词与词、句与句之间存在的短时停顿从连续语音信号中检测出语音段与静音段;进行短时傅里叶变换取前n维参数的绝对值后在时间维度上求和得到共振峰能量图,在共振峰能量图中,根据识别汉字数量提取相对应的波峰,根据波峰的横轴坐标切割出每个汉字发音。
4.如权利要求1所述的基于动态时间规划根据语音信息合成舌超声视频的方法,其特征是,对于已经切割好的每个汉字的语音片段提取梅尔频率倒谱系数MFCC,使用动态时间规划DTW与数据库中的语音信息进行匹配,具体操作方式为:梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换,MFCC(Mel-Frequency CepstralCoefficients)就是组成梅尔频率倒谱的系数,MFCC的计算方式如下:
1)对第m帧语音信号s(n,m)n=0,1,…N-1加汉明窗处理
Figure FDA0003496230990000021
2)进行FFT变换
进行FFT变换后语音信号第m帧的频谱为
Figure FDA0003496230990000022
对语音信号的频谱取模平方得到语音信号的功率谱;
3)三角滤波器组进行滤波
对语音信号的功率谱用依照Mel梅尔频率平均分布的三角滤波器组进行滤波,得到一组系数ml,m2,……,这组系数为每一个滤波器输出的能量,Mel频率与一般频率的关系式为:
Figure FDA0003496230990000023
4)利用离散余弦变换DCT对得到的系数进行计算,求得L阶MFCC参数,Cl,l=1,2…L:
Figure FDA0003496230990000024
其中p是上一步三角滤波器的个数。
5.如权利要求1所述的基于动态时间规划根据语音信息合成舌超声视频的方法,其特征是,对于每个语音片段,提取n’维MFCC,与数据库中对应汉字发音的语音MFCC作对比,使用动态时间规划方法进行对齐,对于给定的两个离散序列,动态时间规划方法能够衡量这两个序列的相似度,同时能够对两个序列的延展或者压缩能够有一定的适应性,因此通过DTW可以将每个切割好的语音片段通过对数据库中的语音片段进行一系列的延展和选择操作获得,同时对于数据库中已有语音片段的每一帧,都对应到了一张舌超声的图像,从而由数据库中的舌超声图像进行选取合成出对应的切割语音的舌运动图像,选取MFCC对于切割语音段X和数据库中的比对语音段Y,DTW首先会根据序列点之间的欧氏距离,获得一个序列距离矩阵M,其中行对应X序列,列对应Y序列,矩阵元素为对应行列中X序列和Y序列点到点的欧氏距离,然后根据距离矩阵生成损失矩阵(Cost Matrix)或者叫累积距离矩阵Mc,其计算方法如下:
1)第一行第一列元素为MM的第一行第一列元素,在这里就是0;
2)其他位置的元素Mc(i,j)的值则需要逐步计算,具体值的计算方法为Mc(i,j)=Min(Mc(i-1,j-1),Mc(i-1,j),Mc(i,j-1))+M(i,j)
最后在损失矩阵中选取每列最小值所在的位置,提取该帧语音在数据库中的舌超声图像作为切割片段在此帧对应的舌运动位置,按照顺序依次计算每个语音片段的所有帧的超声图像,依顺序保存。
CN201910696959.6A 2019-07-30 2019-07-30 基于动态时间规划根据语音信息合成舌超声视频的方法 Active CN110428812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910696959.6A CN110428812B (zh) 2019-07-30 2019-07-30 基于动态时间规划根据语音信息合成舌超声视频的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910696959.6A CN110428812B (zh) 2019-07-30 2019-07-30 基于动态时间规划根据语音信息合成舌超声视频的方法

Publications (2)

Publication Number Publication Date
CN110428812A CN110428812A (zh) 2019-11-08
CN110428812B true CN110428812B (zh) 2022-04-05

Family

ID=68413185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910696959.6A Active CN110428812B (zh) 2019-07-30 2019-07-30 基于动态时间规划根据语音信息合成舌超声视频的方法

Country Status (1)

Country Link
CN (1) CN110428812B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230000427A1 (en) * 2020-02-19 2023-01-05 Panasonic Intellectual Property Management Co., Ltd. Oral function visualization system, oral function visualization method, and recording medium medium
CN112259108A (zh) * 2020-09-27 2021-01-22 科大讯飞股份有限公司 一种引擎响应时间的分析方法及电子设备、存储介质
CN112863515B (zh) * 2020-12-31 2022-12-09 北京理工大学 利用手机扬声器和麦克风识别人体舌头下颚动作的方法
CN116504235B (zh) * 2023-06-29 2023-10-03 深圳须弥云图空间科技有限公司 基于时间顺序的音频识别模型训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
CN102592594A (zh) * 2012-04-06 2012-07-18 苏州思必驰信息科技有限公司 基于统计参数模型的增量式语音在线合成方法
CN103559232A (zh) * 2013-10-24 2014-02-05 中南大学 一种基于二分逼近动态时间归整匹配的音乐哼唱检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361620B (zh) * 2014-11-27 2017-07-28 韩慧健 一种基于综合加权算法的口型动画合成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
CN102592594A (zh) * 2012-04-06 2012-07-18 苏州思必驰信息科技有限公司 基于统计参数模型的增量式语音在线合成方法
CN103559232A (zh) * 2013-10-24 2014-02-05 中南大学 一种基于二分逼近动态时间归整匹配的音乐哼唱检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
发音器官的运动与声学信号之间映射关系的研究;郑锌源;《硕士学位论文》;20171115;第25-39页 *

Also Published As

Publication number Publication date
CN110428812A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110428812B (zh) 基于动态时间规划根据语音信息合成舌超声视频的方法
Harte et al. TCD-TIMIT: An audio-visual corpus of continuous speech
Hueber et al. Development of a silent speech interface driven by ultrasound and optical images of the tongue and lips
Sivaraman et al. Unsupervised speaker adaptation for speaker independent acoustic to articulatory speech inversion
Chen et al. Generative adversarial networks for unpaired voice transformation on impaired speech
Porras et al. DNN-based acoustic-to-articulatory inversion using ultrasound tongue imaging
Csapó et al. Ultrasound-based articulatory-to-acoustic mapping with WaveGlow speech synthesis
Karpov An automatic multimodal speech recognition system with audio and video information
CN110570842B (zh) 基于音素近似度和发音标准度的语音识别方法及系统
Qu et al. LipSound: Neural Mel-Spectrogram Reconstruction for Lip Reading.
Gaddy et al. An improved model for voicing silent speech
Shahrebabaki et al. Sequence-to-sequence articulatory inversion through time convolution of sub-band frequency signals
Choi et al. Intelligible lip-to-speech synthesis with speech units
Wu et al. Deep Speech Synthesis from MRI-Based Articulatory Representations
Illa et al. An Investigation on Speaker Specific Articulatory Synthesis with Speaker Independent Articulatory Inversion.
Prasad et al. Information theoretic optimal vocal tract region selection from real time magnetic resonance images for broad phonetic class recognition
Hsu Synthesizing personalized non-speech vocalization from discrete speech representations
Chen et al. Ema2s: An end-to-end multimodal articulatory-to-speech system
Bozorg et al. Acoustic-to-articulatory inversion with deep autoregressive articulatory-wavenet
CN113436607B (zh) 一种快速语音克隆方法
CN115985310A (zh) 一种基于多级视听融合的构音障碍语音识别方法
Nazir et al. Deep learning end to end speech synthesis: A review
Hueber et al. Visuo-phonetic decoding using multi-stream and context-dependent models for an ultrasound-based silent speech interface
Verma et al. Using viseme based acoustic models for speech driven lip synthesis
CN115312030A (zh) 虚拟角色的显示控制方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant