CN110428812B

CN110428812B - 基于动态时间规划根据语音信息合成舌超声视频的方法

Info

Publication number: CN110428812B
Application number: CN201910696959.6A
Authority: CN
Inventors: 燕昭; 吕绪康; 路文焕; 何宇清
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2022-04-05
Anticipated expiration: 2039-07-30
Also published as: CN110428812A

Abstract

本发明涉及语音与图像合成技术领域，为获得连贯自然且较为清晰的舌超声运动图像。为此，本发明采取的技术方案是，基于动态时间规划根据语音信息合成舌超声视频的方法，首先基于语音识别技术识别输入的语音文字，之后根据共振峰能量根据识别结果按独立发音切割语音段，通过动态时间规划的方法，将输入语音中每个字的舌运动图像自语音‑超声图像库中选择出来，在单词拼接过程中使用全连接神经网络自编码器提取特征值进行插值，最终合成出连贯的舌超声图像。本发明主要应用于超声视频图像处理场合。

Description

基于动态时间规划根据语音信息合成舌超声视频的方法

技术领域

本发明涉及语音与图像合成技术领域，具体是涉及一种基于动态时间规划的舌超声视频合成方法，用于将中文语音分析合成出连续的舌超声运动视频。

背景技术

超声成像是利用超声声束扫描人体，通过对反射信号的接收、处理，以获得体内器官的图象。由于超声使用成本低，对人体伤害小，成为了语音学习领域一个重要的辅助工具。舌作为发声的重要器官，每个人都有各自的发声特点和口音差别，这些都与舌的运动相关联。

目前的舌超声成像技术都需要超声仪的辅助，需要在专业人士的指导下使用，但是超声仪对于家庭日常生活娱乐使用成本仍然过高，家庭购买也不现实，通过本发明可以简单借助手机等app方式录取说话人的语音就可以生成出连贯自然的舌超声图像，大大降低了实验和学习成本，本发明可应用于舌运动障碍人员的康复训练，幼儿发声学习等方面，降低了学习了解语音和舌运动关系的门槛，有助于培养幼龄儿童对医学和人体身体构造的兴趣等。

发明内容

为克服现有技术的不足，本发明旨在提出一种基于动态时间规划的舌超声图像合成方法，最终获得连贯自然且较为清晰的舌超声运动图像。为此，本发明采取的技术方案是，基于动态时间规划根据语音信息合成舌超声视频的方法，首先基于语音识别技术识别输入的语音文字，之后根据共振峰能量根据识别结果按独立发音切割语音段，通过动态时间规划的方法，将输入语音中每个字的舌运动图像自语音-超声图像库中选择出来，在单词拼接过程中使用全连接神经网络自编码器提取特征值进行插值，最终合成出连贯的舌超声图像。

对于所录取的所有超声图像，裁剪出舌体的位置后输入到自编码器模型进行训练，最终使自编码器模型实现对于图片进行特征值提取和还原；

对于输入的语音，通过语音识别转化成汉字，再根据识别的汉字将输入语音根据共振峰能量变化进行切割，从而使每个字与语音片段相匹配，对于每个语音片段，使用动态时间规划的方法与语音-超声图像库中所录取的语音片段进行比对和调整，生成出单个汉字发音的连贯的舌运动超声图像；

最后将所有的所述单个汉字发音的连贯的舌运动超声图像进行拼接处理，在每个汉字发音之间使用之前训练好的自编码器模型进行编码、插值、解码处理，使得在每个发音之间舌运动图像流畅自然；最后将所有生成的图像按照时间顺序，合成为视频图像，并附上输入语音作为背景音。

具体训练过程如下：

对所采集的所有超声图片进行切割处理，选择切除图像中大部分边界，只保留图像中间的舌头运动区域进行训练；

自编码器可选用卷积+全连接层神经网络或全连接层神经网络，把切割好的图像输入到自编码器中，在每一个全连接层处理之后再使用线性整流函数ReLU处理：

ReLU计算方式如下：

f(x)＝max(0,x)

x为每层神经网络的输出结果，进行ReLU函数处理后作为下一层网络的输入。

最后将图像经过编码处理后转化成特征值向量，解码与编码模型每层参数相反，最后将特征值向量再次还原成图像，实现图片特征值提取和还原。

根据识别的汉字将输入语音根据共振峰能量变化进行切割具体步骤是，将识别结果转化成汉字的拼音序列，根据拼音序列，对于待处理语音引入共振峰能量量FE(FormantEnergy)来检测语音段，在汉语连续语音中，利用这些词与词、句与句之间存在的短时停顿从连续语音信号中检测出语音段与静音段；进行短时傅里叶变换取前n维参数的绝对值后在时间维度上求和得到共振峰能量图，在共振峰能量图中，根据识别汉字数量提取相对应的波峰，根据波峰的横轴坐标切割出每个汉字发音。

对于已经切割好的每个汉字的语音片段提取梅尔频率倒谱系数MFCC，使用动态时间规划DTW与数据库中的语音信息进行匹配，具体操作方式为：梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换，MFCC(Mel-Frequency CepstralCoefficients)就是组成梅尔频率倒谱的系数，MFCC的计算方式如下：

1)对第m帧语音信号s(n,m)n＝0,1,…N-1加汉明窗处理

2)进行FFT变换

进行FFT变换后语音信号第m帧的频谱为

对语音信号的频谱取模平方得到语音信号的功率谱；

3)三角滤波器组进行滤波

对语音信号的功率谱用依照Mel梅尔频率平均分布的三角滤波器组进行滤波，得到一组系数ml,m2，……，这组系数为每一个滤波器输出的能量，Mel频率与一般频率的关系式为：

4)利用离散余弦变换DCT对得到的系数进行计算，求得L阶MFCC参数，C_l，l＝1,2…L：

其中p是上一步三角滤波器的个数。

对于每个语音片段，提取n’维MFCC，与数据库中对应汉字发音的语音MFCC作对比，使用动态时间规划方法进行对齐，对于给定的两个离散序列，动态时间规划方法能够衡量这两个序列的相似度，同时能够对两个序列的延展或者压缩能够有一定的适应性，因此通过DTW可以将每个切割好的语音片段通过对数据库中的语音片段进行一系列的延展和选择操作获得，同时对于数据库中已有语音片段的的每一帧，都对应到了一张舌超声的图像，从而由数据库中的舌超声图像进行选取合成出对应的切割语音的舌运动图像，选取MFCC对于切割语音段X和数据库中的比对语音段Y，DTW首先会根据序列点之间的欧氏距离，获得一个序列距离矩阵M，其中行对应X序列，列对应Y序列，矩阵元素为对应行列中X序列和Y序列点到点的欧氏距离，然后根据距离矩阵生成损失矩阵(Cost Matrix)或者叫累积距离矩阵Mc，其计算方法如下：

1)第一行第一列元素为MM的第一行第一列元素，在这里就是0；

2)其他位置的元素(Mc(i,j))的值则需要逐步计算，具体值的计算方法为Mc(i,j)＝Min(Mc(i-1,j-1),Mc(i-1,j),Mc(i,j-1))+M(i,j)

最后在损失矩阵中选取每列最小值所在的位置，提取该帧语音在数据库中的舌超声图像作为切割片段在此帧对应的舌运动位置，按照顺序依次计算每个语音片段的所有帧的超声图像，依顺序保存。

插值处理是指对于每个语音片段的结尾处和下一个语音片段的开头处进行插值平滑处理，具体操作为舍弃前语音片段的最后15帧和后语音片段的前15帧，总共30帧图像，约0.6秒，将前片段舍弃之后的最后一帧和后一片段舍弃后的第一帧使用自编码器模型中的编码模型进行特征值提取，转换为12维向量，将生成的2个12维向量中间进行插值操作，生成30对平滑过渡的12维向量，再经过decoder模型处理转换成30张舌超声图像，使用生成的这30张超声图像来替代删除的30张图像，使得最终合成的视频中的舌头运动在每个语音段之间流畅自然。

本发明的特点及有益效果是：

本发明使用动态时间规划的方法，通过对给定语音的切分，与数据库中录取的声音片段进行动态时间规整，从而通过已有的超声图像合成出目标语音的舌超声运动图，在切割点出使用预先在数据集上已经训练好的自编码器模型进行特征值提取和插值操作，解决了在每个汉字发音间舌运动不连贯的问题。结果表明，该方法达到了良好的舌运动超声图像合成结果，舌运动状态与声音能够对应，合成出的视频具有延迟低，清晰度高，运动流畅自然等优点，是一种可行的舌超声图像合成方法。

附图说明：

图1为基于动态时间规划根据语音信息合成舌超声视频结构图。

图2为基于共振峰能量的语音切割示意图。

图3为自编码器模型图。

图4为经过自编码器还原后的图像对比图。左图:原始图像右图:还原后图像。

具体实施方式

实现本发明目的的技术解决方案为：基于动态时间规划根据语音信息合成舌超声视频的方法，首先基于现有的语音识别技术识别输入的语音文字，之后根据共振峰能量根据识别结果按独立发音切割语音段，通过动态时间规划的方法，将输入语音中每个字的舌运动图像选择出来，在单词拼接过程中使用自编码器提取特征值进行插值，最终合成出连贯的舌超声图像。

由于整个系统的进行需要发音数据的支持，首先需要建立每个汉字发音的舌运动超声图，超声图像采集使用Terason公司的Terason T3000超声仪、配套超声采集软件和供开发人员使用的SDK开发包，使用型号为8MC3的超声探头放置于采集者的下巴处，调整位置直到显示出清晰完整的舌轮廓图，调整完毕后开始录音，声音信号通过电脑的麦克风进行记录，录取下每个汉字发音的舌超声图像，基于SDK开发包，我们可以将录取的超声视频按照50帧/秒的速度以bmp图片方式存储在硬盘中，声音以8000Hz的采样率存成wav格式。

对于所录取的所有超声图像，裁剪出舌体的位置后输入到自编码器模型进行训练，自编码器使用基础的全连接神经网络，最终可以使自编码器模型可以实现对于图片进行特征值提取和还原。

对于输入的语音，先调整采样率至8000Hz，使用目前市场上成熟的语音识别技术转化成汉字，再根据识别的汉字将输入语音根据共振峰能量变化进行切割，从而使每个字与语音片段相匹配，对于每个语音片段，使用动态时间规划的方法与库中所录取的语音片段进行比对和调整，生成出单个汉字发音的连贯的舌运动超声图像。

最后将所有的超声图像进行拼接处理，在每个汉字发音之间使用之前训练好的自编码器模型进行encoder(编码)，插值，decoder(解码)处理，使得在每个发音之间舌运动图像流畅自然。最后将所有生成的图像按照时间顺序，以50帧/秒的速度合成为视频图像，并附上输入语音作为背景音。

下面结合附图来描述本发明实施的基于动态时间规划根据语音信息合成舌超声视频的方法。该方法包含以下步骤：

步骤一：使用Terason T3000超声仪录取超声数据，进行数据处理，切割操作。

具体地，结合汉字发音特征，汉语普通话共由23个声母，24韵母组成，结合汉语拼音音节列表共413个汉字发音，使用TerasonT3000超声仪探头抵在说话人下颚位置，调整探头知道可以在窗口显示完成清晰的舌超声轮廓即可开始通过设备提供的SDK进行视频录制，使用设备自带的麦克风记录下每个字的发音，发音以44100Hz的采样率记录下来，并进行降采样处理至8000Hz,每个字发音约2s，按照50帧每秒的速度截取超声图片以bmp格式存储，即每个字约由120张连续的超声图片组成，与对应录音相匹配。

步骤二：对所采集的所有超声图片进行切割处理，由于超声成像的特性，上颚以上部分无法清晰显示，且会对之后自编码器训练产生影响，所以选择切除图像中大部分边界，只保留了图像中间的舌头运动区域进行训练，选取横坐标180到360像素，纵坐标170到470像素方框内的270*270像素的正方形图像。

经过试验，分别使用了卷积+全连接层和全连接层两种自编码器进行测试，把切割好的正方形图像调整大小为112*112，输入到自编码器中，发现普通的全连接层即可较好的完成图像特征值提取和还原工作，本文使用的自编码器共10使用5层全连接层，前5层作为encoder模型，神经元数分别为12544，3600，2160，36，12，在每一个全连接层处理之后再使用线性整流函数(ReLU)处理。

ReLU计算方式如下：

f(x)＝max(0,x)

最后将112*112维度的图像经过encoder处理后转化成12维特征值向量，decoder与encoder模型每层参数相反，最后将12维特征值向量再次还原成112*112的正方形图像。经过训练后的自编码器还原后的图片如图4所示，相比较左图，自编码器可以清晰地还原出舌头轮廓信息。

步骤三：对于待处理语音，调整采样至8000Hz与录取语音采样率一致，之后进行语音识别，将识别结果转化成汉字的拼音序列，根据拼音序列，对于待处理语音引入共振峰能量(Formant Energy，FE)来检测语音段，声韵母结构是汉语特有的结构，所有汉语音节都是由声母(包括零声母)加韵母组成。在汉语连续语音中，由于语义、情感表达的需要，词与词、句与句之间存在短时停顿。利用这些短时停顿可以从连续语音信号中检测出语音段与静音段；设置窗口长度为1024，帧移320，使用python中的librosa库进行短时傅里叶变换取前300维参数的绝对值后在时间维度上求和得到共振峰能量图。在共振峰能量图中，根据识别汉字数量提取相对应的波峰，根据波峰的横轴坐标切割出每个汉字发音，提取的共振峰能量图和切割结果如图2所示。

步骤四：对于已经切割好的每个汉字的语音片段提取MFCC(梅尔频率倒谱系数)，使用动态时间规划(DTW方法)与数据库中的语音信息进行匹配。

具体操作方式为：梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)就是组成梅尔频率倒谱的系数。MFCC的计算方式如下：

1.对第m帧语音信号s(n,m)n＝0,1,…N-1加汉明窗处理

2.进行FFT变换

进行FFT变换后语音信号第m帧的频谱为

对语音信号的频谱取模平方得到语音信号的功率谱。

3.三角滤波器组进行滤波

对语音信号的功率谱用依照Mel梅尔频率平均分布的三角滤波器组进行滤波。得到一组系数ml,m2，……。这组系数为每一个滤波器输出的能量。Mel频率与一般频率的关系式为：

4.利用离散余弦变换DCT对得到的系数进行计算，求得L阶MFCC参数，C_l，l＝1,2…L。

其中p是上一步三角滤波器的个数。

对于每个语音片段，按照1024位窗口长度，320位帧移提取13维MFCC，与数据库中对应汉字发音的语音MFCC作对比，使用动态时间规划方法进行对齐。对于给定的两个离散序列，动态时间规划方法能够衡量这两个序列的相似度，同时能够对两个序列的延展或者压缩能够有一定的适应性。因此通过DTW可以将每个切割好的语音片段通过对数据库中的语音片段进行一系列的延展和选择操作获得，同时对于数据库中已有语音片段的的每一帧，都对应到了一张舌超声的图像，从而可以由数据库中的舌超声图像进行选取合成出对应的切割语音的舌运动图像。我们选取MFCC对于切割语音段X和数据库中的比对语音段Y，DTW首先会根据序列点之间的距离(欧氏距离)，获得一个序列距离矩阵M，其中行对应X序列，列对应Y序列，矩阵元素为对应行列中X序列和Y序列点到点的欧氏距离，然后根据距离矩阵生成损失矩阵(Cost Matrix)或者叫累积距离矩阵Mc，其计算方法如下：

1.第一行第一列元素为MM的第一行第一列元素，在这里就是0；

2.其他位置的元素(Mc(i,j))的值则需要逐步计算，具体值的计算方法为Mc(i,j)＝Min(Mc(i-1,j-1),Mc(i-1,j),Mc(i,j-1))+M(i,j)

步骤五：将所有提取出来的超声图像，使用步骤二中训练好的自编码器模型处理，得到经过decoder后的超声图像。由于使用DTW方法在不同语音片段之间提取出的图片会存在舌头运动不连续的情况，所以对于每个语音片段的结尾处和下一个语音片段的开头处进行插值平滑处理。

具体操作为舍弃前语音片段的最后15帧和后语音片段的前15帧，总共30帧图像，约0.6秒，将前片段舍弃之后的最后一帧和后一片段舍弃后的第一帧使用自编码器模型中的encoder模型进行特征值提取，转换为12维向量。将生成的2个12维向量中间进行插值操作，生成30对平滑过渡的12维向量，再经过decoder模型处理转换成30张舌超声图像。使用生成的这30张超声图像来替代删除的30张图像，使得最终合成的视频中的舌头运动在每个语音段之间流畅自然。

步骤六：使用python中的opencv库按顺序读取所有生成的超声图像，按照50fps的速度合成出连贯的视频，最后再将处理的语音作为视频的背景音插入到视频中，完成基于动态时间规划根据语音信息合成舌超声视频的整个流程。

Claims

1.一种基于动态时间规划根据语音信息合成舌超声视频的方法，其特征是，首先基于语音识别技术识别输入的语音文字，之后根据共振峰能量根据识别结果按独立发音切割语音段，通过动态时间规划的方法，将输入语音中每个字的舌运动图像自语音-超声图像库中选择出来，在单词拼接过程中使用全连接神经网络自编码器提取特征值进行插值，最终合成出连贯的舌超声图像；

最后将所有的所述单个汉字发音的连贯的舌运动超声图像进行拼接处理，在每个汉字发音之间使用之前训练好的自编码器模型进行编码、插值、解码处理，使得在每个发音之间舌运动图像流畅自然；最后将所有生成的图像按照时间顺序，合成为视频图像，并附上输入语音作为背景音；

2.如权利要求1所述的基于动态时间规划根据语音信息合成舌超声视频的方法，其特征是，具体训练过程如下：

自编码器选用卷积+全连接层神经网络或全连接层神经网络，把切割好的图像输入到自编码器中，在每一个全连接层处理之后再使用线性整流函数ReLU处理：

ReLU计算方式如下：

f(x)＝max(0,x)

x为每层神经网络的输出结果，进行ReLU函数处理后作为下一层网络的输入；

3.如权利要求1所述的基于动态时间规划根据语音信息合成舌超声视频的方法，其特征是，根据识别的汉字将输入语音根据共振峰能量变化进行切割具体步骤是，将识别结果转化成汉字的拼音序列，根据拼音序列，对于待处理语音引入共振峰能量FE(FormantEnergy)来检测语音段，在汉语连续语音中，利用这些词与词、句与句之间存在的短时停顿从连续语音信号中检测出语音段与静音段；进行短时傅里叶变换取前n维参数的绝对值后在时间维度上求和得到共振峰能量图，在共振峰能量图中，根据识别汉字数量提取相对应的波峰，根据波峰的横轴坐标切割出每个汉字发音。

4.如权利要求1所述的基于动态时间规划根据语音信息合成舌超声视频的方法，其特征是，对于已经切割好的每个汉字的语音片段提取梅尔频率倒谱系数MFCC，使用动态时间规划DTW与数据库中的语音信息进行匹配，具体操作方式为：梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换，MFCC(Mel-Frequency CepstralCoefficients)就是组成梅尔频率倒谱的系数，MFCC的计算方式如下：

1)对第m帧语音信号s(n,m)n＝0,1,…N-1加汉明窗处理

2)进行FFT变换

进行FFT变换后语音信号第m帧的频谱为

对语音信号的频谱取模平方得到语音信号的功率谱；

3)三角滤波器组进行滤波

其中p是上一步三角滤波器的个数。

5.如权利要求1所述的基于动态时间规划根据语音信息合成舌超声视频的方法，其特征是，对于每个语音片段，提取n’维MFCC，与数据库中对应汉字发音的语音MFCC作对比，使用动态时间规划方法进行对齐，对于给定的两个离散序列，动态时间规划方法能够衡量这两个序列的相似度，同时能够对两个序列的延展或者压缩能够有一定的适应性，因此通过DTW可以将每个切割好的语音片段通过对数据库中的语音片段进行一系列的延展和选择操作获得，同时对于数据库中已有语音片段的每一帧，都对应到了一张舌超声的图像，从而由数据库中的舌超声图像进行选取合成出对应的切割语音的舌运动图像，选取MFCC对于切割语音段X和数据库中的比对语音段Y，DTW首先会根据序列点之间的欧氏距离，获得一个序列距离矩阵M，其中行对应X序列，列对应Y序列，矩阵元素为对应行列中X序列和Y序列点到点的欧氏距离，然后根据距离矩阵生成损失矩阵(Cost Matrix)或者叫累积距离矩阵Mc，其计算方法如下：

2)其他位置的元素Mc(i,j)的值则需要逐步计算，具体值的计算方法为Mc(i,j)＝Min(Mc(i-1,j-1),Mc(i-1,j),Mc(i,j-1))+M(i,j)