CN102750549A - 基于核磁共振图像的舌头轮廓自动提取方法 - Google Patents
基于核磁共振图像的舌头轮廓自动提取方法 Download PDFInfo
- Publication number
- CN102750549A CN102750549A CN2012101929571A CN201210192957A CN102750549A CN 102750549 A CN102750549 A CN 102750549A CN 2012101929571 A CN2012101929571 A CN 2012101929571A CN 201210192957 A CN201210192957 A CN 201210192957A CN 102750549 A CN102750549 A CN 102750549A
- Authority
- CN
- China
- Prior art keywords
- image
- tongue
- shape
- aam
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开了一种基于核磁共振图像的舌头轮廓自动提取方法,基于动态模型算法AAM,以发声器官的核磁共振图像MRI作为提取数据源,其特征在于,该方法包括以下步骤:步骤一、根据MRI图像进行开发集和评价集中的图像标注和数据集划分,步骤二、构建AAM模型,并且据此实现舌头轮廓的自动标注。与现有技术相比,本方法的有益效果首先是可以以较小的误差实现舌头轮廓提取,对后期的研究误差影响极小,可以忽略;其次考虑到我们需要处理的MRI图像数量非常大,所以利用构建AAM模型然后自动标注的方法提取舌头轮廓可以节省大量的时间和人力。因此采用这种方法对于我们进行一系列的语音研究具有非常重要的意义。
Description
技术领域
本发明涉及基于核磁共振成像技术的图像分析技术领域,特别是涉及一种利用计算机技术从了语音生成过程中舌头运动的核磁共振成像技术记录的高分辨率图像中动提取舌头轮廓的技术。
背景技术
言语是人类进行日常交流最重要的方式之一,是区别于地球上其它动物最重要的特征。相对于动物而言,人类具有一套非常灵活的发音器官,并且与大脑互相交互,从而能够使用语音声学信号来表达抽象的概念,实现各种交际目的。揭示人类的言语产生机制对于理解人类的言语功能和帮助言语障碍的人群具有重要意义。人类通过大脑的言语区进行规划,然后将言语控制命令以神经控制信号的形式传达给发音器官,发音器官通过在控制信号下协调运动来生成语音声学信号。人类发音器官(肺、声门、舌头、嘴唇、鼻腔等)的运动规律处于人类言语机制中间层,具有承上启下的重要功能。揭示发音器官的第一步就是获取、分析和研究发现发音器官的形态特征和动态特征。如今,各种成像技术和图像处理技术高速发展,为发音器官外观形态的获取和分析,提供了便捷,也为这方面的医学研究或者生物学研究提供了依据。
当前比较流行的成像技术有核磁共振成像(MRI)技术、X射线(X-ray)成像以及超声图像成像技术等。这些成像技术各有利弊。超声图像可以快速记录人说话时舌头表面的运动轨迹从而得到人说话时舌头的运动,但是超声成像技术采集的舌头信息少、不精确,比如它只能记录中卫矢面的二维形状而且图像缺少了舌尖的运动信息。X射线成像把具有三维结构的人体拍摄成二维的平面图形,各种组织结构的影响必定相互重叠,而且X光对于人体有危害,目前没有多少机构采用X射线技术来记录人类的发音器官的形状。MRI利用核磁共振现象来记录物体内部的结构,它能够记录高分辨率的声道以及头部(包括鼻腔、声道、舌头等)的详尽的内部结构和形状,且对人体无任何危害。这使得MRI成为当前进行语音研究最有前途的数据采集方法之一,因此被广泛应用于语音产生的研究。一系列的人发音器官的MRI图像数据库已经被用于各种不同目的的研究及临床诊断。
发音器官(如舌头)的MRI数据库往往包括大量的图像文件,要使这些数据库能应用到实际的研究和工作中,首先是能够从这些图像中成功且自动的提取出发音器官的形状。过去的几十年中,为解决图像的边界提取问题人们提出了很多算法。这些算法主要可以分为两类:数据驱动算法,如1987年kass等人提出的snake算法;模型驱动算法,例如1998年Cootes等人提出的动态模型算法。每类算法都有优点和缺点。其中:数据驱动方法中,每一张图片在提取形状之前都必须先给定一个初始的形状,这就使得提取的过程不是全自动的。模型驱动方法中,首先要标注一个训练数据库集合,然后利用特定的模型算法从训练集合中学习知识,并建立相应的模型,最后根据模型去标注未被标注的数据。
动态模型算法(AAM)是模型驱动算法的一种,是由Cootes等人于1998年开发的,需要建立一个统计点分布模型,在图像分割上具有很好的性能。该算法能从相应标记集中自动学习点分布的参数以及合并形状和边界的灰度级信息。AAM算法通过从一个训练集中学习获得一组统计学的形状外观模型来描述图像的外观和需要的物体形状。当应用到图像翻译或者分割的时候,AAM可以减小从模型中合成的图像和协调模型参数之后的训练集中不包含的图像之间的差异。
相比于其它模型算法而言,AAM算法能够更有效的从图像中自动追踪物体边界。因此,本发明在从MRI图像序列中提取舌头边界的时候,引入了AAM算法。AAM算法在心脏的MRI图像分割和脸部特征提取等方面已被证明具有很高的强壮性。然而人的发音器官包括声门、舌头、软腭、嘴唇的动态性比较大,其中舌头的动态性最大。相对于心脏、脸部而言,舌头就具有更大的动态性,这也增加了舌头轮廓自动提取的困难。
发明内容
基于上述现有技术存在的问题,本发明提出了一种基于核磁共振图像的舌头轮廓自动提取方法,利用AAM算法从MRI图像中自动提取发音器官轮廓;并且针对图像数据库数据量大而人工标注舌头耗时耗力等特点进行方法设计。
本发明提供一种基于核磁共振图像的舌头轮廓自动提取方法,基于动态模型算法AAM,以发声器官的核磁共振图像MRI作为提取数据源,其特征在于,该方法包括以下步骤:
步骤一、根据MRI图像进行开发集和评价集中的图像标注和数据集划分,具体包括以下操作:
MRI图像序列由128帧图像构成,随机选择20帧图像作为开发集,另外再随机选取20帧作为评价集,每张图片上用31个标注点将舌体标注为一个紧密的封闭轮廓;
步骤二、构建AAM模型,并且据此实现舌头轮廓的自动标注,具体包括以下操作:
根据开发集中标注好的图像构建AAM模型,首先根据已经标注好的开发集中的图像来计算其平均形状和平均纹理;
平均形状:
平均纹理:
其中,gi是开发集中图像i变形到平均舌头形状后,平均形状区域的灰度信息。
每一个训练图像i的形状Si通过一个2n*1的向量来表示,这个向量包括了每个点的二维坐标x和y的值。
si=[x1i,x2i,...,xni,y1i,y2i,...,yni,]T;
并且在其形成过程中,输出包含形状和纹理自相关系数的向量bs和bg,并通过改进的主成分分析法将bs和bg合并成一个新的总变形系数c:
b=Tc
其中,T表示在总变形系数c是和原始系数b之间的子空间转变的矩阵,用来表达。Ws表示平衡形状和纹理模型之间的差异的对角矩阵;
通过得到的总变形系数c以及转变公式构造AAM模型得到所有测试集中图像上舌头的形状和纹理轮廓:
与现有技术相比,本方法的有益效果首先是可以以较小的误差实现舌头轮廓提取,对后期的研究误差影响极小,可以忽略;其次考虑到我们需要处理的MRI图像数量非常大,所以利用构建AAM模型然后自动标注的方法提取舌头轮廓可以节省大量的时间和人力。因此采用这种方法对于我们进行一系列的语音研究具有非常重要的意义。
附图说明
图1为人说话时的发音器官的MRI图像示例图;
图2为利用AAM算法实现舌头轮廓追踪的算法流程图;
图3为MRI图像中的的关注有效区域标注示意图;
图4为标记后的舌头轮廓的MRI图像示意图;
图5舌头形状的前3个模型提取示意图;
图6为AAM舌头模型的前3个模型提取示意图;
图7利用AAM算法自动提取的轮廓示例。
具体实施方式
以下结合附图及较佳实施例,对依据本发明提供的具体实施方式、结构、特征及其功效,详细说明如下。
通过该具体实例主要描述从MRI图像中自动提取舌头轮廓实验的细节。实验包括标注图像开发集和评价集的步骤。另外,由AAM得到的发音特征也将在本部分给出证明。
1.获取发声器官MRI图像的关注区域
如图所示的人说话时的发音器官MRI图像示例图,图中的MRI图像不仅包括发音器官还包含人头部的其它区域,比如大脑、脊椎等。由于每一帧MR图片上的结构的亮度、位置等信息都在变化,图像上的物体越多,自动提取舌头轮廓就越困难。因此,从原始图像中取出我们所关注的区域(ROI)是一个很有必要的步骤,这样做也是为了从图像其他部分移除不希望有的影响。原始图像尺寸是256*256像素,其中被选中区域尺寸为128*128像素。
利用如图2所示的算法流程,实现关注区域(即舌头轮廓)的追踪。
1)AAM算法的基本原理
AAM算法可以同时为图像的形状和纹理编码,因此它比传统的方法有效。AAM算法通过从一个训练集中学习来创造一个物体性能可变性的密集参数。通常情况下,模型化的性能是指形状和纹理。AAM算法生成一个统计外观模型,用于通过合并一个形状变化模型和一个纹理变化模型来生成一个混合的形状和纹理模型。训练集中的物体形状通过标定点被手工标注、半自动标注或者自动标注。例如对于二维的形状,每一个训练图像i的形状Si通过一个2n*1的向量来表示,这个向量包括了每个点的二维坐标x和y的值。
si=[x1i,x2i,...,xni,y1i,y2i,...,yni,]T (1)
对于m个训练图像,平均形状就从一个2n*m的矩阵中取得。形状的例子与一个平均形状通过概括分析相匹配。这个几何标准化框架展示了形状无关性而纹理采样点则是通过相关的像素信息来提取。然后我们可以从不断变化的舌头形状图像中得到平均形状。经过几何标准化之后,利用主成分分析法(PCA)来建立统计的形状和纹理模型,计算公式如下:
其中Ps和Pg表示形状与纹理相关矩阵的固有向量,用来描述全部形状变化中的主要变化;bs和bg表示包含形状和纹理自相关系数的向量。
改进的主成分分析法被用于形状和纹理的系数连接,由此来进行在新的系数c(这里的c也表示包含形状和纹理自相关系数,c是AAM中控制形状和纹理的参数向量)是和原始系数b之间的子空间转变,用矩阵T(T是AAM的特征向量矩阵)来表达。Ws是一个对角矩阵,作用是平衡形状和纹理模型之间的差异。
b=Tc (3)
外观模型通过系数c和下面的公式(4)来控制形状和纹理:
其中,Qs和Qg表示用于描述训练集中得到的变化模型的矩阵。AAM算法采用已有的图像信息来使模型应用于训练集外的图像标定时更合适。
2)MRI图像的数据集划分及标定
在建模中将图像分成三组,一组是随机抽取的较小的开发集,用于构建AAM模型;一组是实现集,由剩下的108张图像组成。第三组的评价集是从实现集中抽出来20张的图像。一组较大的集合用手工方式进行标注的评价集;剩下的一部分图像作为测试集,测试集中的图像用开发集构建的AAM模型实现关注区域轮廓的自动提取。对开发集中的图像进行人工标注,手动提取出每张图片对应的舌头轮廓,用于构造AAM模型。实现集中的图像用开发集构建的AAM模型实现关注区域轮廓的自动提取。最后,用手工标注的方法对评价集中的图像进行标记,得到一组评价集。由于评价集中的20张图像也在实现集中包括,通过对比同一张图像的自动提取结果与手动标注结果的差异,用于评价AAM模型算法的精确度及误差。
选中的关注区域如图3中白色框架所示。
本发明的具体实施方案详细描述如下:
1、标注开发集和评价集中的图像
本发明所的MRI图像序列由128帧图像构成,其中随机选择20帧图像作为开发集,剩下的所有图像作为实现集,在实现集中再随机选取20帧作为评价集。每张图片上用31个标注点将舌体标注为一个紧密的轮廓。这里我们采用的是手工标记标注点的方法,标注结果如图4所示。图中白色的点即舌头轮廓的标注点,这些点又由固定的线连接成一个封闭的轮廓。
2、AAM模型的构造以及自动标注过程
MRI图像的AAM模型是以开发集中标注好的图像为基础构造的。模型的构造需要用到由标注点表示的形状和封闭的轮廓中的纹理信息。
首先我们根据已经标注好的开发集中的图像来计算其平均形状和平均纹理。并且在其形成过程中,输出包含形状和纹理自相关系数的向量bs和bg,并通过改进的主成分分析法将bs和bg合并成一个新的总变形系数c。
通过得到的总变形系数c以及转变公式构造AAM模型,其中模型的形状和纹理的前3个模式如图5和图6所示。图5显示了舌头形状的前三个模型,第一行的图像变化是在舌头平均形状的基础上,只改变向量c中的第一个数c1的大小得到的舌头形状模型,中间的图像是舌头的平均形状,左边的是c1减小后舌头形状的变化,右边是c1增大后舌头形状的变化。第二行和第三行分别是只改变c2和c3的舌头形状模型。相应的图6给出了舌头纹理的前三个模型。利用此AAM模型对实现集中的全部图像进行轮廓的自动提取。
3、结果评价
将测试集中自动标注的图像和评价集中手工标注好的图像进行对比,计算其欧几里得距离。由于分组的时候评价集是测试集的子集,所以我们进行对比的时候,从测试集中抽取的标注后图片与评价集中的图案具有相同的原始图片。我们最后得到的平均结果是1.07个像素点。
4、模型训练和评估
1)从开发集中学习并构造AAM模型。对开发集中的所有图像进行标注,求出其平均形状和平均纹理。然后根据主成分分析法建立统计的形状和纹理模型。最后利用改进的主成分分析法将控制形状和纹理的两个参数合并成一个总变形系数c。
2)利用学习到的AAM模型对实现集中的所有图像进行自动标记。由第一步得到的控制向量c和转换公式对实现集中的图像进行轮廓的标注,得到所有测试集中图像上舌头的形状和纹理轮廓。
3)对AAM算法自动提取的图像结果进行评价。用手工标注的方法对评价集中的20帧图像进行标记,得到一组评价集结果。将评价集结果与AAM算法自动提取的舌头轮廓结果进行几何距离的比较,从而评价AAM模型算法的精确度及误差。
通过以上方法,所有测试集中的图像的轮廓被提取了出来,将其中有4种发声过程的舌头轮廓提取结果作为例子如图7所示。手工标注点标注的图像和用AAM模型自动提取的图像之间的平均欧几里德距离用来对测试集中所有图像的所有标记点进行评价,其误差大约是1.07个像素点。
Claims (1)
1.一种基于核磁共振图像的舌头轮廓自动提取方法,基于动态模型算法AAM,以发声器官的核磁共振图像MRI作为提取数据源,其特征在于,该方法包括以下步骤:
步骤一、根据MRI图像进行开发集和评价集中的图像标注和数据集划分,具体包括以下操作:
MRI图像序列由128帧图像构成,随机选择20帧图像作为开发集,另外再随机选取20帧作为评价集,每张图片上用31个标注点将舌体标注为一个紧密的封闭轮廓;
步骤二、构建AAM模型,并且据此实现舌头轮廓的自动标注,具体包括以下操作:
根据开发集中标注好的图像构建AAM模型,首先根据已经标注好的开发集中的图像来计算其平均形状和平均纹理;
平均形状:
平均纹理:
其中,gi是开发集中图像i变形到平均舌头形状后,平均形状区域的灰度信息;
每一个训练图像i的形状Si通过一个2n*1的向量来表示,这个向量包括了每个点的二维坐标x和y的值;
si=[x1i,x2i,...,xni,y1i,y2i,...,yni,]T;
并且在其形成过程中,输出包含形状和纹理自相关系数的向量bs和bg,并通过改进的主成分分析法将bs和bg合并成一个新的总变形系数c:
b=Tc
其中,T表示在总变形系数c是和原始系数b之间的子空间转变的矩阵,用来表达。Ws表示平衡形状和纹理模型之间的差异的对角矩阵;
通过得到的总变形系数c以及转变公式构造AAM模型得到所有测试集中图像上舌头的形状和纹理轮廓:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101929571A CN102750549A (zh) | 2012-06-12 | 2012-06-12 | 基于核磁共振图像的舌头轮廓自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101929571A CN102750549A (zh) | 2012-06-12 | 2012-06-12 | 基于核磁共振图像的舌头轮廓自动提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102750549A true CN102750549A (zh) | 2012-10-24 |
Family
ID=47030714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101929571A Pending CN102750549A (zh) | 2012-06-12 | 2012-06-12 | 基于核磁共振图像的舌头轮廓自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102750549A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103337247A (zh) * | 2013-06-17 | 2013-10-02 | 天津大学 | 电磁发音记录仪数据标注分析系统 |
CN105551040A (zh) * | 2015-12-15 | 2016-05-04 | 中国科学院自动化研究所 | 在核磁图像序列中自动提取舌位轮廓的方法和系统 |
CN106782503A (zh) * | 2016-12-29 | 2017-05-31 | 天津大学 | 基于发音过程中生理信息的自动语音识别方法 |
CN108053407A (zh) * | 2017-12-22 | 2018-05-18 | 联想(北京)有限公司 | 数据处理方法及数据处理系统 |
WO2018137199A1 (en) * | 2017-01-25 | 2018-08-02 | Tsinghua University | Real-time phase-contrast flow mri with low rank modeling and parallel imaging |
CN110097610A (zh) * | 2019-04-08 | 2019-08-06 | 天津大学 | 基于超声与磁共振成像的语音合成系统和方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169868A (zh) * | 2006-10-25 | 2008-04-30 | 爱克发医疗保健公司 | 用于分割数字医学图像的方法 |
-
2012
- 2012-06-12 CN CN2012101929571A patent/CN102750549A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101169868A (zh) * | 2006-10-25 | 2008-04-30 | 爱克发医疗保健公司 | 用于分割数字医学图像的方法 |
Non-Patent Citations (2)
Title |
---|
史东承 等: "《基于主动表观模型的人脸图像描述与编码》", 《长春工业大学学报》 * |
宋卫卫 等: "《基于形状相似性和曲线化简的统计形状模型建立》", 《光电子.激光》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103337247A (zh) * | 2013-06-17 | 2013-10-02 | 天津大学 | 电磁发音记录仪数据标注分析系统 |
CN105551040A (zh) * | 2015-12-15 | 2016-05-04 | 中国科学院自动化研究所 | 在核磁图像序列中自动提取舌位轮廓的方法和系统 |
CN105551040B (zh) * | 2015-12-15 | 2018-03-09 | 中国科学院自动化研究所 | 在核磁图像序列中自动提取舌位轮廓的方法和系统 |
CN106782503A (zh) * | 2016-12-29 | 2017-05-31 | 天津大学 | 基于发音过程中生理信息的自动语音识别方法 |
WO2018137199A1 (en) * | 2017-01-25 | 2018-08-02 | Tsinghua University | Real-time phase-contrast flow mri with low rank modeling and parallel imaging |
CN108053407A (zh) * | 2017-12-22 | 2018-05-18 | 联想(北京)有限公司 | 数据处理方法及数据处理系统 |
CN108053407B (zh) * | 2017-12-22 | 2021-04-13 | 联想(北京)有限公司 | 数据处理方法及数据处理系统 |
CN110097610A (zh) * | 2019-04-08 | 2019-08-06 | 天津大学 | 基于超声与磁共振成像的语音合成系统和方法 |
CN110097610B (zh) * | 2019-04-08 | 2023-07-04 | 天津大学 | 基于超声与磁共振成像的语音合成系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sifakis et al. | Simulating speech with a physics-based facial muscle model | |
CN104008564B (zh) | 一种人脸表情克隆方法 | |
CN109978850B (zh) | 一种多模态医学影像半监督深度学习分割系统 | |
Hill et al. | Model-based interpretation of 3d medical images. | |
CN103473801B (zh) | 一种基于单摄像头与运动捕捉数据的人脸表情编辑方法 | |
CN100562895C (zh) | 一种基于区域分割和分段学习的三维人脸动画制作的方法 | |
CN102750549A (zh) | 基于核磁共振图像的舌头轮廓自动提取方法 | |
CN101777116B (zh) | 一种基于动作跟踪的脸部表情分析方法 | |
CN101739719B (zh) | 二维正面人脸图像的三维网格化方法 | |
CN102880866B (zh) | 一种人脸特征提取方法 | |
Uddin et al. | Human activity recognition using body joint‐angle features and hidden Markov model | |
CN101488346B (zh) | 语音可视化系统及语音可视化方法 | |
US8675940B2 (en) | Generation of moving vascular models and blood flow analysis from moving vascular models and phase contrast MRI | |
CN110084259A (zh) | 一种结合面部纹理和光流特征的面瘫分级综合评估系统 | |
CN104851123A (zh) | 一种三维人脸变化模拟方法 | |
CN102074012A (zh) | 结合图像和计算模型的茶叶嫩芽形态的三维重建方法 | |
CN107680110A (zh) | 基于统计形状模型的内耳三维水平集分割方法 | |
CN103778661A (zh) | 一种生成说话人三维运动模型的方法、系统及计算机 | |
CN103295234A (zh) | 基于形变表面模型的医学图像分割系统及方法 | |
CN113781640A (zh) | 基于弱监督学习的三维人脸重建模型建立方法及其应用 | |
Yang et al. | Multiscale mesh deformation component analysis with attention-based autoencoders | |
Chen | Medical Image Segmentation Based on U-Net | |
Woo et al. | A deep joint sparse non-negative matrix factorization framework for identifying the common and subject-specific functional units of tongue motion during speech | |
CN110223368A (zh) | 一种基于深度学习的面部无标记运动捕捉方法 | |
CN102881021A (zh) | 基于概率分布和连续最大流的主动脉瓣超声图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121024 |