CN110569879B - 舌头图像提取方法、装置及计算机可读存储介质 - Google Patents
舌头图像提取方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110569879B CN110569879B CN201910733855.8A CN201910733855A CN110569879B CN 110569879 B CN110569879 B CN 110569879B CN 201910733855 A CN201910733855 A CN 201910733855A CN 110569879 B CN110569879 B CN 110569879B
- Authority
- CN
- China
- Prior art keywords
- image
- tongue
- matrix
- feature
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims abstract description 120
- 238000012360 testing method Methods 0.000 claims abstract description 97
- 238000012549 training Methods 0.000 claims abstract description 94
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 11
- 210000002105 tongue Anatomy 0.000 claims description 204
- 239000013598 vector Substances 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 12
- 238000013519 translation Methods 0.000 claims description 11
- 238000012417 linear regression Methods 0.000 claims description 10
- 238000003709 image segmentation Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 230000004807 localization Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 13
- 239000008280 blood Substances 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 12
- 230000007704 transition Effects 0.000 description 12
- 210000004369 blood Anatomy 0.000 description 8
- 210000001779 taste bud Anatomy 0.000 description 8
- 208000031971 Yin Deficiency Diseases 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 4
- 210000001508 eye Anatomy 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 230000000452 restraining effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
- G06F18/21328—Rendering the within-class scatter matrix non-singular involving subspace restrictions, e.g. nullspace techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本方案涉及人工智能,提供一种舌头图像提取方法:利用LNMF算法进行训练,将训练图像对应的矩阵V分解为非负特征矩阵W与权值矩阵H的乘积;非负特征矩阵W的维数为n*r,r列为特征基图像,该非负特征矩阵W构成非负子空间;权值矩阵H的维数为r*m;将训练图像和测试图像分别向非负子空间投影,分别得到特征系数,利用最近邻准则来求取训练图像与测试图像对应的特征系数的相似度,将相似度高于阈值的测试图像中的特征提取出来,从而利用边框将代表舌头特征的图像区域从各测试图像中分割出来。本方案还提供舌头图像提取装置及计算机可读存储介质。本方案基于LNMF算法更加强调了原图像分解过程中基本特征成分的局部化,运算速度更快。
Description
技术领域
本发明涉及人工智能,具体地说,涉及一种舌头图像提取方法、装置及计算机可读存储介质。
背景技术
现有的舌头图像检测方法,通常是采用目标检测的方式,利用滑动窗口沿水平和竖向分别在图像上滑动,并通过CNN模型对滑动窗口中的物体提取空间特征,利用SVM分类器对提取到的所述空间特征分类,从而确定滑动窗口中是否是舌头图像。输出滑动窗口的四个角点的坐标,以四个角点的坐标来标定舌头图像的位置。但是,由于不同图像中舌头的尺寸相差很多,角度姿态也各不相同。因此,目标框的大小不确定,这就要通过各种大小的目标框来多次进行滑动识别,这也导致目标检测具有一定的复杂度。
因此,如何快速获取位姿正确并且完整清晰的舌头图像是一个亟待解决的问题。
发明内容
为解决以上问题,本发明提供一种舌头图像提取方法,应用于电子装置,该方法包括以下步骤:
S110,将包含舌头的训练图像转换为矩阵V,其中,一张图像的所有的非负灰度值对应V中的一列,利用LNMF算法进行训练,将矩阵V分解为非负特征矩阵W与权值矩阵H的乘积,即V=WH;
非负特征矩阵W的维数为n*r,r列为特征基图像,所述特征基图像是指代表舌头特征的非负特征矩阵W,该非负特征矩阵W构成非负子空间;
权值矩阵H的维数为r*m,其每一列为编码;
S120,采用EHMM模型识别所述测试图像是否包含人脸图像,如包含,将训练图像和测试图像分别向所述非负子空间投影,分别得到特征系数,利用最近邻准则来求取训练图像与测试图像对应的特征系数的相似度,并将相似度高于相似度阈值的测试图像中的代表舌头的特征提取出来作为舌头特征;
S130,经过投影会将包含舌头特征的特征区域和不含舌头特征的非特征区域分别用不同标签标识出来,其中,标签集合对应有特征区域的边界信息,提取边界信息中上下左右方向的极值,确定包含特征区域的边框。
本发明还提供一种舌头图像提取装置,包括:
矩阵分解模块,用于将包含舌头的训练图像转换为矩阵V,其中,一张图像的所有的非负灰度值对应V中的一列,利用LNMF算法进行训练,将矩阵V分解为非负特征矩阵W与权值矩阵H的乘积,即V=WH;非负特征矩阵W的维数为n*r,r列为特征基图像,所述特征基图像是指代表舌头特征的非负特征矩阵W,该非负特征矩阵W构成非负子空间;权值矩阵H的维数为r*m,其每一列为编码;
舌头特征提取模块,采用EHMM模型识别所述测试图像是否包含人脸图像,如包含,将训练图像和测试图像分别向所述非负子空间投影,分别得到特征系数,利用最近邻准则来求取训练图像与测试图像对应的特征系数的相似度,并将相似度高于相似度阈值的测试图像中的代表舌头的特征提取出来作为舌头特征;
舌头图像分割模块,利用不同标签标记包含舌头特征的特征区域和不含舌头特征的非特征区域,其中,标签集合对应有特征区域的边界信息,提取边界信息中上下左右方向的极值,确定包含特征区域的边框。
本发明还提供一种电子装置,该电子装置包括:存储器和处理器,所述存储器中存储有舌头图像提取程序,所述舌头图像提取程序被所述处理器执行时实现如下步骤:
S110,将包含舌头的训练图像转换为矩阵V,其中,一张图像的所有的非负灰度值对应V中的一列,利用LNMF算法进行训练,将矩阵V分解为非负特征矩阵W与权值矩阵H的乘积,即V=WH;
非负特征矩阵W的维数为n*r,r列为特征基图像,所述特征基图像是指代表舌头特征的非负特征矩阵W,该非负特征矩阵W构成非负子空间;
权值矩阵H的维数为r*m,其每一列为编码;
S120,采用EHMM模型识别所述测试图像是否包含人脸图像,如包含,将训练图像和测试图像分别向所述非负子空间投影,分别得到特征系数,利用最近邻准则来求取训练图像与测试图像对应的特征系数的相似度,并将相似度高于相似度阈值的测试图像中的代表舌头的特征提取出来作为舌头特征;
S130,经过投影会将包含舌头特征的特征区域和不含舌头特征的非特征区域分别用不同标签标识出来,其中,标签集合对应有特征区域的边界信息,提取边界信息中上下左右方向的极值,确定包含特征区域的边框。
另外,还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现以上任一项所述的舌头图像提取方法。
本发明的技术效果为:基于LNMF构建由特征基图像构成的非负子空间,使得图像分解过程中基本特征成分局部化,利用训练图像和测试图像向非负子空间的投影得到的特征系数的相似度来提取舌头特征,可以提高图像识别效率;在测试图像向非负子空间投影的同时利用不同标签标记包含舌头特征的特征区域和不含舌头特征的非特征区域,提高标记和舌头图像分割的效率。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是本发明实施例的舌头图像提取方法的流程示意图;
图2是本发明实施例的图像的切片对应的EHMM的超状态及嵌入状态的的流程示意图一;
图3是本发明实施例的图像的切片对应的EHMM的超状态及嵌入状态的的流程示意图二;
图4是本发明实施例的图像的切片对应的EHMM的超状态及嵌入状态的的流程示意图三;
图5是本发明实施例的电子装置的硬件架构示意图;
图6是本发明实施例的舌头图像提取程序的模块构成图;
图7是本发明实施例的线性回归模型调整边框的示意图。
具体实施方式
下面将参考附图来描述本发明所述的舌头图像提取方法、装置及计算机可读存储介质的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明实施例提供的舌头图像提取方法的流程示意图,应用于电子装置,该方法包括以下步骤:
S110、利用LNMF(局部非负矩阵分解)算法进行训练,得到不同维数的特征基图像。例如采用1000张舌头图像(即图像中包含有舌头,并体现出舌头的形状、颜色等特征)作为训练图像集,且舌头图像已事先进行了标注。优选地,可以先将舌头图像进行压缩,例如压缩为56*64像素,并对舌头图像进行去均值与归一化的处理,利用LNMF算法进行训练得到不同维数的特征基图像,所述特征基图像是指代表舌头的特征的非负特征矩阵W,该非负特征矩阵W构成非负子空间。
其中,LNMF是在NMF的基础上的改进,LNMF算法是将训练图像对应的矩阵V分解为特征矩阵W与权值矩阵H的乘积,即V=WH。
其中,V是n*m的矩阵,V=(V1,V2,……Vm),一张图像的所有的非负灰度值就是对应V中的一列,V中的数据就是训练图像所对应的灰度值。
特征矩阵W的维数为n*r,r列为基图像;
权值矩阵H的维数为r*m,其每一列为编码,与V中的一个舌头图像一一对应,由此,一个训练图像则可以表示为基图像的线性组合。
S120、采用EHMM模型识别所述测试图像是否包含人脸图像,如包含,对测试图像进行特征提取。具体说,代表舌头的特征的非负特征矩阵W构成非负子空间,将训练图像和测试图像分别向训练图像集获得的非负子空间投影,分别得到特征系数,利用最近邻准则来求取训练图像与测试图像对应的特征系数的相似程度,并将特征系数的相似程度高于设定的阈值的代表舌头的特征提取出来作为舌头特征,从而从测试图像中筛选出具有舌头特征的图像。其中,舌头的特征包括舌头的形状、角度、颜色、舌苔状态,以及舌头与人脸器官的位置关系。
S130、测试图像向非负子空间投影,投影的过程相当于将测试图像变换至非负子空间,其仍是图像,并且是一幅由学习到的特征组成的图像,经过投影会将包含舌头特征的特征区域和不含舌头特征的非特征区域分别用不同标签标识出来,从而将包含舌头特征的特征区域从测试图像中分割出来。其中,标签集合对应有特征区域的边界信息,提取边界信息中上下左右的极值,可确定包含特征区域的最小边框。这里采用最小边框的意义是后面会采用线性回归的方式来调整最小边框的位置,以消除或减小位置误差。其非特征区域和特征区域具有不同的标签,例如非特征区域为0,特征区域为非0,根据0和非0即可将代表舌头特征的图像区域用边框从各测试图像中分割出来。进一步地,还包括步骤S140、使用SVM分类器对测试图像中提取的特征进行分类,将提取到的特征送到k个svm分类器中识别,k的取值与类别数相等。具体说,可以是例如“舌头”、“非舌头”的分类。也可以是根据舌头的病理状况下的特征来分类,其中,人的身体情况可以包括湿热、阴虚、正常、热盛、气血不通、血瘀,将k个SVM分类器中得分最高的类作为分类结果。
进一步地,还包括步骤S150,通过线性回归模型调整舌头图像的边框位置,对于每一个类,例如,湿热、阴虚、正常、热盛、气血不通、血瘀分别训练一个线性回归模型,输入为边框中的图像的特征,而输出为边框的平移(左右平移和上下平移)值、缩放值。通过线性回归模型计算得到边框的平移值和缩放值,并利用损失函数约束边框的位置误差,从而不断调整边框移动到合适的位置。
其中,如图7所示,线性回归模型是给定位置原始值P=(Px,Py,Pw,Ph),其中,Px,Py表示边框的坐标,Pw,Ph分别表示边框的宽和高,通过机器学习的方式获取映射f,使得并且,
假设平移(Δx,Δy),Δx=Pwdx(P),Δy=Phdy(P),则
假设尺度缩放(Sw,Sh),Sw=exp(dw(P)),Sh=exp(dh(P)),则
边框回归就是学习获得准确的dx(P),dy(P),dw(P),dh(P)这四个变换值。
输入为P=(Px,Py,Pw,Ph),输出为位置预测值而位置原始值变换为位置实际值G则需要经过真实变换值t*=(tx,ty,tw,th),其中,真实平移量为(tx,ty),尺度真实缩放的宽和高为(tw,th),其中,
tx=(Gx-Px)/Pw (5)
ty=(Gy-Py)/Ph (6)
tw=log(Gw/Pw) (7)
th=log(Gh/Ph) (8)
构造目标函数w*是要学习的参数(*表示x,y,w,h,也就是每一个变换都设置一个目标函数),d*(P)是得到的变换预测值。K(P)是特征区域对应的特征向量,要让变换预测值跟变换真实值t*=(tx,ty,tw,th)的差距最小,构造损失函数Loss并最小化:
其中,i是第i次迭代;
N是样本数量。
通过一些样本训练,使得损失函数最小化,从而得到w*,即可得到d*(P),也就是dx(P),dy(P),dw(P),dh(P)值。
进一步地,NMF是一种基于局部子空间投影方法,由于NMF算法提取的特征是基于全局特征,对特征空间的局部性没有任何限制。为了增强特征矩阵W的主成分局部化特征,LNMF更加强调了原图像分解过程中基本特征成分的局部化。LNMF算法的公式如下:
构建目标函数
其中,α、β为正常数;
V、W、H≥0;
||Wj||=1,Wj表示特征基矩阵W的第j列向量,表示对特征基矩阵W的每一列都进行归一化处理;
V=[V1,V2…Vi…Vm]表示m幅训练图像集合,列向量Vi表示第i幅训练图像,Vij表示第i幅图像的第j个灰度值,每幅训练图像的尺寸为n,V的大小为n*m。
W=[W1,W2,…Wj…Wr]为特征矩阵,大小为n*r;
H=[H1,H2…Hj…Hm]为权值矩阵,Hj为H的第j列向量,大小为r*m。通过下式迭代更新W,H,实现目标函数最小化,
其中,i=1,2,…m;j=1,2,…,r;l=1,2,…n,在迭代过程中W,H始终保持为非负数。
在一个可选实施例中,对训练图像和测试图像都先进行二值化,所述二值化是指将图像上的像素点的灰度值仅设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。由于彩色图像(例如RGB图像)为通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色,其获取的舌头区域空洞(漏掉)的区域较多,黑白图像(仅为单通道),单通道相对于三通道更有利于模型的优化,可以更加精确的获取舌头区域。
在一个可选实施例中,先采用EHMM(嵌入式隐马尔科夫算法)对测试图像进行分类处理,具体说,将图像按照“有人脸”、“没人脸”两个类别来进行分类,可以优化识别准确率。具体分类过程包括以下步骤:
选取人脸的多个特征点形成特征序列。
将测试图像输入EHMM模型,EHMM模型通过移动的窗口从上到下和从左到右扫描测试图像,其首先从左向右扫描,每个窗口扫描得到一组特征向量,是对此时人脸区域的一种特征提取。扫描窗口计算得到特征向量后,间隔固定距离向右移动,继续进行特征提取,当移到图像右侧时,换到下一行继续从左向右完成扫描。直到窗口移动到图像的右下方,结束整个扫描过程并得到多组特征向量,多组特征向量组成观察值序列。
其中,EHMM模型包含一组超状态集合,超状态集合中的超状态的数量与人脸在竖向的切片图片数量相同,每个超状态封装有一组嵌入式状态集合,嵌入式状态集合中的嵌入式状态的数量与人脸在横向的切片图片数量相同。EHMM模型通过固定大小窗口从左到右,从上到下扫描图像,脸部的特征可以对应从上到下的超状态,和从左到右的嵌入式状态。其中,如图2所示,纵向的超状态对应图像的切片是额头区域、眼睛区域、鼻子区域、嘴巴区域、下巴区域。从上往下看,这些区域的位置关系是固定的,这是人脸的共性。而竖向的人脸的个性则通过每个超状态(即各个区域)的自身的特性,以及各超状态之间相互的联系反映出来。而从左往右看,人脸又划分为左脸部、左眼、两眼中间、右眼、右脸部,这位置关系也是固定的,而横向的人脸的个性则通过每个嵌入状态以及各嵌入状态之间的相互的联系反映出来。
利用前向算法求出观察值序列与人脸的多个特征点组成的特征序列相似的或然率,相似的或然率大于判定阈值,则认为检测的图像包含人脸。
进一步地,EHMM模型的训练过程如下:
1)EHMM建模:EHMM可以被定义为λ=(P0,A0,∧)的三元式,其中EHMM模型的基本元素包括:
(1)超状态的初始概率P0=π0,i,π0,i是超状态i在time=0时候的概率,1≤i≤N0,N0表示超状态的数量;
(2)过渡转移矩阵A0=a0,ij,其中a0,ij是迁移矩阵从超状态i转到超状态j的概率,在从左到右的EHMM模型中,唯一被允许的迁移是本状态到下一个状态的迁移,因此原状态到前一个状态的迁移概率是0;
(3)表示第k个超状态的参数集,1≤k≤N0;
其中,为嵌入状态的初始概率分布;
是嵌入状态转移概率矩阵;
Bk表示观察值概率矩阵,表示超状态k的嵌入状态j产生观察量/>的概率,/>两个变量分别对应竖向和横向两个维度,
其中,表示混合高斯数目;
是超状态k的嵌入状态j的第m个混合项的混合系数;
是以/>为均值向量、/>为协方差矩阵的高斯密度。
2)图像分割:均匀分割训练图像,从图像得到的观察值序列被均匀分为N0个对应纵向的超状态的纵向切片。每个纵向切片可以从左到右切分到多个嵌入状态中。
3)参数初始化:分割后,模型参数的初始值是通过状态的初始化概率和迁移概率得到的。每个EHMM的状态采用了K-means聚类计算观察值概率。K是每个状态的高斯分布个数。所有嵌入状态中提取的观察值向量都能用高斯混合模型解释其观察值概率密度函数。每个超状态的状态初始化规则如下:每个EHMM的第一个状态初始化概率规定为1.0,其他状态初始化概率为0。
4)嵌入式Viterbi分割:在迭代第一步后,使用双嵌入式Viterbi算法(维特比算法)代替均匀分割,通过新的分割和事件频率计数,确定一组新的初始化和迁移概率。
5)分割Kmeans聚类:根据第4步分割结果,使用Kmeans聚类计算新状态对应的观察值向量,以及新的观察值概率密度函数。在下一次迭代中,这些值将会作为新一轮双嵌入式Viterbi分割的初始值。
6)重复第4和第5步,直到连续迭代过程变化小于设定的收敛阈值。
在一个可选实施例中,如图3所示,人脸沿纵向的切片还包括头发区域,虽然并不是所有人都有头发,但是头发区域提供了人脸所具备的附加特征,确实有助于更加精确的识别出人脸。其计算过程与以上过程基本相同,在此不再赘述。
在一个可选实施例中,以上是以整张人脸在纵向划分切片图像来对应超状态,并在横向划分切片对应嵌入状态。然而由于本申请是以舌头图像提取为目的,所以,在人脸识别上,也可以仅以部分纵向切片来对应超状态,例如,如图4所示,仅以下巴和嘴巴区域来对应超状态,而不需要对人脸其他区域进行识别,也可以通过训练来识别出是否是人脸,并且可以减少计算量。其计算过程与以上过程基本相同,在此不再赘述。
在一个可选实施例中,在采用嵌入式隐马尔科夫算法对测试图像进行人脸、非人脸的分类处理后,还进一步对有人脸的图像进行分类,包括识别图像的性别和年龄。虽然根据舌头的状态并不能准确判断出人的年龄和性别,但是,人的舌头的状况是与其年龄和性别有关联的(例如,不同的年龄阶段,味蕾(分布在舌头上的乳头状突起)的数量是不同的,其呈现出减少的趋势,对于儿童来说大约有1万个的味蕾,随着年龄的增长,细胞会慢慢的老化,到了老年,味蕾仅仅是儿童时期的20%,而且年龄越小,舌头越嫩,舌头越红;年龄越大,舌头越暗。而女性的舌头则通常比男性的舌头细小)。可以根据人的年龄和性别先把测试图像分类,然后再从年龄和性别分类的类别中的图像分别提取舌头区域图像。由于各类别中的图像是与该类别实际应该对应的舌头更相关联的,也就是说,一张图像中的舌头是属于老年人的,那么其被分类到年龄大的类别中,该图像中的舌头具有老年人应具有的舌头的特征,例如味蕾数量少(当然只是大概数量的识别),舌头的颜色暗淡,则其可以被更快的识别出来,也就相当于减少了模型的计算量。当然,这需要事先训练对应该年龄段的LNMF模型。就是说,把训练集中的图像先根据年龄和性别分类,对每个分类中的图像都进行有舌头、没舌头的标注,也就形成了年龄段-性别-有舌头的标注,对每个分类分别训练一个LNMF模型。
下面具体说明一下,首先,获得CNN(卷积神经网络)模型,该CNN模型经过训练可以识别人脸的性别和年龄。假设按照年龄段和性别设定6个分类,例如0~20-男、20~40-男、40~70-男、0~20-女、20~40-女、40~70-女这六个类别,采用CNN(卷积神经网络)来识别将训练图像分类到以上六个年龄段-性别类别中;
然后,对这六个类别中的图像都进行标注,相应的每张图像对应的标签就是年龄段、性别、舌头的标签;
然后,针对这六个分类分别训练LNMF模型,得到对应以上6个分类的6个LNMF模型,例如0~20-男的舌头对应的LNMF模型,就用于识别0~20-男的舌头。20~40-女的舌头对应的LNMF模型,就用于识别20~40-女的舌头;
然后,采用前面经过训练的CNN模型来识别测试图像的性别和年龄,同样的把测试图像按照性别和年龄段进行分类,其类别与训练图像所分的类别相同;
然后,按照年龄段、性别、舌头对应训练后的LNMF模型来提取舌头图像区域。
由于LNMF模型是经过训练专门识别对应年龄段和性别的舌头图像,而测试图像也相应的划分为对应的年龄段和性别分类,而该年龄段和性别的舌头具有对应的一些特征,可以更加有利于LNMF模型来识别。另一方面,测试图像划分为多个类别同时识别,也加快了识别效率。另外,由于舌头图像对应的标注有年龄段和性别,这也有助于后期在湿热、阴虚、正常、热盛、气血不通、血瘀分类上的准确性和快速性。
参阅图5所示,是本发明电子装置的实施例的硬件架构示意图。本实施例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图5所示,所述电子装置2至少包括,但不限于,可通过系统总线相互通信连接的存储器21、处理器22、网络接口23。其中:所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如所述舌头图像提取程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的舌头图像提取程序等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子装置2与推送平台相连,在所述电子装置2与推送平台之间建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
可选地,该电子装置2还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)显示器等。显示器用于显示在电子装置2中处理的信息以及用于显示可视化的用户界面。
需要指出的是,图5仅示出了具有组件21-23的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
包含可读存储介质的存储器21中可以包括操作系统、舌头图像提取程序50等。处理器22执行存储器21中舌头图像提取程序50时实现如上所述的S1至S4的步骤,在此不再赘述。在本实施例中,存储于存储器21中的所述舌头图像提取程序50可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。例如,图6示出了所述基于耳测听数据的预警程序的程序模块示意图,该实施例中,所述舌头图像提取程序50可以被分割为矩阵分解模块501、舌头特征提取模块502、舌头图像分割模块503。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述基于耳测听数据的预警程序在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块的具体功能。
其中,矩阵分解模块501用于利用LNMF(局部非负矩阵分解)算法进行训练,得到不同维数的特征基图像。例如采用1000张舌头图像(即图像中包含有舌头,并体现出舌头的形状、颜色等特征)作为训练图像集,且舌头图像已事先进行了标注。优选地,可以先将舌头图像进行压缩,例如压缩为56*64像素,并对舌头图像进行去均值与归一化的处理,利用LNMF算法进行训练得到不同维数的特征基图像,所述特征基图像是指代表舌头的特征的非负特征矩阵W,该非负特征矩阵W构成非负子空间。
其中,LNMF是在NMF的基础上的改进,LNMF算法是将训练图像对应的矩阵V分解为特征矩阵W与权值矩阵H的乘积,即V=WH。
其中,V是n*m的矩阵,V=(V1,V2,……Vm),一张图像的所有的非负灰度值就是对应V中的一列,V中的数据就是训练图像所对应的灰度值。
特征矩阵W的维数为n*r,r列为基图像;
权值矩阵H的维数为r*m,其每一列为编码,与V中的一个舌头图像一一对应,由此,一个训练图像则可以表示为基图像的线性组合。
NMF是一种基于局部子空间投影方法,由于NMF算法提取的特征是基于全局特征,对特征空间的局部性没有任何限制。为了增强特征矩阵W的主成分局部化特征,LNMF更加强调了原图像分解过程中基本特征成分的局部化。LNMF算法的公式如下:
构建目标函数
其中,α、β为正常数;
V、W、H≥0;
||Wj||=1,Wj表示特征基矩阵W的第j列向量,表示对特征基矩阵W的每一列都进行归一化处理;
V=[V1,V2…Vi…Vm]表示m幅训练图像集合,列向量Vi表示第i幅训练图像,Vij表示第i幅图像的第j个灰度值,每幅训练图像的尺寸为n,V的大小为n*m。
W=[W1,W2,…Wj…Wr]为特征矩阵,大小为n*r;
H=[H1,H2…Hj…Hm]为权值矩阵,Hj为H的第j列向量,大小为r*m。通过下式迭代更新W,H,实现目标函数最小化,
其中,i=1,2,…m;j=1,2,…,r;l=1,2,…n,在迭代过程中W,H始终保持为非负数。
舌头特征提取模块502采用EHMM模型识别所述测试图像是否包含人脸图像,如包含,则对测试图像进行特征提取。具体说,代表舌头的特征的非负特征矩阵W构成非负子空间,将训练图像和测试图像分别向训练图像集获得的非负子空间投影,分别得到特征系数,利用最近邻准则来求取训练图像与测试图像对应的特征系数的相似程度,从而提取测试图像中的特征。也就说,特征系数的相似程度高于设定的阈值,则表示测试图像中的特征基是舌头,从而从测试图像中筛选出具有舌头特征的图像。
舌头图像分割模块503用于把测试图像向非负子空间投影,投影的过程相当于将测试图像变换至非负子空间,其仍是图像,并且是一幅由学习到的特征组成的图像,其非特征区域和特征区域具有不同的标签,例如非特征区域为0,特征区域为非0,根据0和非0即可将代表舌头特征的图像区域用边框从各测试图像中分割出来。
进一步地,还包括分类模块504,分类模块504用于使用SVM分类器对测试图像中提取的特征进行分类,将提取到的特征送到k个svm分类器中识别,k的取值与类别数相等。具体说,可以是例如“舌头”、“非舌头”的分类。也可以是根据舌头的病理状况下的特征来分类,从而得到框选的舌头的图像。具体说,可以是按照人的身体的情况来分别对应的不同的舌头图像的特征来分类,其中,人的身体情况可以包括湿热、阴虚、正常、热盛、气血不通、血瘀,将k个SVM分类器中得分最高的类作为分类结果。
进一步地,还包括边框调整模块505,边框调整模块505用于通过线性回归模型调整舌头图像的边框位置,对于每一个类,例如,湿热、阴虚、正常、热盛、气血不通、血瘀分别训练一个线性回归模型,输入为边框中的图像的特征,而输出为边框的平移(左右平移和上下平移)值、缩放值。通过线性回归模型计算得到边框的平移和缩放值,并利用损失函数约束边框的位置误差,从而不断调整边框移动到合适的位置。
在一个可选实施例中,还包括二值化模块506,二值化模块506用于对训练图像和测试图像都先进行二值化(是指将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程),由于彩色图像(例如RGB图像)为通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色,其获取的舌头区域空洞(漏掉)的区域较多,黑白图像(仅为单通道),单通道相对于三通道更有利于模型的优化,可以更加精确的获取舌头区域。
在一个可选实施例中,还包括人脸识别模块507,人脸识别模块507用于先采用EHMM(嵌入式隐马尔科夫算法)对测试图像进行分类处理,具体说,将图像按照“有人脸”、“没人脸”两个类别来进行分类,可以优化识别准确率。EHMM模型进行人脸识别包括以下步骤:
选取人脸的多个特征点形成特征序列。
将测试图像输入EHMM模型,EHMM模型通过移动的窗口从上到下和从左到右扫描测试图像,因为,EHMM模型包含一组超状态集合,超状态集合中的超状态的数量与人脸在竖向的切片图片数量相同,每个超状态封装有一组嵌入式状态集合,嵌入式状态集合中的嵌入式状态的数量与人脸在横向的切片图片数量相同。。EHMM模型通过固定大小窗口从左到右,从上到下扫描图像(脸部的特征可以从上到下的超状态结构,和从左到右的嵌入式状态)。例如,其首先从左向右扫描,每个窗口扫描得到一组特征向量,是对此时人脸区域的一种特征提取。扫描窗口计算得到特征向量后,间隔固定距离向右移动,继续进行特征提取,当移到图像右侧时,换到下一行继续从左向右完成扫描。直到窗口移动到图像的右下方,结束整个扫描过程并得到多组特征向量,多组特征向量组成观察值序列。
利用前向算法求出观察值序列与人脸的多个特征点组成的特征序列相似的或然率,相似的或然率大于判定阈值,则认为检测的图像包含人脸。
进一步地,EHMM模型的训练过程如下:
1)EHMM建模:EHMM可以被定义为λ=(P0,A0,∧)的三元式,其中EHMM模型的基本元素包括:
(1)超状态的初始概率P0=π0,i,π0,i是超状态i在time=0时候的概率,1≤i≤N0,N0表示超状态的数量;
(2)过渡转移矩阵A0=a0,ij,其中a0,ij是迁移矩阵从超状态i转到超状态j的概率,在从左到右的EHMM模型中,唯一被允许的迁移是本状态到下一个状态的迁移,因此原状态到前一个状态的迁移概率是0;
(3)表示第k个超状态的参数集,1≤k≤N0;/>
其中,为嵌入状态的初始概率分布;
是嵌入状态转移概率矩阵;
Bk表示观察值概率矩阵,表示超状态k的嵌入状态j产生观察量/>的概率,/>两个变量分别对应竖向和横向两个维度,
其中,表示混合高斯数目;
是超状态K的嵌入状态j的第m个混合项的混合系数;
是以/>为均值向量、/>为协方差矩阵的高斯密度。
2)图像分割:均匀分割测试图像,从图像得到的观察值序列被均匀分为N0个对应纵向的超状态的纵向切片。每个纵向切片可以从左到右切分到多个嵌入状态中。
3)参数初始化:分割后,模型参数的初始值是通过状态的初始化概率和迁移概率得到的。每个EHMM的状态采用了K-means聚类计算观察值概率。K是每个状态的高斯分布个数。所有嵌入状态中提取的观察值向量都能用高斯混合模型解释其观察值概率密度函数。每个超状态的状态初始化规则如下:每个EHMM的第一个状态初始化概率规定为1.0,其他状态初始化概率为0。
4)嵌入式Viterbi分割:在迭代第一步后,使用双嵌入式Viterbi算法(维特比算法)代替均匀分割,通过新的分割和事件频率计数,确定一组新的初始化和迁移概率。
5)分割Kmeans聚类:根据第4步分割结果,使用Kmeans聚类计算新状态对应的观察值向量,以及新的观察值概率密度函数。在下一次迭代中,这些值将会作为新一轮双嵌入式Viterbi分割的初始值。
6)重复第4和第5步,直到连续迭代过程变化小于设定阈值。
在一个可选实施例中,还包括再分类模块508,再分类模块508用于在采用嵌入式隐马尔科夫算法对测试图像进行人脸、非人脸的分类处理后,还进一步对有人脸的图像进行分类,包括识别图像的性别和年龄。虽然根据舌头的状态并不能准确判断出人的年龄和性别,但是,人的舌头的状况是与其年龄和性别有关联的(例如,不同的年龄阶段,味蕾(分布在舌头上的乳头状突起)的数量是不同的,其呈现出减少的趋势,对于儿童来说大约有1万个的味蕾,随着年龄的增长,细胞会慢慢的老化,到了老年,味蕾仅仅是儿童时期的20%,而且年龄越小,舌头越嫩,舌头越红;年龄越大,舌头越暗。而女性的舌头则通常比男性的舌头细小)。可以根据人的年龄和性别先把测试图像分类,然后再从年龄和性别分类的类别中的图像分别提取舌头区域图像。由于各类别中的图像是与该类别实际应该对应的舌头更相关联的,也就是说,一张图像中的舌头是属于老年人的,那么其被分类到年龄大的类别中,该图像中的舌头具有老年人应具有的舌头的特征,例如味蕾数量少(当然只是大概数量的识别),舌头的颜色暗淡,则其可以被更快的识别出来,也就相当于减少了模型的计算量。当然,这需要事先训练对应该年龄段的LNMF模型。就是说,把训练集中的图像先根据年龄和性别分类,对每个分类中的图像都进行有舌头、没舌头的标注,也就形成了年龄段-性别-有舌头的标注,对每个分类分别训练一个LNMF模型。
下面具体说明一下,首先,获得CNN(卷积神经网络)模型,该CNN模型经过训练可以识别人脸的性别和年龄。假设按照年龄段和性别设定6个分类,例如0~20-男、20~40-男、40~70-男、0~20-女、20~40-女、40~70-女这六个类别,采用CNN(卷积神经网络)来识别将训练图像分类到以上六个类别中;
然后,对这六个类别中的图像都进行标注,相应的每张图像对应的标签就是年龄段-性别-舌头;
然后,针对这六个分类分别训练LNMF模型,得到对应以上6个分类的6个LNMF模型,例如0~20-男的舌头对应的LNMF模型,就用于识别0~20-男的舌头。20~40-女的舌头对应的LNMF模型,就用于识别20~40-女的舌头;
然后,采用前面经过训练的CNN模型来识别测试图像的性别和年龄,同样的把测试图像按照性别和年龄段进行分类,其类别与训练图像所分的类别相同;
然后,按照各类别来分别采用对应的LNMF模型来提取舌头图像区域。
由于LNMF模型是经过训练专门识别对应年龄段和性别的舌头图像,而测试图像也相应的划分为对应的年龄段和性别分类,而该年龄段和性别的舌头具有对应的一些特征,可以更加有利于LNMF模型来识别。另一方面,测试图像划分为多个类别同时识别,也加快了识别效率。另外,由于舌头图像对应的标注有年龄段和性别,这也有助于后期在湿热、阴虚、正常、热盛、气血不通、血瘀分类上的准确性和快速性。
此外,本发明实施例还提供一种舌头图像提取装置,包括矩阵分解模块501、舌头特征提取模块502、舌头图像分割模块503。
其中,矩阵分解模块501用于将包含舌头的训练图像转换为矩阵V,其中,一张图像的所有的非负灰度值对应V中的一列,并利用LNMF算法进行训练,将矩阵V分解为非负特征矩阵W与权值矩阵H的乘积,即V=WH;非负特征矩阵W的维数为n*r,r列为特征基图像,所述特征基图像是指代表舌头特征的非负特征矩阵W,该非负特征矩阵W构成非负子空间;权值矩阵H的维数为r*m,其每一列为编码。
其中,舌头特征提取模块502采用EHMM模型识别所述测试图像是否包含人脸图像,如包含,则将训练图像和测试图像分别向所述非负子空间投影,分别得到特征系数,利用最近邻准则来求取训练图像与测试图像对应的特征系数的相似度,并将相似度高于相似度阈值的测试图像中的特征提取出来作为舌头特征;
其中,舌头图像分割模块503,利用不同标签区分开包含舌头特征的特征区域和不含舌头特征的非特征区域,并通过读取标签确定包含特征区域的最小边框,从而将代表舌头特征的特征区域从测试图像中分割出来。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括舌头图像提取程序等,所述舌头图像提取程序50被处理器22执行时实现如下操作:
S110、利用LNMF(局部非负矩阵分解)算法进行训练,得到不同维数的特征基图像。例如采用1000张舌头图像(即图像中包含有舌头,并体现出舌头的形状、颜色等特征)作为训练图像集,且舌头图像已事先进行了标注。优选地,可以先将舌头图像进行压缩,例如压缩为56*64像素,并对舌头图像进行去均值与归一化的处理,利用LNMF算法进行训练得到不同维数的特征基图像,所述特征基图像是指代表舌头的特征的非负特征矩阵W,该非负特征矩阵W构成非负子空间。
其中,LNMF是在NMF的基础上的改进,LNMF算法是将训练图像对应的矩阵V分解为特征矩阵W与权值矩阵H的乘积,即V=WH。
其中,V是n*m的矩阵,V=(V1,V2,……Vm),一张图像的所有的非负灰度值就是对应V中的一列,V中的数据就是训练图像所对应的灰度值。
特征矩阵W的维数为n*r,r列为基图像;
权值矩阵H的维数为r*m,其每一列为编码,与V中的一个舌头图像一一对应,由此,一个训练图像则可以表示为基图像的线性组合。
S120、采用EHMM模型识别所述测试图像是否包含人脸图像,如包含,则对测试图像进行特征提取。具体说,代表舌头的特征的非负特征矩阵W构成非负子空间,将训练图像和测试图像分别向训练图像集获得的非负子空间投影,分别得到特征系数,利用最近邻准则来求取训练图像与测试图像对应的特征系数的相似程度,从而提取测试图像中的特征。也就说,特征系数的相似程度高于设定的阈值,则表示测试图像中的特征基是舌头,从而从测试图像中筛选出具有舌头特征的图像。
S130、测试图像向非负子空间投影,投影的过程相当于将测试图像变换至非负子空间,其仍是图像,并且是一幅由学习到的特征组成的图像。利用不同标签标记包含舌头特征的特征区域和不含舌头特征的非特征区域,并通过读取标签确定包含特征区域的最小边框,将包含舌头特征的特征区域从测试图像中分割出来。例如非特征区域为0,特征区域为非0,根据0和非0即可将代表舌头特征的图像区域用边框从各测试图像中分割出来。
本发明之计算机可读存储介质的具体实施方式与上述舌头图像提取方法以及电子装置2的具体实施方式大致相同,在此不再赘述。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种舌头图像提取方法,应用于电子装置,其特征在于,该方法包括以下步骤:
S110,将包含舌头的训练图像转换为矩阵V,其中,一张图像的所有的非负灰度值对应V中的一列,利用LNMF算法进行训练,将矩阵V分解为非负特征矩阵W与权值矩阵H的乘积,即V=WH;
非负特征矩阵W的维数为n*r,r列为特征基图像,所述特征基图像是指代表舌头特征的非负特征矩阵W,该非负特征矩阵W构成非负子空间;
权值矩阵H的维数为r*m,其每一列为编码;
S120,采用EHMM模型识别测试图像是否包含人脸图像,如包含,将训练图像和测试图像分别向所述非负子空间投影,分别得到特征系数,利用最近邻准则来求取训练图像与测试图像对应的特征系数的相似度,并将相似度高于相似度阈值的测试图像中的代表舌头的特征提取出来作为舌头特征;
S130,经过投影会将包含舌头特征的特征区域和不含舌头特征的非特征区域分别用不同标签标识出来,其中,标签集合对应有特征区域的边界信息,提取边界信息中的上下左右方向的极值,确定包含特征区域的边框,
其中,LNMF算法的公式如下:
构建目标函数
其中,α、β为正常数;
V、W、H≥0;
||Wj||=1,Wj表示特征基矩阵W的第j列向量,表示对特征基矩阵W的每一列都进行归一化处理;
V=[V1,V2…Vi…Vm]表示m幅训练图像集合,列向量Vi表示第i幅训练图像,Vij表示第i幅图像的第j个灰度值,每幅训练图像的尺寸为n,V的大小为n*m;
W=[W1,W2,…Wj…Wr]为特征矩阵,大小为n*r;
H=[H1,H2…Hj…Hm]为权值矩阵,Hj为H的第j列向量,大小为r*m;
采用下式迭代更新W和H,实现目标函数最小化,
其中,i=1,2,…m;j=1,2,…,r;l=1,2,…n,在迭代过程中W,H始终保持为非负数;
其中,采用EHMM模型识别测试图像中的包含人脸的图像包括以下步骤:
选取人脸的多个特征点形成特征序列;
将测试图像输入EHMM模型,EHMM模型通过移动的窗口从上到下和从左到右扫描测试图像,得到多组特征向量,多组特征向量组成观察值序列;
利用前向算法求出观察值序列与人脸的多个特征点组成的特征序列相似的或然率,相似的或然率大于判定阈值,则认为检测的图像包含人脸,其中,所述EHMM模型包含一组超状态集合,超状态集合中的超状态的数量与人脸在竖向的切片图片数量相同,每个超状态封装对应一组嵌入式状态集合,嵌入式状态集合中的嵌入式状态的数量与人脸在横向的切片图片数量相同。
2.根据权利要求1所述的舌头图像提取方法,其特征在于,
还包括步骤S150,通过线性回归模型计算得到边框的平移值和缩放值,并利用损失函数约束边框的位置误差,调整边框移动到合适的位置。
3.根据权利要求1所述的舌头图像提取方法,其特征在于,
在步骤S110前,对训练图像和测试图像都先进行二值化。
4.根据权利要求1所述的舌头图像提取方法,其特征在于,S110中,先将训练图像进行压缩,并对训练图像进行去均值与归一化的处理,然后再利用LNMF算法进行训练得到特征基图像,其中,
将矩阵V的每一列元素减去该列元素的均值;
根据矩阵V的每一列元素与该列元素中最小值的差值,与该列元素中最大值与最小值的差值的比值。
5.根据权利要求1所述的舌头图像提取方法,其特征在于,
在识别包含人脸的图像后,把测试图像分类到对应的年龄段-性别分类中,并采用针对各年龄段-性别分类的LNMF模型在各个年龄段-性别分类中分别提取舌头图像,包含以下步骤:
获得CNN模型,所述CNN模型经过训练并用于判断性别和所属年龄段,将训练图像分类到各年龄段-性别分类中;
对各年龄段-性别类别中的训练图像都进行标注,每张训练图像获得年龄段、性别、舌头的标签;
根据年龄段、性别、舌头的标签分别训练LNMF模型,得到对应训练后的LNMF模型;
采用经过训练的CNN模型来识别测试图像的性别和所属年龄段,把测试图像按照性别和年龄段进行分类;
根据年龄段、性别、舌头对应训练后的LNMF模型提取舌头图像。
6.一种舌头图像提取装置,其特征在于,包括:
矩阵分解模块,用于将包含舌头的训练图像转换为矩阵V,其中,一张图像的所有的非负灰度值对应V中的一列,利用LNMF算法进行训练,将矩阵V分解为非负特征矩阵W与权值矩阵H的乘积,即V=WH;非负特征矩阵W的维数为n*r,r列为特征基图像,所述特征基图像是指代表舌头特征的非负特征矩阵W,该非负特征矩阵W构成非负子空间;权值矩阵H的维数为r*m,其每一列为编码;
舌头特征提取模块,采用EHMM模型识别测试图像是否包含人脸图像,如包含,将训练图像和测试图像分别向所述非负子空间投影,分别得到特征系数,利用最近邻准则来求取训练图像与测试图像对应的特征系数的相似度,并将相似度高于相似度阈值的测试图像中的代表舌头的特征提取出来作为舌头特征;
舌头图像分割模块,利用不同标签标记包含舌头特征的特征区域和不含舌头特征的非特征区域,其中,标签集合对应有特征区域的边界信息,提取边界信息中上下左右方向的极值,确定包含特征区域的边框,
其中,
LNMF算法的公式如下:
构建目标函数
其中,α、β为正常数;
V、W、H≥0;
||Wj||=1,Wj表示特征基矩阵W的第j列向量,表示对特征基矩阵W的每一列都进行归一化处理;
V=[V1,V2…Vi…Vm]表示m幅训练图像集合,列向量Vi表示第i幅训练图像,Vij表示第i幅图像的第j个灰度值,每幅训练图像的尺寸为n,V的大小为n*m;
W=[W1,W2,…Wj…Wr]为特征矩阵,大小为n*r;
H=[H1,H2…Hj…Hm]为权值矩阵,Hj为H的第j列向量,大小为r*m;
采用下式迭代更新W和H,实现目标函数最小化,
其中,i=1,2,…m;j=1,2,…,r;l=1,2,…n,在迭代过程中W,H始终保持为非负数;
其中,采用EHMM模型识别测试图像中的包含人脸的图像包括以下步骤:
选取人脸的多个特征点形成特征序列;
将测试图像输入EHMM模型,EHMM模型通过移动的窗口从上到下和从左到右扫描测试图像,得到多组特征向量,多组特征向量组成观察值序列;
利用前向算法求出观察值序列与人脸的多个特征点组成的特征序列相似的或然率,相似的或然率大于判定阈值,则认为检测的图像包含人脸,其中,所述EHMM模型包含一组超状态集合,超状态集合中的超状态的数量与人脸在竖向的切片图片数量相同,每个超状态封装对应一组嵌入式状态集合,嵌入式状态集合中的嵌入式状态的数量与人脸在横向的切片图片数量相同。
7.一种电子装置,其特征在于,该电子装置包括:存储器和处理器,所述存储器中存储有舌头图像提取程序,所述舌头图像提取程序被所述处理器执行时实现权利要求1所述的舌头图像提取方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,实现权利要求1至5中任一项所述的舌头图像提取方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910733855.8A CN110569879B (zh) | 2019-08-09 | 2019-08-09 | 舌头图像提取方法、装置及计算机可读存储介质 |
PCT/CN2019/118413 WO2020215697A1 (zh) | 2019-08-09 | 2019-11-14 | 舌头图像提取方法、装置及计算机可读存储介质 |
SG11202008404RA SG11202008404RA (en) | 2019-08-09 | 2019-11-14 | Method and device for tongue image extraction and computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910733855.8A CN110569879B (zh) | 2019-08-09 | 2019-08-09 | 舌头图像提取方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569879A CN110569879A (zh) | 2019-12-13 |
CN110569879B true CN110569879B (zh) | 2024-03-15 |
Family
ID=68774935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910733855.8A Active CN110569879B (zh) | 2019-08-09 | 2019-08-09 | 舌头图像提取方法、装置及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN110569879B (zh) |
SG (1) | SG11202008404RA (zh) |
WO (1) | WO2020215697A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536986B (zh) * | 2021-06-29 | 2024-06-14 | 南京逸智网络空间技术创新研究院有限公司 | 一种基于代表特征的遥感图像中的密集目标检测方法 |
CN113808075B (zh) * | 2021-08-04 | 2024-06-18 | 上海大学 | 一种基于深度学习的两阶段舌象识别方法 |
CN113947140A (zh) * | 2021-10-13 | 2022-01-18 | 北京百度网讯科技有限公司 | 人脸特征提取模型的训练方法和人脸特征提取方法 |
CN116977284A (zh) * | 2022-07-22 | 2023-10-31 | 浙江省肿瘤医院 | 基于交互式深度学习模型的肿瘤预测系统、方法及其应用 |
CN114972354B (zh) * | 2022-08-02 | 2022-10-28 | 济宁金筑新型建材科技有限公司 | 基于图像处理的蒸压加气混凝土砌块生产控制方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393910A (zh) * | 2011-06-29 | 2012-03-28 | 浙江工业大学 | 一种基于非负矩阵分解和隐马尔科夫模型的人体行为识别方法 |
CN102592148A (zh) * | 2011-12-29 | 2012-07-18 | 华南师范大学 | 基于非负矩阵分解和多种距离函数的人脸识别方法 |
CN105335732A (zh) * | 2015-11-17 | 2016-02-17 | 西安电子科技大学 | 基于分块及鉴别非负矩阵分解的有遮挡人脸识别方法 |
CN107451545A (zh) * | 2017-07-15 | 2017-12-08 | 西安电子科技大学 | 基于软标签下多通道判别非负矩阵分解的人脸识别方法 |
CN108268872A (zh) * | 2018-02-28 | 2018-07-10 | 电子科技大学 | 一种基于增量学习的鲁棒非负矩阵分解方法 |
CN109657611A (zh) * | 2018-12-19 | 2019-04-19 | 河南科技大学 | 一种用于人脸识别的自适应图正则化非负矩阵分解方法 |
CN109829481A (zh) * | 2019-01-04 | 2019-05-31 | 北京邮电大学 | 一种图像分类方法、装置、电子设备及可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4247195B2 (ja) * | 2005-03-23 | 2009-04-02 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体 |
US8805653B2 (en) * | 2010-08-11 | 2014-08-12 | Seiko Epson Corporation | Supervised nonnegative matrix factorization |
CN105335719A (zh) * | 2015-10-29 | 2016-02-17 | 北京汉王智远科技有限公司 | 活体检测方法及装置 |
CN105893954B (zh) * | 2016-03-30 | 2019-04-23 | 深圳大学 | 一种基于核机器学习的非负矩阵分解人脸识别方法及系统 |
CN108198576A (zh) * | 2018-02-11 | 2018-06-22 | 华南理工大学 | 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法 |
CN108415883B (zh) * | 2018-02-13 | 2020-06-16 | 中国科学院西安光学精密机械研究所 | 基于子空间聚类的凸非负矩阵分解方法 |
-
2019
- 2019-08-09 CN CN201910733855.8A patent/CN110569879B/zh active Active
- 2019-11-14 WO PCT/CN2019/118413 patent/WO2020215697A1/zh active Application Filing
- 2019-11-14 SG SG11202008404RA patent/SG11202008404RA/en unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102393910A (zh) * | 2011-06-29 | 2012-03-28 | 浙江工业大学 | 一种基于非负矩阵分解和隐马尔科夫模型的人体行为识别方法 |
CN102592148A (zh) * | 2011-12-29 | 2012-07-18 | 华南师范大学 | 基于非负矩阵分解和多种距离函数的人脸识别方法 |
CN105335732A (zh) * | 2015-11-17 | 2016-02-17 | 西安电子科技大学 | 基于分块及鉴别非负矩阵分解的有遮挡人脸识别方法 |
CN107451545A (zh) * | 2017-07-15 | 2017-12-08 | 西安电子科技大学 | 基于软标签下多通道判别非负矩阵分解的人脸识别方法 |
CN108268872A (zh) * | 2018-02-28 | 2018-07-10 | 电子科技大学 | 一种基于增量学习的鲁棒非负矩阵分解方法 |
CN109657611A (zh) * | 2018-12-19 | 2019-04-19 | 河南科技大学 | 一种用于人脸识别的自适应图正则化非负矩阵分解方法 |
CN109829481A (zh) * | 2019-01-04 | 2019-05-31 | 北京邮电大学 | 一种图像分类方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
一种基于图像分块加权的(2D)~2PCA人脸特征提取方法;王玉德;张学志;;激光杂志(第05期);全文 * |
一种新颖的基于NMF的人脸识别方法;宿韬;张强;魏小鹏;周昌军;;系统仿真学报(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020215697A1 (zh) | 2020-10-29 |
SG11202008404RA (en) | 2020-10-29 |
CN110569879A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569879B (zh) | 舌头图像提取方法、装置及计算机可读存储介质 | |
US20240062369A1 (en) | Detection model training method and apparatus, computer device and storage medium | |
US11238311B2 (en) | Method for image classification, computer device, and storage medium | |
US10867167B2 (en) | Collaborative deep network model method for pedestrian detection | |
US10410353B2 (en) | Multi-label semantic boundary detection system | |
WO2018108129A1 (zh) | 用于识别物体类别的方法及装置、电子设备 | |
Masnadi-Shirazi et al. | Cost-sensitive boosting | |
EP1296279B1 (en) | Method and computer program product for locating facial features | |
Wan et al. | An accurate active shape model for facial feature extraction | |
US9031305B2 (en) | Image classification apparatus with first and second feature extraction units and recording medium having program recorded therein | |
CN113906472A (zh) | 用于选择胚胎的方法和系统 | |
Zhu et al. | Learning a hierarchical deformable template for rapid deformable object parsing | |
US20120068917A1 (en) | System and method for dynamic gesture recognition using geometric classification | |
CN110414541B (zh) | 用于识别物体的方法、设备和计算机可读存储介质 | |
CN110598638A (zh) | 模型训练方法、人脸性别预测方法、设备及存储介质 | |
CN110909618A (zh) | 一种宠物身份的识别方法及装置 | |
CN115862045B (zh) | 基于图文识别技术的病例自动识别方法、系统、设备及存储介质 | |
CN115661872A (zh) | 一种自然场景下鲁棒的手掌感兴趣区域定位方法 | |
Khémiri et al. | A system for off-line Arabic handwritten word recognition based on Bayesian approach | |
CN115004249A (zh) | 基于机器学习的过程周期图像的根本原因分析 | |
US20220254148A1 (en) | Defect detecting method based on dimensionality reduction of data, electronic device, and storage medium | |
US20220245801A1 (en) | Deep learning-based root cause analysis of process cycle images | |
Lu et al. | A novel synergetic classification approach for hyperspectral and panchromatic images based on self-learning | |
Ghadhban et al. | Segments interpolation extractor for finding the best fit line in Arabic offline handwriting recognition words | |
KR101066343B1 (ko) | 상호 정보 최대화 기반의 국부 이진 패턴 코드를 이용한 패턴 인식 방법, 장치 및 그 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |