CN110619294A - 一种基于rfid系统定制的个性化口型识别方法 - Google Patents
一种基于rfid系统定制的个性化口型识别方法 Download PDFInfo
- Publication number
- CN110619294A CN110619294A CN201910840726.9A CN201910840726A CN110619294A CN 110619294 A CN110619294 A CN 110619294A CN 201910840726 A CN201910840726 A CN 201910840726A CN 110619294 A CN110619294 A CN 110619294A
- Authority
- CN
- China
- Prior art keywords
- data
- mouth shape
- activity
- phase
- continuous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000000694 effects Effects 0.000 claims abstract description 86
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 230000009466 transformation Effects 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 230000000877 morphologic effect Effects 0.000 claims abstract description 7
- 238000007637 random forest analysis Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 22
- 238000000354 decomposition reaction Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 6
- 238000011426 transformation method Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000005284 basis set Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000819 phase cycle Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K17/00—Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations
- G06K17/0022—Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisions for transferring data to distant stations, e.g. from a sensing device
- G06K17/0029—Methods or arrangements for effecting co-operative working between equipments covered by two or more of main groups G06K1/00 - G06K15/00, e.g. automatic card files incorporating conveying and reading operations arrangements or provisions for transferring data to distant stations, e.g. from a sensing device the arrangement being specially adapted for wireless interrogation of grouped or bundled articles tagged with wireless record carriers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于RFID系统定制的个性化口型识别方法,从RFID系统收集的用户信号数据进行预处理,该系统主要通过预处理的方法净化连续活动的原始相位值,以获得一段连续平滑的相位数据,便于后面的口型活动分析。针对连续的口型活动数据,设计一种基于静音阈值滤波器的检测方法进行分割活动,目的对连续活动进行分割获取单个的活动模式。对分割的单个活动提供有效的特征提取方法,通过统计特征和小波变换分别得到单个活动信号整体的抽象形态模型和具体细节特征。将提取的特征利用机器学习随机森林算法构建分类器模型,对未知活动进行预测识别。本发明方法对口型活动可以达到较高的分割准确率和识别准确率。
Description
技术领域
本发明主要涉及物联网领域、RFID技术,涉及模式识别、机器学习领域,特别是一种基于RFID系统定制的个性化口型识别方法及系统。
背景技术
语音识别近些年取得显著的进步[6],并且已经进入工业、通信、消费电子产品等各个领域。语音识别的飞快进步对于语言和听力正常者肯定是一件值得庆祝和令人鼓舞的消息,但是对于语言或是听力障碍者,从对方交流获取信息更多地是需要花费大量的精力去学习的唇语,学习唇语伴随着较难的技巧和大量的练习,这些也只是尽可能帮助他们拉近彼此之间的交流。现如今全球仍然存在约有7000万的聋哑人士,占有极大的比例,他们如果想要表达自己,一般就需要借助学习手语或者唇语来进行交流,这样就会带来很大的困难和花费大量的时间[7]。我们的口型识别方法可以帮助数百万残疾人士只用口头的方式对设备进行简单的命令,而不需要复杂而不方便的身体动作[8][9]。
人们对语言的感知是多方式的,听力正常者在交谈过程中也会无意识的使用口型、表情等视觉信息以辅助听觉能力[10]。对于听力障碍者或噪声环境下的语言感知,口型活动识别显得更加重要。口型识别技术是指对说话者的口型变化信息进行分析而识别出说话内容的过程。
随着人们对人机交互需求的不断提高[11],口型活动识别引起了越来越多的研究者的关注。关于对口型识别的方法有很多,根据不同的处理模式,已有相关的工作根据终端设备的不同大致可以分为三类:
第一类作品是利用专用传感器,例如振动传感器模块[12],用于人类活动识别,这些作品建立在传感器可以得到反馈人体活动识别的丰富的信息的事实上。但是他们都会对人们产生一定的活动干涉,佩戴一些专用的传感器的要求常常是麻烦的或者是不适合于人们进行日常活动的,有是需要复杂的信号转换和处理过程,并且不能同时检测多个人。
第二类作品是通过视觉通道来补充取决于听觉通道的信息量[13],从而提出的有效和稳健的唇定位跟踪方法。该方法首先用肤色模型查找脸,然后用迭代算法搜索脸部区域内的眼睛,再根据眼睛的位置来确定脸的大小和位置,并对脸的下半部分采用彩色坐标变换法将唇从肤色中明显地区分出来;最后,用可变模板将上下唇的内外轮廓描述出来。这种应用的方法过于复杂繁琐,中间的处理环节自然也会影响到最后的识别效果,而最重要的是这种方案无法在黑夜中对需求者提供有效和丰富的视觉信息,进而影响了可适用的环境条件范围。
最后一种解决方案是利用无线信号,这些年已经做了很多的努力来提高无线网络的效率,提供利用无线信号进行口型活动识别的可行性。WiHear可以利用MIMO技术“听到”人们在无线电范围内的会谈[14]。通过识别口腔移动模式,WiHear可以像嘴唇读取一样提取讲话信息。与我们的工作类似,这些方法不需要设备,从而使用用户免于佩戴或携带沉重的设备。然而,它们要么采用专门的硬件(例如软件定义无线电),要么需要复杂的信号处理过程,引入高部署成本或者巨大的计算开销。此外,他们必须依赖高频信号(如2.4GHz),在这种情况下,人体运动引起的细粒无线电反射变化非常明显并且易于追踪。
本发明所用到的名词解释如下:
相位:对于一个波,特定的时刻在它循环中的位置,一种它是否在波峰、波谷或它们之间的某点的标度。相位描述信号波形变化的度量,通常以度(角度)作为单位,也称作相角。当信号波形以周期的方式变化,波形循环一周即为360°。
Impinj商用设备:Impinj是全球领先的超高频Gen 2RFID解决方案供应商。基于公司的先进技术与业界诸多合作伙伴一起推出众多的产品和解决方案,包括高性能的标签芯片,读写器,读写器芯片,软件,天线和系统集成。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于RFID系统定制的个性化口型识别方法,提高口型活动的分割准确率和识别准确率。
为解决上述技术问题,本发明所采用的技术方案是:一种基于RFID系统定制的个性化口型识别方法,包括以下步骤:
1)读写器获取用户口型活动数据,对时间戳和相位信号进行预处理,得到连续的口型活动数据;
2)基于静音阈值分割的检测方法对连续的口型活动数据进行分割;
3)对分割的单个活动进行特征提取,通过统计特征和小波变换分别得到单个活动信号整体的抽象形态模型和具体细节特征;(这里提取特征是为了下一步的训练构建分类器,正确有效的特征才能达到好的识别效果,提取特征是机器学习必要的核心步骤)
4)将提取的统计特征和小波变换特征生成特征向量,利用机器学习随机森林算法构建分类器模型,对未知活动进行预测识别。
对相位信号进行预处理的具体实现过程包括:
1)将口型活动数据定义为正常数据块和发生倒π的数据块,分别定义正常数据块和发生倒π的数据块的期望值和数据点个数,然后依次处理每一个数据点,对当前数据点和预先定义的数据块期望值进行比较,将当前数据点划分到期望值相近的数据块中,然后更新划分到数据块的相位期望值,并对应的将该数据块的数据点个数加1;比较两块数据点的个数,认为个数少的为发生倒π的数据块,然后对发生倒π数据块的相位进行修正,加减π处理使图像变得连续;
2)将相位修正后的倒π现象的数据分为大于π和小于π两部分,分别计算两部分的平均值,如果两部分的平均值之差大于预定的数值,判定为发生了相位环绕现象;将小于π的相位值都加上2π,消除相位的周期模糊性。
与期望值相近是指与所述期望值的差值小于1.5。
步骤2)的具体实现过程包括:
1)利用G函数计算出整个连续的口型活动中每个时刻的信息度量值,将度量值小于连续的口型活动数据总体平均值的时间窗口,判定为静音段;反之,则为语音段,以此检测出用户是否在该滑动时间窗口进行语音活动;
2)对已经检测出的语音时间窗口序列采取投票选举策略进行评级,选取评级级别最高的时间窗口序列进行分割处理。
步骤3)中,所述统计特征包括:反映各数据向其中心值靠拢或聚集的程度的分布的集中趋势,反映各数据远离中心值的趋势的分布的离散程度,以及反映数据分布的偏斜方向和程度的度量的分布的形状。
步骤3)中,所述小波变换特征包括:基于小波变换能够在不同尺度上对信号进行分解的原理,使用小波变换对已有的数据进行提取低频部分以及多级分解的近似系数,我们选取小波变换方法4级分解的近似系数作为降维后的数据,得到最后的小波特征向量。
与现有技术相比,本发明所具有的有益效果为:本发明利用商用impinj读写器设备进行实验,可以很轻松的扩展到RFID商用市场。与现有技术相比,它既克服了专用传感器设备不适合人们进行日常活动的特点,都会对人们产生一定的活动干涉,还克服了视觉方法对黑夜或者光线不足情况下效果低下或无效性。另外针对无线信号,我们无需依赖高频信号可以达到更佳的活动分割率与识别率。大量的实验表明,我们提出的方法对口型活动可以达到高达95%以上的分割准确率和平均93%以上的识别准确率。
附图说明
图1为获取口型活动的原始信号波形图;
图2为原始信号中倒π现象的显现图;
图3为预处理后的连续相位信号图;
图4为Savitzky-Golay滤波后的平滑图;
图5为连续活动的分割状态位检测;
图6为连续活动分割成单个活动的时间序列;
图7为原始数据和3层小波分解的形态轮廓比较;
图8为系统的整体工作流程图;
图9为系统场景布置示意图。
具体实施方式
本发明的方法包括以下步骤:
1)读写器获取用户口型活动信号,对时间戳和相位信号进行预处理;
2)基于静音阈值滤波器的检测方法对连续的口型活动数据进行分割;
3)对分割的单个活动进行有效的特征提取方法,通过统计特征和小波变换分别得到单个口型活动信号(这里指的就是分割后单个活动的波形信号数据,如图6所示)整体的抽象形态模型和具体细节特征;
4)利用机器学习随机森林算法构建分类器模型,对未知活动进行预测识别。
步骤1)中,信号数据预处理的具体过程包括:
1)倒π现象处理:从RFID系统采集到的原始数据可能伴随着倒π现象和相位环绕现象的发生如图1所示,这些都会对后来数据处理的准确性带来困扰,所以需要对数据进行处理。倒π现象就是连续相位值中可能出现的异常的正负π相位值之差,原始数据采集到的相位值与真实的相位值相差一个π值。如图2矩形黑框处所示,在图像中表现为连续的波形图出现尖刺情况。对倒π现象做两步处理:首先,我们将数据定义为两块,分别定义期望值和数据点个数,然后依次处理每一个数据点,对当前数据点和预先定义的数据块期望值比较判断(两个数据块分别代表正常数据块和发生倒π的数据块),将它划分到与之相近的数据块中,然后更新划分到数据块的相位期望值,并对应的将该数据块的数据点个数加一。接下来,比较两块数据点的个数,认为个数少的为发生倒π的数据块,然后对发生倒π数据块的相位进行修正,加减π处理使图像变得连续。如图3所示,完成了对倒π现象数据的处理。
2)相位环绕处理:相位环绕现象[1]是由于相位角处在0到2π的固定范围值而产生超过最大值2π周期性跳变为0的过程,与真实相位相比存在着不同程度的相位周期模糊性。往往通过恢复失去的相位周期性,得到解决相位环绕的过程。首先将处理过倒π现象的数据分为大于π和小于π两部分,分别计算两部分的平均值进行比较,如果两者的平均值大于预定的数值,判定为发生了相位环绕现象。接下来,将小于π的相位值都加上2π即可消除相位的周期模糊性,解决发生的相位周期环绕现象。
3)平滑滤波处理:由于人类的说话速度很低,在时域中由嘴部运动引起的信号变化通常在2-5HZ之间。实际信号通常包含不同的噪声,因此对收到的采样进行Savitzky-Golay平滑滤波[2]来消除外带干扰,如图4所示,以便通过滤波平滑已得到的波形信号。对于原始的Savitzky-Golay滤波器,n是非负整数,并且n<I,可以得到最小二乘多项式拟合的残差如下:
其中pn(i)是一个n次多项式函数,用于拟合给定信号,i=1,2,…,I是滤波窗口中第i个点的位置,ak是多项式函数的第k个系数,x[n]表示采样点信号的样本序列。利用Savitzky-Golay方法进行滤波可以消除直流分量和高频干扰,可以提高信号变化的平滑性,并降低噪声的干扰。
步骤2)中,基于静音阈值滤波器的检测方法,其具体算法如下:
针对于连续活动的数据,我们采用基于静音阈值分割的检测方法进行分割活动。我们大致分为三个步骤,G函数检测实现对活动信号每个时刻信息度量值的表示;阈值比较来通过G函数值与活动信号总体的平均值进行比较,检测每个标签发生语音活动状态的时间窗口;状态分割处理通过对每个标签进行投票选举和评级的策略,确定最终实现分割的时间点,统一活动的时间序列分割。
首先我们使用滑动窗口分别检测四个标签的活动,通过G函数描述出整个连续活动中每个时刻的信息度量值,并计算出整个连续活动信号的绝对平均值作为阈值,然后与单个时刻的G值相比较,通过与动态计算的阈值相比较,来确定用户是否在滑动时间窗口进行语音活动以实现检测,之后我们得到四个标签检测的活动状态。为了统一活动状态点的分割处理,我们采用对四个标签的发音时间序列进行投票选举策略,最后我们选取评级级别最高的标签时间序列进行分割处理。
1)G函数检测:我们提出一种基于静音阈值分割的检测方法,在一段连续口型活动中分割出单个活动的时间序列段。为了通过G函数表示活动信号的信息度量值,我们分别定义了幅度测量和频率测量两个窗口与信号一起移动,由连续信号样本的差值之和估计的频率度量与幅度值的组合定义如下:
其中L和xk分别表示滑动窗口长度和信号第k个相位值,Ai、Fi分别代表第i个窗口的振幅和频率值。根据RFID采样频率的统计,每个标签每秒采样大约100次。每个口型活动的动作大约在1秒左右,为了保证截取时间不丢失数据,将L设为50来作为我们的参数值。接着,我们的G函数[3]中加入A1和F1两个系数来表示,定义如下:
Gi=A1|Ai+1-Ai|+F1|Fi+1-Fi|
其中i代表窗口的数量编号,Gi表示第i个窗口的函数值。G函数中的局部值高于之前定义的阈值(之前定义的G分布的平均值),表示每个段的边界。A1和F1是在各种应用中发生变化的恒定系数。
2)阈值比较:通过频率量度和幅度值来计算整个活动中每个时刻的连续信号样本的差值之和。接下来,采用滑动窗口对发音活动运用标志位S进行标记。如果在一段滑动窗口内所有的局部值都小于之前定义的阈值(此处阈值被设置为G函数分布中的平均值),则将其定义为静音段活动;然后通过状态位S(如图5所示,图中酒红色表示状态位S=1,意为用户发音状态)可以确定用户是否正在滑动的时间段内进行发音活动。
3)状态分割处理:由此我们可以得到四个标签分别对应的发音时间段序列。为了统一活动的分割时间序列和提高我们分割算法的准确性,我们采取对四个标签的发音时间序列进行评级,针对每个标签的单个发音时间段,我们观察另外三个标签的状态位S值对其进行投票(如果状态位S=1,则认同此标签发音时间段有效并进行投票,这样则排除个别标签活动检测的异常发音时间段(静音段多插和发音段少漏检测)),如果获得其余标签一半的投票,则对此标签的级别加1。接着,对每个标签进行评级操作,最后我们选取评级级别最高的标签时间序列作为我们的分割点。之后,如图6所示,我们就可以得到分割后的单个活动的时间段数据。
步骤3)中,利用统计特征提取得到单个活动信号整体的抽象形态模型,其具体统计特征包括:
基于特征统计的方法进行特征提取,首先对已检测的多个活动进行统计特征的分析,最后选出11个特征来刻画这个抽象形态模型。这些统计值在用数理统计的方法研究总体分布,所关心的实际上并非组成总体的各个个体本身,而主要是考察与它们相联系的某个特征。下面是统计值对总体分布不同趋势的反映:
1)分布的集中趋势,反映各数据(众数、中位数、分位数、均值)向其中心值靠拢或聚集的程度;
2)分布的离散程度,反映各数据(最大值、最小值、方差和标准差、离散系数)远离中心值的趋势;
3)分布的形状,反映数据(偏态及其测度)分布的偏斜方向和程度的度量;
步骤3)中,通过小波变换提取得到单个活动信号的具体细节特征,其具体实现过程包括:
由步骤2)分割得到的多个活动信号存在数据维度大小不同,但是在提取细节特征时使用的小波变换方法要求单个活动信号的数据维度相同,所以在提取细节特征这个部分,我们先后通过对单个活动信号进行数据插值处理和小波变换处理两步来完成特征提取。
1)数据插值处理:由于impinj阅读器对无源标签的读取是采用的轮询响应,每个标签都不是在同一时刻采集到的相位数据,另外还伴随着个别标签偶尔出现漏读的情况,所以会出现标签数据维度不同。另外,分割后的多个活动信号存在维度大小不同,也影响着小波变换对单个活动信号提取具体细节特征的处理。所以我们提出了一种有效的解决方法,采取的是基于三次埃尔米特(Hermite)插值方法来处理数据不对齐的问题,该方法的好处就是能够很大程度上保留单调性与数据的外形。埃尔米特插值法的基本思想就是使插值多项式与被插函数在插值基点处的导数也相同,三次埃米尔特插值多项式可以表示为:
其中i的取值范围为[1,4],表示1到4号标签;k和k+1分别表示相邻的两个数据点;x表示我们要插值模版的时间点,H3(x)则表示插值点计算出的相位值。这样既保证了每个标签插值后的数据维度相同,也保证了每个标签对应的是统一时刻的数据,同时也很大程度上丰富了我们的数据采样频次。
2)小波变换特征:小波变换常常也被称作为小波分解。我们对获取的嘴部运动轮廓进行离散小波分解,作为基于嘴部读取的细粒度分析学习。小波分解的意义就在于能够在不同尺度上对信号进行分解,而且对不同尺度的选择可以根据不同的目标来确定。离散小波分解在一定程度上还起到了滤波作用,可以更加清楚的展现每个动作对应的子载波变化的局部特征。
离散小波包分解基于众所周知的离散小波变换(DWT),其中离散信号f[n]可以通过扩展函数(基础)的组合来表示。
其中f[n]表示在[0,M-1]中定义的原始离散信号,包括总共M个点。和ψj,k[n]都是[0,M-1]中定义的离散函数,称为小波基。通常,为了方便获得小波系数,选择基集和是正交的在分解过程中,这意味着:
在离散小波分解中,在分解过程中,初始步骤将原始信号分解为近似系数(即Wφ[j0,k])和细节系数(即Wψ[j,k])两部分。之后,采用与初始步骤相同的策略,将近似系数和细节系数分别递归地分解成两个新的部分。
小波变换的有效性依赖于选择合适的小波基。我们应用类可分性函数来鉴别最大化离散小波包的分解能力,将这种方法用于以下族中的所有可能的小波:Daubechies,Coiflets,Symlets,并分别得到它们的类可分性。如表1所示,基于它们的分类性能,我们选择阶数为4的Daubechies小波滤波器。
表1小波分解交叉验证结果
我们使用了小波分析对分割后的单个活动信号数据进行提取小波变化低频部分以及4级分解的近似系数,采用小波变换的方法选取降维后的数据,得到最后的小波特征向量。如图7所示,我们展示了原始数据和3层小波变换低频部分分解的形态比较,通过观察发现,小波变换一层到三层的递归分解,虽然横坐标和纵坐标尺度大小发生了改变,但是依然保留着原始数据形态轮廓的细节特征。基于这点,我们得到的小波特征向量,可以很好的细分不同口型活动的具体细节特征差异。
步骤4)具体实现过程包括:
我们采用监督学习下的决策树学习进行分类,利用上述提取的特征选用随机森林算法[5]构建(构建过程为现有技术,随机森林分类器模型的构建过程不是难点,提取特征的方法影响构建分类器的好坏,这里更重要的是体现了通过我们提取特征的方法可以训练出好的分类器,拥有好的识别效果)分类器模型,进行口型识别训练和识别,最后建立了快速有效的口型活动识别模型。
(1)所需硬件设备
我们系统中所使用的硬件如下:Impinj Speedway读写器、圆极化Laird S9028PCR天线和内置Monza4芯片的AZ-9629型号无源标签。阅读器可以扩展配置四个定向天线,通过天线来发射和接收无线电信号。当读写器接通电源后,无源标签可以接收到与读写器相连天线发射的电磁波,从磁场中获得工作所需的能量,并通过反射信号与读写器进行通信。如图9所示,RFID设备主要由读写器和天线组成,我们的PC机通过网线与读写器自身的Ethernet端口相连,可以获取到每个天线采集单个用户的嘴部轮廓信息。
(2)所需软件设备
我们的系统是基于Java的开发环境,在eclipse软件中导入OctaneSDKJava-1.24.1.0的jar包,利用Impinj产品提供的高度集成的环境编写控制读写器功能代码。我们口型活动识别所需采集的信息包括标签的EPC、时间戳和相位等主要信息。然后将采集的信息通过Matlab应用程序对其进行预处理和数据分析,最终我们将提取出来的特征矩阵运用机器学习算法进行训练和测试。
(3)数据采集
如图9中,我们可以看到RFID无源标签贴在的轻便的透明面罩上,设置天线和面罩的距离为0.8m。我们采用4个标签放在嘴部轮廓主要发音部位所对应的面罩位置上。RFID读写器通过天线向用户的嘴部发送电磁波信号,然后天线接收并提取来自嘴部微动作的后向散射信号,完成数据的采集工作。
本发明介绍的是一种基于无源RFID的口型活动识别系统的设计,我们的系统是第一个利用RFID设备通过背散射信号进行口型活动识别的,它可以帮助残疾人士进行简短的语言交流或简单的命令操作。我们通过单个口型动作而引起的嘴部多路径效应,捕捉嘴巴不同部位的微动信号进行分析,利用统计特征和小波分解降维相结合的方法提取有效的特征,最后使用机器学习中随机森林算法建立训练模型进行识别分类。我们大量的实验表明,我们可以在不少于10个中英文单词的情况下,我们提出的方法对口型活动可以达到高达95%以上的分割准确率和平均93%以上的识别准确率。值得注意的是,我们利用机器学习的方法大大提升识别速度,为口型识别领域提供了有效可行的方法。
参考文献:
[1]Zuo,Chao,et al."Temporal phase unwrapping algorithms for fringeprojection profilometry:A comparative review."Optics and Lasers inEngineering 85(2016):84-103.
[2]Schafer,Ronald W."What is a Savitzky-Golay filter?[lecturenotes]."IEEE Signal processing magazine 28.4(2011):111-117.
[3]Azami,Hamed,Karim Mohammadi,and Behzad Bozorgtabar."An improvedsignal segmentation using moving average and Savitzky-Golay filter."Journalof Signal and Information Processing 3.01(2012):39.
[4]Amin,Hafeez Ullah,et al."Feature extraction and classification forEEG signals using wavelet transform and machine learning techniques."Australasian physical &engineering sciences in medicine 38.1(2015):139-149.
[5]Narudin,Fairuz Amalina,et al."Evaluation of machine learningclassifiers for mobile malware detection."Soft Computing 20.1(2016):343-357.
[6]Amodei,Dario,et al."Deep speech 2:End-to-end speech recognition inenglish and mandarin."International conference on machine learning.2016.
[7]Rauf,Sadaf Abdul,et al."Urdu Language Learning Aid based on LipSyncing and Sign Language for Hearing Impaired Children."InternationalJournal of Computer Science and Information Security 14.12(2016):478.
[8]Ju,Jin Sun,Yunhee Shin,and Eun Yi Kim."Intelligent wheelchair(IW)interface using face and mouth recognition."Proceedings of the 14thinternational conference on Intelligent user interfaces.ACM,2009.
[9]Joseph,Robert M.,and James Tanaka."Holistic and part-based facerecognition in children with autism."Journal of Child Psychology andPsychiatry 44.4(2003):529-542.
[10]Calvo,Manuel G.,Andrés Fernández-Martín,and Lauri Nummenmaa."Facial expression recognition in peripheral versus central vision:Role of theeyes and the mouth."Psychological research 78.2(2014):180-195.
[11]Cannan,James,and Huosheng Hu."Human-machine interaction(hmi):Asurvey."University of Essex(2011).
[12]Chen,Wenqiang,et al."ViType:A Cost Efficient On-Body TypingSystem through Vibration."2018 15th Annual IEEE International Conference onSensing,Communication,and Networking(SECON).IEEE,2018.
[13]Yasui,Yuki,et al."Multimodal speech recognition using mouthimages from depth camera."2017 Asia-Pacific Signal and Information ProcessingAssociation Annual Summit and Conference(APSIPA ASC).IEEE,2017.
[14]Wang,Guanhua,et al."We can hear you with wi-fi!."IEEETransactions on Mobile Computing 15.11(2016):2907-2920.
[15]Yang,Lei,et al."Making sense of mechanical vibration period withsub-millisecond accuracy using backscatter signals."Proceedings of the 22ndAnnual International Conference on Mobile Computing and Networking.ACM,2016.
Claims (6)
1.一种基于RFID系统定制的个性化口型识别方法,其特征在于,包括以下步骤:
1)读写器获取用户口型活动数据,对时间戳和相位信号进行预处理,得到连续的口型活动数据;
2)基于静音阈值分割的检测方法对连续的口型活动数据进行分割;
3)对分割的单个活动进行特征提取,通过统计特征和小波变换分别得到单个活动信号整体的抽象形态模型和具体细节特征;(这里提取特征是为了下一步的训练构建分类器,正确有效的特征才能达到好的识别效果,提取特征是机器学习必要的核心步骤)
4)将提取的统计特征和小波变换特征生成特征向量,利用机器学习随机森林算法构建分类器模型,对未知活动进行预测识别。
2.根据权利要求1所述的基于RFID系统定制的个性化口型识别方法,其特征在于,对相位信号进行预处理的具体实现过程包括:
1)将口型活动数据定义为正常数据块和发生倒π的数据块,分别定义正常数据块和发生倒π的数据块的期望值和数据点个数,然后依次处理每一个数据点,对当前数据点和预先定义的数据块期望值进行比较,将当前数据点划分到期望值相近的数据块中,然后更新划分到数据块的相位期望值,并对应的将该数据块的数据点个数加1;比较两块数据点的个数,认为个数少的为发生倒π的数据块,然后对发生倒π数据块的相位进行修正,加减π处理使图像变得连续;
2)将相位修正后的倒π现象的数据分为大于π和小于π两部分,分别计算两部分的平均值,如果两部分的平均值之差大于预定的数值,判定为发生了相位环绕现象;将小于π的相位值都加上2π,消除相位的周期模糊性。
3.根据权利要求1所述的基于RFID系统定制的个性化口型识别方法,其特征在于,与期望值相近是指与所述期望值的差值小于1.5。
4.根据权利要求1所述的基于RFID系统定制的个性化口型识别方法,其特征在于,步骤2)的具体实现过程包括:
1)利用G函数计算出整个连续的口型活动中每个时刻的信息度量值,将度量值小于连续的口型活动数据总体平均值的时间窗口,判定为静音段;反之,则为语音段,以此检测出用户是否在该滑动时间窗口进行语音活动;
2)对已经检测出的语音时间窗口序列采取投票选举策略进行评级,选取评级级别最高的时间窗口序列进行分割处理。
5.根据权利要求1所述的基于RFID系统定制的个性化口型识别方法,其特征在于,步骤3)中,所述统计特征包括:反映各数据向其中心值靠拢或聚集的程度的分布的集中趋势,反映各数据远离中心值的趋势的分布的离散程度,以及反映数据分布的偏斜方向和程度的度量的分布的形状。
6.根据权利要求1所述的基于RFID系统定制的个性化口型识别方法,其特征在于,步骤3)中,所述小波变换特征包括:基于小波变换能够在不同尺度上对信号进行分解的原理,使用小波变换对已有的数据进行提取低频部分以及多级分解的近似系数,我们选取小波变换方法4级分解的近似系数作为降维后的数据,得到最后的小波特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910840726.9A CN110619294A (zh) | 2019-09-06 | 2019-09-06 | 一种基于rfid系统定制的个性化口型识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910840726.9A CN110619294A (zh) | 2019-09-06 | 2019-09-06 | 一种基于rfid系统定制的个性化口型识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110619294A true CN110619294A (zh) | 2019-12-27 |
Family
ID=68922467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910840726.9A Pending CN110619294A (zh) | 2019-09-06 | 2019-09-06 | 一种基于rfid系统定制的个性化口型识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619294A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652165A (zh) * | 2020-06-08 | 2020-09-11 | 北京世纪好未来教育科技有限公司 | 口型评测方法、设备及计算机存储介质 |
CN113762439A (zh) * | 2021-08-27 | 2021-12-07 | 武汉锦象智能科技有限公司 | 一种基于rfid的供应大数据系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326906A (zh) * | 2015-06-17 | 2017-01-11 | 姚丽娜 | 活动识别方法和装置 |
WO2017092224A1 (zh) * | 2015-12-04 | 2017-06-08 | 深圳大学 | 基于rfid的手势识别方法及系统 |
CN108470169A (zh) * | 2018-05-23 | 2018-08-31 | 国政通科技股份有限公司 | 人脸识别系统及方法 |
-
2019
- 2019-09-06 CN CN201910840726.9A patent/CN110619294A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326906A (zh) * | 2015-06-17 | 2017-01-11 | 姚丽娜 | 活动识别方法和装置 |
WO2017092224A1 (zh) * | 2015-12-04 | 2017-06-08 | 深圳大学 | 基于rfid的手势识别方法及系统 |
CN108470169A (zh) * | 2018-05-23 | 2018-08-31 | 国政通科技股份有限公司 | 人脸识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
S. ZHANG, ET AL.: "ReActor: Real-time and Accurate Contactless Gesture Recognition with RFID", 《2019 16TH ANNUAL IEEE INTERNATIONAL CONFERENCE ON SENSING, COMMUNICATION, AND NETWORKING 》 * |
WANG G,ET AL.: "We Can Hear You with Wi-Fi!", 《IEEE TRANSACTIONS ON MOBILE COMPUTING 15》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652165A (zh) * | 2020-06-08 | 2020-09-11 | 北京世纪好未来教育科技有限公司 | 口型评测方法、设备及计算机存储介质 |
CN113762439A (zh) * | 2021-08-27 | 2021-12-07 | 武汉锦象智能科技有限公司 | 一种基于rfid的供应大数据系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Data augmentation and dense-LSTM for human activity recognition using WiFi signal | |
Zhang et al. | Wifi-id: Human identification using wifi signal | |
CN111312256B (zh) | 语音身份识别的方法、装置及计算机设备 | |
Mohandes et al. | A signer-independent Arabic Sign Language recognition system using face detection, geometric features, and a Hidden Markov Model | |
Jain et al. | Gender identification using frontal facial images | |
CN107491729B (zh) | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 | |
Mahmood et al. | Different model for hand gesture recognition with a novel line feature extraction | |
CN111616706B (zh) | 一种基于卷积神经网络的表面肌电信号分类方法及系统 | |
CN110619294A (zh) | 一种基于rfid系统定制的个性化口型识别方法 | |
CN106529378A (zh) | 一种亚裔人脸的年龄特征模型生成方法及年龄估计方法 | |
CN105893941B (zh) | 一种基于区域图像的人脸表情识别方法 | |
Kulkarni et al. | Facial expression recognition | |
CN115238796A (zh) | 基于并行damscn-lstm的运动想象脑电信号分类方法 | |
Gawande et al. | Biometric-based security system: Issues and challenges | |
KR20140073294A (ko) | 심장 박동수 변화를 이용한 실시간 감성 인식장치 및 그 방법 | |
Baranwal et al. | Indian sign language gesture recognition using discrete wavelet packet transform | |
Bastwesy et al. | Wi-nod: Head nodding recognition by wi-fi csi toward communicative support for quadriplegics | |
CN113918912A (zh) | 一种基于脑纹识别的身份认证方法、系统、设备及介质 | |
Bashar et al. | Identification of arm movements using statistical features from EEG signals in wavelet packet domain | |
Ravi Kumar et al. | Static hand gesture recognition for asl using matlab platform | |
Zhang et al. | WiNum: A WiFi finger gesture recognition system based on CSI | |
Singh et al. | Implementation and evaluation of DWT and MFCC based ISL gesture recognition | |
CN110738985A (zh) | 基于语音信号的跨模态生物特征识别方法及系统 | |
CN116340849B (zh) | 一种基于度量学习的非接触式跨域人体活动识别方法 | |
KR20210050684A (ko) | 이미지 처리 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |