CN107480635A - 一种基于双模态分类模型融合的扫视信号识别方法及系统 - Google Patents
一种基于双模态分类模型融合的扫视信号识别方法及系统 Download PDFInfo
- Publication number
- CN107480635A CN107480635A CN201710695421.4A CN201710695421A CN107480635A CN 107480635 A CN107480635 A CN 107480635A CN 201710695421 A CN201710695421 A CN 201710695421A CN 107480635 A CN107480635 A CN 107480635A
- Authority
- CN
- China
- Prior art keywords
- data
- eog
- video
- video data
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000004927 fusion Effects 0.000 title claims abstract description 38
- 230000002902 bimodal effect Effects 0.000 title claims abstract description 13
- 238000013145 classification model Methods 0.000 title abstract description 5
- 238000001514 detection method Methods 0.000 claims abstract description 79
- 238000012360 testing method Methods 0.000 claims abstract description 53
- 230000004424 eye movement Effects 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 16
- 230000033001 locomotion Effects 0.000 claims description 15
- 210000001747 pupil Anatomy 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000007500 overflow downdraw method Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 239000002245 particle Substances 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims 1
- 230000000295 complement effect Effects 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000004434 saccadic eye movement Effects 0.000 abstract 1
- 210000001508 eye Anatomy 0.000 description 25
- 210000005252 bulbus oculi Anatomy 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 210000004087 cornea Anatomy 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 210000001525 retina Anatomy 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000010408 sweeping Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 229910021607 Silver chloride Inorganic materials 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
- HKZLPVFGJNLROG-UHFFFAOYSA-M silver monochloride Chemical compound [Cl-].[Ag+] HKZLPVFGJNLROG-UHFFFAOYSA-M 0.000 description 1
- 230000004469 smooth pursuit movement Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Eye Examination Apparatus (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双模态分类模型融合的扫视信号识别方法及系统,属于眼电图技术领域,方法包括:同步采集受试者不同扫视动作类别的EOG数据和视频数据;对EOG数据和视频数据分别进行预处理;对EOG数据和视频数据进行端点检测;选择EOG数据端点检测结果和视频数据端点检测结果中有效数据较长端点作为最终的端点检测结果;将两种模态下的有效眼动数据段分成训练集和测试集并进行特征参数提取;将两种模态下有效眼动数据特征参数送入SVM分类器中进行训练,得到两种分类模型;对两种分类模型进行融合;利用测试集中的数据对模型融合进行测试以对扫视信号进行识别。本发明中融合后的特征具有更多互补信息,提高了信号识别鲁棒性。
Description
技术领域
本发明涉及眼电图技术领域,特别涉及一种基于双模态分类模型融合的扫视信号识别方法及系统。
背景技术
人体行为识别(Human Activity Recognition,HAR)是对个体行为、人与人之间以及人与对象之间的交互行为的识别和表示。目前已被广泛应用于运动分析、虚拟现实以及病人监护等重点研究领域。
其中,眼动在日常行为活动中是比较普遍的活动,在人机交互、认知、药物效果以及心理学等方面都起着重要作用。在基于EOG的HAR系统中,扫视信号的识别对最终的人体行为识别结果起着重要作用。为了实现对扫视扫视信号的有效识别,目前提出的研究方案主要如下:
Bulling等人开发的连续小波变换扫视(CWT-SD)算法,该算法将水平和垂直的眼电图信号作为EOG信号分量,去除噪声后作为计算连续小波系数的输入参数,然后应用特定的阈值将水平和垂直的眼电图信号分成扫视或非扫视。
Larsson等人提出的一种在平滑追踪运动中检测扫视的新方法。通过将算法的结果与基于速度检测方法的现有结果进行比较来评估算法的性能。
类似地,在视频方法中,Pauly等人提出了一种新颖的视频跟踪和眨眼检测方法。该方法使用普通网络摄像机作为采集设备,即使在不受控制的照明条件下显示出良好的性能。
但是,目前的EOG识别存在的问题在于:一是,需要严格的EOG采集条件,在一些噪声相对较大的环境中,EOG就很难准确描述原始信号的特性;二是,在EOG的采集过程中需要使用多个导联进行数据采集以获取丰富的眼动信息,但是多个导联之间的相互影响也会对最终的人体行为识别带来偏差。
相比之下,基于视频的HAR系统可以很好的克服上述问题,但是基于视频数据的识别过程容易受到光纤的干扰,在光线较差的环境中,基于视频的HAR系统的性能会急剧下降。
因此,现有的单模态的扫视信号识别结果准确率不高,很难适用多变的环境。
发明内容
本发明的目的在于提供一种基于双模态分类模型融合的扫视信号识别方法及系统,以提高扫视信号识别的精确度。
为实现以上目的,第一方面,本发明提供一种基于双模态分类模型融合的扫视信号识别方法,包括:
S1、同步采集受试者不同扫视动作类别的EOG数据和视频数据;
S2、对EOG数据和视频数据分别进行预处理,得到预处理后的EOG数据和视频数据;
S3、分别采用能量法对预处理后的EOG数据进行端点检测,采用阈值法对预处理后的视频数据进行端点检测,得到EOG数据的端点检测结果以及视频数据的端点检测结果;
S4、选择EOG数据端点检测结果和视频数据端点检测结果中有效数据较长端点作为最终的端点检测结果应用到EOG数据和视频数据中,得到EOG和视频两种模态下的有效眼动数据段;
S5、分别将两种模态下的有效眼动数据段分成训练集和测试集,对训练集和测试集中的有效眼动数据进行特征提取,得到两种模态下有效眼动数据的特征参数;
S6、将两种模态下有效眼动数据的特征参数分别送入SVM分类器中进行训练,分别得到基于EOG的分类模型以及基于视频的分类模型;
S7、利用基于决策层面的模型融合方法将基于EOG的分类模型和基于视频的分类模型进行融合,将决策输出类别作为融合后的分类结果;
S8、利用测试集中数据的两种模态下有效眼动数据的特征参数重新执行步骤S6~S7;
S9、判断得到的测试结果是否满足预设值;
S10、若是,则执行步骤S6~S7对当前采集的两种模态下有效眼动数据特征参数进行处理,进行扫视信号识别,若否,则重新执行步骤S1。
其中,所述的步骤S2,具体包括:
对所述EOG数据进行带通滤波和去均值处理,得到预处理后的EOG数据;
对所述眼动视频数据进行粒子滤波处理,计算瞳孔中心位置,获得瞳孔运动轨迹。
其中,所述的步骤S3中采用能量法对预处理后的EOG数据进行端点检测,具体包括:
对预处理后的EOG数据进行分帧加窗处理,并设置经验能量门限值E0;
计算当前滑动窗内的能量值E,判断能量值E是否大于能量门限值E0;
若是,则将该点标记为可能起始点,并从起始点向后搜索,判断后续点对应的能量值是否大于能量门限值E0;
若是,则EOG信号段样本点数加1;
若否,则空白段样本点数加1;
判断空白段样本点数是否小于空白段允许的最大样本点数;
若是,则确定当前滑动窗还在EOG信号段;
若否,则判断EOG信号段样本点数是否大于EOG信号段允许的最小样本点数;
若是,则确定EOG信号有效起止段;
若否,则重置EOG信号段和空白样本段的样本点数为0,重新确定EOG信号段起点。
其中,所述的步骤S3中采用阈值法对预处理后的视频数据进行端点检测,具体包括:
利用最小二乘法对所述瞳孔运动轨迹进行处理,消除所述瞳孔运动轨迹的趋势;
将视频图像中第一帧图片的水平和垂直坐标作为参考坐标(x0,y0)以判断扫视方向;
根据视频数据在水平方向上的持续时间和设置的坐标阈值,将位于坐标阈值以上的信号置为0,得到处理后的水平和垂直方向信号信息;
将所述瞳孔运动轨迹进行归一化处理后,得到处理后的水平和垂直方向信号信息;
将处理后的水平方向信号信息和处理后垂直方向信号信息取绝对值后叠加求平均值,并根据平均值设置可调节阈值作为视频数据端点检测阈值;
从第一帧图像开始,依次判断每帧图像的幅值是否大于可调节阈值;
若否,则确定该真图像为非扫视信号,将非扫视段值置为0并用方波表示;
若是,则确定该帧图像位于扫视信号内,将扫视段值置为1并用方波表示;
将方波信号两两做差,将差值为1的点做为起点,将差值为-1的点做为终点,分别存进两个向量,得到视频的有效数据段。
其中,所述的步骤S5中对训练集和测试集中的有效眼动数据进行特征提取,具体包括:
对EOG的有效眼动数据段进行小波包变换处理,提取EOG数据的特征;
对视频的有效眼动数据段进行二维小波变换处理,提取视频数据的特征。
其中,所述的对EOG的有效眼动数据段进行小波包变换处理,具体包括:
利用母函数为sym函数、分解层数为3层的小波包对所述预处理后的EOG数据进行处理;
从分解得到的小波包系数中选取第一个低频系数作为EOG模态下的特征参数。
其中,所述的对视频的有效眼动数据段进行二维小波变换处理,具体包括:
将所述预处理后的视频数据中的眼动扫视图片采用二维小波变换进行分解,得到水平、垂直、对角线和低频四个频带,其中母函数为db2,分解层数为4层;
将分解得到的四个子图像按照第一行低频、垂直,第二行水平、对角线的顺序组合成一个总图;
将总图中每行首尾相连得到一个向量并放入矩阵中,将矩阵每行首尾相连得到表示扫视状态的视频特征参数。
其中,所述的S7,具体包括:
分别计算EOG数据、视频数据不同扫视动作类别所对应的后验概率;
将EOG数据和视频数据中每个扫视动作类别所对应的后验概率进行相互比较;
选择较高的后验概率所对应的扫视动作类别进行输出。
第二方面,本发明提供一种基于双模态分类模型融合的扫视信号识别系统,包括:依次连接的采集模块、预处理模块、端点检测模块、有效数据段检测模块、特征提取模块、训练模块、融合模块以及测试模块;
采集模块用于同步采集受试者不同扫视动作类别的EOG数据和视频数据,并将采集的数据传输至预处理模块;
预处理模块用于对EOG数据和视频数据分别进行预处理,得到预处理后的EOG数据和视频数据,并将预处理后的数据传输至端点检测模块;
端点检测模块用于分别采用能量法对预处理后的EOG数据进行端点检测,采用阈值法对预处理后的视频数据进行端点检测,得到EOG数据的端点检测结果以及视频数据的端点检测结果,并将检测结果传输至有效数据段检测模块;
有效数据段检测模块用于选择EOG数据端点检测结果和视频数据端点检测结果中有效数据较长端点作为最终的端点检测结果应用到EOG数据和视频数据中,得到EOG和视频两种模态下的有效眼动数据段;
特征提取模块用于分别将两种模态下的有效眼动数据段分成训练集和测试集,对训练集和测试集中的有效眼动数据进行特征提取,得到两种模态下有效眼动数据的特征参数,并将提取的特征传输至特征训练模块;
训练模块用于将两种模态下有效眼动数据的特征参数分别送入SVM分类器中进行训练,分别得到基于EOG的分类模型以及基于视频的分类模型,并将得到的两个分类模型传输至融合模块;
融合模块用于利用基于决策层面的模型融合方法将基于EOG的分类模型和基于视频的分类模型进行融合,将决策输出类别作为融合后的分类结果;
测试模型用于利用测试集中的数据对融合模块的融合过程模型融合方法进行测试,以利用融合过程以进行扫视信号识别。
与现有技术相比,本发明存在以下技术效果:本发明通过对EOG数据和视频数据两种模态下扫视信号的特征参数进行提取并融合,得到新的融合特征参数,依据该新的融合特征参数进行训练得到分类模型。该分类模型可以很好的避免单模态的EOG信号采集范围受限,受受试者轻微动作影响较大的问题,同时也避免了单模态的视频数据抗干扰能力弱的问题。当视频数据受到光线影响时,可以利用EOG数据的稳定性来提高信号识别率,当受试者的轻微动作影响到EOG的识别时,可以利用视频数据对分类结果进行调整,因此本发明公开的方法对多变的环境的适应性较强,具有较好的鲁棒性。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是本发明中一种基于双模态分类模型融合的扫视信号识别方法的流程示意图;
图2是本发明中的眼球解剖图;
图3是本发明中眼动信号采集过程的电极分布示意图;
图4是本发明中眼动信号采集过程中观测目标与受试者的相对位置示意图;
图5是本发明中单次眼动实验范式图;
图6是本发明中对预处理后的EOG数据进行端点检测的过程示意图;
图7是本发明中对预处理后的视频数据进行端点检测的过程示意图;
图8是本发明中采集的受试者八个扫视类别方向的原始眼电信号波形图;
图9是本发明中EOG数据和视频数据的端点检测效果示意图;
图10是本发明中随机抽取的一个方向的EOG信号小波系数分解示意图;
图11是本发明中随机抽取一个方向的视频序列二维小波特征提取示意图;
图12是本发明中一种基于双模态分类模型融合的扫视信号识别系统的结构示意图;
图13是本发明中眼动信号特征提取及识别过程的流程示意图;
图14是8个受试者在试验下得到的平均正确率折线图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种基于双模态分类模型融合的扫视信号识别方法,具体包括如下步骤S1至S10:
S1、同步采集受试者不同扫视动作类别的EOG数据和视频数据;
如图2所示,眼球可以看做是角膜正极和视网膜负极的双极模型,眼球的运动可以在角膜和视网膜之间产生电势差,称之为角膜视网电势差CRP,这种电信号的幅度随着眼球的移动而改变,我们将这种变化的电信号画成在时间轴上的信号。形成眼电图EOG曲线。与其他生物信号相比,EOG具有相对较大的信噪比SNR,信号幅度范围为5~20μV/度。如图3所示,本实施例中在采集眼动信号过程中,眼电信号的采集使用Ag/AgCl电极。为了获得受试者上、下、左、右、左上、右上、左下、右下八个方向的眼动信息,在采集过程中使用了6个电极,电极VEOU与电极VEOD粘贴于受试者左侧(或右侧)眼球上3cm与下3cm处,用以采集垂直眼动信号;电极HEOL与电极HEOR分别粘贴于受试者左眼左侧3cm与右眼右侧3cm处,用以采集水平眼动信号;参考电极A1和接地电极GND分别放置于左右两侧乳凸处,在采集过程中同步的采集受试者上、下、左、右、左上、右上、左下、右下八个方向的EOG和视频数据。其中EOG信号的采样率为250HZ,视频的帧率为30fps。
具体地,如图4所示,在眼动信号采集过程中,受试者与观测者的位置是相对的,在实验过程中,受试者坐着,其前方一米处的墙上分别设置上、下、左、右、左上、右上、左下、右下八个方向的观测目标,上、下观测点和左、右观测点距离受试者视觉中心O分别为1m和1.5m。
具体地,视频数据的采集过程如图5所示,在实验开始时,屏幕上会出现“开始”字符,并伴随20ms长的声音刺激,1秒的黑屏过后,受试者会在屏幕上看到一个随机显示的红色箭头,红色箭头的方向可以为:向上箭头、向下箭头、向左箭头、向右箭头、向左上箭头、向右上箭头、向右下箭头与向左下箭头,箭头在屏幕上显示的时间是3秒,在这3秒内受试者被要求朝着箭头指示的方向转动眼球,在看到观测点后转回到中心点,在这一过程中受试者不能眨眼。之后是2秒的休息时间,受试者可以眨眼休息。
S2、对EOG数据和视频数据分别进行预处理,得到预处理后的EOG数据和视频数据;
具体地,本实施例中对EOG数据的预处理过程包括带通滤波以及去均值操作,其中使用32阶带通滤波器,其截止频率为0.01~8HZ。
对视频数据的预处理是利用粒子滤波算法对视频数据进行处理,得到瞳孔的运动轨迹。
S3、分别采用能量法对预处理后的EOG数据进行端点检测,采用阈值法对预处理后的视频数据进行端点检测,得到EOG数据的端点检测结果以及视频数据的端点检测结果;
具体地,如图6所示,采用能量法对预处理后的EOG数据进行端点检测的具体过程为:
对预处理后的EOG数据进行分帧加窗处理,并设置经验能量门限值E0;其中,能量的初始门限值为0.5053,窗长为80个采样点(0.36秒),窗移为1,经验能量门限值E0是本领域技术人员经过大量实验得到的一个与滑动窗口内的能量值E进行比较的一个经验值。
计算当前滑动窗内的能量值E,判断能量值E是否大于能量门限值E0;
若是,则将该点标记为可能起始点,并从起始点向后搜索,判断后续点对应的能量值是否大于能量门限值E0;
若是,则EOG信号段样本点数加1;
若否,则空白段样本点数加1;
判断空白段样本点数是否小于空白段允许的最大样本点数;
若是,则确定当前滑动窗还在EOG信号段;
若否,则判断EOG信号段样本点数是否大于EOG信号段允许的最小样本点数;
若是,则确定EOG信号有效起止段;
若否,则重置EOG信号段和空白样本段的样本点数为0,重新确定EOG信号段起点。
如图7所示,对预处理后的视频数据进行端点检测的过程具体为:
利用最小二乘法对所述瞳孔运动轨迹进行处理,消除所述瞳孔运动轨迹的趋势;
将视频图像中第一帧图片的水平和垂直坐标作为参考坐标(x0,y0)以判断扫视方向;
根据视频数据在水平方向上的持续时间和设置的坐标阈值(0.2824-0.3765),将位于坐标阈值以上的信号置为0,得到处理后的水平和垂直方向信号信息,这里水平信号的持续时间指的是眨眼时间,一般在0.5秒即15帧图片,这里的坐标阈值指的以本领域技术人员经过大量实验得到一个用来于眨眼信号进行比较的的经验值;
将所述瞳孔运动轨迹进行归一化处理后,得到处理后的水平和垂直方向信号信息;
将处理后的水平方向信号信息和处理后垂直方向信号信息取绝对值后叠加求平均值,并根据平均值设置可调节阈值,其中可调节阈值的范围是0.1252-0.3757)作为视频数据端点检测阈值,这里阈值的调节过程为依次从平均值的0.5-1.5倍中取值,并将眼动和非眼动数据很好区分开的值作为阈值。
从第一帧图像开始,依次判断每帧图像的幅值是否大于可调节阈值;
若否,则确定该真图像为非扫视信号,将非扫视段值置为0并用方波表示;
若是,则确定该帧图像位于扫视信号内,将扫视段值置为1并用方波表示;
将方波信号两两做差,将差值为1的点做为起点,将差值为-1的点做为终点,分别存进两个向量,得到视频的有效数据段。
S4、选择EOG数据端点检测结果和视频数据端点检测结果中有效数据较长端点作为最终的端点检测结果应用到EOG数据和视频数据中,得到EOG和视频两种模态下的有效眼动数据段;
需要说明的是,由于端点检测内数据的越长,包含的眼动信息就越多。本实施例中将EOG数据的端点检测结果与视频数据的端点检测结果进行比较,选取数据较长的端点检测结果作为最终唯一的端点结果,并将数据较长的端点结果应用到数据长度较短的EOG数据和视频数据中。如此,得到的EOG数据和视频数据的有效眼动数据段包含的眼动信息比较全面。
本实施例中眼动信号端点检测效果如图9。其中:(a)EOG数据,(b)EOG数据对应的短时能量,(c)EOG数据端点检测结果.,(d)原始视频瞳孔轨迹数据,(e)视频中超过阈值部分形成的方波,(f)视频端点检测结果。
图9-(a)与图8所示的受试者原始眼电信号波形相比,EOG端点内的数据是原始数据中有效眼动片段。端点检测是为之后的特征提取做准备。
S5、分别将两种模态下的有效眼动数据段分成训练集和测试集,对训练集中和测试集的有效眼动数据进行特征提取,得到两种模态下有效眼动数据的特征参数;
具体地,采用小波包变换对EOG端点检测内的数据进行特征提取,其中小波包变换母函数为sym4函数,分阶层为3层,且层分解得到的小波包系数中选取第一个低频系数作为EOG模态下的特征参数。如图10所示,在对EOG数据进行小波包系数分解后,EOG信号主要集中在低频附近,且从图10中可以看出节点(3,0)与原始波形(0,0)节点相似度最高,因此选择节点(3,0)为提取的特征向量。
具体地,利用二维小波变换对视频中的眼动扫视图片进行分解,提取特征参数的具体过程如图11所示:
a、采用二维小波变换的母函数为db2,分解层数为4层,将预处理后的视频中眼动扫视帧图片分解成水平、垂直、对角线和低频四个频带,得到不同方向、不同频率成份的4个子图像;
b、将分解得到的四个子图像按照第一行低频、垂直,第二行水平、对角线的顺序组合成一个总图,将总图每行首尾相连形成一个特征向量;
c、重复步骤a至b,直至对端点检测后有效视频段内所有帧图片处理完毕,并将结果记录到一个特征矩阵中;
d、将步骤c所得到的特征矩阵每一行首尾相连,得到表示扫视眼动状态的视频模态下的特征参数。
S6、将两种模态下有效眼动数据的特征参数分别送入SVM分类器中进行训练,分别得到基于EOG的分类模型以及基于视频的分类模型;
需要说明的是,本实施例中支持向量机(Support Vector Machine,SVM)所使用的核函数为线性核函数,惩罚系数设为1。
S7、利用基于决策层面的模型融合方法将基于EOG的分类模型和基于视频的分类模型进行融合,将决策输出类别作为融合后的分类结果;
需要说明的是,以本实施例中对受试者8个扫视类别数据进行采集的数据为例,说明基于决策层面的模型融合的过程如下:
根据如下公式分别计算EOG数据、视频数据8个类别所对应的后验概率:
式中,C(x)为EOG或视频分类器得到的分类结果。Cfinal(x)为基于最大值法的决策级融合方法的输出,Q是用于融合可以选择的所有分类器的集合,k为扫视动作信号的类别数,Pq(wa|x)为根据分类器q分类为wa时样本为x的后验概率。
将EOG数据和视频数据中8个类别所对应的后验概率分别进行相互比较;
选择较高的后验概率所对应的扫视动作类别进行输出。
S8、利用测试集中数据的两种模态下有效眼动数据的特征参数重新执行步骤S6~S7;
需要说明的是,本实施例中的预设值是本领域技术人员经过多次试验得到的一个用于与测试结果进行比较的经验值。
S9、判断得到的测试结果是否满足预设值;
S10、若是,则执行步骤S6~S7对当前采集的两种模态下有效眼动数据特征参数进行处理,进行扫视信号识别,若否,则重新执行步骤S1。
进一步地,本实施例中将两种模态下的有效眼动数据样本分为三份子样本,轮流的将其中一份子样本作为测试样本,剩下两份子样本作为训练子样本。如此轮流交叉进行三次训练,得到三个融合分类模型,并得到三个测试结果,将三个测试结果求平均,得到一个单一估测。三次交叉验证的好处在于可以有效的避免过学习以及欠学习状态的发生,最后得到的结果也比较具有说服性.
如图12至13所示,本实施例公开了一种基于双模态分类模型融合的扫视信号识别系统,包括:依次连接的采集模块10、预处理模块20、端点检测模块30、有效数据段检测模块40、特征提取模块50、训练模块60、融合模块70以及测试模块80;
采集模块10用于同步采集受试者不同扫视动作类别的EOG数据和视频数据,并将采集的数据传输至预处理模块20;
预处理模块20用于对EOG数据和视频数据分别进行预处理,得到预处理后的EOG数据和视频数据,并将预处理后的数据传输至端点检测模块30;
端点检测模块30用于分别采用能量法对预处理后的EOG数据进行端点检测,采用阈值法对预处理后的视频数据进行端点检测,得到EOG数据的端点检测结果以及视频数据的端点检测结果,并将检测结果传输至有效数据段检测模块40;
有效数据段检测模块40用于选择EOG数据端点检测结果和视频数据端点检测结果中有效数据较长端点作为最终的端点检测结果应用到EOG数据和视频数据中,得到EOG和视频两种模态下的有效眼动数据段;
特征提取模块50用于分别将两种模态下的有效眼动数据段分成训练集和测试集,对训练集和测试集中的有效眼动数据进行特征提取,得到两种模态下有效眼动数据的特征参数,并将提取的特征传输至特征训练模块60;
训练模块60用于将两种模态下有效眼动数据的特征参数分别送入SVM分类器中进行训练,分别得到基于EOG的分类模型以及基于视频的分类模型,并将得到的两个分类模型传输至融合模块70;
融合模块70用于利用基于决策层面的模型融合方法将基于EOG的分类模型和基于视频的分类模型进行融合,将决策输出类别作为融合后的分类结果,并将模型融合方法传输至测试模型80;
测试模型80用于利用测试集中的数据对融合模块70中的融合过程型融合方法进行测试,测试后确定融合过程可行的话,则利用该融合过程对当前采集到的两种模态的特征参数进行扫视信号识别。
需要说明的是,如图14所示,对八个受试者在EOG单模态、视频数据单模态以及EOG、视频数据多模态下得到的信号进行识别的准确率如图10所示。图中可以看出,单独对EOG或者视频数据进行识别的平均精度分别达到80.33%和82.41%,采用EOG和视频数据决策层面的融合进行识别的平均精度为89.96%。结果表明,采用本实施了公开的多模态结合方法可以在每一个单模态中组合补充信心,使得与单一模态相比,识别正确率得到了极大的提升。
需要说明的是,本实施例公开的EOG和视频结合进行扫视信号识别的方法,对同步采集的EOG数据和视频数据进行预处理后,各自提取了小波包和二维小波特征。然后将EOG和视频得到的分类模型进行了决策层面的融合,融合后的特征具有更多的互补信息,当视频数据受到光线影响时,可以利用EOG数据的稳定性来提高识别率;受试者的轻微动作影响到EOG的识别时,也可以用视频数据来对分类结果进行调整,因此具有较强的鲁棒性。对多名受试者进行多次实验,其结果表明本发明平均正确率达到89.96%以上,比使用EOG方法和视频方法分别高出9.63%和7.55%。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于双模态分类模型融合的扫视信号识别方法,其特征在于,包括:
S1、同步采集受试者不同扫视动作类别的EOG数据和视频数据;
S2、对EOG数据和视频数据分别进行预处理,得到预处理后的EOG数据和视频数据;
S3、分别采用能量法对预处理后的EOG数据进行端点检测,采用阈值法对预处理后的视频数据进行端点检测,得到EOG数据的端点检测结果以及视频数据的端点检测结果;
S4、选择EOG数据端点检测结果和视频数据端点检测结果中有效数据较长端点作为最终的端点检测结果应用到EOG数据和视频数据中,得到EOG和视频两种模态下的有效眼动数据段;
S5、分别将两种模态下的有效眼动数据段分成训练集和测试集,对训练集和测试集中的有效眼动数据进行特征提取,得到两种模态下有效眼动数据的特征参数;
S6、将两种模态下有效眼动数据的特征参数分别送入SVM分类器中进行训练,分别得到基于EOG的分类模型以及基于视频的分类模型;
S7、利用基于决策层面的模型融合方法将基于EOG的分类模型和基于视频的分类模型进行融合,将决策输出类别作为融合后的分类结果;
S8、利用测试集中数据的两种模态下有效眼动数据的特征参数重新执行步骤S6~S7;
S9、判断得到的测试结果是否满足预设值;
S10、若是,则执行步骤S6~S7对当前采集的两种模态下有效眼动数据特征参数进行处理,进行扫视信号识别,若否,则重新执行步骤S1。
2.如权利要求1所述的方法,其特征在于,所述的步骤S2,具体包括:
对所述EOG数据进行带通滤波和去均值处理,得到预处理后的EOG数据;
对所述眼动视频数据进行粒子滤波处理,计算瞳孔中心位置,获得瞳孔运动轨迹。
3.如权利要求1所述的方法,其特征在于,所述的步骤S3中采用能量法对预处理后的EOG数据进行端点检测,具体包括:
对预处理后的EOG数据进行分帧加窗处理,并设置经验能量门限值E0;
计算当前滑动窗内的能量值E,判断能量值E是否大于能量门限值E0;
若是,则将该点标记为可能起始点,并从起始点向后搜索,判断后续点对应的能量值是否大于能量门限值E0;
若是,则EOG信号段样本点数加1;
若否,则空白段样本点数加1;
判断空白段样本点数是否小于空白段允许的最大样本点数;
若是,则确定当前滑动窗还在EOG信号段;
若否,则判断EOG信号段样本点数是否大于EOG信号段允许的最小样本点数;
若是,则确定EOG信号有效起止段;
若否,则重置EOG信号段和空白样本段的样本点数为0,重新确定EOG信号段起点。
4.如权利要求2所述的方法,其特征在于,所述的步骤S3中采用阈值法对预处理后的视频数据进行端点检测,具体包括:
利用最小二乘法对所述瞳孔运动轨迹进行处理,消除所述瞳孔运动轨迹的趋势;
将视频图像中第一帧图片的水平和垂直坐标作为参考坐标(x0,y0)以判断扫视方向;
根据视频数据在水平方向上的持续时间和设置的坐标阈值,将位于坐标阈值以上的信号置为0,得到处理后的水平和垂直方向信号信息;
将所述瞳孔运动轨迹进行归一化处理后,得到处理后的水平和垂直方向信号信息;
将处理后的水平方向信号信息和处理后垂直方向信号信息取绝对值后叠加求平均值,并根据平均值设置可调节阈值作为视频数据端点检测阈值;
从第一帧图像开始,依次判断每帧图像的幅值是否大于可调节阈值;
若否,则确定该真图像为非扫视信号,将非扫视段值置为0并用方波表示;
若是,则确定该帧图像位于扫视信号内,将扫视段值置为1并用方波表示;
将方波信号两两做差,将差值为1的点做为起点,将差值为-1的点做为终点,分别存进两个向量,得到视频的有效数据段。
5.如权利要求2所述的方法,其特征在于,所述的步骤S5中对训练集和测试集中的有效眼动数据进行特征提取,具体包括:
对EOG的有效眼动数据段进行小波包变换处理,提取EOG数据的特征;
对视频的有效眼动数据段进行二维小波变换处理,提取视频数据的特征。
6.如权利要求5所述的方法,其特征在于,所述的对EOG的有效眼动数据段进行小波包变换处理,具体包括:
利用母函数为sym函数、分解层数为3层的小波包对所述预处理后的EOG数据进行处理;
从分解得到的小波包系数中选取第一个低频系数作为EOG模态下的特征参数。
7.如权利要求5所述的方法,其特征在于,所述的对视频的有效眼动数据段进行二维小波变换处理,具体包括:
将所述预处理后的视频数据中的眼动扫视图片采用二维小波变换进行分解,得到水平、垂直、对角线和低频四个频带,其中母函数为db2,分解层数为4层;
将分解得到的四个子图像按照第一行低频、垂直,第二行水平、对角线的顺序组合成一个总图;
将总图中每行首尾相连得到一个向量并放入矩阵中,将矩阵每行首尾相连得到表示扫视状态的视频特征参数。
8.如权利要求1-7任一项所述的方法,其特征在于,所述的S7,具体包括:
分别计算EOG数据、视频数据不同扫视动作类别所对应的后验概率;
将EOG数据和视频数据中每个扫视动作类别所对应的后验概率进行相互比较;
选择较高的后验概率所对应的扫视动作类别进行输出。
9.一种基于双模态分类模型融合的扫视信号识别系统,其特征在于,包括:依次连接的采集模块(10)、预处理模块(20)、端点检测模块(30)、有效数据段检测模块(40)、特征提取模块(50)、训练模块(60)、融合模块(70)以及测试模块(80);
采集模块(10)用于同步采集受试者不同扫视动作类别的EOG数据和视频数据,并将采集的数据传输至预处理模块(20);
预处理模块(20)用于对EOG数据和视频数据分别进行预处理,得到预处理后的EOG数据和视频数据,并将预处理后的数据传输至端点检测模块(30);
端点检测模块(30)用于分别采用能量法对预处理后的EOG数据进行端点检测,采用阈值法对预处理后的视频数据进行端点检测,得到EOG数据的端点检测结果以及视频数据的端点检测结果,并将检测结果传输至有效数据段检测模块(40);
有效数据段检测模块(40)用于选择EOG数据端点检测结果和视频数据端点检测结果中有效数据较长端点作为最终的端点检测结果应用到EOG数据和视频数据中,得到EOG和视频两种模态下的有效眼动数据段;
特征提取模块(50)用于分别将两种模态下的有效眼动数据段分成训练集和测试集,对训练集和测试集中的有效眼动数据进行特征提取,得到两种模态下有效眼动数据的特征参数,并将提取的特征传输至特征训练模块(60);
训练模块(60)用于将两种模态下有效眼动数据的特征参数分别送入SVM分类器中进行训练,分别得到基于EOG的分类模型以及基于视频的分类模型,并将得到的两个分类模型传输至融合模块(70);
融合模块(70)用于利用基于决策层面的模型融合方法将基于EOG的分类模型和基于视频的分类模型进行融合,将决策输出类别作为融合后的分类结果;
测试模型(80)用于利用测试集中的数据对融合模块(70)的过程进行测试,以利用模型融合过程进行扫视信号识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710695421.4A CN107480635B (zh) | 2017-08-15 | 2017-08-15 | 一种基于双模态分类模型融合的扫视信号识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710695421.4A CN107480635B (zh) | 2017-08-15 | 2017-08-15 | 一种基于双模态分类模型融合的扫视信号识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480635A true CN107480635A (zh) | 2017-12-15 |
CN107480635B CN107480635B (zh) | 2020-09-18 |
Family
ID=60600486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710695421.4A Active CN107480635B (zh) | 2017-08-15 | 2017-08-15 | 一种基于双模态分类模型融合的扫视信号识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480635B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491792A (zh) * | 2018-03-21 | 2018-09-04 | 安徽大学 | 基于眼电信号的办公场景人机交互行为识别方法 |
CN109117711A (zh) * | 2018-06-26 | 2019-01-01 | 西安交通大学 | 基于眼动数据的分层特征提取与融合的专注度检测装置及方法 |
CN110298303A (zh) * | 2019-06-27 | 2019-10-01 | 西北工业大学 | 一种基于长短时记忆网络扫视路径学习的人群识别方法 |
CN117219067A (zh) * | 2023-09-27 | 2023-12-12 | 北京华星酷娱文化传媒有限公司 | 一种基于语音理解的短视频自动生成字幕的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104323773A (zh) * | 2014-10-31 | 2015-02-04 | 东北大学 | 一种基于eog的erg信号采集与处理系统及方法 |
CN105640500A (zh) * | 2015-12-21 | 2016-06-08 | 安徽大学 | 基于独立分量分析的扫视信号特征提取方法和识别方法 |
CN105816181A (zh) * | 2016-03-11 | 2016-08-03 | 安徽大学 | 基于eog的阅读行为识别方法及设备 |
-
2017
- 2017-08-15 CN CN201710695421.4A patent/CN107480635B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104323773A (zh) * | 2014-10-31 | 2015-02-04 | 东北大学 | 一种基于eog的erg信号采集与处理系统及方法 |
CN105640500A (zh) * | 2015-12-21 | 2016-06-08 | 安徽大学 | 基于独立分量分析的扫视信号特征提取方法和识别方法 |
CN105816181A (zh) * | 2016-03-11 | 2016-08-03 | 安徽大学 | 基于eog的阅读行为识别方法及设备 |
Non-Patent Citations (3)
Title |
---|
ANDREAS BULLING ET AL: "Eye Movement Analysis for Activity Recognition Using Electrooculography", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
RUO-FEI DU ET AL: "Online vigilance analysis combining video and electrooculography features", 《ICONIP 2012》 * |
张贝贝 等: "基于EOG的阅读行为识别中眨眼信号去除算法研究", 《信号处理》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491792A (zh) * | 2018-03-21 | 2018-09-04 | 安徽大学 | 基于眼电信号的办公场景人机交互行为识别方法 |
CN108491792B (zh) * | 2018-03-21 | 2022-07-12 | 安徽大学 | 基于眼电信号的办公场景人机交互行为识别方法 |
CN109117711A (zh) * | 2018-06-26 | 2019-01-01 | 西安交通大学 | 基于眼动数据的分层特征提取与融合的专注度检测装置及方法 |
CN110298303A (zh) * | 2019-06-27 | 2019-10-01 | 西北工业大学 | 一种基于长短时记忆网络扫视路径学习的人群识别方法 |
CN110298303B (zh) * | 2019-06-27 | 2022-03-25 | 西北工业大学 | 一种基于长短时记忆网络扫视路径学习的人群识别方法 |
CN117219067A (zh) * | 2023-09-27 | 2023-12-12 | 北京华星酷娱文化传媒有限公司 | 一种基于语音理解的短视频自动生成字幕的方法及系统 |
CN117219067B (zh) * | 2023-09-27 | 2024-04-09 | 北京华星酷娱文化传媒有限公司 | 一种基于语音理解的短视频自动生成字幕的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107480635B (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110313923B (zh) | 基于联合注意能力测试和音视频行为分析的孤独症早期筛查系统 | |
CN103340637B (zh) | 基于眼动与脑电融合的驾驶员警觉度智能监控系统及方法 | |
CN107480716A (zh) | 一种结合eog和视频的扫视信号识别方法及系统 | |
CN104143079B (zh) | 人脸属性识别的方法和系统 | |
CN111523601B (zh) | 一种基于知识引导和生成对抗学习的潜在情绪识别方法 | |
CN107480635A (zh) | 一种基于双模态分类模型融合的扫视信号识别方法及系统 | |
JP6899989B2 (ja) | 感情推定装置及び感情推定方法 | |
CN111046823A (zh) | 基于课堂视频的学生课堂参与度分析系统 | |
CN106407935A (zh) | 基于人脸图像和眼动注视信息的心理测试方法 | |
CN106909220A (zh) | 一种适用于触控的视线交互方法 | |
CN102496005A (zh) | 基于眼球特征的审讯辅助研判分析系统 | |
CN106491129B (zh) | 一种基于eog的人体行为识别系统及方法 | |
CN107480586B (zh) | 基于人脸特征点位移的生物识别照片仿冒攻击检测方法 | |
CN107330393A (zh) | 一种基于视频分析的新生儿疼痛表情识别方法 | |
CN110363129A (zh) | 基于微笑范式和音视频行为分析的孤独症早期筛查系统 | |
CN111930238B (zh) | 基于动态ssvep范式的脑机接口系统实现方法及装置 | |
CN110037693A (zh) | 一种基于面部表情和eeg的情绪分类方法 | |
CN103892829A (zh) | 一种基于共同空间模式的眼动信号识别系统及其识别方法 | |
CN108920699B (zh) | 一种基于N2pc的目标识别反馈系统及方法 | |
CN107411738A (zh) | 一种基于静息脑电相似性的情绪跨个体识别方法 | |
CN109717878A (zh) | 一种用于孤独症共同注意诊断范式的检测系统及使用方法 | |
CN110364260A (zh) | 基于指示性语言范式的孤独症早期评估装置及系统 | |
CN113920568A (zh) | 基于视频图像的人脸和人体姿态情绪识别方法 | |
Phuong et al. | An eye blink detection technique in video surveillance based on eye aspect ratio | |
Song et al. | A multimodal discrimination method for the response to name behavior of autistic children based on human pose tracking and head pose estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |