CN111090337B

CN111090337B - 一种基于cfcc空间梯度的键盘单键击键内容识别方法

Info

Publication number: CN111090337B
Application number: CN201911147998.7A
Authority: CN
Inventors: 刘影; 石松宁; 南敬昌
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2023-04-07
Anticipated expiration: 2039-11-21
Also published as: CN111090337A

Abstract

本发明公开一种基于CFCC空间梯度的键盘单键击键内容识别方法，属于非接触式识别技术领域，该方法分为初始识别阶段及梯度识别阶段，初始识别阶段将提取的击键声音信号的CFCC值，通过BP神经网络的方法进行击键内容的识别，识别准确率低的键再通过梯度识别阶段，计算与其他键之间的曼哈顿距离及CFCC差值构建CSG矩阵并构建新的训练集和测试集，重新训练BP神经网络，得到最终的分类结果。本发明可以更好的缓解环境的干扰和测量设备多样性带来的影响，比采用原始的CFCC更具有鲁棒性，使得声音信号特征在空间上具有区分性，时间上更加稳定。

Description

一种基于CFCC空间梯度的键盘单键击键内容识别方法

技术领域

本发明涉及非接触式识别技术领域，尤其涉及一种基于CFCC空间梯度的键盘单键击键内容识别方法。

背景技术

键盘作为日常生活办公的重要输入设备，在个人工作安全等方面具有重要的地位。研究人员尝试对人们敲击键盘的行为特征以及引起周围电磁波信号的变化进行研究，进而来识别用户敲击键盘的内容，或根据键盘输入识别其应用，利用这些应用促进上下文感知服务。

目前研究方案大多基于声音信号的频谱进行分析，通过对用户敲击键盘时的声音信号进行分析，可以对用户敲击键盘输入的内容进行有效的识别。在2004年，Asonov等人首次使用声音信号来识别用户击键内容。研究基础为，当用户敲击键盘时，不同的按键因位置的不同，振动的幅度和相位不尽相同，提出通过计算击键信号频谱图，提取频谱图上信号峰值部分数据作为击键声音信号的击键特征值用来训练神经网络，进而完成对击键信号的识别。由于在实际环境中噪声的影响很大，导致信噪比很小，因而准确率不是很高。Zhu等人使用不同的击键声音信号传播到同一手机不同听筒的时间差(Time Difference ofArrival)信息，来精确定位出所敲击的按键位于键盘上的位置。利用双曲线模型规划出敲击按键大致所在区域，当采用多台智能设备进行定位时，击键信号位置所处的区域便会不断进行缩小，多个区域重叠的区域称为“热点区域”。但此定位技术需要智能设备具有两个或者两个以上的麦克风，且需要多个智能设备才能将区域压缩至足够小。此外击键信号到达麦克风的时间提取较为困难，实现算法较为复杂。Ali提出一种基于WiFi信号的击键识别方法，首次展示了WiFi信号也可以用来识别击键内容。当用户敲击某个按键时，不同用户的手腕和手指以自身独有的方向和形式移动，从而在信道状态信息(Channel StateInformation,CSI)值的时间序列中生成独特的模式，利用这种特性作为击键信号的特征。然而，由于无线信号具有CSI不稳定特点以及信号在空间传播时多径效应的存在，所以信号的获取，分析以及应用极其困难。

综上所述，基于神经网络的声音击键识别方法由于受实际环境中噪声影响很大，导致信噪比很小，因而准确率不是很高。利用击键声音到达的不同时间来确定所敲击按键的位置，此定位技术需要智能设备具有两个以上的麦克风，且需要多个智能设备才能将区域压缩至足够小。基于电磁波的击键识别，当多个电磁波信号同时存在时，不同电磁波信号之间存在着一定程度的干扰，人类活动等外部活动也会对无线信号产生较大的干扰。

发明内容

针对上述现有技术的不足，本发明提供一种基于CFCC空间梯度的键盘单键击键内容识别方法，这种基于CFCC空间梯度(CFCC Spatial Grandient,CSG)的键盘单键击键内容识别方法是现有CFCC特征的有效补充和替代，为未来实现即基于声音的击键识别提供帮助。

为解决上述技术问题，本发明所采取的技术方案是：一种基于CFCC空间梯度的键盘单键击键内容识别方法，其简化流程如图1所示，包括如下步骤：

步骤1：采集多组敲击键盘时每个字母的声音信号，并给每组声音信号加上类别标签，形成样本集；

步骤2：采用CFCC的方法提取每个样本的特征参数，与样本的类别标签形成新的样本集，并将其按一定比例划分为训练集和测试集；

步骤3：通过BP神经网络对训练集进行训练，得到训练好的BP神经网络模型；

步骤4：将测试集输入训练好的BP神经网络模型中进行测试，得到测试集中每个样本的类别；

步骤5：设定一个测试准确率阈值μ，计算同一类别样本的测试准确率并与阈值μ进行比较，若大于阈值μ则输出类别结果，否则执行步骤6；

步骤6：通过计算测试准确率低于阈值μ的γ键与其他键之间的曼哈顿距离及CFCC差值构建γ键的CSG矩阵；

步骤6.1：根据键盘的形状，在键盘的左下角建立坐标系，将每个字母由坐标系上的点表示；

步骤6.2：计算γ键与其他键之间的曼哈顿距离：

d(γ,β)＝|γ_x-β_x|+|γ_y-β_y|

其中，d(γ,β)为γ键和β键的曼哈顿距离，γ_x、γ_y分别为γ键在x、y轴上的坐标，β_x、β_y分别为β键在x、y轴上的坐标；

步骤6.3：计算γ键与其他键之间的CFCC差值：

φ(CFCC_γ,CFCC_β)＝CFCC_γ-CFCC_β

其中，φ(CFCC_γ,CFCC_β)是γ键和β键之间的CFCC差值含p条记录，CFCC_γ表示γ键提取的声音信号特征，有p条记录，即

同理CFCC_β表示β键提取的声音信号特征，有p条记录，即

步骤6.4：将步骤6.2及步骤6.3得到的数据合成γ键的CSG距离矩阵：

g＝{<d(γ,β),φ(CFCC_γ,CFCC_β)>}

步骤1至步骤6为初始识别阶段，其流程如图2所示。

步骤7：基于γ键的CSG矩阵，构建新的训练集和测试集；

步骤7.1：根据曼哈顿距离由远及近的原则，选取γ键的CSG矩阵中曼哈顿距离为i的所有相邻位置的邻域集合；

步骤7.2：根据步骤4得到的BP神经网络对γ键所有测试样本的类别判断，从结果中选择分类概率高的M个相似类别，并采用步骤7.1的方法选择这M个相似类别的邻域集合；

步骤7.3：将M个相似类别训练集中原始样本的CFCC值与步骤7.2得到的M个相似类别的邻域集合的训练集样本CFCC值分别做差，得到新的训练样本集；

步骤7.4：根据步骤4得到的BP神经网络对γ键所有测试集中原始样本CFCC值与步骤7.2得到的M个相似类别的邻域集合的测试集原始样本CFCC值分别做差，得到新的测试集。

步骤8：根据步骤7.3得到新的训练集进行神经网络训练，将步骤7.4得到新的测试样本集输入到新训练好的神经网络中，从结果中选择分类概率最高的类别作为γ键的输出类别。

采用上述技术方案所产生的有益效果在于：

1、本发明建立的CSG矩阵，具体刻画了每个键自身CFCC与其它键CFCC之间的差异。CSG作为一种相对形式，可以更好的缓解环境的干扰和测量设备多样性带来的变化影响，比原始的CFCC更具有鲁棒性，使得声音信号特征在空间上具有区分性，时间上更加稳定；

2、本发明采用构建CSG矩阵的方法可以减少测试样本的数量，进而缩小训练时间，提升训练效率。

附图说明

图1为本发明一种基于CFCC空间梯度的键盘单键击键内容识别方法的简化流程图；

图2为本发明步骤1至步骤6初始识别阶段的流程图；

图3为本发明实施例中根据键盘的形状建立坐标系的示意图；

图4为本发明实施例中相似类别M＝3时构建测试样本集的示意图；

图5为本发明实施例中部分键的CFCC图；

图6为本发明实施例中部分键于其他键的CFCC差值图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例的方法如下所述。

步骤1：本实施例采用智能手机中的麦克风采集键盘上26个英文字母的声音样本，从字母“A”到字母“Z”各采集110组击键声音信号，共26*110组原始声音信号。给每个字母的声音信号加上类别标签，如“A”的类别标签为“1”，“B”的类别标签为“2”，……，“Z”的类别标签为“26”，带类别标签的26*110组声音信号形成样本集。

步骤2：采用CFCC的方法提取每个样本的特征参数，与样本的类别标签形成新的样本集，并将每类样本中的100个样本作为训练集，剩下的10个样本作为测试集，部分样本的CFCC特征参数如图5所示；

本实施例设置的测试准确率阈值μ为95％，初始识别阶段样本预测准确的类别有11种，分别为A、C、F、H、I、L、N、P、T、X、Y；另外测试准确率没有达到阈值的15类中，有9个样本预测正确的类别有10种，分别为D、G、J、K、M、O、R、U、V、W；有8个样本预测正确的类别有4种，分别为B、E、Q、Z；有7个样本预测正确的类别有1种，为S。对于击键识别的性能比较采用准确率计算公式为：

步骤6.1：根据键盘的形状，在键盘的左下角建立坐标系，将每个字母由坐标系上的点表示，如图3所示；

本实施例以字母“Z”与字母“F”为例，其坐标表示分别为(1，1)和(4，2)。

步骤6.2：计算γ键与其他键之间的曼哈顿距离：

d(γ,β)＝|γ_x-β_x|+|γ_y-β_y|

本实施例中字母“Z”与字母“F”的曼哈顿距离可以表示为：

d(Z,F)＝|1-4|+|1-2|＝4

步骤6.3：计算γ键与其他键之间的CFCC差值：

φ(CFCC_γ,CFCC_β)＝CFCC_γ-CFCC_β

同理CFCC_β表示β键提取的声音信号特征，有p条记录，即

本实施例中以“G”键与“H”键为例，图6分别展示了“G”键与“V”和“Q”键的CFCC差值图；“H”键与“N”键和“P”键的CFCC差值图。

g＝{<d(γ,β),φ(CFCC_γ,CFCC_β)>}

步骤7：基于γ键的CSG矩阵，构建新的训练集和测试集；

本实施例以在初始识别阶段的识别准确率低于阈值95％的字母“D”为例，字母“D”被分类为“D”、“B”、“F”的概率最高，则将4、2、6类作为4类的相似类别。类别4、2、6的领域集合分别为距离为i的所有相邻位置，当i取值为1时，领域集合为{“S”、“N”、“G”}即类别标签为19、14、7的样本集；当i取值为2时，领域集合为{“W”、“M”、“T”}即类别标签为23、13、20的样本集；当i取值为3时，领域集合为{“Q”、“X”、“Y”}即类别标签为17、11、25的样本集；当i取值为4时，领域集合为{“Y”、“K”、“U”}即类别标签为25、11、21的样本集。

将类别4、2、6的原始训练样本3*100组数据分别与i取值为1、2、3、4时它们各自的邻域训练集做差，得到3*i*100组数据，即为新的训练样本集，新的训练样本集的构建过程的示意图如图4所示。

将类别4、2、6的原始测试样本3*10组数据分别与i取值为1、2、3、4时它们各自的邻域测试集做差，得到3*i*10组数据，即为新的测试样本集。

如果想要提高计算速度，建议选取曼哈顿距离较远的键，本实施例中选取i＝4时，“D”、“B”、“F”的邻域集合{“Y”、“K”、“U”}作为邻域。

Claims

1.一种基于CFCC空间梯度的键盘单键击键内容识别方法，其特征在于包括如下步骤：

步骤6：通过计算测试准确率低于阈值μ的γ键与其他键之间的曼哈顿距离及CFCC差值构建γ键的CSG矩阵；所述CSG为CFCC空间梯度；

所述步骤6的过程如下：

步骤6.2：计算γ键与其他键之间的曼哈顿距离：

d(γ，β)＝|γ_x-β_x|+|γ_y-β_y|

其中，d(γ，β)为γ键和β键的曼哈顿距离，γ_x、γ_y分别为γ键在x、y轴上的坐标，β_x、β_y分别为β键在x、y轴上的坐标；

步骤6.3：计算γ键与其他键之间的CFCC差值：

φ(CFCC_γ，CFCC_β)＝CFCC_γ-CFCC_β

其中，φ(CFCC_γ，CFCC_β)是γ键和β键之间的CFCC差值，含p条记录，CFCC_γ表示γ键提取的声音信号特征，有p条记录，即

同理CFCC_β表示β键提取的声音信号特征，有p条记录，即

步骤6.4：将步骤6.2及步骤6.3得到的数据合成g键的CSG距离矩阵：

g＝{<d(γ，β)，φ(CFCC_γ，CFCC_β)>}

步骤7：基于γ键的CSG矩阵，构建新的训练集和测试集；

所述步骤7的过程如下：

步骤7.1：根据曼哈顿距离由远及近的原则，选取γ键的CSG矩阵中曼哈顿距离不超过i的所有相邻位置的邻域集合；

步骤7.4：根据步骤4得到的BP神经网络对γ键所有测试集中原始样本CFCC值与步骤7.2得到的M个相似类别的邻域集合的测试集原始样本CFCC值分别做差，得到新的测试集；

步骤8：根据步骤7得到新的训练集进行神经网络训练，将步骤7得到新的测试样本集输入到新训练好的神经网络中，从结果中选择分类概率最高的类别作为γ键的输出类别。