CN109657739A

CN109657739A - 一种基于高频声波短时傅里叶变换的手写字母识别方法

Info

Publication number: CN109657739A
Application number: CN201910018087.8A
Authority: CN
Inventors: 汤战勇; 李青佩; 翟双姣; 范天赐; 王焕廷; 房鼎益; 龚晓庆; 陈�峰
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2019-04-19
Anticipated expiration: 2039-01-09
Also published as: CN109657739B

Abstract

本发明涉及一种基于高频声波短时傅里叶变换的手写字母识别方法，将高频声波信号的短时傅里叶变换得到的频谱图作为特征，通过裁剪、灰度处理以及归一化处理之后训练卷积神经网络训练模型，并使用该模型提取特征，最后使用SVM分类器识别用户所写的英文字母。本发明的识别方法，无需用户佩戴额外的可穿戴设备或部署其他收发设备，同时不受环境中说话等其他噪音的影响，同时使用了深度学习与机器学习的方法建立用户模型，而非定位的方法还原用户手的移动轨迹，避免了其他方法要求用户一笔完成手写字母的缺陷。

Description

一种基于高频声波短时傅里叶变换的手写字母识别方法

技术领域

本发明涉及一种手写英文字母识别方法，具体涉及一种基于高频声波短时傅里叶变换的手写字母识别方法。

背景技术

随着互联网的发展以及电子硬件的发展，越来越多的人拥有手机以及手环，方便了人们的沟通、工作、学习以及日常生活。现在的输入方式基本是在触摸屏幕上输入，屏幕太大不便于携带，屏幕太小不便于操作，比如很多年龄较大的老年人不习惯虚拟键盘输入法，更倾向于使用手写输入，使用手写输入时，手机屏幕尺寸限制了书写区域，必须在手机屏幕区域内写字。由于人的手指比较粗，在较小的屏幕中输入时会造成极大的不便，比如屏幕比较小的手机或者手环。

近年来，随着AR(增强现实)和VR(虚拟现实)的发展，越来越多研究者开始关注在手机屏幕外实现人机交互。同时，有许多关于汉字识别以及英文字母识别的工作：

基于传感器的字母识别：GyroPen提出一种基于手机内置传感器的手写字识别方法，用户需要手持手机，将手机当作一个笔在桌子上写字，获取写字过程中手机内置的加速度传感器和陀螺仪数据识别用户用手机在桌子上划的字，对英文字母的识别错误率为18％。

基于无线信号的手写字识别：利用WiFi、RF信号等识别用户写的字，用户写字区域的两侧部署一个无线信号的发射端和一个无线信号的接收端，用户在发射端与接收端中间写字，写字过程中由于不同字的笔画不同，在写的过程中会对无线信号的反射产生影响，通过提取接收端信号的特征使用机器学习或者模式匹配的方法建立识别模型，在用户使用过程中用训练好的模型识别用户所写的字。虽然无需用户携带任何设备，但是需要部署收发设备，而且用户需要在规定的位置内写字，并且周围环境不能有太大的变换，否则会对信号的反射产生较大的影响，从而降低识别率。

基于声音信号的英文字母识别：WritingHacker根据不同字母笔画不同将26 个字母使用SVM分成笔画相同的几个大类，然后根据字典中的单词推测每一个字母是什么，识别率可以达到50％-60％。同时使用加速度传感器矫正。但是如果周围不断有突发噪声，则无法正常使用，比如用户不断说话时该系统不能正常使用。WordRecorder是一种最新的英文手写识别方法，用户左手戴一个手环，右手在桌面上写字，通过手环内置的麦克风录写字时笔尖与纸的摩擦产生的声音，然后使用卷积神经网络(CNN)训练模型识别用户所写的英文字母，平均正确率为81％，当环境中的噪音达到60dB时，正确率降至50％左右。这两种方法都不能在环境中噪声较大的时候使用，尤其是说话时产生的爆破声音。

基于声音信号的手势识别及定位：LLAP提出一种通过解调收到的信号来提取信号的相位的方法计算手移动的相对距离，这种方法只能识别一笔写成的字母，而26个字母里很多字母都不是一笔可以写成的，因此无法使用这种方法识别用户所写的英文字母。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种基于高频声波短时傅里叶变换的手写字母识别方法，在无需部署额外设备的前提下，降低环境噪声对识别率的影响，同时有效提高识别正确率。

为了实现上述任务，本发明采用以下技术方案：

一种基于高频声波短时傅里叶变换的手写字母识别方法，包括以下步骤：

步骤1，收集训练数据

在手机上设置有训练数据收集模块，用于发射调制好的高频声音信号，同时收录用户书写英文字母时所述高频声音信号的反射信号；高频声音信号的调制方法为：

步骤1.1，选择13位Barker码作为基带信号，13位Barker码表示为：

s＝[-1,-1,-1,-1,-1,1,1,-1,-1,1,-1,1,-1]

步骤1.2，将两个所述的13位Barker码连接后，再补14个0，使其长度为 40，记为S₁；

步骤1.3，对S₁进行12次上采样，得到长度为480的S₂，将S₂调制到频率为19kHz的正弦波上，表示为：

signal＝S₂·cos(2πf_ct)

其中，t表示时间，f_c表示载波频率，f_s表示采样率；

步骤1.4，使用带通滤波器去除signal信号其他频率上的噪声，只留下 17kHz-21kHz的高频声波信号；

步骤1.5，将滤波后的signal信号保存成wav格式，训练数据收集模块通过播放wav格式的signal信号发射高频声音信号；

将训练数据收集模块编写为APP文件，用户在手写英文字母时打开该APP 文件时，手机扬声器发射高频声音信号，与此同时手机麦克风收录所述高频声音信号在用户手写英文字母时的反射信号，并将收录到的信号进行存储，存储时声音信号的编码格式为PCM编码，并将PCM存储为wav格式的音频文件。

步骤2，训练网络模型

步骤2.1，读取步骤1中得到的wav文件，对其进行短时傅里叶变换；

提取wav文件中信号的频谱矩阵S和功率谱矩阵P，以及时间分割向量T和频率分割向量F，绘制(T,F,(P./abs(S)))三者之间关系的STFT图；

步骤2.2，将步骤2.1中得到的STFT图进行裁剪，只留下17kHz-21kHz的频率段的频谱图；

步骤2.3，对步骤2.2中裁剪后的频谱图进行灰度处理，使得3通道的彩色图像转换为单通道的灰度图像；

步骤2.4，对步骤2.3处理后的频谱图进行归一化处理，处理过程为： img＝(im-mean(im))/255，其中im为步骤2.3灰度处理后的频谱图数据，img为归一化处理后的数据；

步骤2.5，建立CNN模型

第1层为2D卷积层，第2层为MaxPooling2D池化层，第3层是2D卷积层，第4层是MaxPooling2D池化层，第5层是Dropout，第6-8层是2D卷积层，第9层是MaxPooling2D池化层，第10层是Dropout，第11层为Flatten层，将数据拉成1维；第12层是全连接层，第13层是Dropout，第14层是全连接层，第15层是Dropout，最后一层是使用softmax作为激活函数的全连接层，其余层的激活函数均为tanh；

步骤2.6，将步骤2.4处理得到的数据作为步骤2.5建立的CNN模型的输入，同时输入数据对应的标签，训练该CNN模型，并将训练好的CNN模型保存；

步骤2.7，使用步骤2.6得到的CNN模型提取Flatten层的数据作为SVM分类器的输入，训练SVM分类器模型，存储训练好的分类器模型；

步骤3，识别阶段

步骤3.1，使用步骤1的方法获取用户写字母时候的数据，然后使用步骤 2.1-2.4的方法对数据进行处理；

步骤3.2，将步骤3.1得到的数据作为步骤2.6的输入，使用步骤2.6得到的 CNN模型提取新数据的Flatten特征，通过步骤2.7保存的分类器模型来识别所写的英文字母。

本发明与现有技术相比具有以下技术特点：

1.用户不需要佩戴额外的可穿戴设备。

随着智能手机的普及，手机成了日常生活工作中不可缺少的一部分，大多数人都会随身携带手机，本方案提出的这种方法是使用手机内置扬声器麦克风，无需部署与佩戴额外设备，因此可以提高用户使用体验，避免了笨重的可穿戴设备。

2.不需要部署额外设备

该方法的收发端均为用户的手机。虽然这种方法也是需要发射信号以及接收信号，但是所发射的高频声波信号可以通过手机发射，而不需要部署额外的设备，如WiFi、RFID等信号需要部署收发端。

3.不受环境中说话等其他噪声的影响。

因为本方案发射的是高频的声波信号，提取的特征也是高频部分的特征，而环境中的噪音一般是低频的，因此环境中的噪声不会对这种方法产生较大的影响，用户无需找一个安静的环境中进行手写识别。

4.不限制用户需要一笔完成字母，用户按自己的习惯写英文字母。

本方案使用了深度学习与机器学习的方法建立用户模型，而非定位的方法还原用户手的移动轨迹，而大部分定位方法只能识别移动距离的相对变化，可以还原出一笔完成的图形，但是如果中间移动位置则无法还原出下一个起点在哪里。因此，本方案不使用这种估算相对位置变化的方法，而使用深度学习以及机器学习的方法来建立用户模型，避免了其他方法要求用户一笔完成手写字母的缺陷。

5.识别正确率高

本方案收集了7个实验者的实验数据，其中两个用户的正确率在85％以上，其余5名实验者的正确率均在90％以上，有效地提高了用户使用体验。

附图说明

图1为本发明方法的整体流程框图；

图2为CNN模型结构图；

图3为不同字母提取的特征图，分别给出了A、B、C三个字母的STFT图及其裁剪和灰度处理后的特征图；

图4为实验装置图，显示了手机扬声器麦克风的位置；

图5为实验者做实验时候的实验图；

图6为所录的声音信号的原始波形图；

图7为训练CNN模型迭代次数对应的损失函数值和验证集正确率曲线；

图8为不同用户直接使用CNN模型得到最后的识别结果的正确率；

图9为使用CNN模型和先使用CNN模型提取特征再使用SVM分类器识别得到的不同用户的正确率；

图10为不使用CNN提取特征直接使用分类器识别和使用CNN提取特征并识别的正确率对比图；

图11为识别26个字母的混淆矩阵图；

图12为该方法同UltraGesture方法识别UltraGesture中的12种手势的正确率对比。

具体实施方式

本方案提出使用手机自带扬声器播放调制好的具有一定带宽的高频声波信号，同时手机内置麦克风录该高频声波信号的反射信号，发射信号限制在 17kHz-21kHz以内，因为人耳的正常听觉范围为20Hz-20kHz，但是随着年龄的增长以及环境中噪音和长期听音乐等会对听力造成一定的影响，大部分成年人对 17kHz以上的声音几乎听不见，尤其是老年人几乎感觉不到手机发射的高频声波。由于本方案只分析所发射的高频声波信号的高频部分，而环境中的噪音一般是低频的，因此环境中的噪音不会对该方法进行手写英文字母识别的结果造成影响。

现在的手机基本支持44100Hz及以上的采样率，根据奈奎斯特采样定律知，可以录到的最高频率为22050Hz，因此本方案中采用17kHz-21kHz的声波信号，以保证人耳基本听不见的同时手机可以录到所发射的高频声波信号的发射信号。

由于本方案使用的是手机内置的扬声器与麦克风，因此无需部署任何额外设备作为信号的收发端。该方法是基于声波信号不同频率选择性衰减特性的原理，用户在写不同字母时手移动路径不同，因此会对频率产生不同的衰减以及反射。

本发明提出一种基于高频声波短时傅里叶变换的手写字母识别方法，用高频声波信号的短时傅里叶变换得到的频谱图作为特征，通过裁剪、灰度处理以及归一化处理之后训练卷积神经网络模型，并使用该模型提取特征，最后使用SVM 分类器识别用户所写的英文字母，具体步骤如下：

步骤1，收集训练数据

步骤1.1，选择13位Barker码作为基带信号，13位Barker码表示为：

s＝[-1,-1,-1,-1,-1,1,1,-1,-1,1,-1,1,-1]

步骤1.2，将两个所述的13位Barker码连接后，再补14个0，使其长度为 40，记为S₁，即：

S₁＝[S,S,0,0,0,0,0,0,0,0,0,0,0,0,0,0]

signal＝S₂·cos(2πf_ct)

其中，t表示时间，f_c表示载波频率，f_c＝19kHz；f_s表示采样率，f_s＝48kHz。

步骤1.4，使用巴特沃斯带通滤波器去除signal信号其他频率上的噪声，只留下17kHz-21kHz的高频声波信号，确保不会产生较大的噪声；

步骤1.5，将滤波后的signal信号保存成wav格式，训练数据收集模块通过播放wav格式的signal信号发射高频声音信号。

将训练数据收集模块编写为APP文件，用户在手写英文字母时通过手机打开该APP文件时，手机扬声器发射高频声音信号，与此同时手机麦克风收录所述高频声音信号在用户手写英文字母时的反射信号，并将收录到的信号进行存储，存储时声音信号的编码格式为16位PCM编码，再将PCM编码存储为wav格式保存到手机上，以便于后续的数据读取与处理。

通过收录大量用户在书写不同英文字母时的反射信号，从而获取对应的wav 文件数据作为训练数据。

步骤2，训练网络模型

步骤2.1，读取步骤1中得到的wav文件，对其进行短时傅里叶变换(STFT)，其中窗大小为1024，重叠大小为512，NFFT＝1024；

使用函数spectrogram()最终得到wav文件中信号的频谱矩阵S和功率谱矩阵P，以及时间分割向量T和频率分割向量F，可以画出(T,F,(P./abs(S)))三者之间关系的STFT图；其中，abs(S)表示求矩阵S的模，./表示矩阵除法。

步骤2.3，对步骤2.2中裁剪后的频谱图进行灰度处理，使得3通道的彩色图像转换为单通道的灰度图像，以达到降低数据维度的目的；

步骤2.4，对步骤2.3处理后的频谱图进行归一化处理，处理过程为： img＝(im-mean(im))/255，其中im为步骤2.3灰度处理后的频谱图数据，img为归一化处理后的数据；其中mean(im)表示对im求均值。

步骤2.5，建立CNN模型，CNN模型结构如图2所示。

第1层为2D卷积层，第2层为MaxPooling2D池化层，第3层是2D卷积层，第4层是MaxPooling2D池化层，第5层是Dropout，第6-8层是2D卷积层，第9层是MaxPooling2D池化层，第10层是Dropout，第11层为Flatten层，将数据拉成1维；第12层是全连接层，第13层是Dropout，第14层是全连接层，第15层是Dropout，最后一层是使用softmax作为激活函数输出26个标签的全连接层，其余层的激活函数均为tanh。

该CNN模型不作为最终识别用户手写字母的分类器使用，本方案使用该 CNN模型提取特征，使得特征维度降低，同时提取到具有代表性的特征，使得后面使用SVM分类器时可以达到一个较高的正确率，由于数据维度已经降低，因此可以提高SVM分类器的识别速度。

具体层结构如下表所示：

层数	结构
		1	Conv2D(input)
2	Maxpooling2D
		3	Conv2D
4	Maxpooling2D
		5	Dropout
6	Conv2D
		7	Conv2D
8	Conv2D
		9	Maxpooling2D
10	Dropout
		11	Flatten
12	Dense
		13	Dropout
14	Dense
		15	Dropout
16	Dense(26,activation＝’softmax’)

步骤2.6，将步骤2.4处理得到的数据作为步骤2.5建立的CNN模型的输入，同时输入步骤2.4得到的数据对应的标签，训练该CNN模型，得到可以识别英文字母的模型，并将训练好的CNN模型保存；

所述的标签是指数据对应的真实字母，即在步骤1.5收录用户书写英文字母的反射信号时，同时标记反射信号对应的字母的标签。

步骤2.7，使用步骤2.6得到的CNN模型提取Flatten层的数据作为SVM分类器的输入，训练SVM分类器模型，存储训练好的分类器模型，该SVM分类器模型即为最终可以识别用户所写英文字母的模型。

步骤3，识别阶段

步骤3.1，识别阶段的数据是没有标签的，首先使用步骤1的方法获取用户写字母时候的数据，然后使用步骤2.1-2.4的方法对数据进行处理；

实验部分

1.实验背景

实验地点为办公室，每个实验者在自己的工位上收集数据，每个工位上的布置(如书本、电脑等学习工具)不同，环境中的噪音基本在60dB左右。该实验中我们一共收集了7名实验者的数据，包含两名男生五名女生，每个实验者将每个大写英文字母写30遍，每个用户收集780组数据，7名用户共收集5460组数据。

2.实验场景

实验者使用已经安装好该数据收集的APP的手机在自己工位上写26个大写英文字母，实验者收集数据时如图5所示。实验者在手机下方5cm-20cm范围内写英文大写字母。

3.实验设备

实验所用的设备是vivoY67A，我们只能获取到一对扬声器麦克风的数据，扬声器在手机底部，麦克风在手机底部扬声器附近。具体结构如图4所示。我们将采样率设置为48kHz，播放的声音信号是按照具体实施方式中的步骤一调制的。

4.实验过程

步骤1，实验者启动数据收集APP，在桌面上写英文字母，每个字母写30 遍，共26个字母。

步骤2，将实验者收集的数据提取STFT特征，其中帧大小为1024，帧与帧之间的重叠为512，每1024个点做一次FFT(快速傅里叶变换)，采样率为48kHz。

步骤3，将步骤二得到的STFT进行灰度处理和裁剪，只留下17kHz-21kHz 部分的STFT特征。

步骤4，将用户收集的数据随机划分为测试集和训练集，其中训练集占60％，也就是每个字母18个左右作为训练集，其余12个左右作为测试集。

步骤5，使用训练集训练CNN模型作为特征提取器，保存该CNN模型。

步骤6，使用步骤五训练好的CNN模型提取训练集的特征，作为其他分类器的输入，我们做了8种分类器的实验：LR、SVM、KNN、DecisionTree、 GaussionNB、RandomForest、GradientBoosting、以及直接使用CNN识别。

步骤7，使用步骤五得到的CNN模型提取测试集的特征。

步骤8，使用步骤七得到的测试集的特征作为步骤六训练的分类器的输入，对测试集(未经训练的数据集)识别最终结果。

5.实验结果

结果1：七名实验者中两名实验者的正确率在85％以上，其余5名实验者的正确率均在90％以上，可以证明该方法可以有效的识别用户手写的26个大写英文字母。具体结果如图9所示。

结果2：同时我们还对比了不使用CNN提取特征，直接使用这些分类器时正确率基本不超过60％。具体结果如图10所示。

结果3：同时我们还收集了UltraGesture中的12种手势用该方法进行识别，UltraGesture中使用1对扬声器麦克风识别12种手势时正确率为92.75％。使用本方案中提出的方法正确率可以达到97.22％。具体结果如图12所示。

Claims

1.一种基于高频声波短时傅里叶变换的手写字母识别方法，其特征在于，包括以下步骤：

步骤1，收集训练数据

步骤1.1，选择13位Barker码作为基带信号，13位Barker码表示为：

s＝[-1,-1,-1,-1,-1,1,1,-1,-1,1,-1,1,-1]

步骤1.2，将两个所述的13位Barker码连接后，再补14个0，使其长度为40，记为S₁；

signal＝S₂·cos(2πf_ct)

其中，t表示时间，f_c表示载波频率，f_s表示采样率；

步骤1.4，使用带通滤波器去除signal信号其他频率上的噪声，只留下17kHz-21kHz的高频声波信号；

步骤2，训练网络模型

提取wav文件中信号的频谱矩阵S和功率谱矩阵P，以及时间分割向量T和频率分割向量F，绘制(T,F,(P./abs(S)))三者之间关系的STFI图；

步骤2.2，将步骤2.1中得到的STFI图进行裁剪，只留下17kHz-21kHz的频率段的频谱图；

步骤2.4，对步骤2.3处理后的频谱图进行归一化处理，处理过程为：img＝(im-mean(im))/255，其中im为步骤2.3灰度处理后的频谱图数据，img为归一化处理后的数据；

步骤2.5，建立CNN模型

第1层为2D卷积层，第2层为MaxPooling2D池化层，第3层是2D卷积层，第4层是MaxPooling2D池化层，第5层是Dropout，第6-8层是2D卷积层，第9层是MaxPooling2D池化层，第10层是Dropout，第11层为Flatten层，将数据拉成1维；第12层是全连接层，第13层是Dropout，第14层是全连接层，第15层是Dropout，最后一层是使用softmax作为激活函数的全连接层；

步骤3，识别阶段

步骤3.1，使用步骤1的方法获取用户写字母时候的数据，然后使用步骤2.1-2.4的方法对数据进行处理；

步骤3.2，将步骤3.1得到的数据作为步骤2.6的输入，使用步骤2.6得到的CNN模型提取新数据的Flatten特征，通过步骤2.7保存的分类器模型来识别所写的英文字母。