CN112799509B

CN112799509B - 一种基于声波感知的手势输入方法和系统

Info

Publication number: CN112799509B
Application number: CN202110098030.0A
Authority: CN
Inventors: 邹永攀; 肖治鸿; 洪史聪; 伍楷舜
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2024-06-07
Anticipated expiration: 2041-01-25
Also published as: CN112799509A

Abstract

本发明公开了一种基于声波感知的手势输入方法和系统。该方法包括：控制智能设备内置的扬声器以设定的调制方式和频率产生声波信号，用户在扬声器附近区域进行无速度要求和无区域要求地书写；利用智能设备内置的麦克风以设定采样频率采集被用户手指反射回的声波信号，获得音频信号；对所述音频信号进行处理和时频转换，获得时频图；根据用户书写书时手指相对麦克风移动产生的多普勒频移效应检测所述时频图中是否包含有效的书写动作，如判断为是，则将所述时频图输入到分类器，识别出书写内容信息，其中所述分类器是采集一位实验人员的样本数据集经预训练获得。本发明对新用户而言，操作简单、无成本，更有利于商业推广。

Description

一种基于声波感知的手势输入方法和系统

技术领域

本发明涉及电子设备交互技术领域，更具体地，涉及一种基于声波感知的手势输入方法和系统。

背景技术

近年来，随着科技的进步，集成电路、高性能芯片、能量密集型电池等技术取得了一定程度上的进步，使得可穿戴设备的发展突飞猛进。因此可穿戴设备在生活中也越来越普及。据预测，越来越多的人倾向于使用至少一种可穿戴设备，如智能手表、智能眼镜等。与其他传统的移动设备相比，可穿戴设备通常尺寸较小，主要用以确保用户体验以及增强外表的美观，但也给用户和设备间的交互带来很大的不便，尤其是在文本输入方面。软键盘输入几乎是现有智能手机，平板电脑和其他一些移动设备中使用最多的输入方式。这种方法具有低成本，高效率和便利的优点。然而，对于屏幕尺寸较小的设备，如智能手表和智能眼镜，用户很难高效便捷的输入文本。因此，如何更便捷的在这些设备上输入文本，成为了很多研究者关注的话题。

目前市面上已经存在文本输入系统，用于解决可穿戴设备的文本输入问题。其中一个有希望应用的文本输入技术是语音识别技术，它以高精度和良好的体验著称。然而，语音识别并不是在所有情况下都是完美的。例如，在嘈杂的环境中，性能由于周围环境的影响而降低。因此，手势识别技术逐渐兴起。许多工作提出了手势识别系统，传统方法包括使用可穿戴传感器、摄像头和射频信号。但是这三种方式都有各自的局限性。首先，基于可穿戴传感器的方法通常很麻烦，因为佩戴传感器对于用户来说非常不方便，而且有很多都需要用户提供自身的数据才能有效地使用。其次，基于摄像头的方法会受到恶劣的照明条件或光照效果的影响。最后，基于射频的方法需要使用Wi-Fi或专用设备，而Wi-Fi测量的粒度太粗，无法用其固有的长波长识别细微的手势，并且由于成本问题这种方法显得不划算。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于声波感知的手势输入方法和系统，用于降低成本并提高操作的便利性。

根据本发明的第一方面，提供一种基于声波感知的手势输入方法。该方法包括以下步骤：

控制智能设备内置的扬声器以设定的调制方式和频率产生声波信号，用户在扬声器附近区域进行无速度要求和无区域要求地书写；

利用智能设备内置的麦克风以设定采样频率采集被用户手指反射回的声波信号，获得音频信号；

对所述音频信号进行处理和时频转换，获得时频图；

根据用户书写书时手指相对麦克风移动产生的多普勒频移效应检测所述时频图中是否包含有效的书写动作，如判断为是，则将所述时频图输入到分类器，识别出书写内容信息，其中所述分类器是采集一位实验人员的样本数据集经预训练获得。

根据本发明的第二方面，提供一种基于声波感知的手势输入系统。该系统包括：

信号采集单元：用于控制智能设备内置的扬声器以设定的调制方式和频率产生声波信号，以及用户在扬声器附近区域进行无速度要求和无区域要求地书写过程中，利用智能设备内置的麦克风以设定采样频率采集被用户手指反射回的声波信号，获得音频信号；

信号处理单元：用于对所述音频信号进行处理和时频转换，获得时频图；

手势识别单元：根据用户书写书时手指相对麦克风移动产生的多普勒频移效应检测所述时频图中是否包含有效的书写动作，如判断为是，则将所述时频图输入到分类器，识别出书写内容信息，其中所述分类器是采集一位实验人员的样本数据集经预训练获得。

与现有技术相比，本发明的优点在于，对于开发者，需要采集的数据量显著减少，只需要采集一个实验人员的数据；对于新用户，将使用成本降到了零，新用户在不需要提供自身数据的情况下使用，就能获得较高的交互准确度；利用本发明不需要携带额外设备，直接在智能设备上安装开发的APP就能使用，与现有智能设备的正常使用场景一致，因而操作简单，普适性高。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于声波感知的手势输入方法的流程图；

图2是根据本发明一个实施例的基于声波感知的手势输入方法的过程示意图；

图3是根据本发明一个实施例的实验人员从不同角度书写的示意图；

图4是根据本发明一个实施例的实验人员从不同距离书写的示意图；

图5是根据本发明一个实施例的应用场景示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明提供一种基于声波感知的手势输入技术方案，利用智能设备普遍内置的商用麦克风与扬声器，结合所提出的样本数据集构建方法和数据增强技巧来提升数据的多样性，进而结合深度学习算法实现准确率高、泛化能力强、训练成本低的手势输入。

简言之，本发明提供的基于声波感知的手势输入方法包括：通过智能设备中的扬声器发出经过一定方式调制的指定频率的声波信号，用户使用手指在扬声器附近区域进行无速度要求和无区域要求地字符书写；书写同时，智能设备内置的麦克风以指定的采样频率采集被手指反射回的声波信号；对上述步骤采集到的音频信号进行处理，包括：带通滤波、带阻滤波、时频转换、动作检测、数据增强、模型训练等；利用深度学习训练出的分类模型，识别用户书写的手势内容。

具体地，结合图1和图2所示，所提供的基于声波感知的手势输入方法包括以下步骤。

步骤S1，开启智能设备，同时激活扬声器播放音频和麦克风录制音频，进而进行数据采集。

在此步骤中，设备的扬声器发出经过调制的特定频率的声波信号，用户使用时利用手指在扬声器附近区域进行无速度要求和无区域要求地字符书写，书写同时，智能设备内置的麦克风以指定的采样频率采集被手指反射回的声波信号。

在一个实施例中，步骤S1包括：

S11、控制智能设备扬声器所发出的声波信号，例如是经过调制的频率为19000Hz的单声道正弦波信号。

S12、根据奈奎斯特采样定理，将采样频率设置为至少是声波信号的两倍，所以将智能设备麦克风录制的采样频率设置为每秒钟采集44100个样本。

S13、采集一位实验人员的数据，构建样本数据集。

例如，样本数据(或称训练数据)按照三种不同书写速度和三种不同书写区域进行场景组合(即组合为9中场景)，其中三种书写速度分别为0.2m/s，0.7m/s和1.2m/s，三种书写区域分别为20cm*10cm，30cm*20cm和40cm*30cm，书写区域用于表征用户书写的范围大小，其中30cm*20cm大约对应A4纸尺寸。

在一个实施例中，书写内容包括26个大写字母、10个阿拉伯数字和多种手势，如包括左滑、右滑、上滑、五指放大和五指缩小5种手势，即共41种书写内容。通过使用字母、数字和其他手势的组合，采用了最多用户使用的书写规范，从而提高了本发明应用的普适性。在下文描述中，将以这41种书写内容为例进行说明。

每种场景下采集的样本数据不需要很多，因为肌肉记忆的原因，次数越多，数据趋同性越大，所以最终确定为每种场景下进行5次实验，即41个手势，9种场景，每种手势每个场景进行5次实验，一共采集1845条样本数据。为了进一步提高后续识别的准确率，数据的标签同时包含书写内容和场景信息，这样可以将数据进一步细分，增加数据的标签信息，从而使得模型的分类能力得到提升。

与现有技术相比，本发明只需要一位实验人员的数据进行训练，就能准确的识别书写内容信息。采集训练数据时，需要一位实验人员使用不同速度和不同区域进行实验，通过这种方式来增加样本数据的多样性。需说明的是，只有在采集训练数据需要进行不同场景的实验，用户在测试或实际使用时，将不受到任何限制。

进一步的，采集的样本数据可包含相对于智能设备以不同角度、不同距离、以及不同噪声背景情况下(如45分贝、60分贝等，或控制不同角度设置不同的噪声背景)书写时对应的数据，如图3和图4所示。通过这种方式采集的样本数据，所训练出的分类模型能够准确区分有效的书写动作，从而滤除在安静环境中，由于用户无意识的手指移动而导致的误识别，并且在噪声环境下也能准确检测出用户有意识的书写动作。

步骤S2，对采集的数据进行预处理，并检测是否存在有效的书写动作。

对麦克风采集下来的声波数据进行处理。首先对采集到的信号进行窗口化截取，然后对信号进行滤波，再对信号进行时频转换，最后通过动作检测算法检测是否有书写动作发生。

在一个实施例中，步骤S2包括：

S21、在录制音频后，对音频数据流进行窗口化处理，其中窗口长度2秒，步长为0.5秒。

S22、对每一个窗口化的数据进行滤波操作，例如包括六阶巴特沃斯带通滤波和六阶巴特沃斯带阻滤波，获得时序数据。

利用带通滤波可以过滤低频的噪声，例如人声，环境噪声等。利用带阻滤波可以过滤麦克风的主频信息，使开发者主要关注后面的多普勒频偏信息。

S23、对时序数据利用STFT(短时傅里叶变换)进行时频转换，对音频声波信号的频域特征进行分析。

例如，使用的窗函数为汉明窗，窗口大小为8192个采样点，overlap(重叠)为7168个采样点，步长为1024个样本点。

因为利用的是多普勒效应，而多普勒效应表现在频域上，所以需要将时序数据进行时频转换，从而改变数据的表征。

为便于后续训练，可将时频变换后的数据处理成时频图，该时频图能够表征用户书写过程手指相对于麦克风的移动所产生的频移特征。

S24、根据多普勒效应检测是否存在有效的书写动作。

如果有相对接近麦克风的运动发生，那么会在麦克风的主频附近发生高频偏现象，频偏范围为[0Hz，117Hz]；如果有相对远离麦克风的运动发生，那么会在主频附近发生低频偏现象，频偏范围为[-117Hz，0Hz]。但是如果没有相对运动的发生，那么在主频附近不会有任何频偏现象的发生。通过设定阈值，判断数据中的主频附近的频率变化特征是否超过设定的阈值，可以检测出是否有有效的书写动作发生。

例如，多普勒效应表示为：

其中f′为观察到的频率，f为智能设备于空气中的原始发射频率，v为声波在空气中的行进速度，v₀为用户手指移动速度，若接近发射源扬声器，则前方运算符号为+号，反之则为-号，v_s为扬声器移动速度，若接近用户手指，则前方运算符号为-，反之则为+号。

结合上述的多普勒效应可知，在步骤S1中，将不同书写速度和不同书写区域进行场景组合，能够体现时间维度和频域维度的书写特征，从而提升了后续识别的准确率。

步骤S3，训练神经网络分类模型，获得用于识别书写内容的分类器。

训练之前，优选地，使用数据增强技术对原始的样本数据进行扩充，再通过设计和实现一种适用于移动端的深度卷积神经网络模型对数据进行训练，得到深度学习分类器。

在一个实施例中，步骤S3包括：

S31、训练时，对所有手势动作的数据在保留数据特征的前提下，进行多种数据增强处理。

例如，对时频图放大、缩小、左右平移、上下平移、裁剪、扭曲、添加噪声和对抗神经网络多种方法中的一种和同时采用两种方法，最终将数据量从1845条扩充到36900条，增加数据量的同时也丰富了数据多样性。

具体地，单一方法都使用一次，每次将原始数据扩充1倍，一共10次；挑选其中两种方法同时使用，每次将原始数据扩充1倍，一共10次。最终效果是将原始数据扩充20倍。

S32、设计适用于智能设备的轻量级卷积神经网络结构进行训练。

例如，参照MobileNet的结构，设计并实现了一种适用于移动端的轻量级卷积神经网络结构，将S31中的所有数据进行模型训练，得到一个深度学习分类器。

可采用多种神经网络模型，例如，卷积神经网络、循环神经网络或全连接神经网络等。由于移动端要考虑实时性，过于庞大的深度学习模型会导致实时性达不到要求，优选地，在保证准确率的前提下使模型足够轻量化。

S4，利用获得的分类器实时预测用户的书写内容，得到最终预测的手势内容结果。

为衡量分类器的训练效果，可进一步进行测试。测试时，将每次需要进行测试的数据传给深度学习分类器，对分类器的结果利用特殊的分类策略得到最终预测的手势内容结果。

在一个实施例中，步骤S4包括：

S41、用户使用手指在扬声器附近区域进行无速度要求和无区域要求地字符书写，将测试数据通过步骤S2进行处理，再将处理后的数据传给S32中得到的分类器，得到手势内容的初步预测结果，预测结果和S13对应，会同时包含书写内容和场景信息的预测结果。

S42、将S41中得到的预测结果其中的场景信息进行整合和消除，只得到其中的书写内容预测结果。

将一个书写内容标签的所有场景的概率相加，得到最终关注的手势内容标签的概率。

例如，用户比较快速地书写了一个占据区域较大的字母A，初步预测的书写内容包含两个信息即“快速较大”和“A”，而由于深度学习分类器连接了分类策略，则会将“快速较大”与其他场景进行汇总，只保留字符“A”。这种训练时增加场景信息标签，实际预测时通过特殊的分类策略再将其去除的方式，提升了分类器的识别能力。

测试数据的处理流程和训练数据的处理流程类似，在此不再赘述。

在实际使用时，对新用户的书写内容进行实时预测的过程与测试过程相同，即经过步骤S1和S2的处理后，获得时频图，将时频图输入到经训练的分类器，即可输出用户的书写内容信息。

需说明的是，新用户使用时，不需要提供数据，并且没有书写速度要求，没有书写区域要求，也就是新用户可使用任意的速度、在任意的区域书写，采用本发明的方法都能有效地识别出来。

S5，将预测的手势内容结果细分为字母类型、数字类型和手势类型。

优选地，为改善用户体验，可根据识别出的书写内容向用户推荐可选的单词列表。

例如，在步骤S5中，将S42得到的书写内容结果按照字母类型、数字类型和手势类型进行更细致的划分。

S6，针对细分结果进行单词推荐。

对于不同类型，后续的处理不一样，字母需要后续连接语言模型，而数字和手势不需要进行后续的处理。

具体地，步骤S6包括：

S61、按照英语单词的使用频率构建包含2000个日常使用单词的字典。

S62、分析得到的字典，其中单词的频率信息和构词信息，利用贝叶斯概率论构建一个语言模型，当S5的结果划分为是字母类型时，将预测结果传给语言模型，得到字典中所有单词的推荐概率。

进一步地，可根据应用场景设置语言模型推荐的单词数。例如，在图2的步骤S7中，将S62中所有单词按照推荐概率进行排序，选择其中的前5名推荐给用户进行选择。

本发明提供的基于声波感知的手势输入方法可应用于多种类型的智能设备，如图5所示，包括但不限于移动终端、IPAD、可穿戴设备(如智能手表、智能手环等)。

相应地，本发明还提供一种基于声波感知的手势输入系统，用于实现上述方法的一个方面或多个方面。例如，该系统包括：信号采集单元，其用于控制智能设备内置的扬声器以设定的调制方式和频率产生声波信号，以及用户在扬声器附近区域进行无速度要求和无区域要求地书写过程中，利用智能设备内置的麦克风以设定采样频率采集被用户手指反射回的声波信号，获得音频信号；信号处理单元，其用于对所述音频信号进行处理和时频转换，获得时频图；手势识别单元，其用于根据用户书写书时手指相对麦克风移动产生的多普勒频移效应检测所述时频图中是否包含有效的书写动作，如判断为是，则将所述时频图输入到分类器，识别出书写内容信息，其中所述分类器是采集一位实验人员的样本数据集经预训练获得。

为验证本发明的效果，进行了大量实验。经验证，仅采用上述1845条数据进行增强后扩充到36900条的数据构建样本数据集，识别准确率即可达到85％以上。可以预见的是，如果采集更多的样本数据，能实现更高的识别准备率。

另外，还验证了从智能设备的不同角度、在不同噪声背景(如安静的实验室环境和用音箱播音频的环境)进行书写，以及应用于不同厂家的移动终端(如vivo，三星，华为等)时的识别准确率，并且在实验时，训练时在一个设备采集的数据，测试时用另一部设备进行测试(这种方式更能够模拟用户首次购买到包含本发明的智能设备的现实使用场景)。实验结果表明，手势输入的识别准确率均可达到80％，并且绝大部分情况下的识别准确率在85％以上。

综上所述，本发明利用一位实验人员的上千条数据进行训练即可达到应用级别的识别准确率，并且对新用户而言，不需要自身的数据，不需要用户进行额外的数据采集和训练过程，即可实现应用级别的手势交互输入，从而更有利于商业上的推广和成功。而在现有技术中，构建样本数据集通常需要大量实验人员的参与，采集上万条数据，或者使用前需要用户提供自身的数据，才能有较好的准确率。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于声波感知的手势输入方法，包括以下步骤：

利用智能设备内置的麦克风以设定的采样频率采集被用户手指反射回的声波信号，获得音频信号；

对所述音频信号进行处理和时频转换，获得时频图；

根据用户书写时手指相对麦克风移动产生的多普勒频移效应检测所述时频图中是否包含有效的书写动作，如判断为是，则将所述时频图输入到分类器，识别出书写内容信息，其中所述分类器是采集一位实验人员的样本数据集经预训练获得，所述书写内容信息包括字母、阿拉伯数字和手势；

其中，根据以下步骤训练所述分类器：

控制智能设备的扬声器发出声波信号，并设置智能设备的麦克风录制的采样频率，该采样频率至少是声波信号频率的两倍；

按照一位实验人员不同书写速度和不同书写区域进行场景组合，采集每种场景下的音频数据进行处理，并转换成对应的时频图；

根据获得的时频图构建样本数据集，每条样本数据表征时频图与场景信息、书写内容标签之间的关联关系；

基于所述样本数据集训练深度学习分类器，以时频图作为输入，以书写内容标签和场景信息作为输出，获得满足优化目标的分类器，在训练过程中，同时获得包含书写内容和场景信息的预测结果，并且将一个书写内容标签的所有场景对应的概率相加，得到该手势内容标签的概率；

其中，所述样本数据集是由一位实验人员从相对于智能设备的不同角度、不同距离以及在不同噪声背景下进行书写时所采集的数据；

其中，根据以下步骤检测所述时频图中是否包含有效的书写动作：

对采集的音频数据流进行窗口化处理；

对每一个窗口化的数据进行带通滤波以去除干扰噪声，并进行带阻滤波以滤除扬声器的主频信息，获得表征用户书写时手指移动过程的时序数据；

对时序数据利用短时傅里叶变换进行时频转换，获得音频数据的频域特征；

根据用户书写时手指相对于扬声器的移动产生所述的多普勒效应，计算扬声器主频附近的频率变化范围是否超过设定阈值，进而判断出是否存在有效的书写动作发生；

其中，在识别出书写内容信息之后还包括：

将识别出的书写内容细分为字母类型、数字类型和手势类型；

按照英语单词的使用频率构建包含日常使用单词的字典；

针对字典中的单词频率信息和构词信息，利用贝叶斯概率论构建语言模型；

在识别出的书写内容被划分为字母类型的情况下，将识别结果传给所述语言模型，得到字典中所有单词的推荐概率；

将所有单词按照推荐概率进行排序，进而根据应用场景向用户推荐设定数量的单词数，供用户进行选择。

2.根据权利要求1所述的方法，其中，所述样本数据集包含三种书写速度，三种书写区域，共9种场景的数据，书写内容包括26个字母、10个阿拉伯数字和5种手势，该5种手势是左滑、右滑、上滑、五指放大和五指缩小；

将每个手势在这9种场景中的每种场景下，进行5次实验，最终一共采集1845条样本数据构建为所述样本数据集。

3.根据权利要求1所述的方法，其中，用户书写时手指相对于扬声器的移动所产生的多普勒效应表示：

其中f′是观察到的频率_，f为智能设备扬声器空气中的原始发射频率_，v为声波在空气中的行进速度_，v₀为用户手指移动速度_，若接近发射源扬声器_，则前方运算符号为+号_，否则为-号_，v_s为扬声器移动速度_，若接近用户手指，则前方运算符号为-，否则为+号。

4.根据权利要求1所述的方法，其中，训练所述分类器之前，还包括对所述样本数据集根据以下过程进行增强处理：

在保留数据特征的前提下，对时频图进行放大、缩小、左右平移、上下平移、裁剪、扭曲、添加噪声和对抗神经网络中的一种操作或多种操作，最终将所述样本数据集中的数据量从1845条扩充到36900条。

5.一种基于声波感知的手势输入系统，包括：

信号采集单元：用于控制智能设备内置的扬声器以设定的调制方式和频率产生声波信号，以及用户在扬声器附近区域进行无速度要求和无区域要求地书写过程中，利用智能设备内置的麦克风以设定的采样频率采集被用户手指反射回的声波信号，获得音频信号；

手势识别单元：根据用户书写书时手指相对麦克风移动产生的多普勒频移效应检测所述时频图中是否包含有效的书写动作，如判断为是，则将所述时频图输入到分类器，识别出书写内容信息，其中所述分类器是采集一位实验人员的样本数据集经预训练获得，所述书写内容信息包括字母、阿拉伯数字和手势；

其中，根据以下步骤训练所述分类器：

对采集的音频数据流进行窗口化处理；

其中，在识别出书写内容信息之后还包括：

按照英语单词的使用频率构建包含日常使用单词的字典；

6.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至4中任一项所述方法的步骤。