CN105788597A

CN105788597A - 基于声音识别的读屏应用指令输入方法及装置

Info

Publication number: CN105788597A
Application number: CN201610313019.0A
Authority: CN
Inventors: 梁振宇; 张昆
Original assignee: Shenzhen Liandi Information Accessibility Co Ltd
Current assignee: Shenzhen Liandi Information Accessibility Co Ltd
Priority date: 2016-05-12
Filing date: 2016-05-12
Publication date: 2016-07-20

Abstract

本发明实施例公开了一种基于声音识别的读屏应用指令输入方法，包括：获取麦克风采集的音频数据；获取与所述音频数据对应的特征数据；在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势；确定与所述目标动作/手势对应的读屏功能操作，执行所述读屏功能操作。另外，本发明实施例还公开了一种基于声音识别的读屏应用指令输入装置。采用本发明，可提高读屏应用的指令输入的操作便利性。

Description

基于声音识别的读屏应用指令输入方法及装置

技术领域

本发明涉及人机交互技术领域，尤其涉及一种基于声音识别的读屏应用指令输入方法及装置。

背景技术

随着智能手机、个人电脑等计算机设备的快速普及，各种移动互联网应用也层出不穷，越来越多的用户能够真实感受到移动互联技术带来的生活便利和无线乐趣；但是，社会中还有一部分特殊群体也需要使用智能手机等计算机设备，那就是有一定功能障碍的人群，例如视障人群，尤其是全盲的视障群体，完全是靠耳朵听取声音来操作计算机。

在使用智能手机、平板电脑、个人电脑等终端设备的辅助操作功能(包括但不限于Voiceover、Talkback等读屏软件和其他类似功能的应用)时，用户界面元素及其功能会被提取出来并通过TTS(TexttoSpeech，文字转语音技术)把所选择的文字用语音播放出来，以帮助用户了解手机屏幕当前显示的内容；并且，用户可以通过在触摸屏上进行点击、滑动等操作，对终端进行操作，给用户带来了更全面更丰富的使用体验，尤其是使得存在一定功能障碍的人群(例如视觉障碍的残障人员、老年人等特殊群体)能够无障碍的使用智能手机等终端设备。

也就是说，用户必须手持智能手机、鼠标等输入设备才能对终端进行操作。以智能手机为例，对于用户来讲，就算有语音的辅助，也需要用户用手指在显示界面上进行多次点击或者滑动操作。另外，若手机不在身边，则无法进行操作，使得用户使用智能手机等终端设备的使用体验不佳。进一步地，对于存在一定功能障碍的人群(例如视觉障碍的残障人员、老年人等特殊群体)来讲，要准确快速的寻找手机也存在一定的问题，这就造成了存在一定功能障碍的人群(例如视觉障碍的残障人员、老年人等特殊群体)在使用手机时操作的便利性不足。

发明内容

基于此，为解决传统技术中的智能手机等终端设备的操作方式存在的操作的便利性不足的技术问题，特提出了一种基于声音识别的读屏应用指令输入方法。

一种基于声音识别的读屏应用指令输入方法，包括：

获取麦克风采集的音频数据；

获取与所述音频数据对应的特征数据；

在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势；

确定与所述目标动作/手势对应的读屏功能操作，执行所述读屏功能操作。

可选的，在其中一个实施例中，所述执行所述读屏功能操作的步骤之后还包括：获取所述读屏功能操作的执行结果；在所述预设的语音数据库中查找与所述读屏功能操作的执行结果对应的语音提示消息；播放所述语音提示消息。

可选的，在其中一个实施例中，所述获取与所述音频数据对应的特征数据的步骤具体为：提取与所述音频数据对应的语音数据，获取与所述语音数据对应的文本数据作为特征数据；所述在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势的步骤具体为：以所述文本数据作为关键字，在所述预设的动作/手势数据库中查找与所述关键字匹配的目标动作/手势。

可选的，在其中一个实施例中，所述在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势的步骤之后还包括：获取终端的当前显示界面，获取所述当前显示界面的读屏功能选中框；所述确定与所述目标动作/手势对应的读屏功能操作的步骤具体为：根据所述当前显示界面的读屏功能选中框确定与所述目标动作/手势对应的读屏功能操作。

可选的，在其中一个实施例中，所述读屏功能操作为音频应用开启操作；所述执行所述读屏功能操作的步骤具体为：根据所述音频应用开启操作启动与所述音频应用开启操作对应的音频应用。

可选的，在其中一个实施例中，所述确定与所述目标动作/手势对应的读屏功能操作的步骤具体为：将所述目标动作/手势发送给读屏应用，所述读屏应用用于根据所述目标动作/手势在所述预设的读屏功能操作数据库中查找与所述目标动作/手势匹配的读屏功能操作。

可选的，在其中一个实施例中，所述获取麦克风采集的音频数据的步骤之前还包括：接收用户输入的读屏应用开启指令，所述读屏应用开启指令与所述读屏应用对应，根据所述读屏应用开启指令启动所述读屏应用。

可选的，在其中一个实施例中，所述在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势的步骤之后还包括：获取用户输入的针对所述目标动作/手势的反馈信息；或获取所述特征数据与所述目标动作/手势的匹配参考值，根据所述匹配参考值生成针对所述目标动作/手势的反馈信息；所述方法还包括：根据所述反馈信息确定所述预设的动作/手势数据库的更新数据；根据所述更新数据刷新所述预设的动作/手势数据库。

此外，为解决传统技术中的智能手机等终端设备的操作方式存在操作的便利性不足的技术问题，还提出了一种基于声音识别的读屏应用指令输入装置。

一种基于声音识别的读屏应用指令输入装置，包括：

音频数据采集模块，用于获取麦克风采集的音频数据；

特征数据采集模块，用于获取与所述音频数据对应的特征数据；

目标动作/手势查找模块，用于在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势；

操作确定执行模块，用于确定与所述目标动作/手势对应的读屏功能操作，执行所述读屏功能操作。

可选的，在其中一个实施例中，所述装置还包括语音提示消息播放模块，用于：获取所述读屏功能操作的执行结果；在所述预设的语音数据库中查找与所述读屏功能操作的执行结果对应的语音提示消息；播放所述语音提示消息。

可选的，在其中一个实施例中，所述特征数据采集模块还用于提取与所述音频数据对应的语音数据，获取与所述语音数据对应的文本数据作为特征数据；所述目标动作/手势查找模块还用于以所述文本数据作为关键字，在所述预设的动作/手势数据库中查找与所述关键字匹配的目标动作/手势。

可选的，在其中一个实施例中，所述装置还包括显示界面获取模块，用于获取终端的当前显示界面，获取所述当前显示界面的读屏功能选中框；所述操作确定执行模块还用于根据所述当前显示界面的读屏功能选中框确定与所述目标动作/手势对应的读屏功能操作。

可选的，在其中一个实施例中，所述读屏功能操作为音频应用开启操作；所述操作确定执行模块还用于：根据所述音频应用开启操作启动与所述音频应用开启操作对应的音频应用。

可选的，在其中一个实施例中，所述操作确定执行模块还用于：将所述目标动作/手势发送给读屏应用，所述读屏应用用于根据所述目标动作/手势在所述预设的读屏功能操作数据库中查找与所述目标动作/手势匹配的读屏功能操作。

可选的，在其中一个实施例中，所述装置还包括读屏应用开启模块，用于接收用户输入的读屏应用开启指令，所述读屏应用开启指令与所述读屏应用对应，根据所述读屏应用开启指令启动所述读屏应用。

可选的，在其中一个实施例中，所述装置还包括反馈信息获取模块和数据库更新模块，其中：所述反馈信息获取模块用于：获取用户输入的针对所述目标动作/手势的反馈信息；或获取所述特征数据与所述目标动作/手势的匹配参考值，根据所述匹配参考值生成针对所述目标动作/手势的反馈信息；所述数据库更新模块用于：根据所述反馈信息确定所述预设的动作/手势数据库的更新数据；根据所述更新数据刷新所述预设的动作/手势数据库。

实施本发明实施例，将具有如下有益效果：

采用了上述基于可穿戴设备的读屏应用指令输入方法及装置之后，用户可以通过麦克风或者其他声音采集装置向终端发送语音或者其他声音，通过对语音或者声音数据的特征分析确定与用户输入的语音或者其他声音对应的读屏应用的指令的输入并由读屏软件将相应的操作指令发送给计算机对应的装置进行执行，实现了通过语音或者其他声音向终端的读屏应用输入指令和读屏软件将操作指令的输出，相较于传统技术中用户必须通过终端的实体按键或触控屏输入指令的方案来讲，可提高指令输入的操作便利性；进一步地，上述方案还实现了在用户不手持终端的情况下也可操作终端，对读屏应用发送指令进行相关操作，进一步的提高了用户使用读屏应用的操作便利性；尤其是针对存在一定功能障碍的人群(例如视觉障碍的残障人员、老年人等特殊群体)来讲，其操作便利性的提高尤为明显。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中一种基于声音识别的读屏应用指令输入方法的流程示意图；

图2为另一个实施例中一种基于声音识别的读屏应用指令输入方法的流程示意图；

图3为一个实施例中动作/手势数据库的反馈更新方法的流程示意图；

图4为一个实施例中一种基于声音识别的读屏应用指令输入装置的结构示意图；

图5为一个实施例中运行前述基于声音识别的读屏应用指令输入方法的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决传统技术中的智能手机等终端设备的操作方式存在操作的便利性不足的技术问题，在本实施例中，特提出了一种基于声音识别备的读屏应用指令输入方法，该方法的实现可依赖于计算机程序，该计算机程序可运行于基于冯诺依曼体系的计算机系统之上，该计算机程序可以是基于声音识别的与Voiceover、Talkback等读屏软件和其他类似功能的应用、与辅助操作功能(包括但不限于Voiceover、Talkback等读屏软件和其他类似功能的应用)关联的声音识别的应用程序。该计算机系统可以是安装了麦克风或者其他声音采集装置的智能手机、平板电脑、掌上电脑、笔记本电脑或个人电脑等计算机设备。

需要说明的是，终端的读屏应用，有些是用户安装的，有些也可能是原先就内置的：例如基于IOS系统的voiceover就是内置的，基于windows系统的NVDA就是用户安装的第三方软件。

具体的，如图1所示，上述基于声音识别的读屏应用指令输入方法包括如下步骤：

步骤S101：获取麦克风采集的音频数据。

在本实施例中，音频数据的采集可以是通过麦克风实现的，也可以通过其他声音采集装置实现的，并且，上述麦克风等声音采集装置可以是终端内置的，也可以外设的与终端之间相连的外部设备，并且可以与终端之间进行通信数据的传输，例如，该外部设备可以向终端发送采集到的音频数据。

需要说明的是，在本实施例中，上述麦克凤或者其他声音采集装置可以是安装在终端上的(例如终端内置的麦克风)，也可以是与终端通过无线或者有线方式连接的麦克风或者其他声音采集装置，例如，可以是与终端通过WiFi、蓝牙或者其他无线通信连接方式连接的麦克风，并且，该麦克风可以将采集到的音频数据发送给终端，以使终端接收到该麦克风发送的音频数据。

步骤S102：获取与所述音频数据对应的特征数据。

在本实施例中，用户在步骤S101中通过麦克风等声音采集装置获取的音频数据包括了用户输入的语音数据，还包括了其他非语音数据的其他声音数据。在本实施例中，可识别的音频数据包括了语音数据以及其他非语音数据的其他声音数据。

具体的，在一个实施例中，上述获取与所述音频数据对应的特征数据的步骤具体为：提取与所述音频数据对应的语音数据，获取与所述语音数据对应的文本数据作为特征数据。

也就是说，在获取到用户输入的音频数据之后，获取所述音频数据中与用户相关的语音数据，然后根据获取到的语音数据，通过语音识别技术将获取到的语音数据转换成与之对应的文本数据，该文本数据即为与音频数据对应的特征数据。

在其他实施例中，用户输入的音频数据的目标声音还可以例如敲击声、门铃声或者其他非语音类型的声音，在此种情况下，上述获取与音频数据对应的特征数据的步骤还可以是，对音频数据进行声音分析，获取与预设的样本参数匹配的声音分量，并获取与该声音分量对应的特征数据。例如，在声音分量为敲击声时，获取敲击的音量大小、敲击的次数、间隔时间作为特征数据。

步骤S103：在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势。

在本实施例中，读屏应用可识别的手势包括但不限于左划、右划、上下滑动、双击、单击等，相应的，对可识别的动作也不做限制，用户可根据需要设置多个动作/手势。

动作/手势数据库是读屏应用中预设的操作动作/手势，也就是说，当检测到与动作/手势数据库中的操作动作/手势匹配的操作动作/手势时，即可将该操作动作/手势判定为有效动作/手势，否则判定为无效操作动作/手势。

在本实施例中，需预先设定动作/动作/手势数据库中的操作动作/手势与步骤S101中获取到的音频数据之间的对应关系，也即设定动作/手势数据库中的操作动作/手势与通过步骤S101中获取的音频数据的特征数据之间的对应关系。在上述对应关系建立之后，可通过该对应关系在预设的动作/手势数据库中查找与特征数据对应的目标动作/手势。

需要说明的是，在本实施例中，在目标动作/手势与特征数据的匹配关系是根据特征数据确定的。例如，在特征数据是文本数据时，上述匹配关系可以是与目标动作/手势对应的关键词或者标识与步骤S102中获取到的作为特征数据的文本数据时匹配的，在其他实施例中，在特征数据时敲击的次数、间隔时长，将特征数据与预设的次数阈值、间隔阈值进行比对，判断二者之间是否满足预设的对应关系，例如，敲击次数是否等于预设的次数阈值，间隔时长是否小于预设的间隔阈值。

在一个实施例中，在特征数据为与音频数据对应的语音数据的文本数据时，步骤S103：在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势的步骤具体为：以所述文本数据作为关键字，在所述预设的动作/手势数据库中查找与所述关键字匹配的目标动作/手势。

步骤S104：确定与所述目标动作/手势对应的读屏功能操作，执行所述读屏功能操作。

具体实现中，在读屏应用中，每一个操作动作/手势均对应了一个具体的操作指令，例如，可以设置“单击”对应的选中触摸点所在的按钮/区域并播放与该按钮/区域对应的语音消息，还可以设置“双击”对应打开当前选中框对应的链接/页面。

在本实施例中，目标动作/手势对应的读屏功能操作包括但不限于打开读屏应用、打开某个页面、改变读屏选中框的位置等。并且，目标动作/手势对应的读屏功能操作可以根据预设的对应关系进行确定，例如，当步骤S101中输入的音频数据对应的文本数据为“下一个”时，对应的目标动作/手势可以为轻点两下，对应的读屏功能操作为打开当前读屏选中框对应的页面/链接。

可选的，在一个实施例中，在步骤S104之后，针对读屏功能操作的执行结果，用户还可以通过语音播放的形式获知相关的指令执行结果，以便用户在不用查看终端的显示屏幕上的相关内容的情况下，通过声音获知相关的读屏功能操作的执行情况。

具体的，如图2所示，在本实施例中，在步骤S104中，执行所述读屏功能操作之后，上述方法还包括如下步骤S105-步骤S107：

步骤S105：获取所述读屏功能操作的执行结果；

步骤S106：在所述预设的语音数据库中查找与所述读屏功能操作的执行结果对应的语音提示消息；

步骤S107：播放所述语音提示消息。

读屏功能操作的执行结果包括了执行成功、执行失败，并且执行成功还包括了该读屏功能指令的具体指令结果，例如，选中了当前显示界面的某个空间或者图片等信息，还例如，移动了当前显示界面上的徐中框所在的位置，再例如，打开了一个新的操作页面等。

例如，当读屏功能操作打开了QQ音乐的操作页面时，语音提示消息可以是：QQ音乐已被打开。再例如，当读屏功能操作的执行结果对应的是选中了当前显示界面中的“删除”按钮，则语音提示消息可以是：选中按钮“返回”。

在一个实施例中，可以根据终端的显示界面上的具体内容确定步骤S104中所执行的读屏功能操作的具体内容。

具体的，在预设的动作/手势数据库中查找与特征数据匹配的目标动作/手势的步骤之后还包括：获取终端的当前显示界面，获取当前显示界面的读屏功能选中框；并且，确定与目标动作/手势对应的读屏功能操作的步骤具体为：根据当前显示界面的读屏功能选中框确定与目标动作/手势对应的读屏功能操作。

终端的当前显示界面即在终端的显示界面展示的相关内容。读屏功能选中框为显示界面上与读屏应用对应的选中框，一般来讲，在终端的显示界面上的读屏功能选中框的数量为一个，读屏功能选中框可以对应一个按钮，也可以对应一个图标、或者一个控件、或者一段文字、或者一个链接等。

需要说明的是，在本实施例中，若读屏功能选中框对应的是一个可操作的按钮，则针对该读屏功能选中框的操作包括但不限于点击进去、移动选中框、返回上一级目录等；若读屏功能选中框对应的是一段不可操作的文字，则针对该读屏功能选中框的操作可以是移动选中框，却不能是点击进入等操作。因此，针对读屏功能选中框对应的具体内容不同，目标动作/手势对应的操作指令也会随之发生改变。

具体的，根据当前显示界面的读屏功能选中框，确定与目标动作/手势对应的读屏功能操作，并在步骤S104中执行该读屏功能操作。

在另一个实施例中，上述读屏功能操作的具体内容由读屏应用来确定。具体的，确定与所述目标动作/手势对应的读屏功能操作具体为：将目标动作/手势发送给读屏应用，所述读屏应用用于根据所述目标动作/手势在所述预设的读屏功能操作数据库中查找与所述目标动作/手势匹配的读屏功能操作。

也就是说，在步骤S103中查找到目标动作/手势之后，将该目标动作/手势发送给读屏应用，读屏应用在接收到该目标动作/手势之后，根据该目标动作/手势在读屏应用的读屏功能操作数据库中，根据操作动作/手势与读屏功能操作之间的对应关系，查找与目标动作/手势对应的读屏功能操作。主要说明的是，在本实施例中，目标动作/手势对应的读屏功能操作是唯一的，且若没有查找到对应的读屏功能操作，则将对应的目标动作/手势判定为无效操作动作/手势。即对于读屏应用来讲，本实施例所公开的内容并不需要改变读屏应用本身的结果，只需要一个对应的目标动作/手势接收的接口即可，通过可穿戴设备输入的相关数据的接收和提取均可由其他应用完成。

在一个实施例中，读屏功能操作为音频应用开启操作；执行读屏功能操作的步骤具体为：根据音频应用开启操作启动与音频应用开启操作对应的音频应用。

也就是说，用户可以预先设置音频应用的开启条件，即与音频应用开启操作对应的目标动作/手势以及与目标动作/手势对应的运动操作数据的特征数据应该满足的要求，或者与音频应用开启操作对应的目标动作/手势与运动操作数据的特征数据之间的对应关系；从而使得用户可以在任意界面均可以直接开启音频应用，这对于视觉障碍的残障人员来讲，可以更便捷地开启使用频率最高的音频应用，提高了操作的便利性。

在本实施例中，如图2所示，可选的步骤还包括：在步骤S101之前还包括步骤S100：接收用户输入的读屏应用开启指令，读屏应用开启指令与读屏应用对应，根据读屏应用开启指令启动读屏应用。

读屏应用开启指令即为与终端中安装的读屏应用对应的应用开启指令，对于视觉障碍的残障人员来讲，使用手机的第一步就需要开启读屏应用，将手机设置了读屏模式以方便使用。用户可预先设置读屏应用开启指令的具体操作或者系统也可以进行相关的设定，例如，连续点击Home键3次，当终端检测到用户输入的读屏应用开启指令时，根据检测到的读屏应用开启指令启动读屏应用，将终端设置为读屏模式。

可选的，在一个实施例中，还可以根据用户每次输入的运动操作对数据库进行矫正，也就是说，根据用户每次输入的运动操作和用户的输入习惯，建立与用户对应的个性化动作/手势数据库，使得用户在下一次输入操作的过程中，与样本数据库的比对更为快速和精准。

具体的，如图3所示，在所述在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势的步骤之后，上述方法还包括如下步骤：

步骤S2011：获取用户输入的针对所述目标动作/手势的反馈信息；

或

步骤S2012：获取所述特征数据与所述目标动作/手势的匹配参考值，根据所述匹配参考值生成针对所述目标动作/手势的反馈信息；

步骤S202：根据所述反馈信息确定所述预设的动作/手势数据库的更新数据；

步骤S203：根据所述更新数据刷新所述预设的动作/手势数据库。

反馈信息包括了目标动作/手势的查找结果不符合用户预期时用户在相应的反馈页面输入的反馈信息，还包括了用户输入的语音数据或者其他声音数据的特征数据与预设的动作/手势数据库中的样本参数之间的匹配程度确定的用户输入习惯的反馈信息，也就是说，反馈信息可以是用户手动反馈的，也可以终端根据用户的操作习惯确定的。

在反馈信息获取到之后，根据反馈信息的具体内容，对预设的动作/手势数据库中的样本参数、以及样本参数与操作参数之间的对应关系进行修正，然后更新动作/手势数据库，以便下一次用户输入相应操作时使用的动作/手势数据库为更新后的数据库。

此外，为解决传统技术中的智能手机等终端设备的操作方式存在操作的便利性不足的技术问题，在一个实施例中，还提出了一种基于声音识别的读屏应用指令输入装置，如图4所示，上述装置包括音频数据采集模块101、特征数据采集模块102、目标动作/手势查找模块103以及操作确定执行模块104。

具体的，音频数据采集模块101，用于获取麦克风采集的音频数据。

需要说明的是，在本实施例中，上述麦克凤或者其他声音采集装置可以是安装在终端上的(例如终端内置的麦克风)，也可以是与终端通过无线或者有线方式连接的麦克风或者其他声音采集装置，例如，可以是与终端通过WiFi、蓝牙或者其他无线通信连接方式连接的麦克风，并且，该麦克风可以将采集到的音频数据发送给终端，以使终端的音频数据采集模块101接收到该麦克风发送的音频数据。

特征数据采集模块102，用于获取与所述音频数据对应的特征数据。

在本实施例中，音频数据采集模块101获取的音频数据包括了用户输入的语音数据，还包括了其他非语音数据的其他声音数据。在本实施例中，可识别的音频数据包括了语音数据以及其他非语音数据的其他声音数据。

具体的，在一个实施例中，上述特征数据采集模块102还用于提取与所述音频数据对应的语音数据，获取与所述语音数据对应的文本数据作为特征数据。

也就是说，在获取到用户输入的音频数据之后，特征数据采集模块102获取所述音频数据中与用户相关的语音数据，然后根据获取到的语音数据，通过语音识别技术将获取到的语音数据转换成与之对应的文本数据，该文本数据即为与音频数据对应的特征数据。

在其他实施例中，用户输入的音频数据的目标声音还可以例如敲击声、门铃声或者其他非语音类型的声音，在此种情况下，上述特征数据采集模块102还用于对音频数据进行声音分析，获取与预设的样本参数匹配的声音分量，并获取与该声音分量对应的特征数据。例如，在声音分量为敲击声时，获取敲击的音量大小、敲击的次数、间隔时间作为特征数据。

目标动作/手势查找模块103，用于在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势。

动作/手势数据库是读屏应用中预设的操作动作/手势，也就是说，当目标动作/手势查找模块103检测到与动作/手势数据库中的操作动作/手势匹配的操作动作/手势时，即可将该操作动作/手势判定为有效动作/手势，否则判定为无效操作动作/手势。

在本实施例中，需预先设定动作/动作/手势数据库中的操作动作/手势与音频数据之间的对应关系，也即设定动作/手势数据库中的操作动作/手势与获取的音频数据的特征数据之间的对应关系。在上述对应关系建立之后，可通过该对应关系在预设的动作/手势数据库中查找与特征数据对应的目标动作/手势。

需要说明的是，在本实施例中，在目标动作/手势与特征数据的匹配关系是根据特征数据确定的。例如，在特征数据是文本数据时，上述匹配关系可以是与目标动作/手势对应的关键词或者标识与获取到的作为特征数据的文本数据时匹配的，在其他实施例中，在特征数据时敲击的次数、间隔时长，将特征数据与预设的次数阈值、间隔阈值进行比对，判断二者之间是否满足预设的对应关系，例如，敲击次数是否等于预设的次数阈值，间隔时长是否小于预设的间隔阈值。

在一个实施例中，在特征数据为与音频数据对应的语音数据的文本数据时，上述目标动作/手势查找模块103还用于以所述文本数据作为关键字，在所述预设的动作/手势数据库中查找与所述关键字匹配的目标动作/手势。

操作确定执行模块104，用于确定与所述目标动作/手势对应的读屏功能操作，执行所述读屏功能操作。

在本实施例中，目标动作/手势对应的读屏功能操作包括但不限于打开读屏应用、打开某个页面、改变读屏选中框的位置等。并且，目标动作/手势对应的读屏功能操作可以根据预设的对应关系进行确定，例如，当用户输入的音频数据对应的文本数据为“下一个”时，对应的目标动作/手势可以为轻点两下，对应的读屏功能操作为打开当前读屏选中框对应的页面/链接。

可选的，在一个实施例中，针对读屏功能操作的执行结果，用户还可以通过语音播放的形式获知相关的指令执行结果，以便用户在不用查看终端的显示屏幕上的相关内容的情况下，通过声音获知相关的读屏功能操作的执行情况。

具体的，如图4所示，上述装置还包括语音提示消息播放模块105，用于：获取所述读屏功能操作的执行结果；在所述预设的语音数据库中查找与所述读屏功能操作的执行结果对应的语音提示消息；播放所述语音提示消息。

例如，当读屏功能操作打开了QQ音乐的操作页面时，语音提示消息播放模块105播放的语音提示消息可以是：QQ音乐已被打开。再例如，当读屏功能操作的执行结果对应的是选中了当前显示界面中的“删除”按钮，则语音提示消息播放模块105播放的语音提示消息可以是：选中按钮“返回”。

在一个实施例中，可以根据终端的显示界面上的具体内容确定步骤S103中所执行的读屏功能操作的具体内容。

具体的，如图4所示，上述装置还包括显示界面获取模块106，用于获取终端的当前显示界面，获取所述当前显示界面的读屏功能选中框；所述操作确定执行模块104还用于根据所述当前显示界面的读屏功能选中框确定与所述目标动作/手势对应的读屏功能操作。

具体的，根据当前显示界面的读屏功能选中框，操作确定执行模块104确定与目标动作/手势对应的读屏功能操作，并执行该读屏功能操作。

在另一个实施例中，上述读屏功能操作的具体内容由读屏应用来确定。

具体的，所述操作确定执行模块104还用于：将所述目标动作/手势发送给读屏应用，所述读屏应用用于根据所述目标动作/手势在所述预设的读屏功能操作数据库中查找与所述目标动作/手势匹配的读屏功能操作。

也就是说，在目标动作/手势查找模块103查找到目标动作/手势之后，将该目标动作/手势发送给读屏应用，读屏应用在接收到该目标动作/手势之后，根据该目标动作/手势在读屏应用的读屏功能操作数据库中，根据操作动作/手势与读屏功能操作之间的对应关系，查找与目标动作/手势对应的读屏功能操作。主要说明的是，在本实施例中，目标动作/手势对应的读屏功能操作是唯一的，且若没有查找到对应的读屏功能操作，则将对应的目标动作/手势判定为无效操作动作/手势。即对于读屏应用来讲，本实施例所公开的内容并不需要改变读屏应用本身的结果，只需要一个对应的目标动作/手势接收的接口即可，通过可穿戴设备输入的相关数据的接收和提取均可由其他应用完成。

在一个实施例中，所述读屏功能操作为音频应用开启操作；所述操作确定执行模块104还用于：根据所述音频应用开启操作启动与所述音频应用开启操作对应的音频应用。

在本实施例中，可选的，如图4所示，上述装置还包括读屏应用开启模块107，用于接收用户输入的读屏应用开启指令，所述读屏应用开启指令与所述读屏应用对应，根据所述读屏应用开启指令启动所述读屏应用。

读屏应用开启指令即为与终端中安装的读屏应用对应的应用开启指令，对于视觉障碍的残障人员来讲，使用手机的第一步就需要开启读屏应用，将手机设置了读屏模式以方便使用。用户可预先设置读屏应用开启指令的具体操作或者系统也可以进行相关的设定，例如，连续点击Home键3次，当终端检测到用户输入的读屏应用开启指令时，根据检测到的读屏应用开启指令启动读屏应用，读屏应用开启模块107将终端设置为读屏模式。

具体的，如图4所示，所述装置还包括反馈信息获取模块108和数据库更新模块109，其中：所述反馈信息获取模块108用于：获取用户输入的针对所述目标动作/手势的反馈信息；或获取所述特征数据与所述目标动作/手势的匹配参考值，根据所述匹配参考值生成针对所述目标动作/手势的反馈信息；所述数据库更新模块109用于：根据所述反馈信息确定所述预设的动作/手势数据库的更新数据；根据所述更新数据刷新所述预设的动作/手势数据库。

反馈信息获取模块108获取的反馈信息包括了目标动作/手势的查找结果不符合用户预期时用户在相应的反馈页面输入的反馈信息，还包括了用户输入的语音数据或者其他声音数据的特征数据与预设的动作/手势数据库中的样本参数之间的匹配程度确定的用户输入习惯的反馈信息，也就是说，反馈信息可以是用户手动反馈的，也可以终端根据用户的操作习惯确定的。

在反馈信息获取模块108获取的反馈信息获取到之后，根据反馈信息的具体内容，数据库更新模块109对预设的动作/手势数据库中的样本参数、以及样本参数与操作参数之间的对应关系进行修正，然后更新动作/手势数据库，以便下一次用户输入相应操作时使用的动作/手势数据库为更新后的数据库。

实施本发明实施例，将具有如下有益效果：

在一个实施例中，如图5所示，图5展示了一种运行上述基于声音识别的读屏应用指令输入方法的基于冯诺依曼体系的计算机系统的终端。该计算机系统可以是与可穿戴设备连接的智能手机、平板电脑、掌上电脑，笔记本电脑或个人电脑等终端设备。具体的，可包括通过系统总线连接的外部输入接口1001、处理器1002、存储器1003和输出接口1004。其中，外部输入接口1001可选的可至少包括网络接口10012。存储器1003可包括外存储器10032(例如硬盘、光盘或软盘等)和内存储器10034。输出接口1004可至少包括显示屏10042等设备。

在本实施例中，本方法的运行基于计算机程序，该计算机程序的程序文件存储于前述基于冯诺依曼体系的计算机系统的外存储器10032中，在运行时被加载到内存储器10034中，然后被编译为机器码之后传递至处理器1002中执行，从而使得基于冯诺依曼体系的计算机系统中形成逻辑上的音频数据采集模块101、特征数据采集模块102、目标动作/手势查找模块103、操作确定执行模块104、语音提示消息播放模块105、显示界面获取模块106、读屏应用开启模块107、反馈信息获取模块108以及数据库更新模块109。且在上述基于声音识别的读屏应用指令输入方法执行过程中，输入的参数均通过外部输入接口1001接收，并传递至存储器1003中缓存，然后输入到处理器1002中进行处理，处理的结果数据或缓存于存储器1003中进行后续地处理，或被传递至输出接口1004进行输出。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于声音识别的读屏应用指令输入方法，其特征在于，包括：

获取麦克风采集的音频数据；

获取与所述音频数据对应的特征数据；

2.根据权利要求1所述的方法，其特征在于，所述执行所述读屏功能操作的步骤之后还包括：

获取所述读屏功能操作的执行结果；

在所述预设的语音数据库中查找与所述读屏功能操作的执行结果对应的语音提示消息；

播放所述语音提示消息。

3.根据权利要求1所述的方法，其特征在于，所述获取与所述音频数据对应的特征数据的步骤具体为：

提取与所述音频数据对应的语音数据，获取与所述语音数据对应的文本数据作为特征数据；

所述在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势的步骤具体为：

以所述文本数据作为关键字，在所述预设的动作/手势数据库中查找与所述关键字匹配的目标动作/手势。

4.根据权利要求1所述的方法，其特征在于，所述在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势的步骤之后还包括：

获取终端的当前显示界面，获取所述当前显示界面的读屏功能选中框；

所述确定与所述目标动作/手势对应的读屏功能操作的步骤具体为：

根据所述当前显示界面的读屏功能选中框确定与所述目标动作/手势对应的读屏功能操作。

5.根据权利要求1所述的方法，其特征在于，所述读屏功能操作为音频应用开启操作；

所述执行所述读屏功能操作的步骤具体为：

根据所述音频应用开启操作启动与所述音频应用开启操作对应的音频应用。

6.根据权利要求1所述的方法，其特征在于，所述确定与所述目标动作/手势对应的读屏功能操作的步骤具体为：

将所述目标动作/手势发送给读屏应用，所述读屏应用用于根据所述目标动作/手势在所述预设的读屏功能操作数据库中查找与所述目标动作/手势匹配的读屏功能操作。

7.根据权利要求6所述的方法，其特征在于，所述获取麦克风采集的音频数据的步骤之前还包括：

接收用户输入的读屏应用开启指令，所述读屏应用开启指令与所述读屏应用对应，根据所述读屏应用开启指令启动所述读屏应用。

8.根据权利要求1至7任一所述的方法，其特征在于，所述在预设的动作/手势数据库中查找与所述特征数据匹配的目标动作/手势的步骤之后还包括：

获取用户输入的针对所述目标动作/手势的反馈信息；

或

获取所述特征数据与所述目标动作/手势的匹配参考值，根据所述匹配参考值生成针对所述目标动作/手势的反馈信息；

所述方法还包括：

根据所述反馈信息确定所述预设的动作/手势数据库的更新数据；

根据所述更新数据刷新所述预设的动作/手势数据库。

9.一种基于声音识别的读屏应用指令输入装置，其特征在于，包括：

音频数据采集模块，用于获取麦克风采集的音频数据；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括语音提示消息播放模块，用于：

获取所述读屏功能操作的执行结果；

播放所述语音提示消息。

11.根据权利要求9所述的装置，其特征在于，所述特征数据采集模块还用于提取与所述音频数据对应的语音数据，获取与所述语音数据对应的文本数据作为特征数据；

所述目标动作/手势查找模块还用于以所述文本数据作为关键字，在所述预设的动作/手势数据库中查找与所述关键字匹配的目标动作/手势。

12.根据权利要求9所述的装置，其特征在于，所述装置还包括显示界面获取模块，用于获取终端的当前显示界面，获取所述当前显示界面的读屏功能选中框；

所述操作确定执行模块还用于根据所述当前显示界面的读屏功能选中框确定与所述目标动作/手势对应的读屏功能操作。

13.根据权利要求9所述的装置，其特征在于，所述读屏功能操作为音频应用开启操作；

所述操作确定执行模块还用于：根据所述音频应用开启操作启动与所述音频应用开启操作对应的音频应用。

14.根据权利要求9所述的装置，其特征在于，所述操作确定执行模块还用于：将所述目标动作/手势发送给读屏应用，所述读屏应用用于根据所述目标动作/手势在所述预设的读屏功能操作数据库中查找与所述目标动作/手势匹配的读屏功能操作。

15.根据权利要求14所述的装置，其特征在于，所述装置还包括读屏应用开启模块，用于接收用户输入的读屏应用开启指令，所述读屏应用开启指令与所述读屏应用对应，根据所述读屏应用开启指令启动所述读屏应用。

16.根据权利要求9至15任一所述的装置，其特征在于，所述装置还包括反馈信息获取模块和数据库更新模块，其中：

所述反馈信息获取模块用于：

获取用户输入的针对所述目标动作/手势的反馈信息；

或

所述数据库更新模块用于：

根据所述更新数据刷新所述预设的动作/手势数据库。