CN109741738A

CN109741738A - 语音控制方法、装置、计算机设备及存储介质

Info

Publication number: CN109741738A
Application number: CN201811503073.7A
Authority: CN
Inventors: 胡燕; 吴欢; 陈爽
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-05-10

Abstract

本发明公开了一种语音控制方法、装置、计算机设备及存储介质中，若检测到预定的指令信息，则客户端控制界面实现解锁并开启语音识别功能；获取语音数据，查询预设的自定义匹配语音库中是否存在和语音数据匹配的预设匹配语音。若自定义匹配语音库中存在和语音数据匹配的预设语音，则执行和语音数据匹配的预设语音对应的功能。通过一个指令可以同时实现客户端的解锁并开启语音识别功能，用户可以根据需要在解锁的时候开启语音识别功能，保证了使用的效率和便捷性。并且通过解锁阶段来对语音识别功能开启和不开启的选择，也减轻了客户端的负担。

Description

语音控制方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音语义领域，尤其涉及一种语音控制方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，目前的智能客户端(例如：移动客户端)都具备了语音控制的功能，通过对智能客户端发出语音指令以实现文字输入或者对智能客户端的控制。然而，目前对语音指令的监控一般都通过一个特定的语音监控程序来监控是否存在语音输入，该语音监控程序需要长期处于工作状态或者需要额外的控制开关来进行开启和关闭，在开启之后需要持续地对语音输入进行检测，客户端会持续地进行识别和匹配的动作，造成系统较大的负担。

发明内容

本发明实施例提供一种语音控制方法、装置、计算机设备及存储介质，以解决语音控制方法对系统造成较大负担的问题。

一种语音控制方法，包括：

若检测到预定的指令信息，则控制界面实现解锁并开启语音识别功能；

获取语音数据，查询预设的自定义匹配语音库中是否存在和所述语音数据匹配的预设匹配语音；

若所述自定义匹配语音库中存在和所述语音数据匹配的预设语音，则执行和所述语音数据匹配的预设语音对应的功能。

一种语音控制装置，包括：

指令信息检测模块，用于在检测到预定的指令信息时，则控制界面实现解锁并开启语音识别功能；

语音数据匹配模块，用于获取语音数据，查询预设的自定义匹配语音库中是否存在和所述语音数据匹配的预设匹配语音；

功能执行模块，用于在所述自定义匹配语音库中存在和所述语音数据匹配的预设语音时，则执行和所述语音数据匹配的预设语音对应的功能。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音控制方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音控制方法的步骤。

上述语音控制方法、装置、计算机设备及存储介质中，若检测到预定的指令信息，则控制界面实现解锁并开启语音识别功能；获取语音数据，查询预设的自定义匹配语音库中是否存在和语音数据匹配的预设匹配语音。若自定义匹配语音库中存在和语音数据匹配的预设语音，则执行和语音数据匹配的预设语音对应的功能。通过一个指令可以同时实现客户端的解锁并开启语音识别功能，用户可以根据需要在解锁的时候开启语音识别功能，保证了使用的效率和便捷性。并且通过解锁阶段来对语音识别功能开启和不开启的选择，也减轻了客户端的负担。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音控制方法的一应用环境示意图；

图2是本发明一实施例中语音控制方法的一示例图；

图3是本发明一实施例中语音控制方法的另一示例图；

图4是本发明一实施例中语音控制方法的另一示例图；

图5是本发明一实施例中语音控制方法的另一示例图；

图6是本发明一实施例中语音控制方法的另一示例图；

图7是本发明一实施例中语音控制方法的另一示例图；

图8是本发明一实施例中语音控制方法的另一示例图；

图9是本发明一实施例中语音控制装置的一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音控制方法，可应用在如图1的应用环境中，其中，客户端(客户端设备)接收输入信息，若检测到输入信息为预定的指令信息，则客户端实现解锁并开启语音识别功能，进而实现后续的对应操作。其中，客户端(客户端设备)可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一实施例中，如图2所示，提供一种语音控制方法，以该方法应用在图1中的客户端为例进行说明，包括如下步骤：

S10：若检测到预定的指令信息，则控制界面实现解锁并开启语音识别功能。

其中，该预定的指令信息可以是图像信息、语音信息或者在客户端上的轨迹信息等。示例性地，可以通过输入文字密码、手势轨迹、人脸图像、肢体图像或者声纹数据等来形成指令信息，以进行进一步地判断。预先设定特定的指令信息并存储在客户端中。客户端在锁屏状态或者其他锁定状态下，若获取到一指令信息，且该指令信息为存储在客户端中的预定的指令信息，则客户端控制界面实现解锁并开启语音识别功能。该语音识别功能是指可以对语音进行采集并识别的功能。可以理解地，这里提及的语音识别功能仅是针对本发明实施例中具体方案中涉及的语音识别功能，可选地，本发明实施例中的语音识别功能可以架构该语音识别功能单独的语音识别模块，或者借助客户端自身的语音识别相关的功能来实现。

在一个具体实施方式中，该预定的指令信息包括语音开启指令信息。预先设定一语音开启指令信息，客户端在获取到用户输入的验证指令信息之后，将该验证指令信息和语音开启指令信息进行匹配。若验证指令信息和语音开启指令信息相同，则验证指令信息和语音开启指令信息匹配成功，此时客户端即检测到预定的指令信息，随即实现解锁并开启语音识别功能。优选地，还可以预先设置一解锁指令信息，客户端将解锁指令信息和语音开启指令信息进行存储。其中，解锁指令信息对应于解锁功能，而语音开启指令对应于解锁功能和语音识别开启功能。用户在不需要开启语音识别功能时，可以只输入和解锁语音指令匹配的指令信息，进入常规的操作方式。可以理解地，解锁指令信息和语音开启指令信息的内容是不相同的，即用户输入的验证指令信息仅可能和解锁指令信息和语音开启指令信息中的一个匹配成功。可选地，解锁指令信息和语音开启指令信息可以为文字密码、手势轨迹、人脸图像、肢体图像或者声纹数据等。示例性地，解锁指令信息为ABC，而语音开启指令信息为DEF。客户端在获取到用户输入的验证指令信息之后，将验证指令信息分别和解锁指令信息以及语音开启指令信息进行匹配。若验证指令信息和解锁指令信息匹配成功，则客户端实现解锁，但是不开启语音识别功能。若验证指令信息和语音开启指令信息匹配成功，此时客户端即检测到预定的指令信息，随即控制界面实现解锁并开启语音识别功能。可选地，验证指令信息先和解锁指令信息以及语音开启指令信息中的任一项进行匹配，若匹配成功则不执行另一匹配动作，若匹配失败则和另一指令信息(解锁指令信息或语音开启指令信息)进行匹配。若验证指令信息和解锁指令信息以及语音开启指令信息均匹配失败，则解锁失败。优选地，可以根据用户历史数据来分配解锁指令信息或语音开启指令信息的匹配顺序，实时获取客户端中两种指令信息的匹配成功次数，将匹配成功次数更多的一项作为优先匹配的信息项，以提高匹配效率。

在一个具体实施方式中，若检测到客户端进入锁屏模式，则关闭语音识别功能。在该实施方式中，若客户端进入了锁屏模式，则说明暂时已经不需要对客户端进行操作或者控制，因此，可以关闭语音识别功能，以避免客户端在锁屏模式下来频繁对语音信号进行检测，增大系统的消耗。

在一个具体实施方式中，若客户端进入解锁模式并且不开启语音识别功能，在用户操作过程中也可以通过特定的指令来实现对语音识别功能的开启，例如，通过对客户端中某个控件的触发、输入特定的人脸图像或者输入特定的手势指令等来实现对语音识别功能的开启。

S20：获取语音数据，查询预设的自定义匹配语音库中是否存在和语音数据匹配的预设匹配语音。

其中，自定义匹配语音库是预先设置的包括N段匹配语音数据的语音库，N为正整数。用户可以在客户端中预先录制预定数量的匹配语音数据，或者在客户端中输入预定的文字信息，客户端直接将该文字信息作为匹配语音数据进行存储或者将该文字信息转换成匹配语音数据后再进行存储。客户端开启语音识别功能之后，获取语音数据，该语音数据可以通过客户端的语音录制工具来采集得到。采集到语音数据之后，将该语音数据和自定义匹配语音库中的N段匹配语音数据一一进行匹配，查询自定义匹配语音库中是否存在和语音数据匹配的预设匹配语音。预设匹配语音为自定义匹配语音库中和语音数据匹配成功的匹配语音数据。若匹配语音数据为文字信息，则将语音数据进行语音识别转化成文字之后，再和匹配语音数据进行匹配。

可选地，自定义匹配语音库可以存储在服务端中，自定义匹配语音库在服务端中以用户标识为索引进行存储。客户端在获取到语音数据之后，在服务端中根据用户标识查询到对应的自定义匹配语音库，将该语音数据和自定义匹配语音库中的N段匹配语音数据一一进行匹配，查询自定义匹配语音库中是否存在和语音数据匹配的预设匹配语音。

S30：若自定义匹配语音库中存在和语音数据匹配的预设匹配语音，则执行和语音数据匹配的预设匹配语音对应的功能。

自定义匹配语音库中的每一段匹配语音数据都对应客户端的一个功能，具体的功能对应可以在用户配置匹配语音数据时进行设定。示例性地，可以选择将一匹配语音数据对应于客户端的一具体应用程序的开启或关闭，客户端响铃、震动或静音模式的切换，或者输入法的切换等。可以理解地，一段匹配语音数据和客户端的一个功能是一一对应的。在该步骤中，若自定义匹配语音库中存在和语音数据匹配的预设匹配语音，则执行和语音数据匹配的预设匹配语音对应的功能。例如：如果匹配语音数据A对应的功能是将客户端调整为震动模式，若在该步骤中和语音数据匹配的预设匹配语音为匹配语音数据A，此时客户端将调整为震动模式。

在一个具体实施方式中，自定义匹配语音库包括M个匹配语音子库，每一匹配语音子库包括匹配语音子数据，其中，M为正整数。可以理解地，即是将原有自定义匹配语音库中的匹配语音数据进行分库。可选地，可以根据每一匹配语音数据对应的功能为自定义匹配语音库进行分库，或者，按照用户的使用习惯为自定义匹配语音库进行分库，例如：匹配语音数据的使用频率、不同时段匹配语音数据的使用频率。

在本实施例中，在检测到预定的指令信息，则客户端控制界面实现解锁并开启语音识别功能；获取语音数据，查询预设的自定义匹配语音库中是否存在和语音数据匹配的预设匹配语音。若自定义匹配语音库中存在和语音数据匹配的预设语音，则执行和语音数据匹配的预设语音对应的功能。通过一个指令可以同时实现客户端的解锁并开启语音识别功能，用户可以根据需要在解锁的时候开启语音识别功能，保证了使用的效率和便捷性。并且通过解锁阶段来对语音识别功能开启和不开启的选择，也减轻了客户端的负担。

在一个实施例中，如图3所示，在获取语音数据，查询预设的自定义匹配语音库中是否存在和语音数据匹配的预设匹配语音的步骤之后，该语音控制方法还包括如下步骤：

S40：若自定义匹配语音库中不存在和语音数据匹配的预设语音，则查询预设的默认匹配语音库中是否存在和语音数据匹配的预设默认语音。

其中，默认匹配语音库是客户端预设的语音库，该默认匹配语音库是为客户端中的功能预先配置的默认语音数据。例如，为客户端中打开微信APP这个功能配置一默认语音数据“打开微信”。

若在自定义匹配语音库中没有查询到和语音数据匹配的预设语音，则说明自定义匹配语音库中可能不存在和语音数据匹配的预设语音。此时，将语音数据在默认匹配语音库中进行匹配，查询默认匹配语音库中是否存在和语音数据匹配的预设默认语音。可以理解地，此时语音数据和默认语音数据的匹配程度很难达到100％，因此，可以提前设定一匹配阈值，只要语音数据和一个默认语音数据的匹配程度达到该匹配阈值，则认为匹配成功，即认为默认匹配语音库中存在和语音数据匹配的预设默认语音。

S50：若默认匹配语音库中存在和语音数据匹配的默认语音，则在界面上显示和语音数据匹配的默认语音对应的功能。

在该步骤中，若默认匹配语音库中存在和语音数据匹配的默认语音，则在客户端的界面上显示和语音数据匹配的默认语音对应的功能。可以理解地，此时在界面上显示的功能为客户端对语音数据的一个猜测，因此，通过在界面上显示的形式，供用户选择，若用户确实是要执行该界面上显示的功能，则对该界面上显示的功能进行确认即可执行对应的功能。该确认方式可以是通过点击、触摸或者长按等方式来实现。可以理解地，在界面上显示和语音数据匹配的默认语音对应的功能可以是将该功能对应的图标或者控件在界面上进行突出或者浮动显示，以供用户选择。优选地，在界面上显示和语音数据匹配的默认语音对应的功能可以不止为一个，具体可以根据预设的匹配阈值来设定，可以将默认语音库中和语音数据的匹配程度超过匹配阈值的预设默认语音都在界面上显示对应的功能，以供用户选择。

在本实施例中，若自定义匹配语音库中不存在和语音数据匹配的预设语音，则查询预设的默认匹配语音库中是否存在和语音数据匹配的预设默认语音。若默认匹配语音库中存在和语音数据匹配的默认语音，则在界面上显示和语音数据匹配的默认语音对应的功能。通过和默认匹配语音库中的默认语音进行匹配的方式在界面上显示和语音数据匹配的默认语音对应的功能，为用户推荐对应的功能，以更好地帮助用户对客户端进行操作，提高操控的便利性。

在一个实施例中，如图4所示，在若自定义匹配语音库中不存在和语音数据匹配的预设语音，则查询默认匹配语音库中是否存在和语音数据匹配的预设默认语音的步骤之后，该语音控制方法还包括如下步骤：

S60：若默认匹配语音库中不存在和语音数据匹配的默认语音，则对语音数据进行语音识别，得到文字信息。

在该步骤中，若默认匹配语音库中还是不存在和语音数据匹配的默认语音，则对语音数据进行语音识别，将语音数据转化为文字信息。具体地，可以采用语音识别算法对语音数据进行语音识别，例如：基于DTW的语音识别算法或者基于HMM的语音识别算法等。

S70：将文字信息以可编辑的形式在界面上进行显示。

在将语音数据进行语音识别转化为文字信息之后，将文字信息以可编辑的形式在界面上进行显示，以供用户进行编辑或调整。若用户对文字信息进行调整，则可以根据调整后的文字信息重新和预设的自定义匹配语音库以及预设的默认匹配语音库进行匹配，并根据匹配结果执行对应的步骤。

在本实施例中，若默认匹配语音库中不存在和语音数据匹配的默认语音，则对语音数据进行语音识别，得到文字信息；再将文字信息以可编辑的形式进行显示，以供用户进行编辑或者调整，进一步提高用户操作的便利性。

在一个实施例中，如图5所示，在若默认匹配语音库中存在和语音数据匹配的默认语音，则在界面上显示和语音数据匹配的默认语音对应的功能的步骤之后，该语音控制方法还包括如下步骤：

S51：若获取到界面上显示的语音数据匹配的默认语音对应的功能的触发指令，则发出自定义匹配语音库配置信息，自定义匹配语音库配置信息包括语音数据和默认语音对应的功能；

S52：接收界面对自定义匹配语音库配置信息的反馈指令，若获取到确认添加的反馈指令，则将语音数据和默认语音对应的功能进行关联并存储到自定义匹配语音库中。

其中，自定义匹配语音库配置信息是指对自定义匹配语音库进行配置的提示信息，可以包括对自定义匹配语音数据库的增加、减少或者修改等。该触发指令可以是对显示界面的点击、触摸或者长按等操作。可选地，在自定义匹配语音库配置信息中，还可以包括提示文字信息，例如“是否将以下语音和功能进行绑定？”。用户可以根据该提示文字信息做出相应的选择，例如：如果用户同意进行绑定，则可以点击“确认”的按键，如果不同意，则点击“取消”的按键。客户端在获取到用户点击“确认”的按键之后，即获取到界面对自定义匹配语音库配置信息的反馈指令，而该反馈指令为确认添加的反馈指令。此后将语音数据和默认语音对应的功能进行关联并存储到自定义匹配语音库中。

在该实施例中，在界面上显示了和语音数据匹配的默认语音对应的功能之后，若用户通过点击或者触摸等动作选择执行该默认语音对应的功能，则说明该语音数据的发出就是想触发该默认语音对应的功能。此时，通过提示用户是否需要对自定义匹配语音库进行配置，以更好地丰富自定义匹配语音库，提高用户后续操作的便捷性。

在一个实施例中，如图6所示，在若检测到预定的指令信息，则控制界面实现实现解锁并开启语音识别功能的步骤之前，该语音控制方法还包括如下步骤：

S11：获取人脸图像，对人脸图像进行特征向量的提取，得到人脸特征向量；

S12：计算人脸特征向量和预设标准特征向量的相似度，得到特征相似度；

S13：若特征相似度符合预设的相似度范围，则将人脸图像输入到微表情识别模型中进行识别，得到微表情单元；

S14：若微表情单元和预设的标准微表情一致，则检测到预定的指令信息。

在该实施例中，客户端通过图像采集工具采集人脸图像，并对该人脸图像进行特征向量的提取，得到人脸特征向量。可选地，该人脸特征向量可以为HOG(Histogram ofOriented Gradient,梯度方向直方图)特征向量、LBP(Local Binary Patterns，局部二值模式)特征向量或PCA(Principal Component Analysis，主成分分析)特征向量等。

其中，预设标准特征向量是预先对用户进行人脸采集，并提取特征向量之后得到的向量。用于辨识人脸图像是否为用户本人。具体地，通过计算人脸特征向量和预设标准特征向量的相似度，得到特征相似度的方式来衡量人脸图像中对应的人脸是否为用户本人。通过预先设定一个相似度范围，该具体的相似度范围可以根据具体的相似度计算算法和实际需要来进行设定。若特征相似度符合预设的相似度范围，则说明人脸图像中的人脸为用户本人。

进一步地，若特征相似度符合预设的相似度范围，则将人脸图像输入到微表情识别模型中进行识别，得到微表情单元。微表情识别模型是用于判断人脸图像中人脸情绪的识别模型，该微表情识别模型可以判断人脸图像中人脸对应于预设的多种情绪的概率值，若某种情绪的概率值超过对应的预设阈值，则得到该人脸图像对应的情绪即为微表情单元。例如，可以将表情识别模型中的情绪设定为高兴、悲伤、惊讶、轻蔑、害怕、愤怒和厌恶7种。具体地，可以预先采集分别代表这7种情绪的大量样本图片进行标注，形成样本图片集，然后选择对应的神经网络模型或者分类器进行训练，最终得到微表情识别模型。此后，在该步骤中，将人脸图像输入到微表情识别模型中进行识别，就得到微表情单元。预设的标准微表情为用户预先设置的微表情，若微表情单元和预设的标准微表情一致，则检测到预定的指令信息。

在一个具体实施方式中，若微表情单元和预设的标准微表情不一致，则客户端控制界面实现解锁但是不开启语音识别功能。优选地，在客户端进入解锁模式之后，也可以通过一特定方式开启语音识别功能。示例性地，可以通过输入一微表情图像，若该微表情图像对应的微表情为预设的标准微表情，则开启语音识别功能。

在本实施例中，通过人脸图像来进行预定的指令信息的检测，当人脸图像的人脸特征向量符合预设的相似度范围且人脸图像对应的微表情单元和预设的标准微表情一致，则检测到预定的指令信息。通过一次图像采集就可以实现对界面解锁和语音识别功能开关的设定，大大提高了客户端的操作效率，也提高了用户操作的便捷性。

在一个实施例中，如图7所示，在若检测到预定的指令信息，则控制界面实现解锁并开启语音识别功能的步骤之前，该语音控制方法还包括如下步骤：

S11’：获取用户输入的待识别手势指令，将待识别手势指令分别和解锁手势指令以及语音开启手势指令进行匹配。

S12’：若待识别手势指令和语音开启手势指令匹配成功，则执行控制界面实现解锁并开启语音识别功能的步骤。

在该实施例中，通过预先设置解锁手势指令以及语音开启手势指令，并为这两种手势指令分别对应不同的功能。具体地，解锁手势指令对应于客户端控制界面实现解锁并且不开启语音识别功能，语音开启手势指令对应于客户端控制界面实现解锁并且开启语音识别功能。若待识别手势指令和所述语音开启手势指令匹配成功，则执行控制界面实现解锁并开启语音识别功能的步骤。

在一个具体实施方式中，在获取用户输入的待识别手势指令，将待识别手势指令分别和解锁手势指令以及语音开启手势指令进行匹配的步骤之后，该语音控制方法还包括如下步骤：

若待识别手势指令和解锁手势指令匹配成功，则客户端控制界面实现解锁，并且不开启语音识别功能。

在这个实施方式中，若待识别手势指令和解锁手势指令匹配成功，则客户端控制界面实现解锁，并且不开启语音识别功能。即用户在不需要开启语音识别功能时，可以只输入和解锁手势指令匹配的手势指令，进入常规的操作方式。

在本实施例中，通过预先配置解锁手势指令以及语音开启手势指令，并为这两种手势指令对应不同的功能。用户在进行解锁操作时根据实际需要选择不同的手势就可以同时实现解锁和语音识别功能的开关的选择，更好地实现了对客户端操作的选择，提高了操作的便捷性。

在一个实施例中，如图8所示，在若自定义匹配语音库中存在和语音数据匹配的预设语音，则执行和语音数据匹配的预设语音对应的功能的步骤之后，该语音控制方法还包括如下步骤：

S31：若和语音数据匹配的预设语音对应的功能为应用程序的开启功能，则获取语音操作指令。

S32：根据应用程序从自定义匹配语音库中获取对应的预设操作语音数据。

S33：查询预设操作语音数据中是否存在和语音操作指令匹配的匹配操作语音。

S34：若预设操作语音数据中存在和语音操作指令匹配的匹配操作语音，则执行和语音操作指令匹配的匹配操作语音对应的功能。

其中语音操作指令为对开启后的应用程序的进一步的操作指令，该语音操作指令也为一语音信息。此时根据应用程序从自定义匹配语音库中获取对应的预设操作语音数据来和该语音操作指令进行匹配。具体地，可以为自定义匹配语音库中的匹配语音数据赋予一数据标识，用以标识该匹配语音数据的对应归属，例如是客户端的系统相关的数据、某一应用程序的操作数据或者其他数据等。若预设操作语音数据中存在和语音操作指令匹配的匹配操作语音，则执行和语音操作指令匹配的匹配操作语音对应的功能。如此，就可以通过应用程序快速地定位到相关的预设操作语音数据，减少对语音操作指令的匹配时间，提高匹配效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音控制装置，该语音控制装置与上述实施例中语音控制方法一一对应。如图9所示，该语音控制装置包括指令信息检测模块10、语音数据匹配模块20和功能执行模块30。各功能模块详细说明如下：

指令信息检测模块10，用于在检测到预定的指令信息时，则控制界面实现解锁并开启语音识别功能；

语音数据匹配模块20，用于获取语音数据，查询预设的自定义匹配语音库中是否存在和语音数据匹配的预设匹配语音；

功能执行模块30，用于在自定义匹配语音库中存在和语音数据匹配的预设语音时，则执行和语音数据匹配的预设语音对应的功能。

优选地，该语音控制装置还包括默认匹配语音库查询模块和功能显示模块。

默认匹配语音库查询模块，用于在自定义匹配语音库中不存在和语音数据匹配的预设语音时，则查询预设的默认匹配语音库中是否存在和语音数据匹配的预设默认语音。

功能显示模块，用于在默认匹配语音库中存在和语音数据匹配的默认语音时，则在界面上显示和语音数据匹配的默认语音对应的功能。

优选地，该语音控制装置还包括语音识别模块和文字显示模块。

语音识别模块，用于在默认匹配语音库中不存在和语音数据匹配的默认语音时，则对语音数据进行语音识别，得到文字信息。

文字显示模块，用于将文字信息以可编辑的形式在界面上进行显示。

优选地，该语音控制装置还包括语音库配置信息发送模块和关联存储模块。

语音库配置信息发送模块，用于在获取到界面上显示的语音数据匹配的默认语音对应的功能的触发指令时，则发出自定义匹配语音库配置信息，自定义匹配语音库配置信息包括语音数据和默认语音对应的功能。

关联存储模块，用于接收界面对自定义匹配语音库配置信息的反馈指令，若获取到确认添加的反馈指令，则将语音数据和默认语音对应的功能进行关联并存储到自定义匹配语音库中。

优选地，该语音控制装置还用于：

获取人脸图像，对人脸图像进行特征向量的提取，得到人脸特征向量；

计算人脸特征向量和预设标准特征向量的相似度，得到特征相似度；

若特征相似度符合预设的相似度范围，则将人脸图像输入到微表情识别模型中进行识别，得到微表情单元；

若微表情单元和预设的标准微表情一致，则检测到预定的指令信息。

优选地，该语音控制装置还用于：

获取用户输入的待识别手势指令，将待识别手势指令分别和解锁手势指令以及语音开启手势指令进行匹配；

若待识别手势指令和语音开启手势指令匹配成功，则执行控制界面实现解锁并开启语音识别功能的步骤。

优选地，该语音控制装置还用于：

若和语音数据匹配的预设语音对应的功能为应用程序的开启功能，则获取语音操作指令。

根据应用程序从自定义匹配语音库中获取对应的预设操作语音数据。

查询预设操作语音数据中是否存在和语音操作指令匹配的匹配操作语音。

若预设操作语音数据中存在和语音操作指令匹配的匹配操作语音，则执行和语音操作指令匹配的匹配操作语音对应的功能。

关于语音控制装置的具体限定可以参见上文中对于语音控制方法的限定，在此不再赘述。上述语音控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种语音控制方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一实施例中的语音控制方法步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例中的语音控制方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音控制方法，其特征在于，包括：

2.如权利要求1所述的语音控制方法，其特征在于，在所述获取语音数据，查询预设的自定义匹配语音库中是否存在和所述语音数据匹配的预设匹配语音的步骤之后，所述语音控制方法还包括如下步骤：

若所述自定义匹配语音库中不存在和所述语音数据匹配的预设语音，则查询预设的默认匹配语音库中是否存在和所述语音数据匹配的预设默认语音；

若所述默认匹配语音库中存在和所述语音数据匹配的默认语音，则在界面上显示和所述语音数据匹配的默认语音对应的功能。

3.如权利要求2所述的语音控制方法，其特征在于，在所述若所述自定义匹配语音库中不存在和所述语音数据匹配的预设语音，则查询预设的默认匹配语音库中是否存在和所述语音数据匹配的预设默认语音的步骤之后，所述语音控制方法还包括如下步骤：

若所述默认匹配语音库中不存在和所述语音数据匹配的默认语音，则对所述语音数据进行语音识别，得到文字信息；

将所述文字信息以可编辑的形式在界面上进行显示。

4.如权利要求1所述的语音控制方法，其特征在于，所述自定义匹配语音库包括M个匹配语音子库，每一所述匹配语音子库包括匹配语音子数据，其中，M为正整数。

5.如权利要求2所述的语音控制方法，其特征在于，在所述若所述默认匹配语音库中存在和所述语音数据匹配的默认语音，则在界面上显示和所述语音数据匹配的默认语音对应的功能的步骤之后，所述语音控制方法还包括如下步骤：

若获取到界面上显示的所述语音数据匹配的默认语音对应的功能为触发指令，则发出自定义匹配语音库配置信息，所述自定义匹配语音库配置信息包括语音数据和所述默认语音对应的功能；

接收所述界面对所述自定义匹配语音库配置信息的反馈指令，若获取到确认添加的反馈指令，则将所述语音数据和所述默认语音对应的功能进行关联并存储到所述自定义匹配语音库中。

6.如权利要求1所述的语音控制方法，其特征在于，在所述若检测到预定的指令信息，则控制界面实现解锁并开启语音识别功能的步骤之前，所述语音控制方法还包括如下步骤：

获取人脸图像，对所述人脸图像进行特征向量的提取，得到人脸特征向量；

计算所述人脸特征向量和预设标准特征向量的相似度，得到特征相似度；

若所述特征相似度符合预设的相似度范围，则将所述人脸图像输入到微表情识别模型中进行识别，得到微表情单元；

若所述微表情单元和预设的标准微表情一致，则检测到预定的指令信息。

7.如权利要求6所述的语音控制方法，其特征在于，在所述若所述特征相似度符合预设的相似度范围，则将所述人脸图像输入到微表情识别模型中进行识别，得到微表情单元的步骤之后，所述语音控制方法还包括如下步骤：

若所述微表情单元和预设的标准微表情不一致，则控制界面实现解锁并且不开启语音识别功能。

8.如权利要求1所述的语音控制方法，其特征在于，在所述若检测到预定的指令信息，则控制界面实现解锁并开启语音识别功能的步骤之前，所述语音控制方法还包括如下步骤：

获取用户输入的待识别手势指令，将所述待识别手势指令分别和解锁手势指令以及语音开启手势指令进行匹配；

若所述待识别手势指令和所述语音开启手势指令匹配成功，则执行所述控制界面实现解锁并开启语音识别功能的步骤。

9.如权利要求1所述的语音控制方法，其特征在于，在所述若所述自定义匹配语音库中存在和所述语音数据匹配的预设语音，则执行和所述语音数据匹配的预设语音对应的功能的步骤之后，所述语音控制方法还包括如下步骤：

若和所述语音数据匹配的预设语音对应的功能为应用程序的开启功能，则获取语音操作指令；

根据所述应用程序从所述自定义匹配语音库中获取对应的预设操作语音数据；

查询预设操作语音数据中是否存在和所述语音操作指令匹配的匹配操作语音；

若所述预设操作语音数据中存在和所述语音操作指令匹配的匹配操作语音，则执行和所述语音操作指令匹配的匹配操作语音对应的功能。

10.如权利要求1所述的语音控制方法，其特征在于，所述语音控制方法还包括如下步骤：

若检测到客户端进入锁屏模式，则关闭所述语音识别功能。

11.一种语音控制装置，其特征在于，包括：

12.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10中任一项所述语音控制方法的步骤。

13.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述语音控制方法的步骤。