CN110138961A

CN110138961A - 智能语音助手的控制方法、装置、介质及设备

Info

Publication number: CN110138961A
Application number: CN201910300005.9A
Authority: CN
Inventors: 邱柏宏
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-08-16

Abstract

本申请实施例公开了一种智能语音助手的控制方法、装置、介质及设备，其涉及智能语音助手领域，具体涉及语音语义与手语的转化，其中该智能语音助手的控制方法包括：在进入智能语音助手的使用状态后，获取用户的身体动作数据；将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据；根据所述语音数据，控制智能语音助手设备执行预设指令所规定的目标动作。本申请实施例通过获取用户的身体动作数据，并将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据，解决了现有技术中，由于智能语音助手都是通过语音控制来实现其特定的操作，导致口语障碍者无法使用智能语音助手的问题。

Description

智能语音助手的控制方法、装置、介质及设备

技术领域

本发明涉及智能语音助手应用技术领域，特别是涉及一种智能语音助手的控制方法、装置、介质及设备。

背景技术

随着移动终端的广泛应用，移动终端的智能语音助手也成为人们常用的功能。在现有技术中，用户可以使用移动终端的语音助手功能与机器助手进行语音交互，使机器助手可以在用户的语音控制下完成对移动终端的各种操作，其中也包括对移动终端上的应用程序的各种操作，如智能语音助手一般都需要特定的语言或者操作进行唤醒，之后才能进行交互，比如通过发“Hi siri”的特定的语音来开启智能语音助手，或者通过控制按钮来开启智能语音助手，例如设置日程、开启闹钟、设置代办事项、打开应用和拨打电话等等。目前大多数智能语音助手都是通过语音控制来实现其特定的操作，但是对于口语障碍者来说，他们将无法使用智能语音助手，即缺乏识别手语的智能语音助手只能满足正常人的使用，不能满足残疾人特别是语言障碍者的使用，因此现有技术的智能语音助手的使用范围比较狭窄，并不是很好的智能助手。

发明内容

本申请实施例提供一种智能语音助手的控制方法、装置、介质及设备，以解决现有技术中，智能语音助手都是通过语音控制来实现其特定的操作，导致口语障碍者无法使用智能语音助手的问题。

为解决上述技术问题，本申请实施例采用的第一技术方案如下：

一种智能语音助手的控制方法，其包括以下步骤：在进入智能语音助手的使用状态后，获取用户的身体动作数据；将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据；根据所述语音数据，控制智能语音助手设备执行预设指令所规定的目标动作。

进一步地，获取用户的身体动作数据，具体包括：获取用户完整的手语动作数据，其中该手语动作为聋哑人互相交流的规范手语动作。

进一步地，所述获取用户完整的手语动作数据，具体包括：

获取用户通过摄像头展示的全部手语动作；

将用户全部的所述手语动作进行存储并进行识别，以形成手语动作数据。

进一步地，所述将所述身体动作数据转化为智能语音助手可识别的转换语音数据，具体包括：将所述身体动作数据转化为对应的文字数据，再将所述文字数据转换为智能语音助手设备可识别的语音数据。

进一步地，

将所述身体动作数据转化为对应的文字数据，再将所述文字数据转换为智能语音助手设备可识别的语音数据，包括：

将所述身体动作数据通过事先训练好的第一神经网络模型转化为对应的文字数据；其中，所述第一神经网络模型用于将动作数据转化为与其对应的文字数据；

将所述文字数据通过事先训练好的第二神经网络模型转化为对应的语音数据；其中，所述第二神经网络模型用于将文字数据转化为与其对应的语音数据；

其中，将所述身体动作数据通过事先训练好的第一神经网络模型转化为对应的文字数据，包括：

将所述身体动作数据输入所述第一神经网络模型，以让所述第一神经网络模型按照手语规范进行识别，得出每个独立的动作所代表的语义，再将各个动作对应的语义翻译为对应的文字，最后按照顺序将各个动作对应的语义连起来，翻译成连贯完整的文字数据；

其中，将所述文字数据通过事先训练好的第二神经网络模型转化为对应的语音数据，包括：

将所述文字数据输入所述第二神经网络模型，以通过所述第二神经网络模型将所述文字数据转换为智能语音助手设备可识别的语音数据，并将该转化的语音数据播放出来。

进一步地，根据所述语音数据，控制智能语音助手设备执行预设指令所规定的目标动作，具体包括：判断所述语音数据是否包含预设语音数据，其中所述预设语音数据为智能语音助手设备执行所述预设指令所规定的目标动作所需要接收到的语音数据；若判断所述语音数据包含所述预设语音数据，则控制智能语音助手设备执行预设指令所规定的目标动作；其中，所述目标动作为与智能语音助手设备的预设指令相对应的动作，所述目标动作包括开机动作、打开摄像窗口动作及进入支付窗口动作。

进一步地，

若判断所述语音数据没有包含所述预设语音数据，则向用户提示执行目标动作失败的信息，并在用户界面显示要求用户重新使用手语动作进行互动的文字和/或图片。

为解决上述技术问题，本申请实施例采用的第二技术方案如下：

一种智能语音助手的控制装置，其包括：数据获取模块，其用于在进入智能语音助手的使用状态后，获取用户的身体动作数据；数据转化模块，其用于将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据；动作执行模块，其用于根据所述语音数据，控制智能语音助手设备执行预设指令所规定的目标动作。

为解决上述技术问题，本申请实施例采用的第三技术方案如下：

一种存储介质，其为计算机可读的存储介质，其上存储有计算机可读的计算机程序，所述计算机程序被执行时实现如上述的智能语音助手的控制方法。

为解决上述技术问题，本申请实施例采用的第四技术方案如下：

一种计算机设备，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的智能语音助手的控制方法。

本申请实施例的有益效果是：区别于现有技术的情况，本申请实施例通过获取用户的身体动作数据，并将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据，最后根据所述语音数据，控制智能语音助手设备执行预设指令所规定的目标动作，使得语音障碍者可通过在智能语音助手设备面前展示身体动作，即可与智能语音助手进行信息交互，解决了现有技术中，智能语音助手都是通过语音控制来实现其特定的操作，导致口语障碍者无法使用智能语音助手的问题。

附图说明

图1是本申请实施例一的智能语音助手的控制方法一实施方式的实施流程图；

图2是本申请实施例二的智能语音助手的控制方法一实施方式的另一实施流程图；

图3是本申请实施例三的智能语音助手的控制装置一实施方式的框架结构图；

图4是本申请实施例四的计算机可读存储介质一实施方式的部分框架示意图；

图5是本申请实施例五的计算机设备一实施方式的部分框架示意图。

具体实施方式

实施例一

请参考图1，图1是本实施例的智能语音助手的控制方法的实施流程图，结合图1可以得到，本申请实施例的智能语音助手的控制方法，用于口语障碍者与智能语音助手进行信息交互，其包括以下步骤：

步骤S101：在进入智能语音助手的使用状态后，获取用户的身体动作数据。

在本步骤中，可选地，在一些实施方式中，需要用户面向智能语音助手设备，待智能语音助手设备感应到用户的面向信号后，才能进入人机交互的使用状态，当出现表示动作交互使用状态的人机交互框架或屏幕等时，用户便可向智能语音助手设备展示其身体动作姿势。设置使用状态的目的在于，能使智能语音助手更好地捕获用户的身体动作数据，也使得用户能更好地进入状态面向智能语音助手设备展示其身体动作。

步骤S102：将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据。

在本步骤中，可选地，身体动作数据不能直接为智能语音助手所识别，需要间接地将身体动作数据转化为对应的语音数据。智能语音助手设备所包含的语音控制器智能识别语音数据，不能识别身体动作数据本身，转化的方法为间接转化，将身体动作数据转化为中间状态的数据，再将该中间状态的数据转化为语音数据。

步骤S103：根据转化之后的所述语音数据，控制智能语音助手设备执行与所述语音数据对应的预设指令所规定的目标动作。

在本步骤中，目标动作是指和智能语音助手设备的预设指令相对应的动作，如开机动作、打开摄像窗口或进入支付窗口等动作。

本申请实施例通过获取用户的身体动作数据，并将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据，最后根据所述语音数据，控制智能语音助手设备执行与所述语音数据对应的预设指令所规定的目标动作，使得语音障碍者可通过在智能语音助手设备面前展示身体动作，即可与智能语音助手进行信息交互，解决了现有技术中，智能语音助手都是通过语音控制来实现其特定的操作，导致口语障碍者无法使用智能语音助手的问题。

实施例二

请参考图2，图2是本申请实施例的智能语音助手的控制方法的另一实施流程图，结合图2可以得到，本申请实施例的一种智能语音助手的控制方法，用于口语障碍者与智能语音助手进行信息交互，其包括以下步骤：

步骤S201：在进入智能语音助手的使用状态后，获取用户完整的手语动作数据。其中，所述手语动作为口语障碍者或者聋哑人互相交流的规范手语动作。

在本步骤中，可选地，在一些实施方式中，需要用户面向智能语音助手设备，待智能语音助手设备感应到用户的面向信号后，才能进入人机交互的使用状态，当出现表示动作交互使用状态的人机交互框架或屏幕等时，用户便可向智能语音助手设备展示其身体动作姿势。设置使用状态的目的在于，能使智能语音助手更好地捕获用户的身体动作数据，也使得用户能更好地进入状态，面向智能语音助手设备展示其身体动作。

在本步骤中，可选地，所述获取用户完整的手语动作数据，包括：

第一，获取用户通过摄像头展示的全部手语动作。

第二，将用户全部的所述手语动作进行存储并进行识别，以形成手语动作数据。

手语是用手势比量动作，根据手势的变化模拟形象或者音节以构成的一定意思或词语，它是听力障碍还有无法言语的人(即聋哑人)互相交际和交流思想的一种手的语言，它是“有声语言的重要辅助工具”，而对于听力障碍的人来说，它则是主要的交际工具。手语与语言的差别则主要在于，在语音这个问题上和聋哑人是否以手势进行思维。语言学家根据语言的语音属性认为手语是一个符号，而非语言；耳聋教育专家、特殊教育工作者和聋哑人本身根据手语的语言属性认为手语同样是语言，它是语言的一个分支，是一种特殊的语言形式。然而，手语不能和书面语绝对地对应起来，聋哑人书面语言要受到手语的限制，不能形成正确的书面语言，虽然手语不能作为完全意义上的语言，但手语所具有的语言的属性说明，手语应该作为语言的类型之一。

步骤S202：将所述手语动作数据转化为对应的文字数据。

在本步骤中，可选地，将所述手语动作数据转化为对应的文字数据，包括：

将所述手语动作数据通过事先训练好的第一神经网络模型转化为对应的文字数据。其中，所述第一神经网络模型用于将动作数据转化为与其对应的文字数据。

将所述身体动作数据输入所述第一神经网络模型，以让所述第一神经网络模型按照手语规范进行识别，得出每个独立的动作所代表的语义，再将各个动作对应的语义翻译为对应的文字，最后按照顺序将各个动作对应的语义连起来，翻译成连贯完整的文字数据。

步骤S203：将所述文字数据转换为智能语音助手设备可识别的语音数据。

在本步骤中，可选地，将所述文字数据转换为智能语音助手设备可识别的语音数据，包括：

将所述文字数据通过事先训练好的第二神经网络模型转化为对应的语音数据。其中，所述第二神经网络模型用于将文字数据转化为与其对应的语音数据。

在步骤S202和步骤S203中，可选地，身体动作数据不能直接为智能语音助手所识别，需要间接地将身体动作数据转化为对应的语音数据。智能语音助手设备所包含的语音控制器智能识别语音数据，不能识别身体动作数据本身，转化的方法为间接转化，将身体动作数据转化为中间状态的数据，再将该中间状态的数据转化为语音数据。

在本实施例中，神经网络即人工神经网络(Artificial Neural Network，即ANN)，是20世纪80年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型，由大量的节点(或称神经元)之间相互联接构成，每个节点代表一种特定的输出函数，称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。在人工神经网络中，神经元处理单元可表示不同的对象，例如特征、字母和概念，或者一些有意义的抽象模式。神经网络中处理单元的类型分为三类：输入单元、输出单元和隐单元。其中，输入单元接受外部世界的信号与数据，输出单元实现系统处理结果的输出，隐单元是处在输入和输出单元之间。

神经网络模型是人工神经网络经过大量的学习训练之后生成的模型，神经网络模型训练生成后，可以将输入的图片或者语言进行处理后，输出符合预设目标数据。在本实施例中，例如生成第一神经网络模型过程为：向其输入一个身体动作，使其输出表达该身体动作所包含意思的文字，经过反复训练修改，使神经网络模型输出的文字越来越接近该身体动作所包含意思，最终能够将输入其中的身体动作数据经过识别后，输出符合该身体动作所包含意思的文字，此时训练的神经网络模型生成了第一神经网络模型。同样，生成第二神经网络模型过程为：向其输入一段文字数据，使其输出表达该文字数据所包含意思的语音，经过反复训练修改，使神经网络模型输出的语音越来越接近该文字数据所包含意思，最终能够将输入其中的文字数据经过识别后，输出符合该文字数据所包含意思的语音，此时训练的神经网络模型生成了第二神经网络模型。

步骤S204：判断所述语音数据是否包含预设语音数据，其中所述预设语音数据为智能语音助手设备执行所述预设指令所规定的目标动作所需要接收到的语音数据。

在本实施例中，智能语音助手必须接收到预设语音数据才会执行相对应的动作，比如，预设语音为：打开摄像头或执行支付等。

步骤S205：若判断所述语音数据包含所述预设语音数据，则控制智能语音助手设备执行与所述语音数据对应的预设指令所规定的目标动作。

在本步骤中，可选地，所述目标动作为与智能语音助手设备的预设指令相对应的动作，所述目标动作包括开机动作、打开摄像窗口动作及进入支付窗口动作。

步骤S206：若判断所述语音数据没有包含所述预设语音数据，则向用户提示执行目标动作失败的信息，并在用户界面显示要求用户重新使用手语动作进行互动的文字和/或图片，以重新获取用户的身体动作数据；

在本步骤中，可选地，其中，在用户界面显示要求用户重新使用手语动作进行互动的文字和/或图片，包括：

显示要求用户面向智能语音助手设备，以让语音助手设备对用户的脸面进行感应文字和/或图片。其中，当显示窗口出现表示语音交互使用状态的人机交互框架或屏幕时，表示进入语音交互的使用状态，此时用户便可向智能语音助手设备展示其身体动作姿势。

本申请实施例通过获取用户完整的手语动作数据，并将所述手语动作数据转化为对应的文字数据，再将所述文字数据转换为智能语音助手设备可识别的语音数据，最后通过判断所述语音数据是否包含预设语音数据，来控制智能语音助手设备执行与所述语音数据对应的预设指令所规定的目标动作，使得语音障碍者可通过在智能语音助手设备面前展示身体动作，即可与智能语音助手进行信息交互，解决了现有技术中，智能语音助手都是通过语音控制来实现其特定的操作，导致口语障碍者无法使用智能语音助手的问题。

实施例三

请参阅图3，图3是本申请实施例的智能语音助手的控制装置的框架结构图，结合图3可以得到，本申请实施例的一种智能语音助手的控制装置 30，包括：

数据获取模块31，其用于在进入智能语音助手的使用状态后，获取用户的身体动作数据。

在一些实施方式中，需要用户面向智能语音助手设备，待智能语音助手设备感应到用户的面向信号后，才能进入人机交互的使用状态，当出现表示动作交互使用状态的人机交互框架或屏幕等时，用户便可向智能语音助手设备展示其身体动作姿势。设置使用状态的目的在于，能使智能语音助手更好地捕获用户的身体动作数据，也使得用户能更好地进入状态面向智能语音助手设备展示其身体动作。

数据转化模块32，其用于将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据。

在一些实施方式中，身体动作数据不能直接为智能语音助手所识别，需要间接地将身体动作数据转化为对应的语音数据。智能语音助手设备所包含的语音控制器智能识别语音数据，不能识别身体动作数据本身，转化的方法为间接转化，将身体动作数据转化为中间状态的数据，再将该中间状态的数据转化为语音数据。

动作执行模块33，其用于根据所述语音数据，控制智能语音助手设备执行预设指令所规定的目标动作。

在一些实施方式中，目标动作是指和智能语音助手设备的预设指令相对应的动作，如开机动作、打开摄像窗口或进入支付窗口等动作。

在本实施例中，可选地，所述数据获取模块31还包括：

动作拍摄单元，用于获取用户通过摄像头展示的全部手语动作。

存储分析单元，将用户全部的所述手语动作进行存储并进行识别，以形成手语动作数据。

在本实施例中，可选地，所述数据转化模块32还包括：

第一转化单元，用于将所述手语动作数据转化为对应的文字数据。

第二转化单元，用于将所述文字数据转换为智能语音助手设备可识别的语音数据。

在本实施例中，可选地，所述动作执行模块33还包括：

判断单元，用于判断所述语音数据是否包含预设语音数据，其中所述预设语音数据为智能语音助手设备执行所述预设指令所规定的目标动作所需要接收到的语音数据。

执行单元，用于根据转化之后的所述语音数据，控制智能语音助手设备执行预设指令所规定的目标动作。其中，所述目标动作为与智能语音助手设备的预设指令相对应的动作，所述目标动作包括开机动作、打开摄像窗口及进入支付窗口。

本申请实施例的智能语音助手的控制装置30，通过数据获取模块31在进入智能语音助手的使用状态后，获取用户的身体动作数据，通过数据转化模块32将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据，再通过动作执行模块33根据所述语音数据，控制智能语音助手设备执行与所述语音数据对应的预设指令所规定的目标动作，使得语音障碍者可通过在智能语音助手设备面前展示身体动作，即可与智能语音助手进行信息交互，解决了现有技术中，智能语音助手都是通过语音控制来实现其特定的操作，导致口语障碍者无法使用智能语音助手的问题。

实施例四

请参阅图4，参考图4可以看到，本申请实施例的一种存储介质10，所述的存储介质10，如：ROM/RAM、磁碟、光盘等，其为计算机可读的存储介质10，其上存储有计算机可读的计算机程序11，所述计算机程序11 被执行时实现如实施例一或实施例二所述的智能语音助手的控制方法。

本申请实施例实现的智能语音助手的控制方法，通过获取用户的身体动作数据，并将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据，最后根据所述语音数据，控制智能语音助手设备执行与所述语音数据对应的预设指令所规定的目标动作，使得语音障碍者可通过在智能语音助手设备面前展示身体动作，即可与智能语音助手进行信息交互，解决了现有技术中，智能语音助手都是通过语音控制来实现其特定的操作，导致口语障碍者无法使用智能语音助手的问题。

实施例五

请参阅图5，参考图5可以看到，本申请实施例的一种计算机设备20，其包括处理器21、存储器22及存储于所述存储器22上并可在所述处理器 21上运行的计算机程序221，所述处理器21执行所述计算机程序221时实现如实施例一或实施例二所述的智能语音助手的控制方法。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能语音助手的控制方法，其特征在于，包括以下步骤：

在进入智能语音助手的使用状态后，获取用户的身体动作数据；

将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据；

根据所述语音数据，控制智能语音助手设备执行与所述语音数据对应的预设指令所规定的目标动作。

2.根据权利要求1所述的智能语音助手的控制方法，其特征在于，获取用户的身体动作数据包括：

获取用户完整的手语动作数据，其中该手语动作为聋哑人互相交流的规范手语动作。

3.根据权利要求2所述的智能语音助手的控制方法，其特征在于，所述获取用户完整的手语动作数据包括：

获取用户通过摄像头展示的全部手语动作；

4.根据权利要求1所述的智能语音助手的控制方法，其特征在于，所述将所述身体动作数据转化为智能语音助手可识别的转换语音数据，包括：

将所述身体动作数据转化为对应的文字数据，再将所述文字数据转换为智能语音助手设备可识别的语音数据。

5.根据权利要求4所述的智能语音助手的控制方法，其特征在于，

6.根据权利要求1所述的智能语音助手的控制方法，其特征在于，根据所述语音数据，控制智能语音助手设备执行预设指令所规定的目标动作包括：

判断所述语音数据是否包含预设语音数据，其中所述预设语音数据为智能语音助手设备执行所述预设指令所规定的目标动作所需要接收到的语音数据；

若判断所述语音数据包含所述预设语音数据，则控制智能语音助手设备执行预设指令所规定的目标动作；

其中，所述目标动作为与智能语音助手设备的预设指令相对应的动作，所述目标动作包括开机动作、打开摄像窗口动作及进入支付窗口动作。

7.根据权利要求6所述的智能语音助手的控制方法，其特征在于，所述方法还包括：

8.一种智能语音助手的控制装置，其特征在于，包括：

数据获取模块，其用于在进入智能语音助手的使用状态后，获取用户的身体动作数据；

数据转化模块，其用于将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据；

动作执行模块，其用于根据所述语音数据，控制智能语音助手设备执行预设指令所规定的目标动作。

9.一种存储介质，其特征在于，其为计算机可读的存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如权利要求1～7任一项所述的智能语音助手的控制方法。

10.一种计算机设备，其特征在于，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～7任一项所述的智能语音助手的控制方法。