CN110138961A - 智能语音助手的控制方法、装置、介质及设备 - Google Patents

智能语音助手的控制方法、装置、介质及设备 Download PDF

Info

Publication number
CN110138961A
CN110138961A CN201910300005.9A CN201910300005A CN110138961A CN 110138961 A CN110138961 A CN 110138961A CN 201910300005 A CN201910300005 A CN 201910300005A CN 110138961 A CN110138961 A CN 110138961A
Authority
CN
China
Prior art keywords
data
intelligent sound
sound assistant
voice data
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910300005.9A
Other languages
English (en)
Inventor
邱柏宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN201910300005.9A priority Critical patent/CN110138961A/zh
Publication of CN110138961A publication Critical patent/CN110138961A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. SMS or e-mail
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72475User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Abstract

本申请实施例公开了一种智能语音助手的控制方法、装置、介质及设备,其涉及智能语音助手领域,具体涉及语音语义与手语的转化,其中该智能语音助手的控制方法包括:在进入智能语音助手的使用状态后,获取用户的身体动作数据;将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据;根据所述语音数据,控制智能语音助手设备执行预设指令所规定的目标动作。本申请实施例通过获取用户的身体动作数据,并将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据,解决了现有技术中,由于智能语音助手都是通过语音控制来实现其特定的操作,导致口语障碍者无法使用智能语音助手的问题。

Description

智能语音助手的控制方法、装置、介质及设备
技术领域
本发明涉及智能语音助手应用技术领域,特别是涉及一种智能语音助 手的控制方法、装置、介质及设备。
背景技术
随着移动终端的广泛应用,移动终端的智能语音助手也成为人们 常用的功能。在现有技术中,用户可以使用移动终端的语音助手功能 与机器助手进行语音交互,使机器助手可以在用户的语音控制下完成 对移动终端的各种操作,其中也包括对移动终端上的应用程序的各种 操作,如智能语音助手一般都需要特定的语言或者操作进行唤醒,之 后才能进行交互,比如通过发“Hi siri”的特定的语音来开启智能语 音助手,或者通过控制按钮来开启智能语音助手,例如设置日程、开 启闹钟、设置代办事项、打开应用和拨打电话等等。目前大多数智能 语音助手都是通过语音控制来实现其特定的操作,但是对于口语障碍者来说,他们将无法使用智能语音助手,即缺乏识别手语的智能语音 助手只能满足正常人的使用,不能满足残疾人特别是语言障碍者的使 用,因此现有技术的智能语音助手的使用范围比较狭窄,并不是很好 的智能助手。
发明内容
本申请实施例提供一种智能语音助手的控制方法、装置、介质及设备, 以解决现有技术中,智能语音助手都是通过语音控制来实现其特定的操作, 导致口语障碍者无法使用智能语音助手的问题。
为解决上述技术问题,本申请实施例采用的第一技术方案如下:
一种智能语音助手的控制方法,其包括以下步骤:在进入智能语音助 手的使用状态后,获取用户的身体动作数据;将用户的所述身体动作 数据转化为智能语音助手设备可识别的语音数据;根据所述语音数据,控 制智能语音助手设备执行预设指令所规定的目标动作。
进一步地,获取用户的身体动作数据,具体包括:获取用户完整的手 语动作数据,其中该手语动作为聋哑人互相交流的规范手语动作。
进一步地,所述获取用户完整的手语动作数据,具体包括:
获取用户通过摄像头展示的全部手语动作;
将用户全部的所述手语动作进行存储并进行识别,以形成手语动作数 据。
进一步地,所述将所述身体动作数据转化为智能语音助手可识别的转 换语音数据,具体包括:将所述身体动作数据转化为对应的文字数据,再 将所述文字数据转换为智能语音助手设备可识别的语音数据。
进一步地,
将所述身体动作数据转化为对应的文字数据,再将所述文字数据转换 为智能语音助手设备可识别的语音数据,包括:
将所述身体动作数据通过事先训练好的第一神经网络模型转化为对应 的文字数据;其中,所述第一神经网络模型用于将动作数据转化为与其对 应的文字数据;
将所述文字数据通过事先训练好的第二神经网络模型转化为对应的语 音数据;其中,所述第二神经网络模型用于将文字数据转化为与其对应的 语音数据;
其中,将所述身体动作数据通过事先训练好的第一神经网络模型转化 为对应的文字数据,包括:
将所述身体动作数据输入所述第一神经网络模型,以让所述第一神经 网络模型按照手语规范进行识别,得出每个独立的动作所代表的语义,再 将各个动作对应的语义翻译为对应的文字,最后按照顺序将各个动作对应 的语义连起来,翻译成连贯完整的文字数据;
其中,将所述文字数据通过事先训练好的第二神经网络模型转化为对 应的语音数据,包括:
将所述文字数据输入所述第二神经网络模型,以通过所述第二神经网 络模型将所述文字数据转换为智能语音助手设备可识别的语音数据,并将 该转化的语音数据播放出来。
进一步地,根据所述语音数据,控制智能语音助手设备执行预设指令 所规定的目标动作,具体包括:判断所述语音数据是否包含预设语音数据, 其中所述预设语音数据为智能语音助手设备执行所述预设指令所规定的目 标动作所需要接收到的语音数据;若判断所述语音数据包含所述预设语音 数据,则控制智能语音助手设备执行预设指令所规定的目标动作;其中, 所述目标动作为与智能语音助手设备的预设指令相对应的动作,所述目标 动作包括开机动作、打开摄像窗口动作及进入支付窗口动作。
进一步地,
若判断所述语音数据没有包含所述预设语音数据,则向用户提示执行 目标动作失败的信息,并在用户界面显示要求用户重新使用手语动作进行 互动的文字和/或图片。
为解决上述技术问题,本申请实施例采用的第二技术方案如下:
一种智能语音助手的控制装置,其包括:数据获取模块,其用于在进 入智能语音助手的使用状态后,获取用户的身体动作数据;数据转化模块, 其用于将用户的所述身体动作数据转化为智能语音助手设备可识别的语音 数据;动作执行模块,其用于根据所述语音数据,控制智能语音助手设备 执行预设指令所规定的目标动作。
为解决上述技术问题,本申请实施例采用的第三技术方案如下:
一种存储介质,其为计算机可读的存储介质,其上存储有计算机可读 的计算机程序,所述计算机程序被执行时实现如上述的智能语音助手的控 制方法。
为解决上述技术问题,本申请实施例采用的第四技术方案如下:
一种计算机设备,其包括处理器、存储器及存储于所述存储器上并可 在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实 现如上述的智能语音助手的控制方法。
本申请实施例的有益效果是:区别于现有技术的情况,本申请实施例 通过获取用户的身体动作数据,并将用户的所述身体动作数据转化为智能 语音助手设备可识别的语音数据,最后根据所述语音数据,控制智能语音 助手设备执行预设指令所规定的目标动作,使得语音障碍者可通过在智能 语音助手设备面前展示身体动作,即可与智能语音助手进行信息交互,解 决了现有技术中,智能语音助手都是通过语音控制来实现其特定的操作, 导致口语障碍者无法使用智能语音助手的问题。
附图说明
图1是本申请实施例一的智能语音助手的控制方法一实施方式的实施 流程图;
图2是本申请实施例二的智能语音助手的控制方法一实施方式的另一 实施流程图;
图3是本申请实施例三的智能语音助手的控制装置一实施方式的框架 结构图;
图4是本申请实施例四的计算机可读存储介质一实施方式的部分框架 示意图;
图5是本申请实施例五的计算机设备一实施方式的部分框架示意图。
具体实施方式
实施例一
请参考图1,图1是本实施例的智能语音助手的控制方法的实施流程图, 结合图1可以得到,本申请实施例的智能语音助手的控制方法,用于口语 障碍者与智能语音助手进行信息交互,其包括以下步骤:
步骤S101:在进入智能语音助手的使用状态后,获取用户的身体动作 数据。
在本步骤中,可选地,在一些实施方式中,需要用户面向智能语音助 手设备,待智能语音助手设备感应到用户的面向信号后,才能进入人机交 互的使用状态,当出现表示动作交互使用状态的人机交互框架或屏幕等时, 用户便可向智能语音助手设备展示其身体动作姿势。设置使用状态的目的 在于,能使智能语音助手更好地捕获用户的身体动作数据,也使得用户能 更好地进入状态面向智能语音助手设备展示其身体动作。
步骤S102:将用户的所述身体动作数据转化为智能语音助手设备可识 别的语音数据。
在本步骤中,可选地,身体动作数据不能直接为智能语音助手所识别, 需要间接地将身体动作数据转化为对应的语音数据。智能语音助手设备所 包含的语音控制器智能识别语音数据,不能识别身体动作数据本身,转化 的方法为间接转化,将身体动作数据转化为中间状态的数据,再将该中间 状态的数据转化为语音数据。
步骤S103:根据转化之后的所述语音数据,控制智能语音助手设备执 行与所述语音数据对应的预设指令所规定的目标动作。
在本步骤中,目标动作是指和智能语音助手设备的预设指令相对应的 动作,如开机动作、打开摄像窗口或进入支付窗口等动作。
本申请实施例通过获取用户的身体动作数据,并将用户的所述身体动 作数据转化为智能语音助手设备可识别的语音数据,最后根据所述语音数 据,控制智能语音助手设备执行与所述语音数据对应的预设指令所规定的 目标动作,使得语音障碍者可通过在智能语音助手设备面前展示身体动作, 即可与智能语音助手进行信息交互,解决了现有技术中,智能语音助手都 是通过语音控制来实现其特定的操作,导致口语障碍者无法使用智能语音 助手的问题。
实施例二
请参考图2,图2是本申请实施例的智能语音助手的控制方法的另一实 施流程图,结合图2可以得到,本申请实施例的一种智能语音助手的控制 方法,用于口语障碍者与智能语音助手进行信息交互,其包括以下步骤:
步骤S201:在进入智能语音助手的使用状态后,获取用户完整的手语 动作数据。其中,所述手语动作为口语障碍者或者聋哑人互相交流的规范 手语动作。
在本步骤中,可选地,在一些实施方式中,需要用户面向智能语音助 手设备,待智能语音助手设备感应到用户的面向信号后,才能进入人机交 互的使用状态,当出现表示动作交互使用状态的人机交互框架或屏幕等时, 用户便可向智能语音助手设备展示其身体动作姿势。设置使用状态的目的 在于,能使智能语音助手更好地捕获用户的身体动作数据,也使得用户能 更好地进入状态,面向智能语音助手设备展示其身体动作。
在本步骤中,可选地,所述获取用户完整的手语动作数据,包括:
第一,获取用户通过摄像头展示的全部手语动作。
第二,将用户全部的所述手语动作进行存储并进行识别,以形成手语 动作数据。
手语是用手势比量动作,根据手势的变化模拟形象或者音节以构成的 一定意思或词语,它是听力障碍还有无法言语的人(即聋哑人)互相交际 和交流思想的一种手的语言,它是“有声语言的重要辅助工具”,而对于听力 障碍的人来说,它则是主要的交际工具。手语与语言的差别则主要在于, 在语音这个问题上和聋哑人是否以手势进行思维。语言学家根据语言的语 音属性认为手语是一个符号,而非语言;耳聋教育专家、特殊教育工作者和聋哑人本身根据手语的语言属性认为手语同样是语言,它是语言的一个 分支,是一种特殊的语言形式。然而,手语不能和书面语绝对地对应起来, 聋哑人书面语言要受到手语的限制,不能形成正确的书面语言,虽然手语 不能作为完全意义上的语言,但手语所具有的语言的属性说明,手语应该 作为语言的类型之一。
步骤S202:将所述手语动作数据转化为对应的文字数据。
在本步骤中,可选地,将所述手语动作数据转化为对应的文字数据, 包括:
将所述手语动作数据通过事先训练好的第一神经网络模型转化为对应 的文字数据。其中,所述第一神经网络模型用于将动作数据转化为与其对 应的文字数据。
其中,将所述身体动作数据通过事先训练好的第一神经网络模型转化 为对应的文字数据,包括:
将所述身体动作数据输入所述第一神经网络模型,以让所述第一神经 网络模型按照手语规范进行识别,得出每个独立的动作所代表的语义,再 将各个动作对应的语义翻译为对应的文字,最后按照顺序将各个动作对应 的语义连起来,翻译成连贯完整的文字数据。
步骤S203:将所述文字数据转换为智能语音助手设备可识别的语音数 据。
在本步骤中,可选地,将所述文字数据转换为智能语音助手设备可识 别的语音数据,包括:
将所述文字数据通过事先训练好的第二神经网络模型转化为对应的语 音数据。其中,所述第二神经网络模型用于将文字数据转化为与其对应的 语音数据。
其中,将所述文字数据通过事先训练好的第二神经网络模型转化为对 应的语音数据,包括:
将所述文字数据输入所述第二神经网络模型,以通过所述第二神经网 络模型将所述文字数据转换为智能语音助手设备可识别的语音数据,并将 该转化的语音数据播放出来。
在步骤S202和步骤S203中,可选地,身体动作数据不能直接为智能 语音助手所识别,需要间接地将身体动作数据转化为对应的语音数据。智 能语音助手设备所包含的语音控制器智能识别语音数据,不能识别身体动 作数据本身,转化的方法为间接转化,将身体动作数据转化为中间状态的 数据,再将该中间状态的数据转化为语音数据。
在本实施例中,神经网络即人工神经网络(Artificial Neural Network, 即ANN),是20世纪80年代以来人工智能领域兴起的研究热点。它从信 息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连 接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神 经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相 互联接构成,每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接 方式,权重值和激励函数的不同而不同,而网络自身通常都是对自然界某 种算法或者函数的逼近,也可能是对一种逻辑策略的表达。在人工神经网 络中,神经元处理单元可表示不同的对象,例如特征、字母和概念,或者 一些有意义的抽象模式。神经网络中处理单元的类型分为三类:输入单元、 输出单元和隐单元。其中,输入单元接受外部世界的信号与数据,输出单 元实现系统处理结果的输出,隐单元是处在输入和输出单元之间。
神经网络模型是人工神经网络经过大量的学习训练之后生成的模型, 神经网络模型训练生成后,可以将输入的图片或者语言进行处理后,输出 符合预设目标数据。在本实施例中,例如生成第一神经网络模型过程为: 向其输入一个身体动作,使其输出表达该身体动作所包含意思的文字,经 过反复训练修改,使神经网络模型输出的文字越来越接近该身体动作所包 含意思,最终能够将输入其中的身体动作数据经过识别后,输出符合该身体动作所包含意思的文字,此时训练的神经网络模型生成了第一神经网络 模型。同样,生成第二神经网络模型过程为:向其输入一段文字数据,使 其输出表达该文字数据所包含意思的语音,经过反复训练修改,使神经网 络模型输出的语音越来越接近该文字数据所包含意思,最终能够将输入其 中的文字数据经过识别后,输出符合该文字数据所包含意思的语音,此时 训练的神经网络模型生成了第二神经网络模型。
步骤S204:判断所述语音数据是否包含预设语音数据,其中所述预设 语音数据为智能语音助手设备执行所述预设指令所规定的目标动作所需要 接收到的语音数据。
在本实施例中,智能语音助手必须接收到预设语音数据才会执行相对 应的动作,比如,预设语音为:打开摄像头或执行支付等。
步骤S205:若判断所述语音数据包含所述预设语音数据,则控制智能 语音助手设备执行与所述语音数据对应的预设指令所规定的目标动作。
在本步骤中,可选地,所述目标动作为与智能语音助手设备的预设指 令相对应的动作,所述目标动作包括开机动作、打开摄像窗口动作及进入 支付窗口动作。
步骤S206:若判断所述语音数据没有包含所述预设语音数据,则向用 户提示执行目标动作失败的信息,并在用户界面显示要求用户重新使用手 语动作进行互动的文字和/或图片,以重新获取用户的身体动作数据;
在本步骤中,可选地,其中,在用户界面显示要求用户重新使用手语 动作进行互动的文字和/或图片,包括:
显示要求用户面向智能语音助手设备,以让语音助手设备对用户的脸 面进行感应文字和/或图片。其中,当显示窗口出现表示语音交互使用状态 的人机交互框架或屏幕时,表示进入语音交互的使用状态,此时用户便可 向智能语音助手设备展示其身体动作姿势。
本申请实施例通过获取用户完整的手语动作数据,并将所述手语动作 数据转化为对应的文字数据,再将所述文字数据转换为智能语音助手设备 可识别的语音数据,最后通过判断所述语音数据是否包含预设语音数据, 来控制智能语音助手设备执行与所述语音数据对应的预设指令所规定的目 标动作,使得语音障碍者可通过在智能语音助手设备面前展示身体动作, 即可与智能语音助手进行信息交互,解决了现有技术中,智能语音助手都 是通过语音控制来实现其特定的操作,导致口语障碍者无法使用智能语音 助手的问题。
实施例三
请参阅图3,图3是本申请实施例的智能语音助手的控制装置的框架结 构图,结合图3可以得到,本申请实施例的一种智能语音助手的控制装置 30,包括:
数据获取模块31,其用于在进入智能语音助手的使用状态后,获取用 户的身体动作数据。
在一些实施方式中,需要用户面向智能语音助手设备,待智能语音助 手设备感应到用户的面向信号后,才能进入人机交互的使用状态,当出现 表示动作交互使用状态的人机交互框架或屏幕等时,用户便可向智能语音 助手设备展示其身体动作姿势。设置使用状态的目的在于,能使智能语音 助手更好地捕获用户的身体动作数据,也使得用户能更好地进入状态面向 智能语音助手设备展示其身体动作。
数据转化模块32,其用于将用户的所述身体动作数据转化为智能语音 助手设备可识别的语音数据。
在一些实施方式中,身体动作数据不能直接为智能语音助手所识别, 需要间接地将身体动作数据转化为对应的语音数据。智能语音助手设备所 包含的语音控制器智能识别语音数据,不能识别身体动作数据本身,转化 的方法为间接转化,将身体动作数据转化为中间状态的数据,再将该中间 状态的数据转化为语音数据。
动作执行模块33,其用于根据所述语音数据,控制智能语音助手设备 执行预设指令所规定的目标动作。
在一些实施方式中,目标动作是指和智能语音助手设备的预设指令相 对应的动作,如开机动作、打开摄像窗口或进入支付窗口等动作。
在本实施例中,可选地,所述数据获取模块31还包括:
动作拍摄单元,用于获取用户通过摄像头展示的全部手语动作。
存储分析单元,将用户全部的所述手语动作进行存储并进行识别,以 形成手语动作数据。
在本实施例中,可选地,所述数据转化模块32还包括:
第一转化单元,用于将所述手语动作数据转化为对应的文字数据。
第二转化单元,用于将所述文字数据转换为智能语音助手设备可识别 的语音数据。
在本实施例中,可选地,所述动作执行模块33还包括:
判断单元,用于判断所述语音数据是否包含预设语音数据,其中所述 预设语音数据为智能语音助手设备执行所述预设指令所规定的目标动作所 需要接收到的语音数据。
执行单元,用于根据转化之后的所述语音数据,控制智能语音助手设 备执行预设指令所规定的目标动作。其中,所述目标动作为与智能语音助 手设备的预设指令相对应的动作,所述目标动作包括开机动作、打开摄像 窗口及进入支付窗口。
本申请实施例的智能语音助手的控制装置30,通过数据获取模块31在 进入智能语音助手的使用状态后,获取用户的身体动作数据,通过数据转 化模块32将用户的所述身体动作数据转化为智能语音助手设备可识别的语 音数据,再通过动作执行模块33根据所述语音数据,控制智能语音助手设 备执行与所述语音数据对应的预设指令所规定的目标动作,使得语音障碍 者可通过在智能语音助手设备面前展示身体动作,即可与智能语音助手进 行信息交互,解决了现有技术中,智能语音助手都是通过语音控制来实现 其特定的操作,导致口语障碍者无法使用智能语音助手的问题。
实施例四
请参阅图4,参考图4可以看到,本申请实施例的一种存储介质10, 所述的存储介质10,如:ROM/RAM、磁碟、光盘等,其为计算机可读的 存储介质10,其上存储有计算机可读的计算机程序11,所述计算机程序11 被执行时实现如实施例一或实施例二所述的智能语音助手的控制方法。
本申请实施例实现的智能语音助手的控制方法,通过获取用户的身体 动作数据,并将用户的所述身体动作数据转化为智能语音助手设备可识别 的语音数据,最后根据所述语音数据,控制智能语音助手设备执行与所述 语音数据对应的预设指令所规定的目标动作,使得语音障碍者可通过在智 能语音助手设备面前展示身体动作,即可与智能语音助手进行信息交互, 解决了现有技术中,智能语音助手都是通过语音控制来实现其特定的操作, 导致口语障碍者无法使用智能语音助手的问题。
实施例五
请参阅图5,参考图5可以看到,本申请实施例的一种计算机设备20, 其包括处理器21、存储器22及存储于所述存储器22上并可在所述处理器 21上运行的计算机程序221,所述处理器21执行所述计算机程序221时实 现如实施例一或实施例二所述的智能语音助手的控制方法。
本申请实施例实现的智能语音助手的控制方法,通过获取用户的身体 动作数据,并将用户的所述身体动作数据转化为智能语音助手设备可识别 的语音数据,最后根据所述语音数据,控制智能语音助手设备执行与所述 语音数据对应的预设指令所规定的目标动作,使得语音障碍者可通过在智 能语音助手设备面前展示身体动作,即可与智能语音助手进行信息交互, 解决了现有技术中,智能语音助手都是通过语音控制来实现其特定的操作, 导致口语障碍者无法使用智能语音助手的问题。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围, 凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直 接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范 围内。

Claims (10)

1.一种智能语音助手的控制方法,其特征在于,包括以下步骤:
在进入智能语音助手的使用状态后,获取用户的身体动作数据;
将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据;
根据所述语音数据,控制智能语音助手设备执行与所述语音数据对应的预设指令所规定的目标动作。
2.根据权利要求1所述的智能语音助手的控制方法,其特征在于,获取用户的身体动作数据包括:
获取用户完整的手语动作数据,其中该手语动作为聋哑人互相交流的规范手语动作。
3.根据权利要求2所述的智能语音助手的控制方法,其特征在于,所述获取用户完整的手语动作数据包括:
获取用户通过摄像头展示的全部手语动作;
将用户全部的所述手语动作进行存储并进行识别,以形成手语动作数据。
4.根据权利要求1所述的智能语音助手的控制方法,其特征在于,所述将所述身体动作数据转化为智能语音助手可识别的转换语音数据,包括:
将所述身体动作数据转化为对应的文字数据,再将所述文字数据转换为智能语音助手设备可识别的语音数据。
5.根据权利要求4所述的智能语音助手的控制方法,其特征在于,
将所述身体动作数据转化为对应的文字数据,再将所述文字数据转换为智能语音助手设备可识别的语音数据,包括:
将所述身体动作数据通过事先训练好的第一神经网络模型转化为对应的文字数据;其中,所述第一神经网络模型用于将动作数据转化为与其对应的文字数据;
将所述文字数据通过事先训练好的第二神经网络模型转化为对应的语音数据;其中,所述第二神经网络模型用于将文字数据转化为与其对应的语音数据;
其中,将所述身体动作数据通过事先训练好的第一神经网络模型转化为对应的文字数据,包括:
将所述身体动作数据输入所述第一神经网络模型,以让所述第一神经网络模型按照手语规范进行识别,得出每个独立的动作所代表的语义,再将各个动作对应的语义翻译为对应的文字,最后按照顺序将各个动作对应的语义连起来,翻译成连贯完整的文字数据;
其中,将所述文字数据通过事先训练好的第二神经网络模型转化为对应的语音数据,包括:
将所述文字数据输入所述第二神经网络模型,以通过所述第二神经网络模型将所述文字数据转换为智能语音助手设备可识别的语音数据,并将该转化的语音数据播放出来。
6.根据权利要求1所述的智能语音助手的控制方法,其特征在于,根据所述语音数据,控制智能语音助手设备执行预设指令所规定的目标动作包括:
判断所述语音数据是否包含预设语音数据,其中所述预设语音数据为智能语音助手设备执行所述预设指令所规定的目标动作所需要接收到的语音数据;
若判断所述语音数据包含所述预设语音数据,则控制智能语音助手设备执行预设指令所规定的目标动作;
其中,所述目标动作为与智能语音助手设备的预设指令相对应的动作,所述目标动作包括开机动作、打开摄像窗口动作及进入支付窗口动作。
7.根据权利要求6所述的智能语音助手的控制方法,其特征在于,所述方法还包括:
若判断所述语音数据没有包含所述预设语音数据,则向用户提示执行目标动作失败的信息,并在用户界面显示要求用户重新使用手语动作进行互动的文字和/或图片。
8.一种智能语音助手的控制装置,其特征在于,包括:
数据获取模块,其用于在进入智能语音助手的使用状态后,获取用户的身体动作数据;
数据转化模块,其用于将用户的所述身体动作数据转化为智能语音助手设备可识别的语音数据;
动作执行模块,其用于根据所述语音数据,控制智能语音助手设备执行预设指令所规定的目标动作。
9.一种存储介质,其特征在于,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1~7任一项所述的智能语音助手的控制方法。
10.一种计算机设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7任一项所述的智能语音助手的控制方法。
CN201910300005.9A 2019-04-15 2019-04-15 智能语音助手的控制方法、装置、介质及设备 Pending CN110138961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910300005.9A CN110138961A (zh) 2019-04-15 2019-04-15 智能语音助手的控制方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910300005.9A CN110138961A (zh) 2019-04-15 2019-04-15 智能语音助手的控制方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN110138961A true CN110138961A (zh) 2019-08-16

Family

ID=67569717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910300005.9A Pending CN110138961A (zh) 2019-04-15 2019-04-15 智能语音助手的控制方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN110138961A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201002036A (en) * 2008-06-27 2010-01-01 Hon Hai Prec Ind Co Ltd Mobile phone for deaf-mute person
CN102956132A (zh) * 2011-08-25 2013-03-06 鸿富锦精密工业(深圳)有限公司 手语翻译系统、手语翻译装置及手语翻译方法
CN104966433A (zh) * 2015-07-17 2015-10-07 江西洪都航空工业集团有限责任公司 一种辅助聋哑人对话的智能眼镜
CN106205293A (zh) * 2016-09-30 2016-12-07 广州音书科技有限公司 用于语音识别和手语识别的智能眼镜
CN106943740A (zh) * 2017-04-25 2017-07-14 合肥充盈信息科技有限公司 一种手语语音游戏互动系统
CN206907294U (zh) * 2017-02-07 2018-01-19 四川富乐电杆有限公司 一种聋哑人专用交流眼镜
CN107943914A (zh) * 2017-11-20 2018-04-20 渡鸦科技(北京)有限责任公司 语音信息处理方法和装置
CN108170266A (zh) * 2017-12-25 2018-06-15 珠海市君天电子科技有限公司 智能设备控制方法、装置及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201002036A (en) * 2008-06-27 2010-01-01 Hon Hai Prec Ind Co Ltd Mobile phone for deaf-mute person
CN102956132A (zh) * 2011-08-25 2013-03-06 鸿富锦精密工业(深圳)有限公司 手语翻译系统、手语翻译装置及手语翻译方法
CN104966433A (zh) * 2015-07-17 2015-10-07 江西洪都航空工业集团有限责任公司 一种辅助聋哑人对话的智能眼镜
CN106205293A (zh) * 2016-09-30 2016-12-07 广州音书科技有限公司 用于语音识别和手语识别的智能眼镜
CN206907294U (zh) * 2017-02-07 2018-01-19 四川富乐电杆有限公司 一种聋哑人专用交流眼镜
CN106943740A (zh) * 2017-04-25 2017-07-14 合肥充盈信息科技有限公司 一种手语语音游戏互动系统
CN107943914A (zh) * 2017-11-20 2018-04-20 渡鸦科技(北京)有限责任公司 语音信息处理方法和装置
CN108170266A (zh) * 2017-12-25 2018-06-15 珠海市君天电子科技有限公司 智能设备控制方法、装置及设备

Similar Documents

Publication Publication Date Title
US20210233521A1 (en) Method for speech recognition based on language adaptivity and related apparatus
Lauria et al. Mobile robot programming using natural language
Kopp et al. Modeling embodied feedback with virtual humans
CN108170816A (zh) 一种基于深度神经网络的智能视觉问答模型
Merdivan et al. Dialogue systems for intelligent human computer interactions
CN112101045B (zh) 一种多模态语义完整性识别方法、装置及电子设备
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN106462255A (zh) 一种机器人交互内容的生成方法、系统及机器人
Lison et al. Spoken dialogue systems: the new frontier in human-computer interaction
Zdravkova et al. Cutting-edge communication and learning assistive technologies for disabled children: An artificial intelligence perspective
CN112182161A (zh) 一种基于用户对话历史的个性化对话生成方法和系统
Yu et al. Learning how to learn: An adaptive dialogue agent for incrementally learning visually grounded word meanings
Sobhan et al. A communication aid system for deaf and mute using vibrotactile and visual feedback
Voronov et al. Development of a software package designed to support distance education for disabled people
Podder et al. Design of a sign language transformer to enable the participation of persons with disabilities in remote healthcare systems for ensuring universal healthcare coverage
CN111027215B (zh) 针对虚拟人的性格训练系统及其方法
Aly et al. An online fuzzy-based approach for human emotions detection: an overview on the human cognitive model of understanding and generating multimodal actions
CN110138961A (zh) 智能语音助手的控制方法、装置、介质及设备
CN116959119A (zh) 一种基于大语言模型的手语数字人驱动方法及系统
Yu et al. The BURCHAK corpus: A challenge data set for interactive learning of visually grounded word meanings
CN116127006A (zh) 智能交互方法、语言能力分类模型训练方法及装置
CN116009692A (zh) 虚拟人物交互策略确定方法以及装置
Allen et al. Challenge discussion: advancing multimodal dialogue
Teixeira et al. Speech as the basic interface for assistive technology
CN114758676A (zh) 一种基于深度残差收缩网络的多模态情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190816

RJ01 Rejection of invention patent application after publication