发明内容
基于此,有必要针对目前技术中存在的车内语音识别用户需求的准确性低的技术问题,提供一种汽车智能终端的交互方法、装置、计算机设备和存储介质。
一种汽车智能终端的交互方法,应用于车载机器人,所述方法包括:
响应于车内用户的唤醒指令,进入与所述唤醒指令对应的智能模式;
监听车内用户的语音信息,从所述语音信息中获取有效语音指令;所述有效语音指令为与预先配置的任一指令关键词相匹配的指令;
控制所述有效语音指令对应的车载设备响应所述有效语音指令。
在其中一个实施例中,所述方法包括:
根据所述唤醒指令的声源,得到发出所述唤醒指令的车内用户的目标定位;
所述从所述语音信息中识别所述车内用户的有效语音指令,包括:
监听所述车内用户的语音信息,对监听到的语音信息进行声源定位,得到至少一个声源的定位信息;根据所述目标定位和各个声源的定位信息,从监听到的语音信息中,提取所述目标定位对应的声源的语音信息;从所述目标定位对应的语音信息中获取所述有效语音指令。
在其中一个实施例中,所述响应于车内用户的唤醒指令,进入与所述唤醒指令对应的智能模式之后,所述方法还包括:
获取预设的所述智能模式的模式标识,发送至显示模块进行展示,以提示用户所述车载机器人的当前工作模式;
和/或,根据所述目标定位,控制车载机器人的显示模块转向所述目标定位。
在其中一个实施例中,所述方法还包括:
通过车载摄像头,获取车内用户的当前图像;
获取所述当前图像中的用户数量;若所述当前图像中包含多个用户,将所述当前图像输入至预设的用户行为识别模型,确定各个车内用户的当前谈话状态;根据所述各个用户的当前谈话状态,确定所述车内用户的当前谈话状态;所述用户行为识别模型用于根据用户的动作姿态和表情状态,确定用户的当前谈话状态;
若所述当前谈话状态为多人交谈状态,停止监听所述车内用户的语音信息。
在其中一个实施例中,所述控制所述语音指令对应的车载设备响应所述语音指令之后,所述方法还包括:
向所述车用户反馈响应结果,并继续执行识别有效语音指令的过程。
在其中一个实施例中,所述方法还包括:
若在响应所述语音指令后的预设时长内,未识别到新的有效语音指令,退出所述智能模式;或,若在进入所述智能模式后的预设时长内,未识别到有效语音指令,退出所述智能模式。
一种汽车智能终端的交互装置,应用于车载机器人,所述装置包括:
唤醒模块,用于响应于车内用户的唤醒指令,进入与所述唤醒指令对应的智能模式;
指令提取模块,用于监听车内用户的语音信息,从所述语音信息中获取有效语音指令;所述有效语音指令为与预先配置的任一指令关键词相匹配的指令;
指令响应模块,用于控制所述有效语音指令对应的车载设备响应所述有效语音指令。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例中汽车智能终端的交互方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中汽车智能终端的交互方法步骤。
上述汽车智能终端的交互方法、装置、计算机设备和存储介质,通过响应于车内用户的唤醒指令,进入到与唤醒指令对应的智能模式,在智能模式下监听车内用户的语音信息,从监听到的语音信息中,获取有效语音指令,控制对应的车载设备响应该语音指令,该有效语音指令为与预先配置的任一指令关键词相匹配的指令。通过配置车载机器人的智能模式,在智能模式下,从监听到的用户的语音信息中提取有效语音指令,并控制车载设备响应该有效语音指令,避免针对无效语音信息的响应,提高了用户指令识别和响应的准确性。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的汽车智能终端的交互方法,可以应用于如图1所示的应用环境中。其中,车载机器人通过网络与车载设备进行通信。车载机器人根据用户的唤醒指令,进入对应的智能模式,通过监听用户的语音信息获取语音指令,控制与语音指令对应的车载设备响应该语音指令。其中,车载机器人可以是终端,包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴,车载设备可以包括车辆显示屏幕、车载音乐播装置、车载导航模块、车辆硬件控制模块等。
在一个实施例中,如图2所示,提供了一种汽车智能终端的交互方法,本实施例以该方法应用于图1的车载机器人进行举例说明,该方法包括以下步骤:
步骤S201,响应于车内用户的唤醒指令,进入与唤醒指令对应的智能模式。
其中,车载机器人可以预先配置至少一种工作模式,并为各种工作模式配置对应的唤醒指令,唤醒指令可以对应有语音关键词,当用户发出相关的语音关键词,则可以唤醒车载机器人对应的工作模式。智能模式可以是用配置了对应的语音指令的识别标准的模式,智能模式下,仅识别车内用户的有效语音指令,而过滤掉无效的语音信息。
具体实现中,车载机器人可以从车内用户的语音信息中,提取唤醒指令,并响应该唤醒指令进入到与该唤醒指令相对应的智能模式。
步骤S202,监听车内用户的语音信息,从语音信息中获取有效语音指令。
其中,有效语音指令可以为与预先配置的任一指令关键词相匹配的指令。车载机器人中,可以预先配置指令关键词库,各个指令关键词配置有对应的操作任务,用于控制车载设备。车内用户的语音信息可以是车内用户发出的声音信息,车载机器人可以通过收音装置获取语音信息。语音指令可以是用户用于向车载机器人发出指令需求的关键词。若该语音指令与预先配置的任一指令关键词匹配,则该语音指令为有效语音指令,车载机器人可予以响应,从而过滤掉无效的语音信息。车内用户可以是一人或多人,车载机器人可以识别各个用户的有效语音指令,过滤掉无效的语音信息,不对无效的语音信息进行响应。例如,车内用户发出包含“打开车窗”的语音信息,该语音信息与预先配置的指令关键词相匹配,为有效语音指令,车载机器人可以响应该有效语音指令,如果车内用户发出的其他语音信息,与预先配置的指令关键词不匹配,不是有效语音指令,车载机器人可以不予响应,并保持持续监听。具体实现中,车载机器人可以在智能模式下,通过配置在车内的收音装置,监听车内用户的语音信息,并根据预先配置的关键词指令库进行指令匹配,从语音信息中获取有效语音指令。
步骤S203,控制有效语音指令对应的车载设备响应有效语音指令。
其中,各个语音指令可以对应有车载设备的操作任务,车载机器人可以根据该语音指令,通过通信模块控制各个车载设备执行对应的操作任务,以响应该用户的语音指令。
上述汽车智能终端的交互方法中,通过响应于车内用户的唤醒指令,进入到与唤醒指令对应的智能模式,在智能模式下监听车内用户的语音信息,从监听到的语音信息中,获取有效语音指令,控制对应的车载设备响应该语音指令,该有效语音指令为与预先配置的任一指令关键词相匹配的指令。通过配置车载机器人的智能模式,在智能模式下,从监听到的用户的语音信息中提取有效语音指令,并控制车载设备响应该有效语音指令,避免针对无效语音指令的响应,提高了用户指令识别和响应的准确性。
在一个实施例中,智能模式可以配置有对应的使用说明,至少包括智能模式的打开方式、关闭方式、智能模式下持续监听模式以及自动退出模式,也可以提醒智能模式下的隐私保护功能。
在一个实施例中,上述方法还包括:
根据唤醒指令的声源,得到发出该唤醒指令的车内用户的目标定位。
步骤S202中确定的从语音信息中识别车内用户的有效语音指令的步骤包括:
监听车内用户的语音信息,对监听到的语音信息进行声源定位,得到至少一个声源的定位信息;根据目标定位和各个声源的定位信息,从监听到的语音信息中,提取目标定位对应的语音信息;从目标定位对应的语音信息中获取所述有效语音指令。
本实施例中,声源可以是该唤醒指令声音来源,车载机器人可以根据唤醒指令的声源,进行声源定位,以发出该唤醒指令的车内用户的目标定位,例如确定是从主驾驶位或副驾驶位发出的唤醒指令。车载机器人可以根据该目标定位区分各个有效语音指令的来源,并确定是否对该有效语音指令进行响应,车载机器人也可以设定为仅针对某一定位的声源进行有效语音指令识别以及响应。
车载机器人可以在智能模式下通过配置在车内的收音装置,监听车内用户的语音信息,收录监听到的语音信息。进一步对监听到的语音信息进行声源定位,并得到该声源的定位信息。车内用户可以是一人或多人。当车内用户有多人的情形,车载机器人可以通过声源定位,获取各个声源对应的定位信息。进一步的,车载机器人可以从各个声源的定位信息中,确定其中包含的与目标定位对应声源的语音信息,而过滤掉其他声源的语音信息,使得车载机器人仅针对目标定位的声源进行有效语音指令识别和响应,过滤掉其他定位信息对应的声源的语音信息,并过滤掉目标定位的声源的无效语音指令。
上述实施例的方案,通过针对唤醒指令进行声源定位,确定发出唤醒指令的车内用户的目标定位,监听车内用户的语音信息,针对该目标定位的声源对应的语音信息,提取有效语音指令,过滤其他定位信息的语音信息,并过滤掉目标定位的声源的无效语音指令,提高语音指令识别和响应的准确性和智能性。
在一个实施例中,步骤S201中确定响应于车内用户的唤醒指令,进入与唤醒指令对应的智能模式之后的步骤,包括:
获取预设的智能模式的模式标识,发送至显示模块进行展示,以提示用户车载机器人的当前工作模式;和/或,根据目标定位,控制车载机器人的显示模块转向该目标定位。
本实施例中,智能模式下,车载机器人可以仅识别有效语音指令,过滤掉无效的语音信息。在进行模式配置时,可以通过模式标识与车载机器人的其他模式进行区分。
在一些实施例中,模式标识可以智能模式的表情标识,该表情标识可以用于在唤醒智能模式或唤醒车载机器人时,用于播放。例如可以将智能模式的表情标识配置为:车载机器人的虚拟标识上增加博士帽、戴上眼镜等,也可以将车载机器人在屏幕上显示时呈现不同的颜色,以提示用户车载机器人当前是在智能模式下工作。
在一些实施例中,模式标识可以是VUI标识((Voice User Interface,语音交互设计),该VUI标识可以用于在智能模式下,车载机器人的维持监听状态的标识,该标识可以在车载机器人的显示模块进行展示,也可以在汽车的车载终端屏幕进行展示。例如,可以智能模式的VUI设计为色彩类,将车载机器人的虚拟标识变成多彩的,或将车载机器人的显示卡片外延边框亮度提高;也可以将车载机器人的虚拟标识增加博士帽、眼睛、书本等元素。
在一些实施例中,车载机器人可以仅配置智能模式,在智能模式下工作。用户唤醒车载机器人时,车载机器人即进入智能模式下工作。
在一些实施例中,在智能模式下,车载机器人可以的唤醒方式可以包括,关键词语音指令、方向盘按键等。
在一些实施例中,车载机器人可以根据唤醒指令确定的目标定位,将车载机器人的显示模块转移向该目标定位,使得在智能模式下,车载机器人能够跟随该目标定位,提高交互的效率。
上述实施例的方案,通过为智能模式配置模式标识,在车载机器人的显示模块进行展示,以提示用户该车载机器人的当前工作模式,以及将车载机器人的显示模块转向唤醒指令对应的声源的目标定位,提升了与用户交互的效率。
在一个实施例中,上述方法还包括:
通过车载摄像头,获取车内用户的当前图像;根据当前图像,识别车内用户的当前谈话状态;若当前谈话状态为多人交谈状态,停止监听车内用户的语音信息。
本实施例中,车载机器人可以在智能模式下,选择性的屏蔽监听用户的语音信息,提高智能化程度。具体的,车载机器人可以通过车载摄像头,获取车内用户的当前图像,并根据图像识别用户的当前谈话状态,若是多人交谈状态,则停止监听该段时间的车内用户的语音信息。当前谈话状态可以包括一人状态、多人交谈状态、多人未交谈状态等。
在一些实施例中,车载机器人可以获取当前图像中的用户数量;若当前图像中包含多个用户,将当前图像输入至预设的用户行为识别模型,确定各个车内用户的当前谈话状态;根据各个用户的当前谈话状态,确定车内用户的当前谈话状态。车载机器人可以获取当前图像中的用户数量,若其中仅有一名用户,可以确定当前谈话状态为一人状态,不执行停止监听。多个用户可以为两个以上用户,若当前图像显示车内有多个用户,则需要将该当前图像进行进一步的谈话状态识别,以确定当前谈话状态。其中,用户行为识别模型可以用于根据用户的动作姿态和表情状态,确定用户的当前谈话状态。车载机器人可以通过该用户行为识别模型,获得当前图像中各个用户的当前谈话状态。若其中至少一个用户为交谈状态,则确定车内的多个用户的当前谈话状态为多人交谈状态。
在一些实施例中,车载摄像头可以配置在车内的多个角度,车载摄像头也可以配置有图像识别的功能。
在一些实施例中,停止监听时,车载机器人可以仅识别车内的的有效语音指令,而不监听车内用户的语音信息,也不收录车内用户的语音信息,提高隐私保护程度。例如,在停止监听的情况下,车内用户发出“打开天窗”的指令,该指令与预先配置的指令关键词匹配,为有效语音指令,车载机器人可以识别该有效语音指令,控制天窗开启。在一些实施例中,车载机器人可以根据唤醒指令的声源,得到发出该唤醒指令的车内用户的目标定位,在停止监听车内用户的语音信息的情况下,车载机器人可以根据目标定位,定向提取有效语音指令,进而控制对应的车载设备响应该有效语音指令。例如,在停止监听的情况下,目标定位的声源发出“打开天窗”的指令,该指令与预先配置的指令关键词匹配,为有效语音指令,车载机器人可以识别该有效语音指令,控制天窗开启,若非目标定位的声源发出“关闭天窗”指令,车载机器人过滤掉该指令,不执行关闭天窗的操作任务。
上述实施例的方案,通过车载摄像头获取车内用户的当前图像,通过当车内包含多个用户时,将当前图像输入到用户行为识别模型,确定车内的多个用户的当前谈话状态,若为多人交谈状态,则停止监听车内用户的语音信息,实现了对用户的隐私保护。
在一个实施例中,步骤S203中控制语音指令对应的车载设备响应所述语音指令的步骤包括:
向目标用户反馈响应结果,并继续执行识别有效语音指令的过程。
本实施例中,车载机器人可以在各个车载设备响应语音指令之后,通过车载机器人的显示屏幕、车载终端屏幕或者语音播报等至少一种方式向用户反馈响应结果,并在继续执行识别有效语音指令的过程,而无需重新唤醒提高响应用户指令的及时性。
在一个实施例中,在智能模式下,车载机器人在响应语音指令之后的预设时长内,未识别到新的有效语音指令,则自动退出该智能模式。
在一个实施例中,在智能模式下,车载机器人在被唤醒进入智能模式之后的预设时长内,若未识别到有效语音指令,则自动退出该智能模式。
在一个实施例中,车载机器人可以根据用户的指令或预设操作,退出智能模式。其中,预设操作可以包括方向盘语音按键控制退出,点击车载终端显示屏的非VUI区域,或者在车载显示屏实施三到五指抓握手势。
在一个实施例中,如图3所示,提供了一种汽车智能终端的交互方法,该方法包括:
步骤S301,响应于车内用户的唤醒指令,进入与唤醒指令对应的智能模式,根据唤醒指令的声源,得到发出唤醒指令的车内用户的目标定位。
步骤S302,通过车载摄像头,获取车内用户的当前图像;获取当前图像中的用户数量;若当前图像中包含多个用户,将当前图像输入至预设的用户行为识别模型,确定各个车内用户的当前谈话状态;用户行为识别模型用于根据用户的动作姿态和表情状态,确定用户的当前谈话状态;根据各个用户的当前谈话状态,确定车内用户的当前谈话状态;若当前谈话状态为多人交谈状态,停止监听车内用户的语音信息。
步骤S303,从目标定位的声源获取有效语音指令。
步骤S304,控制有效语音指令对应的车载设备响应有效语音指令。
上述实施例,车载机器人通过响应用户的唤醒指令,进入与唤醒指令对应的智能模式,通过车载摄像头拍摄车内用户的当前图像,确定当前用户的交谈状态,若为多人交谈状态,停止监听车内有用户的语音信息,根据目标用户定位,获取目标用户的语音指令,控制对应的车载设备响应该语音指令。在车内用户为多人交谈状态时,停止监听车内用户谈话,提高隐私保护效率,定向针对目标定位声源的指令进行识别和响应,提高用户指令响应的准确性、智能性和效率。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种汽车智能终端的交互装置,应用于车载机器人,该装置400包括:
唤醒模块401,用于响应于车内用户的唤醒指令,进入与所述唤醒指令对应的智能模式;
指令提取模块402,用于监听车内用户的语音信息,从所述语音信息中获取有效语音指令;所述有效语音指令为与预先配置的任一指令关键词相匹配的指令;
指令响应模块403,用于控制所述有效语音指令对应的车载设备响应所述有效语音指令。
在一个实施例中,唤醒模块401,还包括:声源定位单元,用于根据所述唤醒指令的声源,得到发出所述唤醒指令的车内用户的目标定位。
在一个实施例中,指令提取模块402,包括:目标监听和指令单元,用于监听所述车内用户的语音信息,对监听到的语音信息进行声源定位,得到至少一个声源的定位信息;根据所述目标定位和各个声源的定位信息,从监听到的语音信息中,提取所述目标定位对应的声源的语音信息;从所述目标定位对应的语音信息中获取所述有效语音指令。
在一个实施例中,唤醒模块401,包括:模式标识单元,用于获取预设的所述智能模式的模式标识,发送至显示模块进行展示,以提示用户所述车载机器人的当前工作模式;和/或,转向单元,用于根据目标用户的定位,控制显示模块转向目标用户。
在一个实施例中,上述装置400包括:隐私保护模块,用于通过车载摄像头,获取车内用户的当前图像;根据所述当前图像,识别所述车内用户的当前谈话状态;若所述当前谈话状态为多人交谈状态,停止监听所述车内用户的语音信息。
在一个实施例中,隐私保护模块,包括:当前谈话状态获取模块,用于获取所述当前图像中的用户数量;若所述当前图像中包含多个用户,将所述当前图像输入至预设的用户行为识别模型,确定各个车内用户的当前谈话状态;所述用户行为识别模型用于根据用户的动作姿态和表情状态,确定用户的当前谈话状态;根据所述各个用户的当前谈话状态,确定所述车内用户的当前谈话状态。
在一个实施例中,隐私保护模块,包括:目标指令单元,用于从所述目标定位对应的声源获取所述有效语音指令;控制所述有效语音指令对应的车载设备响应所述有效语音指令。
在一个实施例中,上述装置400还包括:反馈模块,用于向车内用户反馈响应结果,并继续执行识别有效语音指令的过程。
在一个实施例中,上述装置400还包括:退出模块,用于若在响应所述语音指令后的预设时长内,未识别到新的有效语音指令,退出所述智能模式;或,若在进入所述智能模式后的预设时长内,未识别到有效语音指令,退出所述智能模式。
关于汽车智能终端的交互装置的具体限定可以参见上文中对于汽车智能终端的交互方法的限定,在此不再赘述。上述汽车智能终端的交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本申请提供的汽车智能终端的交互方法,可以应用于计算机设备,该计算机设备可以是车载机器人终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种汽车智能终端的交互方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。