CN110718217A

CN110718217A - 一种控制方法、终端及计算机可读存储介质

Info

Publication number: CN110718217A
Application number: CN201910831263.XA
Authority: CN
Inventors: 田发景
Original assignee: Shanghai Pateo Electronic Equipment Manufacturing Co Ltd
Current assignee: Pateo Connect and Technology Shanghai Corp
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2020-01-21
Anticipated expiration: 2039-09-04
Also published as: CN110718217B

Abstract

本发明属于人工智能技术领域，涉及控制方法、终端及计算机可读存储介质，其中，控制方法包括：接收用户的语音控制指令；获取与所述语音控制指令对应的目标控制设备；获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应的预设条件时，根据所述语音控制指令进行响应。本发明通过在语音交互的基础上增加预设条件是否满足判断，能够提高语音交互的可靠性。

Description

一种控制方法、终端及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，特别是涉及一种控制方法、终端及计算机可读存储介质。

背景技术

人机交互技术(英文全称为：Human-Computer Interaction Techniques)是指通过计算机输入、输出设备，以有效的方式实现人与计算机对话、互动的技术，它包括机器通过输出或显示设备给人提供大量有关信息及提示请示等，人通过输入设备给机器输入有关信息及提示请示等。

在物联网领域，越来越多的智能网联系统具备了语音交互能力，例如可以通过语音控制车辆。

但是，目前的系统更多的关注语音识别的准确性，不能满足人们对系统可靠性的需求。

发明内容

有鉴于此，本发明提供了一种控制方法、终端及计算机可读存储介质，目的在于提供一种交互方式，使得人机交互操作更加可靠。

本发明是这样实现的：

本发明首先提供一种控制方法，包括：接收用户的语音控制指令；获取与所述语音控制指令对应的目标控制设备；获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应的预设条件时，根据所述语音控制指令进行响应。

进一步地，所述指令特征包括发出所述语音控制指令的用户的生物特征、发出所述语音控制指令的用户所处的位置中的至少一项；所述预设条件包括所述用户的生物特征为非儿童生物特征、所述用户的生物特征与登录者的生物特征匹配、所述用户在讲话、所述用户位于车内、所述用户位于车外中的至少一项。

进一步地，获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应预设条件时，根据所述语音控制指令进行响应的步骤之前包括：获取所述目标控制设备的重要等级；根据所述重要等级获取对应的预设条件。

进一步地，所述获取所述目标控制设备的重要等级之前包括：根据所述目标控制设备的安全性要求，设定所述目标控制设备的重要等级；设定与所述重要等级对应的所述预设条件，并在所述预设条件包括所述用户的生物特征与登录者的生物特征匹配时，获取并存储登录者的生物特征。

进一步地，所述获取与所述语音控制指令对应的指令特征的步骤，包括：获取车辆环境图像；根据所述语音控制指令的声纹特征获取所述用户的人脸特征图像；根据所述车辆环境图像及所述用户的人脸特征图像，获取所述用户所处的位置。

进一步地，所述获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应的预设条件时，根据所述语音控制指令进行响应的步骤，包括：在接收到所述语音控制指令前，获取车辆人物图像；从所述车辆人物图像中，获取接收到所述语音控制指令的图像片段；根据所述图像片段，判断在接收到所述语音控制指令时所述用户是否在说话；在判定用户没有在说话时，不对所述语音控制指令进行响应；在判定用户在说话时，根据所述语音控制指令进行响应。

进一步地，所述获取车辆环境图像的步骤，包括：连接摄像装置；从所述摄像装置连续获取车辆内部图像和车辆外部图像，所述车辆内部图像和车辆外部图像包含有所述用户。

本发明还提供一种终端，包括存储器和处理器。处理器用于执行存储器中存储的计算机程序以实现如上所描述的控制方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上所描述的控制方法的步骤。

本发明提供的控制方法、终端及计算机可读存储介质，其中，控制方法包括：接收用户的语音控制指令；获取与所述语音控制指令对应的目标控制设备；获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应的预设条件时，根据所述语音控制指令进行响应。因此，本发明通过在语音交互的基础上增加预设条件是否满足判断，能够提高语音交互的可靠性。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

图1是本发明第一实施例提供的控制方法的流程示意图；

图2是本发明第二实施例提供的终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明实施例做进一步详述。

第一实施例：

图1是本发明第一实施例提供的人机交互方法的流程示意图。为了清楚的描述本发明第一实施例提供的控制方法，请参见图1。

本发明第一实施例提供的控制方法，包括以下步骤：

S20:接收用户的语音控制指令。

在一实施方式中，所述语音控制指令由用户直接说出，在另一实施方式中，所述语音控制指令由用户播放录音发出；

在一实施方式中，在步骤S20，接收用户的语音控制指令，可以但不限于由车内设置的麦克风、用户随身携带的终端等，来接收语音控制指令。

S40:获取与所述语音控制指令对应的目标控制设备。

在一实施方式中，目标控制设备是车窗。在另一实施方式中，目标控制设备是后备箱。在又一实施方式中，目标控制设备是车门。

S60:获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应的预设条件时，根据所述语音控制指令进行响应。

通过在语音交互的基础上增加预设条件是否满足判断，能够让让系统更准确地判定发出语音控制指令的资格，提高语音交互的可靠性，提高系统的安全性。

在一实施方式中，所述指令特征包括发出所述语音控制指令的用户的生物特征、发出所述语音控制指令的用户所处的位置中的至少一项。所述生物特征主要用于确认当前的用户身份信息，例如是否登录用户，是否儿童、以及年龄信息、性别信息等。所述预设条件包括所述用户的生物特征为非儿童生物特征、所述用户的生物特征与登录者的生物特征匹配、所述用户在讲话、所述用户位于车内、所述用户位于车外中的至少一项。

在一实施方式中，上述获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应预设条件时，根据所述语音控制指令进行响应的步骤之前，即步骤S60之前，还具有步骤：S54：获取所述目标控制设备的重要等级；S56：根据所述重要等级获取对应的预设条件。

在一实施方式中，所述获取所述目标控制设备的重要等级，根据所述重要等级获取对应的预设条件的步骤之前，即步骤S54之前，还包括：

步骤S52：根据所述目标控制设备的安全性要求，设定所述目标控制设备的重要等级。

S53：设定与所述重要等级对应的所述预设条件，并在所述预设条件包括所述用户的生物特征与登录者的生物特征匹配时，获取并存储登录者的生物特征。

对步骤S52，即根据所述目标控制设备的安全性要求，设定所述目标控制设备的重要等级的步骤，详细而言，在一实施方式中，目标控制设备包括车门、车窗、后备箱，车门、车窗、后备箱的安全性要求依次减弱，重要等级依次被规定为一级、二级和三级。

对步骤S53，即设定与所述重要等级对应的所述预设条件，并在所述预设条件包括所述用户的生物特征与登录者的生物特征匹配时，获取并存储登录者的生物特征的步骤，详细而言，在一实施方式中，与车门对应的预设条件，即与重要等级一级对应的预设条件被设定为：用户的生物特征为非儿童生物特征、用户的生物特征与登录者的生物特征匹配、并且用户位于车内。与车窗对应的预设条件，即与重要等级二级对应的预设条件被设定为：用户的生物特征与登录者的生物特征匹配、并且用户位于车内。与后备箱对应的预设条件，即与重要等级三级对应的预设条件被设定为：用户的生物特征与登录者的生物特征匹配。

在一实施方式中，使用第一年龄识别方法识别用户的年龄，第一年龄识别方法包括：获取包含有人脸的待识别图像；将所述待识别图像作为年龄识别模型的输入，所述年龄识别模型采用年龄统计误差值作为误差度量标准，所述年龄统计误差值是根据标注年龄值和对应于同一标注年龄值的多个训练图像中的人脸对应的预测年龄值进行统计计算得到的；获取所述年龄识别模型输出的与所述待识别图像中的人脸对应的年龄值。所述年龄识别模型是采用卷积神经网络模型进行训练得到的，所述年龄识别模型包括：多个卷积层，所述相邻的卷积层之间包括预设数目的激活层和池化层。

在一实施方式中，使用第二年龄识别方法识别用户的年龄，第二年龄识别方法包括：基于人体图像的关键点分布获取所述人体图像的姿态类型；将所述人体图像及关键点输入到相应姿态类型对应的已训练的年龄识别模型，得到所述人体图像对应的年龄识别值。姿态特征包括半身直立特征、全身直立特征和姿态弯曲特征。基于人体图像的关键点分布获取所述人体图像的姿态类型具体包括：基于关键点检测方法，提取所述人体图像中的关键点；基于所述关键点的分布规则判断所述人体图像中的姿态类型。取人体图像的关键点及姿态类型后，还包括：对所述人体图像进行对应姿态类型的图像对齐。

在一实施方式中，车辆为家庭用车，登录者被设定为包括家庭中的父亲、母亲。在另一实施方式中，车辆为企业用车，登录者被设定为包括企业里的司机甲和司机乙。在一实施方式中，登录者的生物特征，包括声纹特征和面部特征。在另一实施方式中，登录者的生物特征，包括声纹特征、面部特征、体态特征、性别特征中的至少两者。

在一实施方式中，所述获取与所述语音控制指令对应的指令特征的步骤，包括：

S62：获取车辆环境图像；

在一实施方式中，所述获取车辆环境图像的步骤，即步骤S62，包括：

S622：连接摄像装置；在一实施方式中，摄像装置包括安装在车辆内部的第一摄像装置，用于获取车辆内部图像；也包括安装在车辆、相邻车辆或车辆外部环境中的第二摄像装置，该第二摄像装置提供车辆外部图像给该车辆；

S624：从所述摄像装置连续获取车辆内部图像和车辆外部图像，所述车辆内部图像和车辆外部图像包含有所述用户。这里，用户包括发出语音控制指令的用户，也包括登录用户。发出语音控制指令的用户的用户包括讲出语音控制指令的用户，也包括通过播放装置播放出语音控制指令的用户。

S64：根据所述语音控制指令的声纹特征获取所述用户的人脸特征图像；

S66：根据所述车辆环境图像及所述用户的人脸特征图像，获取所述用户所处的位置。具体而言，在一实施方式中，从车辆环境图像中，抽取所述具有当前登录用户的车内环境图像中的人与车辆的空间关系特征，以判断当前登录用户是否在车辆内部。当判断用户的生物特征与登录者的生物特征相匹配、并且用户位于车内时，才响应用户发出的语音控制指令。通过本实施方式提供的方案，当陌生用户客户在车外对语音系统说打开车窗，打开后备箱时，语音系统可以对用户的操作不予响应，保证语音交互的安全可靠。

在另一实施方式中，所述获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应的预设条件时，根据所述语音控制指令进行响应的步骤，即所述步骤S60包括：

S61：在接收到所述语音控制指令前，获取车辆人物图像；从所述车辆人物图像中，获取接收到所述语音控制指令的图像片段；

具体而言，在一实施方式中，本申请始终按一定频率获取车辆环境图像，从车辆环境图像中抽取具有人物的图像，即车辆人物图像，人物包括非登录者和登录者，即：在接收到所述语音控制指令前，获取车辆人物图像。接着，根据接收到的语音控制指令中具有的登录者的生物特征，例如根据语音指令的声纹特征获取到登陆者为家庭用车的登录者父亲，接着从预先录入的信息获取到登录者父亲的人脸特征，从前述车辆人物图像甲中，获取具有登录者父亲的图像片段，即：从所述车辆人物图像中，获取接收到所述语音控制指令的图像片段；

S63：根据所述图像片段，判断在接收到所述语音控制指令时所述用户是否在说话；

具体而言，承前所述，在本实施方式中，分析所述图像片段中的登录者父亲的唇部变化，判断登录者父亲是否在说话，即：根据所述图像片段，判断在接收到所述语音控制指令时所述用户是否在说话；

S65：在判定用户没有在说话时，不对所述语音控制指令进行响应；

具体而言，承前所述，若判定登录者父亲没有讲话，不对所述音控制指令进行响应，即：在判定用户没有在说话时，不对所述语音控制指令进行响应。实际使用环境中，当父亲驾驶前期发出的语音控制指令，恰好被当时手持智能终端的儿童录取，并在父亲在车中睡眠或专注某件事情时，被小孩播放，则利用本申请提供的解决方案，此时根据前述图像片段，即可以判定父亲没有讲话，因此不对所述语音控制指令进行响应；

S67：在判定用户在说话时，根据所述语音控制指令进行响应。

具体而言，正常驾驶时，当父亲确实发出用户的生物特征时，则根据所述语音控制指令进行响应。

本实施方式具体应用时，能够避免小孩发出的录音被车辆误认为控制指令执行，而造成事故。

第二实施例：

图2是本发明第二实施例提供的终端的结构示意图。为了清楚的描述本发明第二实施例提供的终端，请参见图2。

本发明第二实施例提供的终端1，包括：处理器A101及存储器A201，其中，处理器A101用于执行存储器A201中存储的计算机程序A6以实现如第一实施例所描述的控制方法的步骤。

在一实施方式中，本实施例提供的终端1可以包括至少一个处理器A101，以及至少一个存储器A201。其中，至少一个处理器A101可以称为处理单元A1，至少一个存储器A201可以称为存储单元A2。具体地，存储单元A2存储有计算机程序A6，当该计算机程序A6被处理单元A1执行时，使得本实施例提供的终端1实现如上所描述的控制方法的步骤，例如，图1中所示的S2:获取获取用户关于目标对象的手势操作信息；S4:获取用户的语音数据，根据语音数据获取相对应的控制指令以对目标对象进行相应的操作。

在一实施方式中，本实施例中的提供的终端1可以包括多个存储器A201(简称为存储单元A2)，存储单元A2可以包括例如随机存取存储器(RAM)和/或高速缓存存储器和/或只读存储器(ROM)等等。

在一实施方式中，终端1还包括连接不同组件(例如处理器A101和存储器A201、触控显示屏A3、交互装置等等)的总线。

在一实施方式中，本实施例中的终端1还可以包括通信接口(例如I/O接口A4)，该通信接口可以用于与外部设备进行通信。

在一实施方式中，本实施例提供的终端1还可以包括通信装置A5。

本发明第二实施例提供的终端1，包括存储器A101和处理器A201，且处理器A101用于执行存储器A201中存储的计算机程序A6以实现如第一实施例所描述的人机交互方法的步骤，因此，本实施例提供的终端1能够通过交互信息和语音数据结合的这种多路径交互方式，实现扩展人机交互的操作的目的，从而使得人机交互操作更加自然、符合人们的生活习惯。

本发明第二实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序A6，该计算机程序A6被处理器A101执行时实现如第一实施例中的人机交互方法的步骤，例如图1所示的步骤是S20至步骤S60。

在一实施方式中，本实施例提供能的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM、RAM、磁盘、光盘、闪存等。

本发明第二实施例提供的计算机可读存储介质中存储的计算机程序A6被处理器A101执行时能够结合声纹，图像识别等技术，对涉及到车辆控制的语音交互进行安全的交互控制，在语音交互的基础上增加预设条件是否满足判断，能够提高语音交互的可靠性，避免车辆的安全功能被利用。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等，均应包含在本发明的保护范围之内。

Claims

1.一种控制方法，其特征在于，包括：

接收用户的语音控制指令；

获取与所述语音控制指令对应的目标控制设备；

获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应的预设条件时，根据所述语音控制指令进行响应。

2.根据权利要求1所述的控制方法，其特征在于：所述指令特征包括发出所述语音控制指令的用户的生物特征、发出所述语音控制指令的用户所处的位置中的至少一项；所述预设条件包括所述用户的生物特征为非儿童生物特征、所述用户的生物特征与登录者的生物特征匹配、所述用户在讲话、所述用户位于车内、所述用户位于车外中的至少一项。

3.如权利要求2所述的控制方法，其特征在于，获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应预设条件时，根据所述语音控制指令进行响应的步骤之前包括：

获取所述目标控制设备的重要等级；

根据所述重要等级获取对应的预设条件。

4.如权利要求3所述的控制方法，其特征在于，所述获取所述目标控制设备的重要等级之前包括：

根据所述目标控制设备的安全性要求，设定所述目标控制设备的重要等级；

设定与所述重要等级对应的所述预设条件，并在所述预设条件包括所述用户的生物特征与登录者的生物特征匹配时，获取并存储登录者的生物特征。

5.根据权利要求1所述的控制方法，其特征在于，所述获取与所述语音控制指令对应的指令特征的步骤，包括：

获取车辆环境图像；

根据所述语音控制指令的声纹特征获取所述用户的人脸特征图像；

根据所述车辆环境图像及所述用户的人脸特征图像，获取所述用户所处的位置。

6.根据权利要求1所述的控制方法，其特征在于，所述获取与所述语音控制指令对应的指令特征，并在所述指令特征满足与所述目标控制设备对应的预设条件时，根据所述语音控制指令进行响应的步骤，包括：

在接收到所述语音控制指令前，获取车辆人物图像；从所述车辆人物图像中，获取接收到所述语音控制指令的图像片段；

根据所述图像片段，判断在接收到所述语音控制指令时所述用户是否在说话；

在判定用户没有在说话时，不对所述语音控制指令进行响应；

在判定用户在说话时，根据所述语音控制指令进行响应。

7.根据权利要求5所述的控制方法，其特征在于，所述获取车辆环境图像的步骤，包括：

连接摄像装置；

从所述摄像装置连续获取车辆内部图像和车辆外部图像，所述车辆内部图像和车辆外部图像包含有所述用户。

8.一种终端，其特征在于，包括存储器和处理器；

所述处理器用于执行所述存储器中存储的计算机程序以实现如权利要求1-8中任一项所述的控制方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的控制方法的步骤。