CN112233674A

CN112233674A - 一种多模交互方法及其系统

Info

Publication number: CN112233674A
Application number: CN202011101959.6A
Authority: CN
Inventors: 应臻恺; 李昀
Original assignee: Shanghai Pateo Network Technology Service Co Ltd
Current assignee: SAIC GM Wuling Automobile Co Ltd; Shanghai Pateo Network Technology Service Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-15

Abstract

本发明提供了一种多模交互方法，包括：在语音助理交互场景中，获取用户发出的语音指令和用户做出的动作指令；以及基于所述语音指令和所述动作指令共同确定出用户的当前控制指令。

Description

一种多模交互方法及其系统

技术领域

本发明涉及一种智能交互领域，尤其涉及一种车辆内的多模交互方法及其系统。

背景技术

随着人类的出行时间和出行距离的不断增大，人类对车辆特别是私家车辆的需求越来越大，对车辆内的人行为设置也要求越来越高。

随着智能交互的不断发展，车辆也逐步配备了人机交互系统。用户可通过与虚拟的语音助理进行对话来对车辆内的辅助设备进行个性化的控制。

但，语音助理提出的任意问题均需要用户发出对应的语音指令来进行回答，否则无法继续进行语音对话。但人类的表达习惯经常是语言和动作的结合，而不单纯的仅依靠语言来进行交流，因此语音助理的纯语音控制违背了人类的表达习惯，容易造成不好的用户体验。

因此，为解决现有的人机交互系统的单一交互方式，本发明只在提出一种多模交互方法及其系统，可同时支持语音和动作多种交互方式。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

根据本发明的一方面，提供了一种多模交互方法，包括：在语音助理交互场景中，获取用户发出的语音指令和用户做出的动作指令；以及基于所述语音指令和所述动作指令共同确定出用户的当前控制指令。

在一实施例中，所述基于所述语音指令和所述动作指令共同确定出用户的当前控制指令包括：对所述语音指令进行识别以确定出所述语音指令对应的文本内容；响应于所述文本内容全部或部分缺失，识别所述动作指令对应的指令内容；以及组合所述语音指令对应的文本内容与所述动作指令对应的指令内容以作为所述当前控制指令。

在一实施例中，所述多模交互方法还包括：响应于未采集到所述语音指令或所述语音指令对应的文本内容为空，判断所述文本内容全部缺失；响应于所述语音指令对应的文本内容不为空，对所述文本内容进行语义成分分析；以及响应于所述文本内容缺失任一语义成分，判断所述文本内容部分缺失。

在一实施例中，所述组合所述语音指令对应的文本内容与所述动作指令对应的指令内容以作为所述当前控制指令包括：响应于所述文本内容全部缺失，判断所述语音助理交互场景为简单交互场景；以及将所述语音助理交互场景的最新询问文本中的疑问词替换为所述动作指令对应的指令内容以作为所述当前控制指令。

在一实施例中，所述组合所述语音指令对应的文本内容与所述动作指令对应的指令内容以作为所述当前控制指令包括：响应于所述文本内容部分缺失，判断所述语音助理交互场景为复杂交互场景；将所述动作指令对应的指令内容识别为所述文本内容缺失的语义成分；以及将所述动作指令对应的指令内容增加为所述文本内容缺失的语义成分以作为所述当前控制指令。

在一实施例中，所述多模交互方法还包括：对用户进行脸部识别以确定出所述用户的权限等级；响应于所述用户的权限等级具有所述当前控制指令的操作权限，执行所述当前控制指令；以及响应于所述用户的权限等级不具有所述当前控制指令的操作权限，提醒用户不具备所述当前控制指令的操作权限。

在一实施例中，所述多模交互方法还包括：在非语音助理交互场景中，采集用户的眼球动作；以及响应于所述眼球动作符合语音助理触发动作，启动语音助理并进入语音助理交互场景。

在一实施例中，所述多模交互方法还包括：在非语音助理交互场景中，采集用户的行为视频数据；识别所述行为视频数据中的是否存在危险行为；以及响应于所述行为视频数据中存在危险行为，产生针对所述危险行为的提醒信息。

根据本发明的另一个方面，还提供了一种多模交互系统，包括：收音设备，用于在语音助理交互场景中采集用户发出的语音指令；图像采集设备，用于采集用户做出的动作指令；处理器，所述处理器与所述收音设备和所述图像采集设备连接以获取所述语音指令和所述动作指令，所述处理器被配置成：基于所述语音指令和所述动作指令共同确定出用户的当前控制指令。

在一实施例中，所述处理器进一步被配置成：对所述语音指令进行识别以确定出所述语音指令对应的文本内容；响应于所述文本内容全部或部分缺失，识别所述动作指令对应的指令内容；以及组合所述语音指令对应的文本内容与所述动作指令对应的指令内容以作为所述当前控制指令。

在一实施例中，所述处理器还被配置成：响应于所述收音设备未采集到所述语音指令或所述语音指令对应的文本内容为空，判断所述文本内容全部缺失；响应于所述语音指令对应的文本内容不为空，对所述文本内容进行语义成分分析；以及响应于所述文本内容缺失任一语义成分，判断所述文本内容部分缺失。

在一实施例中，所述处理器进一步被配置成：响应于所述文本内容全部缺失，判断所述语音助理交互场景为简单交互场景；以及将所述语音助理交互场景的最新询问文本中的疑问词替换为所述动作指令对应的指令内容以作为所述当前控制指令。

在一实施例中，所述处理器进一步被配置成：响应于所述文本内容部分缺失，判断所述语音助理交互场景为复杂交互场景；将所述动作指令对应的指令内容识别为所述文本内容缺失的语义成分；以及将所述动作指令对应的指令内容增加为所述文本内容缺失的语义成分以作为所述当前控制指令。

在一实施例中，所述图像采集设备还采集用户的脸部信息，所述处理器还被配置成：对所述用户的脸部信息进行脸部识别以确定出所述用户的权限等级；响应于所述用户的权限等级具有所述当前控制指令的操作权限，执行所述当前控制指令；以及响应于所述用户的权限等级不具有所述当前控制指令的操作权限，提醒用户不具备所述当前控制指令的操作权限。

在一实施例中，所述图像采集设备还采集用户的眼球动作，所述处理器还被配置成：在非语音助理交互场景中，获取所述图像采集设备采集的眼球动作并进行识别；以及响应于所述眼球动作符合语音助理触发动作，启动语音助理并进入语音助理交互场景。

在一实施例中，所述处理器还被配置成：在非语音助理交互场景中，获取图像采集设备采集的用户的行为视频数据；识别所述行为视频数据中的是否存在危险行为；以及响应于所述行为视频数据中存在危险行为，产生针对所述危险行为的提醒信息。

根据本发明的又一个方面，还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上述任一项所述的多模交互方法的步骤。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，更能够更好地理解本发明的上述特征和优点。

图1是根据本发明的一个方面绘示的一实施例中的多模交互方法的流程示意图；

图2是根据本发明的一个方面绘示的一实施例中的多模交互方法的部分流程示意图；

图3是根据本发明的一个方面绘示的一实施例中的多模交互方法的部分流程示意图；

图4是根据本发明的一个方面绘示的一实施例中的多模交互方法的部分流程示意图；

图5是根据本发明的一个方面绘示的一实施例中的多模交互方法的部分流程示意图；

图6是根据本发明的一个方面绘示的一实施例中的多模交互方法的部分流程示意图；

图7是根据本发明的一个方面绘示的一实施例中的多模交互方法的部分流程示意图；

图8是根据本发明的一个方面绘示的一实施例中的多模交互方法的部分流程示意图；

图9是根据本发明的另一个方面绘示的一实施例中的多模交互系统的示意框图。

具体实施方式

给出以下描述以使得本领域技术人员能够实施和使用本发明并将其结合到具体应用背景中。各种变型、以及在不同应用中的各种使用对于本领域技术人员将是容易显见的，并且本文定义的一般性原理可适用于较宽范围的实施例。由此，本发明并不限于本文中给出的实施例，而是应被授予与本文中公开的原理和新颖性特征相一致的最广义的范围。

在以下详细描述中，阐述了许多特定细节以提供对本发明的更透彻理解。然而，对于本领域技术人员显而易见的是，本发明的实践可不必局限于这些具体细节。换言之，公知的结构和器件以框图形式示出而没有详细显示，以避免模糊本发明。

请读者注意与本说明书同时提交的且对公众查阅本说明书开放的所有文件及文献，且所有这样的文件及文献的内容以参考方式并入本文。除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。

注意，在使用到的情况下，标志左、右、前、后、顶、底、正、反、顺时针和逆时针仅仅是出于方便的目的所使用的，而并不暗示任何具体的固定方向。事实上，它们被用于反映对象的各个部分之间的相对位置和/或方向。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

注意，在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

根据本发明的一个方面，提供一种多模交互方法，用于实现多种模式的人机交互。

如图1所示，在一实施例中，多模交互方法100可包括步骤S110～S120。

其中，步骤S110为：在语音助理交互场景中，获取用户发出的语音指令和用户做出的动作指令。

语音助理交互场景是指用户正处于与虚拟的语音助理交互的过程中。语音助理为辅助用户进行车辆的辅助功能的控制的虚拟对象，类似于苹果手机自带的“Siri”助手。语音助理可包括多种类型的交互场景，比如网购交互场景、娱乐系统交互场景、车辆辅助功能交互场景、问答交互场景或其他常用的交互场景等。

语音指令是指通过话筒或其他收音设备采集到的用户发出的语音数据。动作指令是指通过摄像头采集到的用户的肢体动作的视频或图片数据。

“获取”可以是从语音指令的采集设备或动作指令的采集设备接收对应的数据。

步骤S120为：基于所述语音指令和所述动作指令共同确定出用户的当前控制指令。

共同确定是指语音指令和动作指令结合起来表示一控制指令，语音指令和动作指令可以分别构成该控制指令的一部分，最终组合成一个控制指令。可以理解，口头语言和肢体语言均是人类的常规表达方式，因此将语音指令和动作指令分别表示控制指令的一部分是符合人类表达习惯的，能够使得用户在人机交互的过程中不受交互模式的限制，而遵循个人的表达习惯。

可以理解，组合语音指令和动作指令是在语音指令不足以表示一个完整的控制指令时才需要进行的，即动作指令用于补足语音指令中的缺失部分。因此，在具体的实施例中，如图2所示，步骤S120可包括步骤S121～S123。

其中，步骤S121为：对所述语音指令进行识别以确定出所述语音指令对应的文本内容。

具体地，可采用现有的或将有的语音识别技术对获取到的用户发出的语音指令进行识别以得到对应的文本内容。

以深度学习算法进行语音识别为例。可首先构建一深度神经网络模型，并对构建的深度神经网络模型进行训练以确定出深度神经网络模型中的各个参数以得到语音识别的模型；在进行语音识别时，将需要识别的语音指令输入到已训练的深度神经网络模型中即可从深度神经网络模型的输出端得到对应的文本内容。

步骤S122为：响应于所述文本内容全部或部分缺失，识别所述动作指令对应的指令内容。

一般地，以汉语中的语义词分类为例，可分为主体或客体词、动词、形容词、副词以及连接词等等。基于汉语语句的基本语义成分的构成，比如可分为“主体词[副词]动词[形容词]客体词[语气词]”([]内的词为可省略词)，再结合所处的语音助理交互场景的上下文可预判出用户即将回复的指令的语句类型，再将文本内容中的各个成分与预测的语句类型中的语义成分进行对应即可确定出文本内容中确实的语义成分。

因此，多模交互方法100还可包括判断文本内容是否缺失的步骤，具体可如图3所示，包括步骤S310～S330。

其中，步骤S310为：响应于未采集到所述语音指令或所述语音指令对应的文本内容为空，判断所述文本内容全部缺失。

文本内容全部缺失是指文本内容中不具备预测的语句类型中的任一语音成分。

可以理解，在任一语音助理交互场景中，当语音助理发出一询问时，需要获取对应的回答才能继续进行该语音助理交互场景的下一对话。因此，在语音助理发出询问后，需要针对该询问采集接下来的一段时间内的语音指令和用户做出的动作指令。

若，在预设的采集时间内的未采集到语音指令则可判断文本内容全部缺失，即完全由动作指令作为该询问的回答。但考虑到驾驶环境内噪音等，若采集到了噪音的声音数据则该些声音数据无法通过语音识别成对应的文本内容，因此，若文本内容为空，也可判断文本内容全部缺失。

步骤S320为：响应于所述语音指令对应的文本内容不为空，对所述文本内容进行语义成分分析。

可利用分词方法对文本内容进行分词，再将各个词进行词性分析以确定出各个词所对应的语义成分。

步骤S330为：响应于所述文本内容缺失任一语义成分，判断所述文本内容部分缺失。

可以理解，当文本内容中包括的语义成分缺少预测语句中的任一必要语义成分，比如主体词或客体词等，则可判断文本内容部分缺失。

步骤S123为：组合所述语音指令对应的文本内容与所述动作指令对应的指令内容以作为所述当前控制指令。

当确定出语音指令全部缺失或部分缺失时，可采用不同的组合方式来确定出当前控制指令。

具体地，语音指令全部缺失时的多种交互模式的组合方式如图4所示，包括步骤S1231～S1232。

其中，步骤S1231为：响应于所述文本内容全部缺失，判断所述语音助理交互场景为简单交互场景。

简单交互场景是指语音助理提出的询问所对应的答案仅有相对的两种可能的交互场景，比如：“是”或“否”；“对”或“不对”；“可以”或“不可以”等等，而不具有任何其他的第三种答案情形。

简答交互场景的答案简单，不存在多种不同的语义成分。因此，若文本内容全部缺失即可认为用户人为判断语音助理提出的询问为简单交互场景，因而，用户才会完全依赖手势或动作来回答。

步骤S1232为：将所述语音助理交互场景的最新询问文本中的疑问词替换为所述动作指令对应的指令内容以作为所述当前控制指令。

在人类的表达习惯中，简单交互场景经常采用点头、摇头或手势来作为回答，因此该答案需要结合语音助理的询问组合起来确定出实际的控制指令。语音助理交互场景的询问一般为固定句式，已具备分词的结构，因此仅需将动作指令对应的指令内容填充进语音助理交互场景的最新询问的对应位置中即可得到该当前控制指令。

语音指令部分缺失时多种交互模式的组合方式如图5所示，包括步骤S1233～S1235。

其中，步骤S1233为：响应于所述文本内容部分缺失，判断所述语音助理交互场景为复杂交互场景。

复杂交互场景是指语音助理提出的询问不能采用简单的答案来回答的交互场景。即，复杂交互场景的答案为由具有明确语义的语句。

步骤S1234为：将所述动作指令对应的指令内容识别为所述文本内容缺失的语义成分。

针对复杂交互场景的询问，可预测出该询问所对应的答案的句式。比如，语音助理询问“您需要购买什么”，用户可能会回答“我[想要]买风扇”，则该询问对应的答案的句式为“[主体词][副词][动词]客体词”([]内的词为可省略的词类)。

可以理解，相同的动作在不同的交互场景中可能对应有不同的意义，因此在对动作指令的指令内容进行解读时，可将该动作指令向文本内容中缺失的语义成分进行解读。即识别出动作指令后，将该动作指令在文本内容中缺失的语义成分中对应的语义词确定为该动作指令对应的指令内容。

步骤S1235为：将所述动作指令对应的指令内容增加为所述文本内容缺失的语义成分以作为所述当前控制指令。

在确定出该动作指令在文本内容中缺失的语义成分中对应的语义词后，将该语义词补充进文本内容中缺失的语义成分的位置处，即构成了当前控制指令的完整语句。

进一步地，车辆一般具有一个车主，但车辆的使用者可能有多名，不同的使用者可能会被车主赋予不同的操作权限，因此可基于不同的用户配备不同的权限等级。则在识别出用户的当前控制指令后，需要对用户的权限等级进行识别以判断用户是否具有对应于当前控制指令的操作权限。

在一更优实施例中，如图6所示，多模交互方法100还可包括步骤S130～S150。

其中，步骤S130为：对用户进行脸部识别以确定出所述用户的权限等级。

可先通过摄像头等视频或图像采集设备采集车辆的当前使用者的脸部数据，将采集到的脸部数据与车主授权的各个用户进行匹配，匹配成功的用户的权限等级即为当前用户的权限等级。

步骤S140为：响应于所述用户的权限等级具有所述当前控制指令的操作权限，执行所述当前控制指令。

步骤S150为：响应于所述用户的权限等级不具有所述当前控制指令的操作权限，提醒用户不具备所述当前控制指令的操作权限。

具体地，提醒用户可采用语音提醒、文字提醒或其组合等方式来实现。

进一步地，在非语音助理交互场景中，多模交互方法100还可包括用户的危险行为识别的步骤。在一具体实施例中，如图7所示，多模交互方法100还包括步骤S710～S730。

其中，步骤S710为：在非语音助理交互场景中，采集用户的行为视频数据。

非语音助理交互场景是指语音助理并未与用户处于任一特定的交互场景中，即不存在用户需要回答或语音助理需要执行的情况，或语音助理处于休眠状态等等。此时，可通过摄像头等视频或图像采集设备不断采集车内各个位置的行为视频数据。

步骤S720为：识别所述行为视频数据中的是否存在危险行为。

并对每个位置上的行为视频数据进行对应类型的危险行为的识别，比如驾驶位上的危险行为可包括抽烟、打电话、不系安全带或长时间闭眼睛等等；而副驾驶位和后排座位上的危险行为可包括不系安全带或肢体伸出窗外等等。

危险行为识别和前述动作指令的识别可将某一帧图像或连续的多帧图像与预设的危险行为图像或标准动作的图像进行相似度的匹配来进行识别。本领域的技术人员可以理解，危险行为识别和前述动作指令的识别还可采用其他的现有的或将有的能达到动作相应效果的识别技术来进行。

步骤S730为：响应于所述行为视频数据中存在危险行为，产生针对所述危险行为的提醒信息。

危险行为的提醒信息可包括语音提醒、文字提醒或其组合方式。

进一步地，多模交互方法100还可包括通过眼球动作来启动语音助理的步骤，具体可如图8所示，包括步骤S810～S820。

其中，步骤S810为：在非语音助理交互场景中，采集用户的眼球动作。

可通过摄像头等视频或图像采集设备不断采集驾驶位上的用户的眼球视频数据。可以理解，眼球动作、危险行为以及动作指令的采集可采用相同或不同的图像采集设备来进行采集。

具体地，眼球动作的识别可通过连续多帧的图像数据之间差异来进行。

步骤S820为：响应于所述眼球动作符合语音助理触发动作，启动语音助理并进入语音助理交互场景。

特别地，当用户处于驾驶疲劳状态时，可能会存在眼光涣散的情形，因此可将眼光涣散等动作确定为语音助理的启动动作。则当采集到一定时间内的连续图像中用户的眼球不存在任何动作时，启动语音助理进入设定的语音交互场景，比如“请问您是否需要休息”或“您是否需要听音乐”等直接或委婉的提醒用户的语音交互场景。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

根据本发明的再一个方面，还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上述任一实施例中所述的多模交互方法的步骤。

根据本发明的另一个方面，还提供一种多模交互系统，用于实现多种模式的人机交互。

在一实施例中，如图9所示，多模交互系统900包括收音设备910、图像采集设备920和处理器930。

收音设备910用于在语音助理交互场景中采集用户发出的语音指令。收音设备910可以是话筒或其他收音设备。语音指令是指通过收音设备910采集到的用户发出的语音数据。

图像采集设备920用于采集用户做出的动作指令。图像采集设备920可以是红外摄像头、深度摄像头或RGB摄像头等各种类型的可用于采集用户动作的摄像头。动作指令是指通过图像采集设备920采集到的用户的肢体动作的视频或图片数据。

处理器930与收音设备910和所述图像采集设备920连接以获取语音指令和动作指令。处理器930被配置成：基于语音指令和动作指令共同确定出用户的当前控制指令。

可以理解，组合语音指令和动作指令是在语音指令不足以表示一个完整的控制指令时才需要进行的，即动作指令用于补足语音指令中的缺失部分。因此，较优地，处理器930进一步被配置成：对所述语音指令进行识别以确定出所述语音指令对应的文本内容；响应于所述文本内容全部或部分缺失，识别所述动作指令对应的指令内容；以及组合所述语音指令对应的文本内容与所述动作指令对应的指令内容以作为所述当前控制指令。

为判断出文本内容是否有缺失，处理器930进一步被配置成：响应于未采集到所述语音指令或所述语音指令对应的文本内容为空，判断所述文本内容全部缺失；响应于所述语音指令对应的文本内容不为空，对所述文本内容进行语义成分分析；以及响应于所述文本内容缺失任一语义成分，判断所述文本内容部分缺失。

但文本内容部分缺失时，利用分词方法对文本内容进行分词，再将各个词进行词性分析以确定出各个词所对应的语义成分。当文本内容中包括的语义成分缺少预测语句中的任一必要语义成分，比如主体词或客体词等，则可判断文本内容部分缺失。

为实现语音指令全部缺失时的多种交互模式的组合，处理器930进一步被配置成：响应于所述文本内容全部缺失，判断所述语音助理交互场景为简单交互场景；以及将所述语音助理交互场景的最新询问文本中的疑问词替换为所述动作指令对应的指令内容以作为所述当前控制指令。

为实现语音指令部分缺失时多种交互模式的组合，处理器930进一步被配置成：响应于所述文本内容部分缺失，判断所述语音助理交互场景为复杂交互场景；将所述动作指令对应的指令内容识别为所述文本内容缺失的语义成分；以及将所述动作指令对应的指令内容增加为所述文本内容缺失的语义成分以作为所述当前控制指令。

则较优地，图像采集设备920还采集用户的脸部信息。

对应地，处理器930进一步被配置成：对所述用户的脸部信息进行脸部识别以确定出所述用户的权限等级；响应于所述用户的权限等级具有所述当前控制指令的操作权限，执行所述当前控制指令；以及响应于所述用户的权限等级不具有所述当前控制指令的操作权限，提醒用户不具备所述当前控制指令的操作权限。

具体可将采集到的脸部数据与车主授权的各个用户进行匹配，匹配成功的用户的权限等级即为当前用户的权限等级。

提醒用户可采用语音提醒、文字提醒或其组合等方式来实现。

进一步地，在非语音助理交互场景中，图像采集设备920还采集用户的行为视频数据。

对应地，处理器930进一步被配置成：在非语音助理交互场景中，获取图像采集设备采集的用户的行为视频数据；识别所述行为视频数据中的是否存在危险行为；以及响应于所述行为视频数据中存在危险行为，产生针对所述危险行为的提醒信息。

对每个位置上的行为视频数据进行对应类型的危险行为的识别，比如驾驶位上的危险行为可包括抽烟、打电话、不系安全带或长时间闭眼睛等等；而副驾驶位和后排座位上的危险行为可包括不系安全带或肢体伸出窗外等等。

进一步地，在非语音助理交互场景中，图像采集设备920还采集用户的眼球动作。

对应地，处理器930进一步被配置成：在非语音助理交互场景中，获取所述图像采集设备采集的眼球动作并进行识别；以及响应于所述眼球动作符合语音助理触发动作，启动语音助理并进入语音助理交互场景。

可以理解，图像采集设备920可包括多组相同或不同的摄像头，眼球动作、危险行为以及动作指令的采集可采用相同或不同的摄像头来进行采集。

本领域技术人员将可理解，信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如，以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供之前的描述是为了使本领域中的任何技术人员均能够实践本文中所描述的各种方面。但是应该理解，本发明的保护范围应当以所附权利要求书为准，而不应被限定于以上所解说实施例的具体结构和组件。本领域技术人员在本发明的精神和范围内，可以对各实施例进行各种变动和修改，这些变动和修改也落在本发明的保护范围之内。

Claims

1.一种多模交互方法，包括：

在语音助理交互场景中，获取用户发出的语音指令和用户做出的动作指令；以及

基于所述语音指令和所述动作指令共同确定出用户的当前控制指令。

2.如权利要求1所述的多模交互方法，其特征在于，所述基于所述语音指令和所述动作指令共同确定出用户的当前控制指令包括：

对所述语音指令进行识别以确定出所述语音指令对应的文本内容；

响应于所述文本内容全部或部分缺失，识别所述动作指令对应的指令内容；以及

组合所述语音指令对应的文本内容与所述动作指令对应的指令内容以作为所述当前控制指令。

3.如权利要求2所述的多模交互方法，其特征在于，还包括：

响应于未采集到所述语音指令或所述语音指令对应的文本内容为空，判断所述文本内容全部缺失；

响应于所述语音指令对应的文本内容不为空，对所述文本内容进行语义成分分析；以及

响应于所述文本内容缺失任一语义成分，判断所述文本内容部分缺失。

4.如权利要求3所述的多模交互方法，其特征在于，所述组合所述语音指令对应的文本内容与所述动作指令对应的指令内容以作为所述当前控制指令包括：

响应于所述文本内容全部缺失，判断所述语音助理交互场景为简单交互场景；以及

将所述语音助理交互场景的最新询问文本中的疑问词替换为所述动作指令对应的指令内容以作为所述当前控制指令。

5.如权利要求3所述的多模交互方法，其特征在于，所述组合所述语音指令对应的文本内容与所述动作指令对应的指令内容以作为所述当前控制指令包括：

响应于所述文本内容部分缺失，判断所述语音助理交互场景为复杂交互场景；

将所述动作指令对应的指令内容识别为所述文本内容缺失的语义成分；以及

将所述动作指令对应的指令内容增加为所述文本内容缺失的语义成分以作为所述当前控制指令。

6.如权利要求1所述的多模交互方法，其特征在于，还包括：

对用户进行脸部识别以确定出所述用户的权限等级；

响应于所述用户的权限等级具有所述当前控制指令的操作权限，执行所述当前控制指令；以及

响应于所述用户的权限等级不具有所述当前控制指令的操作权限，提醒用户不具备所述当前控制指令的操作权限。

7.如权利要求1所述的多模交互方法，其特征在于，还包括：

在非语音助理交互场景中，采集用户的眼球动作；以及

响应于所述眼球动作符合语音助理触发动作，启动语音助理并进入语音助理交互场景。

8.如权利要求1所述的多模交互方法，其特征在于，还包括：

在非语音助理交互场景中，采集用户的行为视频数据；

识别所述行为视频数据中的是否存在危险行为；以及

响应于所述行为视频数据中存在危险行为，产生针对所述危险行为的提醒信息。

9.一种多模交互系统，包括：

收音设备，用于在语音助理交互场景中采集用户发出的语音指令；

图像采集设备，用于采集用户做出的动作指令；

处理器，所述处理器与所述收音设备和所述图像采集设备连接以获取所述语音指令和所述动作指令，所述处理器被配置成：

10.如权利要求9所述的多模交互系统，其特征在于，所述处理器进一步被配置成：

11.如权利要求10所述的多模交互系统，其特征在于，所述处理器还被配置成：

响应于所述收音设备未采集到所述语音指令或所述语音指令对应的文本内容为空，判断所述文本内容全部缺失；

12.如权利要求11所述的多模交互系统，其特征在于，所述处理器进一步被配置成：

13.如权利要求11所述的多模交互系统，其特征在于，所述处理器进一步被配置成：

14.如权利要求9所述的多模交互系统，其特征在于，所述图像采集设备还采集用户的脸部信息，所述处理器还被配置成：

对所述用户的脸部信息进行脸部识别以确定出所述用户的权限等级；

15.如权利要求9所述的多模交互系统，其特征在于，所述图像采集设备还采集用户的眼球动作，所述处理器还被配置成：

在非语音助理交互场景中，获取所述图像采集设备采集的眼球动作并进行识别；以及

16.如权利要求9所述的多模交互系统，其特征在于，所述处理器还被配置成：

在非语音助理交互场景中，获取图像采集设备采集的用户的行为视频数据；

识别所述行为视频数据中的是否存在危险行为；以及

17.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1～8中任一项所述的多模交互方法的步骤。