CN112506125B

CN112506125B - 一种多模态控制方法、装置和系统

Info

Publication number: CN112506125B
Application number: CN202011306064.6A
Authority: CN
Inventors: 李国华; 龚思颖
Original assignee: Beijing Haiyunjiexun Technology Co ltd
Current assignee: Beijing Haiyunjiexun Technology Co ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2024-07-09
Anticipated expiration: 2040-11-19
Also published as: CN112506125A

Abstract

本发明公开了一种多模态控制方法，包括：创建步骤，创建多模态控制输入层、消歧分析层和输出层；接收输入信息步骤，所述输入层接收至少一种输入信息，生成多模态瀑布流消息；消歧处理步骤，所述消歧控制层从所述输入层接收所述多模态瀑布流消息，对所述多模态瀑布流进行消歧处理和分析，生成控制消息发送给所述输出层；生成控制命令步骤，所述输出层从所述消歧分析层接收所述控制消息；输出控制命令步骤，所述输出层向被控设备输出控制命令，实现对被控设备的控制。本发明的方法能够通过一个或多个用户的多模态输入，生成控制指令实现对车载设备的精确控制，使得用户不必操作复杂的按键，提高了驾驶体验和驾驶过程中的安全性。

Description

一种多模态控制方法、装置和系统

技术领域

本发明实施例涉及智能控制技术领域，特别涉及一种多模态控制方法、装置和系统。

背景技术

目前，随着语音识别技术的发展，对设备的控制逐渐智能化，例如在智能驾驶中，通过捕捉用户的语音、手势、眼部活动等信息，将其转化为控制指令实现对车辆的智能控制，通过解放人的双手和双眼降低驾驶难度实现智能驾驶。

但是，目前的智能驾驶技术的实现仍然基于传统的汽车架构和车内功能按键布局，虽然各个车型针对同一功能的控制按键存在形状、位置、操作方式上的区别，但是基本上针对同一功能的控制按键具有相似的布局。例如，所有汽车的车窗按键组基本都包括至少四个按键来分别控制左前、左后、右前、右后这四块窗户玻璃，后视镜按键组也基本都包括两个按键或者两个键位来分别对左、右两块后视镜进行调节。

上述提到的，目前车辆中多个功能按键的设置方式导致车内按键众多，驾驶员操作不方便，也带来了安全隐患，同时影响内部布局的美观性。并且，随着智能驾驶技术的发展，功能的触发将不依赖于现有的某些按键，使得这些按键没有保留的必要。

发明内容

针对现有技术中的问题，本发明提供一种多模态控制方法、装置和系统。

本发明提供一种多模态控制方法，所述方法包括，创建多模态控制输入层、消歧分析层和输出层，所述输入层接收至少一种输入信息，所述输入层根据所述至少一种输入信息生成多模态瀑布流消息；所述消歧控制层从所述输入层接收所述多模态瀑布流消息，对所述多模态瀑布流进行消歧处理和分析，生成控制消息发送给所述输出层；所述输出层从所述消歧分析层接收所述控制消息，并向被控设备输出控制命令，实现对被控设备的控制。

进一步的，所述多模态瀑布流消息为多个模态的输入消息按照一定顺序组成的连续输入消息流。所述消歧控制层从所述多模态瀑布流消息中的提取连续输入指令，对所述连续输入指令进行消歧分析。

优选的，所述连续输入指令为连续输入控制指令。

进一步的，所述输入信息为针对被控设备的控制信息，至少一种控制信息包括用户的语音控制信息、用户的姿势控制信息、图像控制信息和物理按键控制信息。优选的，所述用户的姿态控制信息包括手势、身体姿势或二者的组合；所述图像控制信息包括眼球图像。可选的，所述输入信息来自一个或多个用户。

可选的，所述被控设备为车辆中的部件，包括：车灯、车窗、雨刷、后视镜、空调和/或车载娱乐设备。

进一步的，所述输入信息由信息采集设备进行采集，所述信息采集设备可以为多个单模态信息采集设备，可以为一个或多个多模态信息采集设备。

优选的，所述信息采集设备包括但不限于传感器、摄像头、音频采集设备等。

进一步的，所述消歧控制层对所述连续输入指令进行消歧分析具体包括下面一种或多种方式：对多模态瀑布流消息进行模态识别；剔除多模态瀑布流消息中的重叠部分；对多模态瀑布流消息中的各模态消息进行关联性梳理；对多模态瀑布流消息进行时间顺序梳理；根据所述多模态瀑布流消息生成指令组。

可选的，所述消歧控制层在执行上述一种或多种步骤时，可以采用一种或多种顺序。

本发明还提供一种多模态控制装置，所述装置包括：多模态控制输入层、消歧分析层和输出层；所述输入层接收至少一种输入信息，所述输入层根据所述至少一种输入信息生成多模态瀑布流消息；所述消歧控制层从所述输入层接收所述多模态瀑布流消息，对所述多模态瀑布流进行消歧处理和分析，生成控制消息发送给所述输出层；所述输出层从所述消歧分析层接收所述控制消息，并向被控设备输出控制命令，实现对被控设备的控制。

优选的，所述连续输入指令为连续输入控制指令。

进一步的，所述输入信息为针对被控设备的控制信息，至少一种控制信息包括用户的语音控制信息、用户的姿势控制信息、图像控制信息和物理按键控制信息。优选的，所述用户的姿态控制信息包括手势、身体姿势或二者的组合；所述图像控制信息包括眼球图像。

本发明还提供一种多模态控制装置，所述多模态控制装置包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如前所述的方法。

本发明还提供一种车辆，所述车辆装载有本发明的多模态控制装置，所述车辆具有更少的按键。

进一步的，根据所述多模态控制装置的控制指令对所述按键的功能进行再配置。

本发明还提供一种多模态控制系统，所述多模态控制系统包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如前所述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如前所述的方法。

本发明还提供一种多模态控制系统，所述系统包括：如前所述的多模态控制。

本发明的多模态控制方法、装置和系统，能够通过一个或多个用户的多模态输入，生成控制指令实现对车载设备的精确控制，使得用户不必操作复杂的按键，提高了驾驶体验和驾驶过程中的安全性。同时，本发明的装载有多模态控制装置的车辆，能够设置更少的按键，并且按键的功能能够根据多模态控制装置的设置进行重新配置，在简化操作的同时更符合用户的个性化使用习惯，提高了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中的多模态控制方法流程图。

图2是本发明另一个实施例中的多模态控制装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明，而非对本发明说明书技术方案的限定，在不冲突的情况下，本发明的实施例以及实施例的技术特征可以相互结合。以下结合具体实施例对本发明的方法和装置进行具体描述。

实施例一

本发明实施例提供一种多模态控制方法，如图1所示，所述方法包括，创建步骤，创建多模态控制输入层、消歧分析层和输出层；接收输入信息步骤，所述输入层接收至少一种输入信息，生成多模态瀑布流消息；消歧处理步骤，所述消歧控制层从所述输入层接收所述多模态瀑布流消息，对所述多模态瀑布流进行消歧处理和分析，生成控制消息发送给所述输出层；生成控制命令步骤，所述输出层从所述消歧分析层接收所述控制消息；输出控制命令步骤，所述输出层向被控设备输出控制命令，实现对被控设备的控制。

通过下面的场景来对本实施例的方法进行更进一步的描述。设想一个这样的场景，驾驶中的用户希望控制后面的两个车窗打开时，需要用户按下驾驶位旁边车窗下的两个按键手动控制后边的车窗打开。这样做存在显而易见的缺陷，如果驾驶中的用户对车内按键不熟悉，则需要通过眼睛辅助寻找或者通过手指摸索的方式确定按键；即使该用户对所驾驶的车辆的按键十分熟悉，也需要腾出一只手来完成找到按键、正确操作按键等一系列的动作，这样的方式显然既不方便也不安全。

本实施例中，首先创建多模态输入层、多模态消歧控制层、多模态输入出层。所述多模态输入层、多模态消歧控制层、多模态输入出层构成了一个多模态控制功能实体，该多模态控制功能实体的形式包括但不限于功能模块、算法模型、实体装置等。用户通过向多模态控制功能实体做出自己习惯性的指令组合即可完成动作。所述习惯性的指令组合包括身体动作和/或手势和/或发出语音指令和/或眼球转动等。

假设本实施例中，需要控制后面的两个车窗打开时，用户的习惯方式是一个包括四个连续指令的指令组合，1语音说“窗户”，2做出向下的手势，3语音说“后面的”，4眼球同时向后转动。上述的连续指令即为多模态指令，模态指的是语音、姿势或眼球动作等控制指令的不同形态。所述多模态输入层通过多模态信息采集设备接收所述用户的输入信息，所述多模态信息采集设备为多个单模态信息采集设备，或者一个或多个多模态信息采集设备。示例性的，本实施例中通过音频采集装置采集用户语音输入的语音控制信息，通过手势传感器采集用户手势输入的手势控制信息，通过图像或摄像头采集装置采集由眼球动作的做出的眼球控制信息(或成为图像控制信息)，相应的所述输入信息为控制信息，所述控制信息包括语音控制信息、手势控制信息和图像控制信息。除了窗户，所述被控设备还可以为车辆中的其他部件，例如：车灯、车窗、雨刷、后视镜、空调和/或车载娱乐设备等。

本领域技术人员能够理解，所述信息采集设备还包括但不限于：传感器、感应设备、生物识别设备、监控系统等能够收集信息的各类系统。

由于用户发出的多模态指令通常是在短时间内连续的，各个模态之间存在时间上的重叠，采用瀑布流消息的处理方式能够准确、全面的反映多模态指令。所述输入层根据所述至少一种输入信息生成多模态瀑布流消息，并将所述多模态瀑布流消息发送到多模态消歧控制层进行处理。所述多模态瀑布流消息为多个模态的输入消息按照一定顺序组成的连续输入消息流。通常所述顺序为用户发出各类指令的顺序，可以理解的是，在所述瀑布流消息中，同一时间节点上所述各类指令之间存在重叠。

在多模态消歧控制层需要所述多模态瀑布流消息进行分析以识别出被控设备和用户想要执行的操作。所述消歧控制层从所述多模态瀑布流消息中提取连续输入指令，对所述连续输入指令进行消歧分析。所述连续输入指令为连续输入控制指令。

所述消歧控制层对所述连续输入指令进行消歧分析由多个处理步骤构成，根据应用场景和被控设备的不同，可以适应性的选择不同的步骤。

所述步骤包括对多模态瀑布流消息进行模态识别。通过对瀑布流消息中的信息进行特征提取和识别，识别出多模态瀑布流消息包含的模态种类，例如通过短周期抽样的方式，提取一组特征数据进行识别，得到模态种类。优选的，可以根据模态种类对瀑布流消息进行剥离分类。

所述步骤包括剔除多模态瀑布流消息中的重叠部分。可选的，通过去重操作实现，合并针对同一被控设备具有相同含义的重复消息内容，所述合并可以是合并同一模态数据中针对同一被控设备具有相同含义的重复消息内容，也可以是合并不同模态数据中针对同一被控设备的具有相同含义的重复消息内容。优选的，在所述剔除步骤之前还包括对所述多模态瀑布流消息进行去噪处理，去除噪声和干扰信号。

所述步骤包括对多模态瀑布流消息中的各模态消息进行关联性梳理，在本发明的场景下，瀑布流消息中的各模态消息和连续指令之间都具有强关联性，消歧控制层需要识别并重构各模态消息的关联关系。所述重构各模态消息的关联关系是指消歧控制层将各模态消息之间的多对多复杂关联关系拆分为一组一对一简单关联关系，所述重构并不改变实际的关联关系，而是通过更简单的方式再现关联关系。进一步通过对各模态消息或者各个指令消息的关联关系进行分析，识别出用户指令针对的被控设备，以及针对所述被控设备的指令。

所述步骤包括对多模态瀑布流消息中的指令进行时间重构，根据所述多模态瀑布流消息生成指令组。如前所述，所述多模态瀑布流消息包括时间上重叠的指令，该重叠可能是同时发出两种模态的指令，或者是两种模态指令在时间上存在部分重叠。通过时间重构将所述瀑布流消息重新进行时间排序，消除时间上的重叠。也即，通过时间重构多模态瀑布流消息的持续时间通常会变长。

所述消歧控制层在执行上述一种或多种步骤时，优选的选择串行方式。

所述消歧控制层通过上述一系列的分析处理就识别出了用户针对的被控设备以及用户需要执行的操作，消歧控制层根据所述被控设备和操作生成控制消息发送给输出层。

所述输出层从所述消歧分析层接收所述控制消息，通过消息处理和协议转换生成控制命令，并向被控设备输出控制命令，实现对被控设备的控制。优选的，所述输出层按照特定的消息格式生成控制命令，所述特定的消息格式为所述车联网协议的通用格式。

实施例二

本发明实施例提供一种多模态控制装置，如图2所示，所述装置包括：多模态控制输入层、消歧分析层和输出层；所述输入层接收至少一种输入信息，所述输入层根据所述至少一种输入信息生成多模态瀑布流消息；所述消歧控制层从所述输入层接收所述多模态瀑布流消息，对所述多模态瀑布流进行消歧处理和分析，生成控制消息发送给所述输出层；所述输出层从所述消歧分析层接收所述控制消息，并向被控设备输出控制命令，实现对被控设备的控制。

假设本实施例中的用户希望控制后面的两个车窗打开时，习惯方式是一个包括四个连续指令的指令组合，1语音说“窗户”，2做出向下的手势，3语音说“后面的”，4眼球同时向后转动。上述的连续指令即为多模态指令，模态指的是语音、姿势或眼球动作等控制指令的不同形态。所述多模态输入层通过多模态信息采集设备接收所述用户的输入信息，所述多模态信息采集设备为多个单模态信息采集设备，或者一个或多个多模态信息采集设备。示例性的，本实施例中通过音频采集装置采集用户语音输入的语音控制信息，通过手势传感器采集用户手势输入的手势控制信息，通过图像或摄像头采集装置采集由眼球动作的做出的眼球控制信息(或成为图像控制信息)，相应的所述输入信息为控制信息，所述控制信息包括语音控制信息、手势控制信息和图像控制信息。除了窗户，所述被控设备还可以为车辆中的其他部件，例如：车灯、车窗、雨刷、后视镜、空调和/或车载娱乐设备等。

所述消歧控制层对所述连续输入指令进行消歧分析由多个处理模块构成，根据应用场景和被控设备的不同，可以适应性的选择不同的处理模块。

所述模块包括模态识别模块用于对多模态瀑布流消息进行模态识别。通过对瀑布流消息中的信息进行特征提取和识别，识别出多模态瀑布流消息包含的模态种类，例如通过短周期抽样的方式，提取一组特征数据进行识别，得到模态种类。优选的，可以根据模态种类对瀑布流消息进行剥离分类。

所述模块包括剔除模块用于剔除多模态瀑布流消息中的重叠部分。可选的，通过去重操作实现，合并针对同一被控设备具有相同含义的重复消息内容，所述合并可以是合并同一模态数据中针对同一被控设备具有相同含义的重复消息内容，也可以是合并不同模态数据中针对同一被控设备的具有相同含义的重复消息内容。优选的，在所述剔除模块之前还包括对所述多模态瀑布流消息进行去噪处理的去噪模块，用于去除噪声和干扰信号。

所述模块包括关联梳理模块用于对多模态瀑布流消息中的各模态消息进行关联性梳理，在本发明的场景下，瀑布流消息中的各模态消息和连续指令之间都具有强关联性，消歧控制层需要识别并重构各模态消息的关联关系。所述重构各模态消息的关联关系是指消歧控制层将各模态消息之间的多对多复杂关联关系拆分为一组一对一简单关联关系，所述重构并不改变实际的关联关系，而是通过更简单的方式再现关联关系。进一步通过对各模态消息或者各个指令消息的关联关系进行分析，识别出用户指令针对的被控设备，以及针对所述被控设备的指令。

所述模块包括时间重构模块用于对多模态瀑布流消息中的指令进行时间重构，根据所述多模态瀑布流消息生成输入指令组(该输入指令组仍是原始的指令，不能直接对被控设备进行控制)。如前所述，所述多模态瀑布流消息包括时间上重叠的指令，该重叠可能是同时发出两种模态的指令，或者是两种模态指令在时间上存在部分重叠。通过时间重构将所述瀑布流消息重新进行时间排序，消除时间上的重叠。也即，通过时间重构多模态瀑布流消息的持续时间通常会变长。

所述消歧控制层的上述多个模块，优选的选择串行方式进行连接。

所述消歧控制层通过上述一系列的模块就识别出了用户针对的被控设备以及用户需要执行的操作，消歧控制层还将所述被控设备和操作生成控制消息发送给输出层。

所述输出层从所述消歧分析层接收所述控制消息，识别出被控设备和用户所要执行的操作，通过消息处理和协议转换生成控制命令，并向被控设备输出控制命令，实现对被控设备的控制。优选的，所述输出层按照特定的消息格式生成控制命令，所述特定的消息格式为所述车联网协议的通用格式。

实施例三

本发明实施例提供一种车辆，所述车辆装载有本发明的多模态控制装置，所述车辆具有更少的按键。所述车辆的按键具有不同于现有车辆的布局，例如所述车辆的车窗控制键仅有一至三个，而不是至少四个。

例如，本实施例中车辆具有一个按键实现对车窗的控制。当用户希望控制后面的两个车窗打开时，1触碰所述按键；2做出向下的手势，3语音说“后面的”，4眼球同时向后转动。多模态控制装置接收用户的上述输入信息对车窗进行控制，实现用户的操作意图。

可选的，所述按键可以根据所述多模态控制装置的控制指令进行功能再配置。具体的，用户可以按照自己的驾驶操作习惯通过车机对车辆的按键的功能进行再配置。

本发明还提供一种多模态控制系统，所述系统包括：如前所述的多模态控制装置。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子，不用于限定本发明的范围。在具体实现时，本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少，在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例，本领域技术人员应当理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同替换所限定，在未经创造性劳动所作的改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态控制方法，其特征在于，所述方法包括：创建步骤，创建多模态控制输入层、消歧分析层和输出层；接收输入信息步骤，所述输入层接收至少一种输入信息，生成多模态瀑布流消息；消歧处理步骤，所述消歧分析层从所述输入层接收所述多模态瀑布流消息，对所述多模态瀑布流进行消歧处理和分析，生成控制消息发送给所述输出层；生成控制命令步骤，所述输出层从所述消歧分析层接收所述控制消息；输出控制命令步骤，所述输出层向被控设备输出控制命令，实现对被控设备的控制;

其中，输入层生成多模态瀑布流消息，将多模态瀑布流消息输入消歧分析层；所述消歧处理步骤可剔除多瀑布流消息中重叠的部分，通过去重操作实现，合并针对同一被控设备具有相同含义的重复消息内容，还包括对所述瀑布流消息进行去噪处理，去除噪声和干扰信号；所述输入层根据所述至少一种输入信息生成多模态瀑布流消息，并将所述多模态瀑布流消息发送到多模态消歧分析层进行处理；所述多模态瀑布流消息为多个模态的输入消息按照一定顺序组成的连续输入消息流；所述消歧分析层从所述多模态瀑布流消息中提取连续输入指令，对所述连续输入指令进行消歧分析；对多模态瀑布流消息进行模态识别；通过对瀑布流消息中的信息进行特征提取和识别，识别出多模态瀑布流消息包含的模态种类；

其中，通过时间重构将所述瀑布流消息重新进行时间排序，消除时间上的重叠，消歧分析层需要识别并重构各模态消息的关联关系，将各模态消息之间的多对多复杂关联关系通过更简单的方法再现，从而识别出用户指令针对的被控设备，以及针对所述被控设备的指令。

2.如权利要求1所述的多模态控制方法，其特征在于，所述输入信息为针对被控设备的至少一种控制信息，所述控制信息包括用户的语音控制信息、用户的姿势控制信息、图像控制信息和物理按键控制信息。

3.如权利要求1所述的多模态控制方法，其特征在于，所述被控设备为车辆中的部件，包括：车灯、车窗、雨刷、后视镜、空调和/或车载娱乐设备。

4.一种多模态控制装置，其特征在于，所述装置包括：多模态控制输入层、消歧分析层和输出层；所述输入层接收至少一种输入信息，生成多模态瀑布流消息；所述消歧分析层从所述输入层接收所述多模态瀑布流消息，对所述多模态瀑布流进行消歧处理和分析，生成控制消息发送给所述输出层；所述输出层从所述消歧分析层接收所述控制消息；所述输出层向被控设备输出控制命令，实现对被控设备的控制;

5.如权利要求4所述的多模态控制装置，其特征在于，所述输入信息为针对被控设备的至少一种控制信息，所述控制信息包括用户的语音控制信息、用户的姿势控制信息、图像控制信息和物理按键控制信息。

6.如权利要求4所述的多模态控制装置，其特征在于，所述被控设备为车辆中的部件，包括：车灯、车窗、雨刷、后视镜、空调和/或车载娱乐设备。

7.一种多模态控制装置，其特征在于，所述多模态控制装置包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如权利要求1-3任一项所述的方法。

8.一种车辆，其特征在于，所述车辆装载有如权利要求4-7任一项所述的多模态控制装置，所述车辆具有更少的按键。

9.如权利要求8所述的车辆，其特征在于，所述车辆还包括控制器，所述控制器根据所述多模态控制装置的控制指令对所述按键的功能进行再配置。