CN116540873A

CN116540873A - 一种多模态交互实现方法、装置、系统及计算机可读存储介质

Info

Publication number: CN116540873A
Application number: CN202310488626.0A
Authority: CN
Inventors: 刘军
Original assignee: Beijing Guozhi Zhonghe Technology Co ltd
Current assignee: Beijing Guozhi Zhonghe Technology Co ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-08-04

Abstract

一种多模态交互实现方法、装置、系统及计算机可读存储介质，所述方法包括：触发启动数据输入，获取输入数据；基于所述输入数据，识别所述输入数据对应的用户意图；触发启动图片数据输入；基于获取的图片数据，进行指尖识别，结合所述用户意图确定新用户意图；基于所述新用户意图，执行相应操作。

Description

一种多模态交互实现方法、装置、系统及计算机可读存储介质

技术领域

本公开涉及智能设备的交互技术领域，尤其涉及一种多模态交互实现方法、装置、系统及计算机可读存储介质。

背景技术

随着智能设备的广泛应用，智能设备的交互技术得到了长足的发展，例如各种移动终端的智能语音助手成为人们常用的交互方式。在现有技术中，用户可以使用移动终端的语音助手功能与机器助手进行语音交互，使机器助手可以在用户的语音控制下完成对移动终端的各种操作，其中也包括对移动终端上的应用程序的各种操作，如智能语音助手在特定的语言或者操作进行唤醒之后进行交互，例如通过发“Hi，siri”的特定的语音来开启智能语音助手，或者通过控制按钮来开启智能语音助手，例如设置日程、开启闹钟、设置代办事项、打开应用和拨打电话等等。AI语音助手功能俨然成为智能设备的刚需功能、如智能手机、智能车载、智能音箱、智能平板电脑、智能台灯、智能手表等。

目前现有技术中，AI语音助手以语音输入/输出的交互方式为主、交互模式单一、产品形态封闭导致场景功能有限，这极大限制了语音助手类产品的用户体验及商业价值。

发明内容

针对上述技术问题，本公开提出一种多模态交互实现方法、装置、系统及计算机可读存储介质。为在AI语音助手场景下实现指尖交互技术，使得AI语音助手在原先只支持AI语音对话的基础上扩展指尖查词、指尖点读、指尖翻译、指尖批改等功能，支持指尖交互技术的新AI语音助手（简称“新AI语音助手”）拥有明显更好的智能度，可以在AI平板、AI台灯、手机等众多智能设备上给用户带来更大的使用便利。

为此，包括如下几方面：

第一方面，一种多模态交互实现方法，包括：

步骤1：触发启动数据输入，获取输入数据；

步骤2：基于所述输入数据，识别所述输入数据对应的用户意图；

步骤3：触发启动图片数据输入；

步骤4：基于获取的图片数据，进行指尖识别，结合所述用户意图确定新用户意图；

步骤5：基于所述新用户意图，执行相应操作。

进一步，所述触发启动数据输入包括手动触发或语音触发。

进一步，所述触发启动图片数据输入包括手动触发或语音触发。

进一步，所述数据输入既包括文本数据的输入，也包括语音数据的输入。

进一步，在输入语音时，通过语音活动性检查VAD技术判断一次语音输入的开始与结束。

进一步，生成所述语音数据的输入对应的音频数据，识别所述音频数据对应的语音意图，所述语音意图即为所述用户意图。

进一步，在输入文本时，识别所述文本数据对应的文本意图，所述文本意图即为所述用户意图。

进一步，所述基于所述音频数据，识别所述音频数据对应的语音意图包括：通过自动语音识别ASR技术把所述音频数据转换为文本数据；通过NLU技术分析识别所述文本数据的所述语音意图。

进一步，触发启动数据输入的同时，触发启动图片数据输入；语音识别与指尖识别同时进行；或基于所述用户意图，触发启动图片数据输入。

进一步，所述基于获取的图片数据，进行指尖识别包括：通过视觉动态检测技术判断图片数据输入开始与结束，获取生成所述图片数据；识别所述图片数据中的指尖；确定指尖坐标；根据所述指尖坐标，对所述图片数据裁切，确定最终图片数据；识别所述最终图片数据中的文本。

进一步，所述基于所述新用户意图，执行相应操作包括：将识别出的所述最终图片数据中的文本作为所述新用户意图的输入数据；根据所述新用户意图，进行相应的数据生成和数据输出。

进一步，所述相应操作包括：字词典查询；文字识别；文字翻译；或文本搜索。

第二方面，一种多模态交互实现装置，包括：

输入启动模块，用于触发启动数据输入，获取输入数据；

意图识别模块，用于基于所述输入数据，识别所述输入数据对应的用户意图；

所述输入启动模块，还用于触发启动图片数据输入；

图片识别模块，用于基于获取的图片数据，进行指尖识别，结合所述用户意图确定新用户意图；

操作执行模块，用于基于所述新用户意图，执行相应操作。

第三方面，一种多模态交互实现系统，所述系统包括处理器和存储器，所述处理器执行所述存储器中存储的计算机指令，实现前述第一方面中的任一所述方法。

第四方面，一种计算机可读存储介质，该计算机可读存储介质存储计算机指令，该计算机指令用于使计算机系统执行前述第一方面中的任一所述方法。

本公开公开了一种多模态交互实现方法、装置、系统和计算机可读存储介质。其中该一种多模态交互实现方法，包括：触发启动数据输入，获取输入数据；基于所述输入数据，识别所述输入数据对应的用户意图；触发启动图片数据输入；基于获取的图片数据，进行指尖识别，结合所述用户意图确定新用户意图；基于所述新用户意图，执行相应操作。

本公开的技术方案具有如下有益效果：

（1）多模态输入：现有AI语音助手只支持语音输入；新AI语音助手支持语音输入和图片输入，语音输入负责常见的功能指令控制和语音搜索；图片输入配合视觉识别技术/图片分析技术/文本分析技术等视觉/图片分析/数据处理技术，负责实现指尖查/读绘本/作业批改/作业录入/做作业等儿童垂直场景类功能；

（2）多模态输出：现有AI语音助手只支持文本输出，且输出文本来自于数据检索，内容单一且生硬，数据更新也无法保证实效性；通过AIGC生成技术和现有内容相结合，从传统文本输出，扩展为文本+图片+音频的多模态输出方式，提升输出内容的价值和体验；

（3）方案兼容性强：本方案中支持语音+图片的创新设计兼容原语音交互的方式，属于方案升级和创新；

（4）方案扩展性强：图片和语音+图片的创新设计运用到了多个AI技术和数据处理技术，且在方案中相互解耦。通过可以随意排列组合且可以随时加入新技术的优势，可以孵化和创新出更多垂直场景的功能，带来创新性产品，极大提升用户体验和商业价值；

（5）内容数据从封闭域转为开放域：原内容数据靠数据库和检索实现，内容单一且没有实效性；AIGC生成技术是基于大数据生成，内容生成更加丰富，支持个性化输出，以及可以覆盖大数据实时数据训练更新，内容数据转型成开放域，能够带来极大的商业模式和价值变化。

上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：本公开一个实施例的一种多模态交互实现方法流程图；

图2：本公开一个实施例的一种多模态交互实现方法装置结构图；

图3：本公开一个实施例的一种多模态交互实现方法系统结构图；

图4：本公开一个实施例的一种多模态交互实现方法的计算机可读存储介质结构图；

图5：本公开一个实施例的自动语音识别系统框架图。

实施方式

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

目前现有技术中，AI语音助手以语音输入/输出的交互方式为主、交互模式单一、产品形态封闭导致场景功能有限，这极大限制了语音助手类产品的用户体验及商业价值。针对此问题，以下各实施例在AI语音助手场景下实现指尖交互技术，使得AI语音助手在原先只支持AI语音对话的基础上扩展指尖查词、指尖点读、指尖翻译、指尖批改等功能，支持指尖交互技术的新AI语音助手（简称“新AI语音助手”）拥有明显更好的智能度，可以在AI平板、AI台灯、手机等众多智能设备上给用户带来更大的使用便利，提高用户体验及商业价值。

图1为本公开实施例提供的一种多模态交互实现方法流程图，该方法可以由一提供的一种多模态交互实现方法装置来执行，该多模态交互实现方法装置可以实现为软件，或者实现为软件和硬件的组合，该多模态交互实现方法装置可以集成设置在数据处理系统中的某电子设备中，比如服务器或者作为客户端的终端设备中。如图1所示，该多模态交互实现方法包括多个步骤，其中前面多个步骤实现语音对话能力的交互。具体步骤包括：

步骤1：触发启动数据输入，获取输入数据；

在一个实施例中，触发启动数据输入包括：

用户可以通过手动开启的方式触发文本/语音数据的输入；例如按压实体按钮或触控虚拟按钮，来触发开启文本/语音数据的输入；

用户可以通过语音唤醒技术，通过语音方式触发文本/语音数据的输入；例如特定关键词语音（如“小新同学”）触发开启文本/语音数据的输入；

启动数据交互输入后，获取用户输入的输入数据，包括文本数据或语音数据。

在一个实施例中，上述数据输入既包括文本数据的输入，也包括语音数据的输入；当进行语音数据输入时，通过语音活动性检测VAD（Voice Activity Dection）技术判断用户语音输入的开始和结束，生成一个能够识别用户意图的音频数据，所生成的音频数据或保存在设备本地用于后续意图识别处理，或发送到云端，由云端进行所述意图识别处理。其中，语音活动性检测VAD技术，用于检测出语音信号的起始位置，分离出语音段和非语音（静音或噪声）段，是自动语音识别ASR（automatic speech recognition）技术中语音信号处理所采用的处理方式。

在一个实施例中，通过VAD技术确定开始录音，并确定录音结束。

生成的所述音频数据一般需要进行数据的处理和加工，确保数据的完整性、可用性和归一性。所述数据处理和加工既可以在终端设备本地进行，也可以在云端进行。

在一个实施例中，在云端的中控模块进行输入控制，对音频数据进行加工处理。

在一个实施例中，当数据输入为文本数据的输入时，则无需语音识别过程，而直接产生并输出对应的文本数据。当然，通常用户输入的文本数据不规范，五花八门，可以通过数据处理和加工，确保数据的完整性、可用性和归一性。数据处理和加工既可以在终端设备本地进行，也可以在云端进行。

在一个实施例中，基于所述音频数据，识别所述音频数据对应的语音意图；所述音频意图就是一种用户意图。

在一个实施例中，基于所述文本数据，识别所述文本数据对应的文本意图；所述文本意图同样也是一种用户意图。

在一个实施例中，通过自动语音识别ASR（automatic speech recognition）技术把音频数据转化为文本数据，并返回识别的文本结果。其中，自动语音识别技术ASR是以语音为研究对象，让机器通过自动识别和理解过程把语音信号转变为相应的文本或命令的技术，一般包括信号处理，包括声学模型和语言模型的解码器处理，和文本输出处理等步骤，如图5所示。

在一个实施例中，通过自然语言理解NLU（Natural Language Understanding）技术分析上述文本数据中的用户意图，包括所述音频数据转化来的文本数据或输入的文本处理加工得到的文本数据。其中，自然语言理解NLU，就是将文本数据转换成一种便于机器模型能够理解的结构化表示，机器模型“理解”这个文本数据的内容，进而识别出文本数据所体现的用户意图。通过NLU的机器学习模型，识别ASR输出的文本数据，进而输出音频数据对应的语音意图。

在一个实施例中，当数据输入为文本数据的输入时，则无需语音识别过程，而直接产生并输出对应的文本数据。此时，同样能够通过NLU技术对该文本数据进行意图识别，得到文本意图。

在一个实施例中，基于不同的用户意图，包括上述语音意图和文本意图，通过自然语言生成NLG（Natural Language Generation）或数据处理技术，进行不同的数据生成和数据输出。在一个实施例中，例如：用户意图就是词典查词，则输出查询出的词典数据；在一个实施例中，例如：用户意图就是闲聊/问答等文本类交流，则回复输出人工智能生成内容AIGC（AI Generated Content）所生成文本数据；在一个实施例中，例如：用户意图是输出语音结果，则将处理得到的结果通过文本到语音TTS（Text to Speech）技术转化为音频数据；通过输出控制，将处理得到的多种形式的结果数据进行加工处理，例如应用开启，系统设置等等；最终在用户设备端进行显示和/或播放。

在一个实施例中，在用户意图需要视觉能力配合的功能（例如指尖查询、读绘本等）时，则输出“打开视觉能力”的指令，触发后续步骤。

在一个实施例中，触发启动数据输入的同时，触发启动图片数据输入；语音识别与下述指尖识别同时进行，这种方式能够提高数据处理效率；在所述用户意图指示需要图片数据输入时，能够直接利用指尖的识别结果，这种方式能够提高数据处理效率。

步骤3：触发启动图片数据输入；

在一个实施例中，触发启动图片数据输入包括：

（1）用户可以通过手动开启/发送/添加的方式触发图片数据的输入；同样，例如按压实体按钮或触控虚拟按钮，来实现所述手动的触发；

（2）用户可以通过文本/语音输入的方式触发图片数据的输入；同样，可以通过语音唤醒技术来触发启动。

在一个实施例中，通过摄像头捕获视觉环境数据，采用视觉动态检测技术判断用户图片输入的开始和结束，生成本地图片数据。

在一个实施例中，通过选择图片文件来获取输入的图片数据，此种方式的图片数据的输入，无需上述视觉动态检测技术。

在一个实施例中，通过指尖识别技术判断图片数据中是否包含指尖。在确定包含指尖的情况下，通过图像识别技术确定指尖坐标；进行图片处理、转码等数据处理。

在一个实施例中，根据确定的指尖坐标，通过图片裁切技术对图片进行裁切，确定最终图片数据。

在一个实施例中，上述的图片数据处理既可以在终端设备本地进行，也可以在云端进行。云端的中控模块进行数据处理和加工，确保数据完整性/可用性/归一性。

在一个实施例中，通过版面矫正技术修正所述图片数据，确保后续光学字符识别OCR（optical character recognition）识别结果的准确率和召回率。所述

在一个实施例中，所述版面矫正操作既可以在终端设备本地进行，也可以在云端进行。

在一个实施例中，通过OCR技术识别图片数据中的文本；结合上述用户意图确定新用户意图，将所述文本作为所述新用户意图的数据输入。

步骤5：基于所述新用户意图，执行相应操作。

在一个实施例中，基于不同的新用户意图，通过NLG或数据处理技术，进行不同的数据生成和数据输出。例如：确定的新用户意图是词典查词，查询出指尖指示的字词，输出词典数据；确定的新用户意图是闲聊/问答等文本类回复，指尖指示相关内容，输出人工智能生成内容AIGC（AI Generated Content）生成的文本数据；确定的新用户意图是图片/文本搜索比对，指尖指示搜索比对的对象；确定的新用户意图是文本翻译，指尖指示翻译的目标对象，等等。

上述方法多模态的交互，尤其实现AI语音助手场景下融合指尖交互；适用的场景功能包括：

（1）语音查词典：通过语音对话+数据检索方式，进行词典数据查询，包括：字/词/成语/单词/古诗词等等。

（2）开放域对话：通过语音对话+AIGC生成文本数据方式，进行开放域对话，覆盖日常生活中多个对话场景。

（3）控制指令输出：通过语音对话+用户意图处理方式，输出对应的指令数据，前端基于指令进行下一步处理，包括：打开视觉能力、打开应用、系统设置等等。

（4）指尖查词典：通过视觉能力（指尖，OCR）+数据检索方式，进行词典数据查询，包括：字/词/成语/单词/古诗词等等，真正实现用户指哪里查哪里的能力。

（5）书籍识别：通过视觉能力（图片比对）+数据检索方式，识别用户书籍封面和内页等内容，帮助用户快速检索、快速录入、翻读朗读等书本操作，大幅提升体验和减少操作流程。

（6）全文批改/翻译/搜题/题目录入等全文本处理：通过视觉能力（版面分析，OCR）+文本数据处理能力方式，可以进行垂直领域的深度内容分析，且可以持续和全新文本数据处理能力进行结合，输出更多垂直场景功能。

图2为本公开实施例提供的一种客户端动态路由的实现装置，包括：

输入启动模块，用于触发启动数据输入，获取输入数据；

在一个实施例中，触发启动数据输入包括：

所述输入启动模块，还用于触发启动图片数据输入；

在一个实施例中，触发启动图片数据输入包括：

操作执行模块，用于基于所述新用户意图，执行相应操作。

上述装置实现多模态的交互，尤其实现AI语音助手场景下融合指尖交互；适用的场景功能包括：

（1）指尖查词典：通过视觉能力（指尖，OCR）+数据检索方式，进行词典数据查询，包括：字/词/成语/单词/古诗词等等，真正实现用户指哪里查哪里的能力。

（2）书籍识别：通过视觉能力（图片比对）+数据检索方式，识别用户书籍封面和内页等内容，帮助用户快速检索、快速录入、翻读朗读等书本操作，大幅提升体验和减少操作流程。

（3）全文批改/翻译/搜题/题目录入等全文本处理：通过视觉能力（版面分析，OCR）+文本数据处理能力方式，可以进行垂直领域的深度内容分析，且可以持续和全新文本数据处理能力进行结合，输出更多垂直场景功能。

图3是根据本公开的实施例的系统结构图。如图3所述，所述系统30包括处理器31和存储器32，所述处理器执行所述存储器中存储的计算机指令，实现前述本公开各实施例的多模态交互实现方法的全部或部分步骤。

图4是根据本公开的实施例的计算机可读存储介质的示意图。如图4所示，根据本公开实施例的计算机可读存储介质40，其上存储有非暂时性计算机可读指令41。当该非暂时性计算机可读指令41由处理器运行时，执行前述的本公开各实施例的多模态交互实现方法的全部或部分步骤。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备实现前述的本公开各实施例的多模态交互实现方法的全部或部分步骤。

或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备前述的本公开各实施例的多模态交互实现方法的全部或部分步骤。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种多模态交互实现方法，包括：

步骤1：触发启动数据输入，获取输入数据；

步骤3：触发启动图片数据输入；

步骤5：基于所述新用户意图，执行相应操作。

2.根据权利要求1所述的方法，所述触发启动数据输入和触发启动图片数据输入包括手动触发或语音触发。

3.根据权利要求1所述的方法，所述数据输入既包括文本数据的输入，也包括语音数据的输入。

4.根据权利要求3所述的方法，在输入语音时，通过语音活动性检查VAD技术判断一次语音输入的开始与结束。

5.根据权利要求3所述的方法，生成所述语音数据的输入对应的音频数据，识别所述音频数据对应的语音意图，所述语音意图即为所述用户意图。

6.根据权利要求3所述的方法，在输入文本时，识别所述文本数据对应的文本意图，所述文本意图即为所述用户意图。

7.根据权利要求5所述的方法，所述基于所述音频数据，识别所述音频数据对应的语音意图包括：通过自动语音识别ASR技术把所述音频数据转换为文本数据；通过NLU技术分析识别所述文本数据的所述语音意图。

8.一种多模态交互实现装置，包括：

输入启动模块，用于触发启动数据输入，获取输入数据；

所述输入启动模块，还用于触发启动图片数据输入；

操作执行模块，用于基于所述新用户意图，执行相应操作。

9.一种多模态交互实现系统，所述系统包括处理器和存储器，所述处理器执行所述存储器中存储的计算机指令，实现权利要求1-7中任一项所述方法。

10.一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行权利要求1-7中任意一项所述的方法。