CN117950778A

CN117950778A - 系统交互方法、装置、计算机设备和存储介质

Info

Publication number: CN117950778A
Application number: CN202410005064.4A
Authority: CN
Inventors: 刘文超
Original assignee: Ningbo Lutes Robotics Co ltd
Current assignee: Ningbo Lutes Robotics Co ltd
Priority date: 2024-01-02
Filing date: 2024-01-02
Publication date: 2024-04-30

Abstract

本申请涉及一种计算机系统交互方法、装置、计算机设备和存储介质。所述方法包括：获取多模态信息；调用通用人工智能引擎对多模态信息进行处理，以获取通用人工智能引擎输出的识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息；获取识别信息对应的关键信息；关键信息用于表征意图识别结果和答复信息；将关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与关键信息匹配的应用程序接口的情况下，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面。通过识别多模态信息，理解人类自然语言并自动获取页面入口，让用户免去寻找页面的时间消耗，采用本方法能够提高人机交互效率。

Description

系统交互方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种系统交互方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

目前，计算机系统的交互方式主要是通过固定的界面展示输出，通过导航式的菜单进行组织交互，但这种交互方式受限于系统界面的数量级，当界面超过一定数量级后，用户想快速找到一个界面完成操作会越来越困难。随着通用人工智能技术的成熟，一些基于自然语言处理和图像识别等技术的智能交互方式也逐渐应用于计算机系统中。

传统技术中，计算机系统的菜单式交互方式只适合有限数量且逻辑关系简单的功能页面交互，如果功能页面超过一定数量，菜单的组织将非常复杂，层级将增加；用户寻找一个页面的难度将大大增加。该缺陷由菜单式组织的本质原理决定，无法通过优化菜单的不同组合或者位置来改善。另一种聊天机器人的交互方式，通过模拟人与人之间的对话方式提供系统能力，用户通过发送文字，系统通过返回文字来提供计算机系统能力，只能提供只读的文字或者媒体结果，无法让用户进行进一步的交互操作。

目前的系统交互方式无法满足海量功能页面的有效组织和有效展示，用户往往需要在复杂的页面中自行寻找页面入口，或者通过对话获得初级的文字回答，无法做进一步的交互操作。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高人机交互效率的系统交互方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种计算机系统交互方法，包括：

获取多模态信息；多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；

调用通用人工智能引擎对多模态信息进行处理，以获取通用人工智能引擎输出的识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息；

获取识别信息对应的关键信息；关键信息用于表征意图识别结果和答复信息；

将关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与关键信息匹配的应用程序接口的情况下，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面；第一交互界面用于显示调用结果。

在其中一个实施例中，获取识别信息对应的关键信息，包括：

对意图识别结果进行关键字提取，得到第一关键字，以及对答复信息进行关键字提取，得到第二关键字；

根据第一关键字和第二关键字，获取第三关键字，作为关键信息。

在其中一个实施例中，将关键信息与预设的多个应用程序接口进行匹配，包括：

确定各应用程序接口对应的预设关键字，在存在预设关键字与关键信息匹配的情况下，将与关键信息匹配的预设关键字对应的应用程序接口，作为与关键信息匹配的应用程序接口；

或者，确定各应用程序接口对应的预设分类标签，采用机器学习分类算法对关键信息进行处理，得到关键信息的预测分类标签，在存在预设分类标签与预测分类标签匹配的情况下，将与预测分类标签匹配的预设分类标签对应的应用程序接口，作为与关键信息匹配的应用程序接口。

在其中一个实施例中，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面，包括：

调用与关键信息匹配的应用程序接口，获取相应的调用数据；

根据调用数据，生成人机交互界面代码；

根据人机交互界面代码，构建人机交互界面组件；

将人机交互界面组件添加至交互界面中的预设区域，得到第一交互界面。

调用与关键信息匹配的应用程序接口，获取相应的统一资源定位符；

根据统一资源定位符，生成内联框架组件；

将内联框架组件添加至交互界面中的预设区域，得到第一交互界面。

在其中一个实施例中，将关键信息与预设的多个应用程序接口进行匹配之后，还包括：

在不存在与关键信息匹配的应用程序接口的情况下，识别关键信息的异常类型；

生成与异常类型对应的异常提示信息；

根据异常提示信息，生成第二交互界面；第二交互界面用于指示根据异常提示信息再次输入多模态信息。

在其中一个实施例中，识别关键信息的异常类型，包括：

识别关键信息的数据格式；

根据数据格式，获取关键信息的格式异常信息；

对关键信息进行自然语言处理，获取关键信息的内容异常信息和内容缺失信息；

根据格式异常信息、内容异常信息和内容缺失信息，确定关键信息的异常类型。

第二方面，本申请还提供了一种计算机系统交互装置，包括：

获取模块，用于获取多模态信息；多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；

识别模块，用于调用通用人工智能引擎对多模态信息进行处理，以获取通用人工智能引擎输出的识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息；

处理模块，用于获取识别信息对应的关键信息；关键信息用于表征意图识别结果和答复信息；

交互模块，用于将关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与关键信息匹配的应用程序接口的情况下，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面；第一交互界面用于显示调用结果。

第三方面，本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述计算机系统交互方法、装置、计算机设备、存储介质和计算机程序产品，获取多模态信息；多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；调用通用人工智能引擎对多模态信息进行处理，以获取通用人工智能引擎输出的识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息；获取识别信息对应的关键信息；关键信息用于表征意图识别结果和答复信息；将关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与关键信息匹配的应用程序接口的情况下，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面；第一交互界面用于显示调用结果。通过识别多模态信息，理解人类自然语言并自动获取页面入口，让用户免去寻找页面的时间消耗，能够提高人机交互效率。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中计算机系统交互方法的应用环境图；

图2为一个实施例中计算机系统交互方法的流程示意图；

图3为一个实施例中交互系统示意图；

图4为一个实施例中计算机系统交互装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的计算机系统交互方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个示例性的实施例中，如图2所示，提供了一种计算机系统交互方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤202至步骤208。

其中：

步骤202，获取多模态信息；多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种。

可选地，在计算机系统的交互页面下方添加一个多模态输入框，输入框默认可输入文字，同时右边有一个下拉框可以选择图片，摄像头，语音、文件、拍照、定位等等方式向系统发出多模态交互请求；最右边有个发送按钮，用来把综合的多模态信息发送给系统后台。

步骤204，调用通用人工智能引擎对多模态信息进行处理，以获取通用人工智能引擎输出的识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息。

其中，人工智能引擎也称为AGI引擎，AGI引擎可以是安装在计算机系统中的内部应用，也可以是计算机系统从调用的外部应用。AGI引擎可以但不限于使用chatgpt，claude，sage，文言一心等。

可选地，计算机系统后台接收到多模态信息后，调用AGI引擎，将多模态信息输入AGI引擎，获得AGI引擎输出的意图识别结果和答复信息。

步骤206，获取识别信息对应的关键信息；关键信息用于表征意图识别结果和答复信息。

可选地，由于AGI引擎输出的识别信息，往往是大段的文本内容，计算机系统可以对意图识别结果进行关键字提取，得到第一关键字，以及对答复信息进行关键字提取，得到第二关键字，最后根据第一关键字和第二关键字，获取第三关键字，作为关键信息。可以将第一关键字和第二关键字中的重叠部分作为第三关键字，也可以直接将第一关键字和第二关键字的集合作为第三关键字。

步骤208，将关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与关键信息匹配的应用程序接口的情况下，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面；第一交互界面用于显示调用结果。

其中，应用程序接口也称为API接口。

可选地，计算机系统确定各API接口对应的预设关键字，在存在预设关键字与关键信息匹配的情况下，将与关键信息匹配的预设关键字对应的API接口，作为与关键信息匹配的API接口。

或者，计算机系统确定各API接口对应的预设分类标签，采用机器学习分类算法对关键信息进行处理，得到关键信息的预测分类标签，在存在预设分类标签与预测分类标签匹配的情况下，将与预测分类标签匹配的预设分类标签对应的API接口，作为与关键信息匹配的API接口。

在一个可行的实施方式中，在存在与关键信息匹配的应用程序接口的情况下，计算机系统调用与关键信息匹配的API接口，获取相应的调用数据；根据调用数据，生成人机交互界面代码；根据人机交互界面代码，构建人机交互界面组件；将人机交互界面组件添加至交互界面中的预设区域，得到第一交互界面。

或者，计算机系统调用与关键信息匹配的应用程序接口，获取相应的统一资源定位符；根据统一资源定位符，生成内联框架组件；将内联框架组件添加至交互界面中的预设区域，得到第一交互界面。

其中，人机交互界面也称为UI；统一资源定位符也称为URL；内联框架组件也称为iframe。

具体的，计算机系统根据关键信息匹配对应的API接口，调用API接口拿到对应的数据，进行处理加工，生成为匹配下一步渲染引擎的格式，通过一个UI生成引擎生成对应的UI代码，发送到前端。前端将收到的UI代码构建为一个新的UI组件，插入到交互界面中的预设区域，预设区域可以但不限于是结果页面底部。用户可以在新的结果UI界面中进行交互操作，包括但不限于鼠标和键盘的输入，一次交互完成后，用户可以在继续在多模态输入框中输入下一个多模态信息，从而开始下一次交互操作。

或者，计算机系统根据关键信息匹配对应的API接口，调用API接口把对应的URL返回到前端。前端将收到的url包装为一个iframe，插入到交互界面中的预设区域，预设区域可以但不限于是结果页面底部。用户可以在新的结果UI界面中进行交互操作，包括但不限于鼠标和键盘的输入，一次交互完成后，用户可以在继续在多模态输入框中输入下一个多模态信息，从而开始下一次交互操作。

在另一个可行的实施方式中，在不存在与关键信息匹配的API接口的情况下，识别关键信息的数据格式；根据数据格式，获取关键信息的格式异常信息；对关键信息进行自然语言处理，获取关键信息的内容异常信息和内容缺失信息；根据格式异常信息、内容异常信息和内容缺失信息，确定关键信息的异常类型；生成与所述异常类型对应的异常提示信息；根据异常提示信息，生成第二交互界面；第二交互界面用于指示根据异常提示信息再次输入多模态信息。

其中，格式异常信息表示关键信息的数据格式有误；内容异常信息表示关键信息的内容有误，可能存在错别字、语种不匹配和没有对应的API接口等问题；内容缺失信息表示关键信息存在部分信息缺失。

上述计算机系统交互方法中，获取多模态信息；多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；调用通用人工智能引擎对多模态信息进行处理，以获取通用人工智能引擎输出的识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息；获取识别信息对应的关键信息；关键信息用于表征意图识别结果和答复信息；将关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与关键信息匹配的应用程序接口的情况下，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面；第一交互界面用于显示调用结果。通过识别多模态信息，理解人类自然语言并自动获取页面入口，利用AGI的语义理解能力匹配系统的API能力，让用户免去寻找页面的时间消耗，通过所说即所得的方式实现点对点的需求实现，能够提高人机交互效率。

在一个实施例中，一种计算机系统交互方法，包括：

对意图识别结果进行关键字提取，得到第一关键字，以及对答复信息进行关键字提取，得到第二关键字；根据第一关键字和第二关键字，获取第三关键字，作为关键信息。关键信息用于表征意图识别结果和答复信息；

确定各应用程序接口对应的预设关键字，在存在预设关键字与关键信息匹配的情况下，将与关键信息匹配的预设关键字对应的应用程序接口，作为与关键信息匹配的应用程序接口；或者，确定各应用程序接口对应的预设分类标签，采用机器学习分类算法对关键信息进行处理，得到关键信息的预测分类标签，在存在预设分类标签与预测分类标签匹配的情况下，将与预测分类标签匹配的预设分类标签对应的应用程序接口，作为与关键信息匹配的应用程序接口。

在存在与关键信息匹配的应用程序接口的情况下，调用与关键信息匹配的应用程序接口，获取相应的调用数据，根据调用数据，生成人机交互界面代码；根据人机交互界面代码，构建人机交互界面组件，将人机交互界面组件添加至交互界面中的预设区域，得到第一交互界面；或者，调用与关键信息匹配的应用程序接口，获取相应的统一资源定位符，根据统一资源定位符，生成内联框架组件，将内联框架组件添加至交互界面中的预设区域，得到第一交互界面。第一交互界面用于显示调用结果。

在不存在与关键信息匹配的API接口的情况下，识别关键信息的数据格式；根据数据格式，获取关键信息的格式异常信息；对关键信息进行自然语言处理，获取关键信息的内容异常信息和内容缺失信息；根据格式异常信息、内容异常信息和内容缺失信息，确定关键信息的异常类型；生成与所述异常类型对应的异常提示信息；根据异常提示信息，生成第二交互界面；第二交互界面用于指示根据异常提示信息再次输入多模态信息。

在一个示例性的实施例中，一种交互系统，如图3所示，包括：

多模态输入框，用于获取用户输入的多模态信息；多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；

AGI引擎，用于对多模态信息进行处理，以获取识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息；

意图分析引擎，用于对意图识别结果进行关键字提取，得到第一关键字，以及对答复信息进行关键字提取，得到第二关键字；根据第一关键字和第二关键字，获取第三关键字，作为关键信息。关键信息用于表征意图识别结果和答复信息；

系统API匹配引擎，用于确定各API接口对应的预设关键字，在存在预设关键字与关键信息匹配的情况下，将与关键信息匹配的预设关键字对应的API接口，作为与关键信息匹配的API接口；或者，确定各API接口对应的预设分类标签，采用机器学习分类算法对关键信息进行处理，得到关键信息的预测分类标签，在存在预设分类标签与预测分类标签匹配的情况下，将与预测分类标签匹配的预设分类标签对应的API接口，作为与关键信息匹配的API接口。

数据处理模块，用于在存在与关键信息匹配的API接口的情况下，调用与关键信息匹配的API接口，获取相应的调用数据。

UI渲染模块，用于根据调用数据，生成UI代码；根据UI代码，构建UI组件，将UI组件添加至交互界面中的预设区域，得到第一交互界面；或者，调用与关键信息匹配的API接口，获取相应的URL，根据URL，生成iframe，将iframe添加至交互界面中的预设区域，生成结果页面，结果页面中显示调用结果。

失败处理引擎，用于在不存在与关键信息匹配的API接口的情况下，识别关键信息的数据格式；根据数据格式，获取关键信息的格式异常信息；对关键信息进行自然语言处理，获取关键信息的内容异常信息和内容缺失信息；根据格式异常信息、内容异常信息和内容缺失信息，确定关键信息的异常类型；生成与所述异常类型对应的异常提示信息；根据异常提示信息，生成结果页面，结果页面中显示异常提示信息，提示用户根据异常类型再次输入多模态信息。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的计算机系统交互方法的计算机系统交互装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个计算机系统交互装置实施例中的具体限定可以参见上文中对于计算机系统交互方法的限定，在此不再赘述。

在一个示例性的实施例中，如图4所示，提供了一种计算机系统交互装置400，包括：获取模块401、识别模块402、处理模块403和交互模块404，其中：

获取模块401，用于获取多模态信息；多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；

识别模块402，用于调用通用人工智能引擎对多模态信息进行处理，以获取通用人工智能引擎输出的识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息；

处理模块403，用于获取识别信息对应的关键信息；关键信息用于表征意图识别结果和答复信息；

交互模块404，用于将关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与关键信息匹配的应用程序接口的情况下，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面；第一交互界面用于显示调用结果。

在一个实施例中，处理模块403还用于对意图识别结果进行关键字提取，得到第一关键字，以及对答复信息进行关键字提取，得到第二关键字；根据第一关键字和第二关键字，获取第三关键字，作为关键信息。

在一个实施例中，交互模块404还用于确定各应用程序接口对应的预设关键字，在存在预设关键字与关键信息匹配的情况下，将与关键信息匹配的预设关键字对应的应用程序接口，作为与关键信息匹配的应用程序接口；或者，确定各应用程序接口对应的预设分类标签，采用机器学习分类算法对关键信息进行处理，得到关键信息的预测分类标签，在存在预设分类标签与预测分类标签匹配的情况下，将与预测分类标签匹配的预设分类标签对应的应用程序接口，作为与关键信息匹配的应用程序接口。

在一个实施例中，交互模块404还用于调用与关键信息匹配的应用程序接口，获取相应的调用数据；根据调用数据，生成人机交互界面代码；根据人机交互界面代码，构建人机交互界面组件；将人机交互界面组件添加至交互界面中的预设区域，得到第一交互界面。

在一个实施例中，交互模块404还用于调用与关键信息匹配的应用程序接口，获取相应的统一资源定位符；根据统一资源定位符，生成内联框架组件；将内联框架组件添加至交互界面中的预设区域，得到第一交互界面。

在一个实施例中，交互模块404还用于在不存在与关键信息匹配的应用程序接口的情况下，识别关键信息的异常类型；生成与异常类型对应的异常提示信息；根据异常提示信息，生成第二交互界面；第二交互界面用于指示根据异常提示信息再次输入多模态信息。

在一个实施例中，交互模块404还用于识别关键信息的数据格式；根据数据格式，获取关键信息的格式异常信息；对关键信息进行自然语言处理，获取关键信息的内容异常信息和内容缺失信息；根据格式异常信息、内容异常信息和内容缺失信息，确定关键信息的异常类型。

上述计算机系统交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多模态数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种计算机系统交互方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个示例性的实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取多模态信息；多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；调用通用人工智能引擎对多模态信息进行处理，以获取通用人工智能引擎输出的识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息；获取识别信息对应的关键信息；关键信息用于表征意图识别结果和答复信息；将关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与关键信息匹配的应用程序接口的情况下，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面；第一交互界面用于显示调用结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对意图识别结果进行关键字提取，得到第一关键字，以及对答复信息进行关键字提取，得到第二关键字；根据第一关键字和第二关键字，获取第三关键字，作为关键信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：确定各应用程序接口对应的预设关键字，在存在预设关键字与关键信息匹配的情况下，将与关键信息匹配的预设关键字对应的应用程序接口，作为与关键信息匹配的应用程序接口；或者，确定各应用程序接口对应的预设分类标签，采用机器学习分类算法对关键信息进行处理，得到关键信息的预测分类标签，在存在预设分类标签与预测分类标签匹配的情况下，将与预测分类标签匹配的预设分类标签对应的应用程序接口，作为与关键信息匹配的应用程序接口。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：调用与关键信息匹配的应用程序接口，获取相应的调用数据；根据调用数据，生成人机交互界面代码；根据人机交互界面代码，构建人机交互界面组件；将人机交互界面组件添加至交互界面中的预设区域，得到第一交互界面。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：调用与关键信息匹配的应用程序接口，获取相应的统一资源定位符；根据统一资源定位符，生成内联框架组件；将内联框架组件添加至交互界面中的预设区域，得到第一交互界面。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在不存在与关键信息匹配的应用程序接口的情况下，识别关键信息的异常类型；生成与异常类型对应的异常提示信息；根据异常提示信息，生成第二交互界面；第二交互界面用于指示根据异常提示信息再次输入多模态信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：识别关键信息的数据格式；根据数据格式，获取关键信息的格式异常信息；对关键信息进行自然语言处理，获取关键信息的内容异常信息和内容缺失信息；根据格式异常信息、内容异常信息和内容缺失信息，确定关键信息的异常类型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取多模态信息；多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；调用通用人工智能引擎对多模态信息进行处理，以获取通用人工智能引擎输出的识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息；获取识别信息对应的关键信息；关键信息用于表征意图识别结果和答复信息；将关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与关键信息匹配的应用程序接口的情况下，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面；第一交互界面用于显示调用结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对意图识别结果进行关键字提取，得到第一关键字，以及对答复信息进行关键字提取，得到第二关键字；根据第一关键字和第二关键字，获取第三关键字，作为关键信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：确定各应用程序接口对应的预设关键字，在存在预设关键字与关键信息匹配的情况下，将与关键信息匹配的预设关键字对应的应用程序接口，作为与关键信息匹配的应用程序接口；或者，确定各应用程序接口对应的预设分类标签，采用机器学习分类算法对关键信息进行处理，得到关键信息的预测分类标签，在存在预设分类标签与预测分类标签匹配的情况下，将与预测分类标签匹配的预设分类标签对应的应用程序接口，作为与关键信息匹配的应用程序接口。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：调用与关键信息匹配的应用程序接口，获取相应的调用数据；根据调用数据，生成人机交互界面代码；根据人机交互界面代码，构建人机交互界面组件；将人机交互界面组件添加至交互界面中的预设区域，得到第一交互界面。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：调用与关键信息匹配的应用程序接口，获取相应的统一资源定位符；根据统一资源定位符，生成内联框架组件；将内联框架组件添加至交互界面中的预设区域，得到第一交互界面。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在不存在与关键信息匹配的应用程序接口的情况下，识别关键信息的异常类型；生成与异常类型对应的异常提示信息；根据异常提示信息，生成第二交互界面；第二交互界面用于指示根据异常提示信息再次输入多模态信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：识别关键信息的数据格式；根据数据格式，获取关键信息的格式异常信息；对关键信息进行自然语言处理，获取关键信息的内容异常信息和内容缺失信息；根据格式异常信息、内容异常信息和内容缺失信息，确定关键信息的异常类型。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：获取多模态信息；多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；调用通用人工智能引擎对多模态信息进行处理，以获取通用人工智能引擎输出的识别信息；识别信息包括多模态信息的意图识别结果，以及与意图识别结果对应的答复信息；获取识别信息对应的关键信息；关键信息用于表征意图识别结果和答复信息；将关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与关键信息匹配的应用程序接口的情况下，根据与关键信息匹配的应用程序接口的调用结果，生成第一交互界面；第一交互界面用于显示调用结果。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种计算机系统交互方法，其特征在于，所述方法包括：

获取多模态信息；所述多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；

调用通用人工智能引擎对所述多模态信息进行处理，以获取所述通用人工智能引擎输出的识别信息；所述识别信息包括所述多模态信息的意图识别结果，以及与所述意图识别结果对应的答复信息；

获取所述识别信息对应的关键信息；所述关键信息用于表征所述意图识别结果和所述答复信息；

将所述关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与所述关键信息匹配的应用程序接口的情况下，根据与所述关键信息匹配的应用程序接口的调用结果，生成第一交互界面；所述第一交互界面用于显示所述调用结果。

2.根据权利要求1所述的方法，其特征在于，所述获取所述识别信息对应的关键信息，包括：

对所述意图识别结果进行关键字提取，得到第一关键字，以及对所述答复信息进行关键字提取，得到第二关键字；

根据所述第一关键字和所述第二关键字，获取第三关键字，作为所述关键信息。

3.根据权利要求1所述的方法，其特征在于，所述将所述关键信息与预设的多个应用程序接口进行匹配，包括：

确定各应用程序接口对应的预设关键字，在存在预设关键字与所述关键信息匹配的情况下，将与所述关键信息匹配的预设关键字对应的应用程序接口，作为与所述关键信息匹配的应用程序接口；

或者，确定各应用程序接口对应的预设分类标签，采用机器学习分类算法对所述关键信息进行处理，得到所述关键信息的预测分类标签，在存在预设分类标签与所述预测分类标签匹配的情况下，将与所述预测分类标签匹配的预设分类标签对应的应用程序接口，作为与所述关键信息匹配的应用程序接口。

4.根据权利要求1所述的方法，其特征在于，所述根据与所述关键信息匹配的应用程序接口的调用结果，生成第一交互界面，包括：

调用与所述关键信息匹配的应用程序接口，获取相应的调用数据；

根据所述调用数据，生成人机交互界面代码；

根据所述人机交互界面代码，构建人机交互界面组件；

将所述人机交互界面组件添加至交互界面中的预设区域，得到所述第一交互界面。

5.根据权利要求1所述的方法，其特征在于，所述根据与所述关键信息匹配的应用程序接口的调用结果，生成第一交互界面，包括：

调用与所述关键信息匹配的应用程序接口，获取相应的统一资源定位符；

根据所述统一资源定位符，生成内联框架组件；

将所述内联框架组件添加至交互界面中的预设区域，得到所述第一交互界面。

6.根据权利要求1所述的方法，其特征在于，所述将所述关键信息与预设的多个应用程序接口进行匹配之后，还包括：

在不存在与所述关键信息匹配的应用程序接口的情况下，识别所述关键信息的异常类型；

生成与所述异常类型对应的异常提示信息；

根据所述异常提示信息，生成第二交互界面；所述第二交互界面用于指示根据所述异常提示信息再次输入多模态信息。

7.根据权利要求1所述的方法，其特征在于，所述识别所述关键信息的异常类型，包括：

识别所述关键信息的数据格式；

根据所述数据格式，获取所述关键信息的格式异常信息；

对所述关键信息进行自然语言处理，获取所述关键信息的内容异常信息和内容缺失信息；

根据所述格式异常信息、所述内容异常信息和所述内容缺失信息，确定所述关键信息的异常类型。

8.一种计算机系统交互装置，其特征在于，所述装置包括：

获取模块，用于获取多模态信息；所述多模态信息包括文本信息、图像信息、音频信息或者视频信息中的一种或多种；

识别模块，用于调用通用人工智能引擎对所述多模态信息进行处理，以获取所述通用人工智能引擎输出的识别信息；所述识别信息包括所述多模态信息的意图识别结果，以及与所述意图识别结果对应的答复信息；

处理模块，用于获取所述识别信息对应的关键信息；所述关键信息用于表征所述意图识别结果和所述答复信息；

交互模块，用于将所述关键信息与计算机系统预设的多个应用程序接口进行匹配，在存在与所述关键信息匹配的应用程序接口的情况下，根据与所述关键信息匹配的应用程序接口的调用结果，生成第一交互界面；所述第一交互界面用于显示所述调用结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。