CN116383620A

CN116383620A - 一种应用多模态人工智能的方法与装置

Info

Publication number: CN116383620A
Application number: CN202310321293.2A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Goose Factory Technology Co ltd
Current assignee: Beijing Goose Factory Technology Co ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-04
Anticipated expiration: 2043-03-29
Also published as: CN116383620B

Abstract

一种应用多模态人工智能的方法与装置。多模态大模型人工智能已成为社会生产力革命中的重要突破，例如OpenAI推出的GPT4.0大模型，正在扩展其多重信息交互方式，涵盖文字、语音、图片、视频等多种形式。这些强大的模型将在未来不断发展和增强。如何快速应用这些模型的能力，进一步提升社会生产力，已经成为不同领域研究的重要方向。大模型的主要目的是通过使用一个统一的模型来处理不同的任务，因此在应用领域中，开发更加通用的方法，以利用多模态大模型的特点和能力，将成为非常有价值的工作。人类在电子设备中获取信息，最重要的方式就是通过显示设备。这些显示设备，使各种系统越来越适应人类的习惯。如果人工智能可以从显示设备中获取同人类一样的海量信息，将极大丰富人工智能的应用领域，并且能够更加减轻人类的工作。

Description

一种应用多模态人工智能的方法与装置

技术领域

本发明属于多模态大模型人工智能领域，特别是涉及一种应用多模态人工智能的方法与装置。

背景技术

多模态大模型人工智能已成为社会生产力革命中的重要突破，例如OpenAI推出的GPT4.0大模型，正在扩展其多重信息交互方式，涵盖文字、语音、图片、视频等多种形式。这些强大的模型将在未来不断发展和增强。如何快速应用这些模型的能力，进一步提升社会生产力，已经成为不同领域研究的重要方向。大模型的主要目的是通过使用一个统一的模型来处理不同的任务，因此在应用领域中，开发更加通用的方法，以利用多模态大模型的特点和能力，将成为非常有价值的工作。

人类在电子设备中获取信息，最重要的方式就是通过显示设备。这些显示设备，使各种系统越来越适应人类的习惯。如果人工智能可以从显示设备中获取同人类一样的海量信息，将极大丰富人工智能的应用领域，并且能够更加减轻人类的工作。

发明内容

鉴于上述描述，本发明的目的在于，提供一种以显示信息为多模态大模型主要输入信息，来提供更加通用的人工智能应用的方法与装置。

为实现上述功能，本发明使用多模态人工智能大模型作为主要的信息处理中枢，该模型需要可以输入多重信息模式，包括但不限于图片、视频、音频、文字。

对于人工智能大模型的输入信息为：

现有面向于人类使用的设备中，为人类设计的具有可阅读性的显示信息，通常为显示器显示的信息，另外还可以包含人类语音信息、设备所输出的音频信息；

另外，还需要指定大模型对于上述信息输入后，所需要的执行的任务，以及输出信息的格式、输出信息的位置。

人工智能大模型的输出信息为：

执行完所需任务后，按指定格式指定位置输出任务结果，任务结果，包括但不限于文本序列、图片、视频、音频。输出的数据结果将传输应用程序指定的位置，包括但不限于云空间、服务器、客户端，用于后续进一步加工处理与显示。

具体实现方法的步骤为：

S1提取显示设备中的信息，信息通常提取于显示设备的帧缓存（frame buffer）或应用程序被操作系统所绘制后的窗口（surface）或相关等效位置；

S2将信息按照指定的采样频率实时发送给大模型，同时指定任务需求、数据格式和输出位置；

S3根据指定的输出位置，大模型返回信息，等待应用程序或系统进一步处理。

需要说明的是，返回的信息，可能存储在云端或者远端服务器上，等待应用程序拉取，也可以将返回信息直接向应用程序或系统推送（此为默认位置）。

为了进一步实现本方法人工智能系统的可用性，步骤S3中提到的应用程序，可以有一类统一抽象为控制应用，其可以根据大模型返回的信息，对系统进行类似人类的操作，部分或全部替代人类。

S4将大模型返回的控制相关文本序列，通过一个控制指令翻译器，转化为控制指令，对系统进行类似人类的操作。

例如，大模型返回的文字序列是“点击屏幕位置（200, 210）”，则控制指令翻译器将该文字序列，转化为对系统点击操作的调用。操作类型包括但不限于，点击，长按，滑动。控制指令翻译器，还可以直接将一段文字、图片、音频等信息，模仿人类的方式直接输入系统。

经常会有一些操作，需要在一定时间后执行，例如30秒后关闭台灯的操作，因此控制指令翻译器收到文本序列后，不一定需要马上执行。

S5控制指令翻译器可以对指令进行预约操作，并且可以对预约内容进行添加、修改、删除等操作。

除了显示设备的信息提供给大模型，音频信息也是很重要的一部分，音频信息可以作为补充，一起发送给大模型。音频可以采用流媒体的模式进行上传。

S6大模型的输入信息，包括用户语音任务需求或系统音频设备输出的音频。

为了提升系统效率，可以根据任务需要与系统资源，适当调整显示设备的采样频率与分辨率。比如屏幕在一段时间内没有像素变化，则可以不进行处理。

S7根据任务需要和系统资源，选择适当降低采样频率或对图像进行进一步有损压缩。

还可以通过限定截取屏幕的一部分，来提升系统效率，提高系统安全性。例如只处理屏幕上半部分信息。

S8选择将指定区域的图像部分，发送给大模型进行处理。

人类会有一些操作会有指引作用，会改变大模型的注意力，因此也可以将这些信息发送给大模型进行一并处理。

S9将人类的某些操作记录，记录下来发给大模型。

本发明所涉及的应用多模态人工智能的装置，包括以下模块：

D1显示信息采集模块，负责以一定频率采集显示图像，可以指定图像采集的区域；

D2应用存储模块，存储有需要实现的任务的描述信息，任务返回信息的格式要求，信息返回位置要求；

D3大模型输入模块，即大模型的输入接口，将设备D1与D2的信息，合并后输入大模型；

D4大模型输出模块，将大模型输出的信息，根据设备D2中信息返回位置要求，放入指定位置；

D5应用程序处理模块，将设备D4中的信息取回，并整理显示。

可选模块还将包括：

D6控制指令翻译器，将设备D4返回的控制相关文本，转化为系统控制指令，包括但不限于点击，长按，滑动，文本输入，同时控制指令翻译器还可以对指令进行定时执行；

D7语音采集模块，将用户语音指令，存入设备D2中，将系统原本输出的音频，直接输出给D3设备。

如上所述，本发明所述的方法与装置，具有以下有益效果：

（1）能够更全面、快捷的应用多模态人工智能的能力，无需每个应用单独开发，只需要一套系统就可以实现；

（2）大大丰富了多模态大模型的输入信息，与显示内容结合，可以与AI进行更强大的操作，比单纯语音操作更加强大；

（3）能够更贴近地模拟人类的行为，从而更加接近于个人助理的能力；

（4）在某种程度上，减少了信息泄露的风险。现有应用程序大多将所有信息发送到AI系统进行处理，而本系统仅处理显示部分；

（5）本系统还可以作为硬件产品，如智能电视的一部分。

附图说明

图1显示为方法基本逻辑图。

图2显示为对帧缓存进行采样并上传大模型的示例代码。

图3显示为大模型通过web socket协议返回信息的示例代码。

Claims

1.一种应用多模态人工智能的方法，其特征在于，对多模态人工智能大模型输入的信息包括但不限于，人类设计的具有可阅读性的显示信息，需要执行的任务，输出信息的格式，输出信息的位置信息；多模态人工智能大模型输出的信息包括但不限于，任务要求，格式要求，位置要求。所述方法具体步骤为：

2.根据权利要求1所述的一种应用多模态人工智能的方法，其特征在于，包括一种控制指令翻译器，通过将大模型返回的控制相关文本序列转换成控制指令，对系统进行类人化操作的步骤。

3.根据权利要求2所述的一种应用多模态人工智能的方法，其特征在于，控制指令翻译器可以对指令进行预约操作，并且可以对预约内容进行添加、修改、删除等操作。

4.根据权利要求1所述的一种应用多模态人工智能的方法，其特征在于，大模型的输入信息，包括用户语音任务需求或系统音频设备输出的音频。

5.根据权利要求1所述的一种应用多模态人工智能的方法，其特征在于，根据任务需求和系统资源，适当降低采样频率，若显示信息在一段时间内没有像素变化，则不进行处理。

6.根据权利要求1所述的一种应用多模态人工智能的方法，其特征在于，选择将指定区域的图像部分，发送给大模型进行处理。

7.根据权利要求1所述的一种应用多模态人工智能的方法，其特征在于，将人类的某些操作记录，发给大模型。

8.一种应用多模态人工智能的装置，其特征在于，包括以下模块：

D5应用程序处理模块，将设备D4中的信息取回，并整理显示。

9.根据权利要求8所述的一种应用多模态人工智能的装置，其特征在于，包括以下模块：

D6控制指令翻译器，将设备D4返回的控制相关文本序列，转化为系统控制指令，包括但不限于点击，长按，滑动，文本输入，同时控制指令翻译器还可以对指令进行定时执行；