CN116383620B

CN116383620B - 一种应用多模态人工智能的方法与装置

Info

Publication number: CN116383620B
Application number: CN202310321293.2A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Goose Factory Technology Co ltd
Current assignee: Beijing Goose Factory Technology Co ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-10-20
Anticipated expiration: 2043-03-29
Also published as: CN116383620A

Abstract

一种应用多模态人工智能的方法与装置。多模态大模型人工智能已成为社会生产力革命中的重要突破，例如OpenAI推出的GPT4.0大模型，正在扩展其多重信息交互方式，涵盖文字、语音、图片、视频等多种形式。这些强大的模型将在未来不断发展和增强。如何快速应用这些模型的能力，进一步提升社会生产力，已经成为不同领域研究的重要方向。大模型的主要目的是通过使用一个统一的模型来处理不同的任务，因此在应用领域中，开发更加通用的方法，以利用多模态大模型的特点和能力，将成为非常有价值的工作。人类在电子设备中获取信息，最重要的方式就是通过显示设备。这些显示设备，使各种系统越来越适应人类的习惯。如果人工智能可以从显示设备中获取同人类一样的海量信息，将极大丰富人工智能的应用领域，并且能够更加减轻人类的工作。

Description

一种应用多模态人工智能的方法与装置

技术领域

本发明属于多模态大模型人工智能领域，特别是涉及一种应用多模态人工智能的方法与装置。

背景技术

多模态大模型人工智能已成为社会生产力革命中的重要突破，例如OpenAI推出的GPT4.0大模型，正在扩展其多重信息交互方式，涵盖文字、语音、图片、视频等多种形式。这些强大的模型将在未来不断发展和增强。如何快速应用这些模型的能力，进一步提升社会生产力，已经成为不同领域研究的重要方向。大模型的主要目的是通过使用一个统一的模型来处理不同的任务，因此在应用领域中，开发更加通用的方法，以利用多模态大模型的特点和能力，将成为非常有价值的工作。

人类在电子设备中获取信息，最重要的方式就是通过显示设备。这些显示设备，使各种系统越来越适应人类的习惯。如果人工智能可以从显示设备中获取同人类一样的海量信息，将极大丰富人工智能的应用领域，并且能够更加减轻人类的工作。

发明内容

鉴于上述描述，本发明的目的在于，提供一种以显示信息为多模态大模型主要输入信息，来提供更加通用的人工智能应用的方法与装置。

为实现上述功能，本发明使用多模态人工智能大模型作为主要的信息处理中枢，该模型需要可以输入多重信息模式，包括但不限于图片、视频、音频、文字。

对于人工智能大模型的输入信息为：

现有面向于人类使用的设备中，为人类设计的具有可阅读性的显示信息，通常为显示器显示的信息，另外还可以包含人类语音信息、设备所输出的音频信息；

另外，还需要指定大模型对于上述信息输入后，所需要的执行的任务，以及输出信息的格式、输出信息的位置。

人工智能大模型的输出信息为：

执行完所需任务后，按指定格式指定位置输出任务结果，任务结果，包括但不限于文本序列、图片、视频、音频。输出的数据结果将传输应用程序指定的位置，包括但不限于云空间、服务器、客户端，用于后续进一步加工处理与显示。

具体实现方法的步骤为：

S1提取显示设备中的信息，信息通常提取于显示设备的帧缓存（frame buffer）或应用程序被操作系统所绘制后的窗口（surface）或相关等效位置；

S2将信息按照指定的采样频率实时发送给大模型，同时指定任务需求、数据格式和输出位置；

S3根据指定的输出位置，大模型返回信息，等待应用程序或系统进一步处理。

需要说明的是，返回的信息，可能存储在云端或者远端服务器上，等待应用程序拉取，也可以将返回信息直接向应用程序或系统推送（此为默认位置）。

为了进一步实现本方法人工智能系统的可用性，步骤S3中提到的应用程序，可以有一类统一抽象为控制应用，其可以根据大模型返回的信息，对系统进行类似人类的操作，部分或全部替代人类。

S4将大模型返回的控制相关文本序列，通过一个控制指令翻译器，转化为控制指令，对系统进行类似人类的操作。

例如，大模型返回的文字序列是“点击屏幕位置（200, 210）”，则控制指令翻译器将该文字序列，转化为对系统点击操作的调用。操作类型包括但不限于，点击，长按，滑动。控制指令翻译器，还可以直接将一段文字、图片、音频等信息，模仿人类的方式直接输入系统。

经常会有一些操作，需要在一定时间后执行，例如30秒后关闭台灯的操作，因此控制指令翻译器收到文本序列后，不一定需要马上执行。

S5控制指令翻译器可以对指令进行预约操作，并且可以对预约内容进行添加、修改、删除等操作。

除了显示设备的信息提供给大模型，音频信息也是很重要的一部分，音频信息可以作为补充，一起发送给大模型。音频可以采用流媒体的模式进行上传。

S6大模型的输入信息，包括用户语音任务需求或系统音频设备输出的音频。

为了提升系统效率，可以根据任务需要与系统资源，适当调整显示设备的采样频率与分辨率。比如屏幕在一段时间内没有像素变化，则可以不进行处理。

S7根据任务需要和系统资源，选择适当降低采样频率或对图像进行进一步有损压缩。

还可以通过限定截取屏幕的一部分，来提升系统效率，提高系统安全性。例如只处理屏幕上半部分信息。

S8选择将指定区域的图像部分，发送给大模型进行处理。

人类会有一些操作会有指引作用，会改变大模型的注意力，因此也可以将这些信息发送给大模型进行一并处理。

S9将人类的某些操作记录，记录下来发给大模型。

本发明所涉及的应用多模态人工智能的装置，包括以下模块：

D1显示信息采集模块，负责以一定频率采集显示图像，可以指定图像采集的区域；

D2应用存储模块，存储有需要实现的任务的描述信息，任务返回信息的格式要求，信息返回位置要求；

D3大模型输入模块，即大模型的输入接口，将设备D1与D2的信息，合并后输入大模型；

D4大模型输出模块，将大模型输出的信息，根据设备D2中信息返回位置要求，放入指定位置；

D5应用程序处理模块，将设备D4中的信息取回，并整理显示。

可选模块还将包括：

D6控制指令翻译器，将设备D4返回的控制相关文本，转化为系统控制指令，包括但不限于点击，长按，滑动，文本输入，同时控制指令翻译器还可以对指令进行定时执行；

D7语音采集模块，将用户语音指令，存入设备D2中，将系统原本输出的音频，直接输出给D3设备。

如上所述，本发明所述的方法与装置，具有以下有益效果：

能够更全面、快捷的应用多模态人工智能的能力，无需每个应用单独开发，只需要一套系统就可以实现；

大大丰富了多模态大模型的输入信息，与显示内容结合，可以与AI进行更强大的操作，比单纯语音操作更加强大；

能够更贴近地模拟人类的行为，从而更加接近于个人助理的能力；

在某种程度上，减少了信息泄露的风险。现有应用程序大多将所有信息发送到AI系统进行处理，而本系统仅处理显示部分；

本系统还可以作为硬件产品，如智能电视的一部分。

附图说明

图1显示为方法基本逻辑图。

图2显示为对帧缓存进行采样并上传大模型的示例代码。

图3显示为大模型通过web socket协议返回信息的示例代码。

实施方式

在设备的帧缓存中每隔一段时间截取一张图片，发送给大模型，同时指定任务需求、数据格式，并且指定返回信息直接向应用程序推送。应用程序获得大模型的返回信息后，进行进一步的处理与操作。

一种典型的处理为，大模型返回控制相关文本序列，例如“点击屏幕位置（200,210）”，通过一个控制指令翻译器，将其翻译成对系统的点击操作，即点击屏幕(200,210)。当然这些操作可以进行定时预约操作，例如30秒后关闭台灯。

当然，在设备上采集的信息，还可以来自设备的音频模块。

Claims

1.一种应用多模态人工智能的方法，其特征在于，对多模态人工智能大模型输入的信息包括但不限于，人类设计的具有可阅读性的显示信息，需要执行的任务，输出信息的格式，输出信息的位置信息；多模态人工智能大模型输出的信息包括但不限于，任务要求，格式要求，位置要求，所述方法具体步骤为：

S1提取显示设备中的信息，信息提取于显示设备的帧缓存或应用程序被操作系统所绘制后的窗口；

2.根据权利要求1所述的一种应用多模态人工智能的方法，其特征在于，包括一种控制指令翻译器，通过将大模型返回的控制相关文本序列转换成控制指令，对系统进行类人化操作的步骤。

3.根据权利要求2所述的一种应用多模态人工智能的方法，其特征在于，控制指令翻译器对指令进行预约操作，并且对预约内容进行添加、修改、删除操作。

4.根据权利要求1所述的一种应用多模态人工智能的方法，其特征在于，大模型的输入信息，包括用户语音任务需求或系统音频设备输出的音频。

5.根据权利要求1所述的一种应用多模态人工智能的方法，其特征在于，根据任务需求和系统资源，降低采样频率，若显示信息在一段时间内没有像素变化，则不进行处理。

6.根据权利要求1所述的一种应用多模态人工智能的方法，其特征在于，选择将指定区域的图像部分，发送给大模型进行处理。

7.根据权利要求1所述的一种应用多模态人工智能的方法，其特征在于，将人类的操作记录，发给大模型。

8.一种应用多模态人工智能的装置，其特征在于，包括以下模块：

D1显示信息采集模块，负责以一定频率采集显示图像，指定图像采集的区域，图像提取于显示设备的帧缓存或应用程序被操作系统所绘制后的窗口；

D5应用程序处理模块，将设备D4中的信息取回，并整理显示。

9.根据权利要求8所述的一种应用多模态人工智能的装置，其特征在于，包括以下模块：

D6控制指令翻译器，将设备D4返回的控制相关文本序列，转化为系统控制指令，包括但不限于点击，长按，滑动，文本输入，同时控制指令翻译器对指令进行定时执行；