CN116383620B - 一种应用多模态人工智能的方法与装置 - Google Patents
一种应用多模态人工智能的方法与装置 Download PDFInfo
- Publication number
- CN116383620B CN116383620B CN202310321293.2A CN202310321293A CN116383620B CN 116383620 B CN116383620 B CN 116383620B CN 202310321293 A CN202310321293 A CN 202310321293A CN 116383620 B CN116383620 B CN 116383620B
- Authority
- CN
- China
- Prior art keywords
- information
- large model
- artificial intelligence
- output
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Calculators And Similar Devices (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种应用多模态人工智能的方法与装置。多模态大模型人工智能已成为社会生产力革命中的重要突破,例如OpenAI推出的GPT4.0大模型,正在扩展其多重信息交互方式,涵盖文字、语音、图片、视频等多种形式。这些强大的模型将在未来不断发展和增强。如何快速应用这些模型的能力,进一步提升社会生产力,已经成为不同领域研究的重要方向。大模型的主要目的是通过使用一个统一的模型来处理不同的任务,因此在应用领域中,开发更加通用的方法,以利用多模态大模型的特点和能力,将成为非常有价值的工作。人类在电子设备中获取信息,最重要的方式就是通过显示设备。这些显示设备,使各种系统越来越适应人类的习惯。如果人工智能可以从显示设备中获取同人类一样的海量信息,将极大丰富人工智能的应用领域,并且能够更加减轻人类的工作。
Description
技术领域
本发明属于多模态大模型人工智能领域,特别是涉及一种应用多模态人工智能的方法与装置。
背景技术
多模态大模型人工智能已成为社会生产力革命中的重要突破,例如OpenAI推出的GPT4.0大模型,正在扩展其多重信息交互方式,涵盖文字、语音、图片、视频等多种形式。这些强大的模型将在未来不断发展和增强。如何快速应用这些模型的能力,进一步提升社会生产力,已经成为不同领域研究的重要方向。大模型的主要目的是通过使用一个统一的模型来处理不同的任务,因此在应用领域中,开发更加通用的方法,以利用多模态大模型的特点和能力,将成为非常有价值的工作。
人类在电子设备中获取信息,最重要的方式就是通过显示设备。这些显示设备,使各种系统越来越适应人类的习惯。如果人工智能可以从显示设备中获取同人类一样的海量信息,将极大丰富人工智能的应用领域,并且能够更加减轻人类的工作。
发明内容
鉴于上述描述,本发明的目的在于,提供一种以显示信息为多模态大模型主要输入信息,来提供更加通用的人工智能应用的方法与装置。
为实现上述功能,本发明使用多模态人工智能大模型作为主要的信息处理中枢,该模型需要可以输入多重信息模式,包括但不限于图片、视频、音频、文字。
对于人工智能大模型的输入信息为:
现有面向于人类使用的设备中,为人类设计的具有可阅读性的显示信息,通常为显示器显示的信息,另外还可以包含人类语音信息、设备所输出的音频信息;
另外,还需要指定大模型对于上述信息输入后,所需要的执行的任务,以及输出信息的格式、输出信息的位置。
人工智能大模型的输出信息为:
执行完所需任务后,按指定格式指定位置输出任务结果,任务结果,包括但不限于文本序列、图片、视频、音频。输出的数据结果将传输应用程序指定的位置,包括但不限于云空间、服务器、客户端,用于后续进一步加工处理与显示。
具体实现方法的步骤为:
S1提取显示设备中的信息,信息通常提取于显示设备的帧缓存(frame buffer)或应用程序被操作系统所绘制后的窗口(surface)或相关等效位置;
S2将信息按照指定的采样频率实时发送给大模型,同时指定任务需求、数据格式和输出位置;
S3根据指定的输出位置,大模型返回信息,等待应用程序或系统进一步处理。
需要说明的是,返回的信息,可能存储在云端或者远端服务器上,等待应用程序拉取,也可以将返回信息直接向应用程序或系统推送(此为默认位置)。
为了进一步实现本方法人工智能系统的可用性,步骤S3中提到的应用程序,可以有一类统一抽象为控制应用,其可以根据大模型返回的信息,对系统进行类似人类的操作,部分或全部替代人类。
S4将大模型返回的控制相关文本序列,通过一个控制指令翻译器,转化为控制指令,对系统进行类似人类的操作。
例如,大模型返回的文字序列是“点击屏幕位置(200, 210)”,则控制指令翻译器将该文字序列,转化为对系统点击操作的调用。操作类型包括但不限于,点击,长按,滑动。控制指令翻译器,还可以直接将一段文字、图片、音频等信息,模仿人类的方式直接输入系统。
经常会有一些操作,需要在一定时间后执行,例如30秒后关闭台灯的操作,因此控制指令翻译器收到文本序列后,不一定需要马上执行。
S5控制指令翻译器可以对指令进行预约操作,并且可以对预约内容进行添加、修改、删除等操作。
除了显示设备的信息提供给大模型,音频信息也是很重要的一部分,音频信息可以作为补充,一起发送给大模型。音频可以采用流媒体的模式进行上传。
S6大模型的输入信息,包括用户语音任务需求或系统音频设备输出的音频。
为了提升系统效率,可以根据任务需要与系统资源,适当调整显示设备的采样频率与分辨率。比如屏幕在一段时间内没有像素变化,则可以不进行处理。
S7根据任务需要和系统资源,选择适当降低采样频率或对图像进行进一步有损压缩。
还可以通过限定截取屏幕的一部分,来提升系统效率,提高系统安全性。例如只处理屏幕上半部分信息。
S8选择将指定区域的图像部分,发送给大模型进行处理。
人类会有一些操作会有指引作用,会改变大模型的注意力,因此也可以将这些信息发送给大模型进行一并处理。
S9将人类的某些操作记录,记录下来发给大模型。
本发明所涉及的应用多模态人工智能的装置,包括以下模块:
D1显示信息采集模块,负责以一定频率采集显示图像,可以指定图像采集的区域;
D2应用存储模块,存储有需要实现的任务的描述信息,任务返回信息的格式要求,信息返回位置要求;
D3大模型输入模块,即大模型的输入接口,将设备D1与D2的信息,合并后输入大模型;
D4大模型输出模块,将大模型输出的信息,根据设备D2中信息返回位置要求,放入指定位置;
D5应用程序处理模块,将设备D4中的信息取回,并整理显示。
可选模块还将包括:
D6控制指令翻译器,将设备D4返回的控制相关文本,转化为系统控制指令,包括但不限于点击,长按,滑动,文本输入,同时控制指令翻译器还可以对指令进行定时执行;
D7语音采集模块,将用户语音指令,存入设备D2中,将系统原本输出的音频,直接输出给D3设备。
如上所述,本发明所述的方法与装置,具有以下有益效果:
能够更全面、快捷的应用多模态人工智能的能力,无需每个应用单独开发,只需要一套系统就可以实现;
大大丰富了多模态大模型的输入信息,与显示内容结合,可以与AI进行更强大的操作,比单纯语音操作更加强大;
能够更贴近地模拟人类的行为,从而更加接近于个人助理的能力;
在某种程度上,减少了信息泄露的风险。现有应用程序大多将所有信息发送到AI系统进行处理,而本系统仅处理显示部分;
本系统还可以作为硬件产品,如智能电视的一部分。
附图说明
图1显示为方法基本逻辑图。
图2显示为对帧缓存进行采样并上传大模型的示例代码。
图3显示为大模型通过web socket协议返回信息的示例代码。
实施方式
在设备的帧缓存中每隔一段时间截取一张图片,发送给大模型,同时指定任务需求、数据格式,并且指定返回信息直接向应用程序推送。应用程序获得大模型的返回信息后,进行进一步的处理与操作。
一种典型的处理为,大模型返回控制相关文本序列,例如“点击屏幕位置(200,210)”,通过一个控制指令翻译器,将其翻译成对系统的点击操作,即点击屏幕(200,210)。当然这些操作可以进行定时预约操作,例如30秒后关闭台灯。
当然,在设备上采集的信息,还可以来自设备的音频模块。
Claims (9)
1.一种应用多模态人工智能的方法,其特征在于,对多模态人工智能大模型输入的信息包括但不限于,人类设计的具有可阅读性的显示信息,需要执行的任务,输出信息的格式,输出信息的位置信息;多模态人工智能大模型输出的信息包括但不限于,任务要求,格式要求,位置要求,所述方法具体步骤为:
S1提取显示设备中的信息,信息提取于显示设备的帧缓存或应用程序被操作系统所绘制后的窗口;
S2将信息按照指定的采样频率实时发送给大模型,同时指定任务需求、数据格式和输出位置;
S3根据指定的输出位置,大模型返回信息,等待应用程序或系统进一步处理。
2.根据权利要求1所述的一种应用多模态人工智能的方法,其特征在于,包括一种控制指令翻译器,通过将大模型返回的控制相关文本序列转换成控制指令,对系统进行类人化操作的步骤。
3.根据权利要求2所述的一种应用多模态人工智能的方法,其特征在于,控制指令翻译器对指令进行预约操作,并且对预约内容进行添加、修改、删除操作。
4.根据权利要求1所述的一种应用多模态人工智能的方法,其特征在于,大模型的输入信息,包括用户语音任务需求或系统音频设备输出的音频。
5.根据权利要求1所述的一种应用多模态人工智能的方法,其特征在于,根据任务需求和系统资源,降低采样频率,若显示信息在一段时间内没有像素变化,则不进行处理。
6.根据权利要求1所述的一种应用多模态人工智能的方法,其特征在于,选择将指定区域的图像部分,发送给大模型进行处理。
7.根据权利要求1所述的一种应用多模态人工智能的方法,其特征在于,将人类的操作记录,发给大模型。
8.一种应用多模态人工智能的装置,其特征在于,包括以下模块:
D1显示信息采集模块,负责以一定频率采集显示图像,指定图像采集的区域,图像提取于显示设备的帧缓存或应用程序被操作系统所绘制后的窗口;
D2应用存储模块,存储有需要实现的任务的描述信息,任务返回信息的格式要求,信息返回位置要求;
D3大模型输入模块,即大模型的输入接口,将设备D1与D2的信息,合并后输入大模型;
D4大模型输出模块,将大模型输出的信息,根据设备D2中信息返回位置要求,放入指定位置;
D5应用程序处理模块,将设备D4中的信息取回,并整理显示。
9.根据权利要求8所述的一种应用多模态人工智能的装置,其特征在于,包括以下模块:
D6控制指令翻译器,将设备D4返回的控制相关文本序列,转化为系统控制指令,包括但不限于点击,长按,滑动,文本输入,同时控制指令翻译器对指令进行定时执行;
D7语音采集模块,将用户语音指令,存入设备D2中,将系统原本输出的音频,直接输出给D3设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310321293.2A CN116383620B (zh) | 2023-03-29 | 2023-03-29 | 一种应用多模态人工智能的方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310321293.2A CN116383620B (zh) | 2023-03-29 | 2023-03-29 | 一种应用多模态人工智能的方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116383620A CN116383620A (zh) | 2023-07-04 |
CN116383620B true CN116383620B (zh) | 2023-10-20 |
Family
ID=86965058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310321293.2A Active CN116383620B (zh) | 2023-03-29 | 2023-03-29 | 一种应用多模态人工智能的方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383620B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105093986A (zh) * | 2015-07-23 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于人工智能的拟人机器人控制方法、系统及拟人机器人 |
CN107515944A (zh) * | 2017-08-31 | 2017-12-26 | 广东美的制冷设备有限公司 | 基于人工智能的交互方法、用户终端、及存储介质 |
CN108983636A (zh) * | 2018-06-20 | 2018-12-11 | 浙江大学 | 人机智能共生平台系统 |
CN112330371A (zh) * | 2020-11-26 | 2021-02-05 | 深圳创维-Rgb电子有限公司 | 基于ai的智能广告推送方法及装置、系统及存储介质 |
CN112433942A (zh) * | 2020-11-24 | 2021-03-02 | 北京云测信息技术有限公司 | 基于人工智能模型的软件自动化测试方法、装置和系统 |
WO2022127522A1 (zh) * | 2020-12-17 | 2022-06-23 | 深圳Tcl新技术有限公司 | 显示设备的控制方法、系统及计算机可读存储介质 |
CN114840327A (zh) * | 2022-06-29 | 2022-08-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 多模态多任务的处理方法、设备及系统 |
CN115062131A (zh) * | 2022-06-29 | 2022-09-16 | 支付宝(杭州)信息技术有限公司 | 一种基于多模态的人机交互方法及装置 |
CN115167674A (zh) * | 2022-07-06 | 2022-10-11 | 北京中科汇联科技股份有限公司 | 基于数字人多模态交互信息标准的智能交互方法 |
CN115378890A (zh) * | 2022-08-12 | 2022-11-22 | 腾讯科技(武汉)有限公司 | 信息输入方法、装置、存储介质及计算机设备 |
CN115454554A (zh) * | 2022-09-19 | 2022-12-09 | Oppo广东移动通信有限公司 | 文本描述的生成方法、装置、终端及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200115695A (ko) * | 2019-03-07 | 2020-10-08 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US20210081294A1 (en) * | 2019-09-13 | 2021-03-18 | TestRigor, Inc. | Processing screenshots of an application user interface to detect errors |
KR20210072362A (ko) * | 2019-12-09 | 2021-06-17 | 엘지전자 주식회사 | 인공 지능 모델에 대한 학습 데이터를 생성하는 인공 지능 장치 및 그 방법 |
TWI801718B (zh) * | 2020-02-25 | 2023-05-11 | 瑞軒科技股份有限公司 | 智慧型互動顯示裝置、智慧型互動顯示系統及其互動顯示方法 |
-
2023
- 2023-03-29 CN CN202310321293.2A patent/CN116383620B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105093986A (zh) * | 2015-07-23 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于人工智能的拟人机器人控制方法、系统及拟人机器人 |
CN107515944A (zh) * | 2017-08-31 | 2017-12-26 | 广东美的制冷设备有限公司 | 基于人工智能的交互方法、用户终端、及存储介质 |
CN108983636A (zh) * | 2018-06-20 | 2018-12-11 | 浙江大学 | 人机智能共生平台系统 |
CN112433942A (zh) * | 2020-11-24 | 2021-03-02 | 北京云测信息技术有限公司 | 基于人工智能模型的软件自动化测试方法、装置和系统 |
CN112330371A (zh) * | 2020-11-26 | 2021-02-05 | 深圳创维-Rgb电子有限公司 | 基于ai的智能广告推送方法及装置、系统及存储介质 |
WO2022127522A1 (zh) * | 2020-12-17 | 2022-06-23 | 深圳Tcl新技术有限公司 | 显示设备的控制方法、系统及计算机可读存储介质 |
CN114840327A (zh) * | 2022-06-29 | 2022-08-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 多模态多任务的处理方法、设备及系统 |
CN115062131A (zh) * | 2022-06-29 | 2022-09-16 | 支付宝(杭州)信息技术有限公司 | 一种基于多模态的人机交互方法及装置 |
CN115167674A (zh) * | 2022-07-06 | 2022-10-11 | 北京中科汇联科技股份有限公司 | 基于数字人多模态交互信息标准的智能交互方法 |
CN115378890A (zh) * | 2022-08-12 | 2022-11-22 | 腾讯科技(武汉)有限公司 | 信息输入方法、装置、存储介质及计算机设备 |
CN115454554A (zh) * | 2022-09-19 | 2022-12-09 | Oppo广东移动通信有限公司 | 文本描述的生成方法、装置、终端及存储介质 |
Non-Patent Citations (3)
Title |
---|
Hu, YP等.Multi-modal Probabilistic Prediction of Interactive Behavior via an Interpretable Model.《2019 30TH IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV19)》.2019,557-563. * |
吴友政 等.多模态信息处理前沿综述:应用、融合和预训练.《中文信息学报》.2022,第36卷(第05期),1-20. * |
张文烨.基于图像识别的移动端应用控件检测方法.《计算机应用》.2020,(第S1期),162-165. * |
Also Published As
Publication number | Publication date |
---|---|
CN116383620A (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100456235C (zh) | 一种在即时通信中屏幕截图的方法和系统 | |
WO2018170663A1 (zh) | 图像标注方法、装置及电子设备 | |
KR0138845B1 (ko) | 엠핵(mheg)엔진에서의 멀티미디어 정보 동기 제어기 및 그 제어방법 | |
CN106851386B (zh) | 基于Android系统的电视终端中增强现实的实现方法及装置 | |
CN102637127B (zh) | 一种控制鼠标模块的方法及电子设备 | |
DE102010052244A1 (de) | Verfahren und Vorrichtung zur Darstellung einer grafischen Benutzeroberfläche einer tragbaren Recheneinheit auf einem externen Anzeigegerät | |
CN107766024B (zh) | 一种基于拼接墙的ppt放映控制方法和系统 | |
CN111158924B (zh) | 内容分享方法、装置、电子设备及可读存储介质 | |
CN103294803A (zh) | 一种实现增强产品信息介绍和人机交互的方法和系统 | |
CN111722775A (zh) | 图像处理方法、装置、设备及可读存储介质 | |
CN108335342B (zh) | 在web浏览器上进行多人绘画的方法、设备和计算机程序产品 | |
CN111583348B (zh) | 图像数据编码方法及装置、显示方法及装置、电子设备 | |
CN110489188A (zh) | 由桌面应用生成移动应用程序的计算机实现的方法和系统 | |
CN104391739A (zh) | 一种能够在实时互动沟通平台中共同分享一个文件并跟随对方操作的交流方法 | |
CN108121449A (zh) | 可编辑更新的基于体感控制的可视化交互管理系统 | |
WO2022156468A1 (zh) | 模型数据处理方法、装置、电子设备以及计算机可读介质 | |
CN117057318A (zh) | 领域模型生成方法、装置、设备以及存储介质 | |
CN116383620B (zh) | 一种应用多模态人工智能的方法与装置 | |
WO2024088132A1 (zh) | 目标图像的显示方法、显示装置、电子设备和存储介质 | |
CN107798716A (zh) | 图像效果提取 | |
CN111629267A (zh) | 音频标注方法、装置、设备及计算机可读存储介质 | |
CN110661880A (zh) | 一种远程协助方法、系统和存储介质 | |
CN110730386A (zh) | 基于Avid软件的远程协同视频剪辑系统及方法 | |
CN113852757B (zh) | 视频处理方法、装置、设备和存储介质 | |
CN108037834A (zh) | 基于体感控制的可视化交互管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |