CN117743335A - 面向大模型场景的存储数据和处理数据的方法、相关装置 - Google Patents
面向大模型场景的存储数据和处理数据的方法、相关装置 Download PDFInfo
- Publication number
- CN117743335A CN117743335A CN202311745724.4A CN202311745724A CN117743335A CN 117743335 A CN117743335 A CN 117743335A CN 202311745724 A CN202311745724 A CN 202311745724A CN 117743335 A CN117743335 A CN 117743335A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- stored
- feature vector
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 223
- 238000000034 method Methods 0.000 title claims abstract description 120
- 239000013598 vector Substances 0.000 claims abstract description 184
- 230000004044 response Effects 0.000 claims abstract description 73
- 230000008569 process Effects 0.000 claims description 49
- 238000004590 computer program Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000013500 data storage Methods 0.000 abstract description 18
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了面向大模型场景的存储数据和处理数据的方法及相关装置,涉及数据处理、数据存储、云平台、云服务、深度学习、大模型、大语言模型等人工智能技术领域。该方法的一具体实施方式包括:响应于接收到待存储至目标数据湖的待存储数据,检测待存储数据的数据类型;响应于数据类型为非结构化数据类型,生成待存储数据的特征向量;将特征向量作为待存储数据的替代,存储至目标数据湖。该实施方式能够提升数据湖的数据支持能力,并扩展数据湖的应用场景。
Description
技术领域
本公开涉及计算机技术领域,具体涉及数据处理、数据存储、云平台、云服务、深度学习、大模型、大语言模型等人工智能技术领域,尤其涉及面向大模型场景的存储数据和处理数据的方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
随着社会的发展,数据的类型也日渐丰富,其中较为突出的数据类型包括结构化数据和非结构化数据。非结构化数据例如交通系统、安防系统等应用系统产生的多媒体数据等等,为了便于对这些数据进行存储和分析,需要有专门的数据管理设备来管理这些数据。
数据湖是一种大数据架构,可以用来存储和处理大规模、多样化的数据。数据湖可以消除数据隔离和数据分散的问题,使数据更易于访问和分析。与传统的数据仓库不同,数据湖不需要预定义数据结构或数据模型。数据湖采用扁平化的数据模型,将所有数据都存储在原始格式中,并允许用户在需要时按需转换和处理数据。由此,如何提升数据湖的应用、使用价值,是值得关注的问题。
发明内容
本公开实施例提出了一种面向大模型场景的存储数据和处理数据方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
第一方面,本公开实施例提出了一种面向大模型场景的存储数据的方法,包括:响应于接收到待存储至目标数据湖的待存储数据,检测待存储数据的数据类型;响应于数据类型为非结构化数据类型,生成待存储数据的特征向量;将特征向量作为待存储数据的替代,存储至目标数据湖。
第二方面,本公开实施例提出了一种面向大模型场景的处理数据的方法,包括:响应于从目标设备接收到调用第二数据处理模型处理目标输入数据的调用请求,获取目标输入数据,其中,第二数据处理模型通过将第一数据处理模型的模型数据来源由第一数据处理模型的本地数据调整为目标数据湖得到,目标数据湖基于上述第一方面的面向大模型场景的存储数据方法得到;响应于目标输入数据的数据类型为非结构化数据类型,确定是否能从目标数据湖中提取出与目标输入数据对应的目标特征向量;响应于能从目标数据湖中提取出与目标输入数据对应的目标特征向量,从目标数据湖中提取目标特征向量,并将目标特征向量作为第二数据处理模型的实际输入,利用第二数据处理模型生成与目标特征向量对应的目标输出结果;向目标设备提供目标输出结果。
第三方面,本公开实施例提出了一种面向大模型场景的存储数据的装置,包括:数据类型检测单元,被配置成响应于接收到待存储至目标数据湖的待存储数据,检测待存储数据的数据类型;特征向量转换单元,被配置成响应于数据类型为非结构化数据类型,生成待存储数据的特征向量;特征向量存储单元,被配置成将特征向量作为待存储数据的替代,存储至目标数据湖。
第四方面,本公开实施例提出了一种面向大模型场景的处理数据的装置,包括:调用请求接收单元,被配置成响应于从目标设备接收到调用第二数据处理模型处理目标输入数据的调用请求,获取目标输入数据,其中,第二数据处理模型通过将第一数据处理模型的模型数据来源由第一数据处理模型的本地数据调整为目标数据湖得到,目标数据湖基于上述第三方面的存储数据的装置得到;目标特征向量检测单元,被配置成响应于目标输入数据的数据类型为非结构化数据类型,确定是否能从目标数据湖中提取出与目标输入数据对应的目标特征向量;目标特征向量提取单元,被配置成响应于能从目标数据湖中提取出与目标输入数据对应的目标特征向量,从目标数据湖中提取目标特征向量,并将目标特征向量作为第二数据处理模型的实际输入,利用第二数据处理模型生成与目标特征向量对应的目标输出结果;目标结果输出单元,被配置成向目标设备提供目标输出结果。
第五方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的面向大模型场景的存储数据方法和/或如第二方面中任一实现方式描述的面向大模型场景的处理数据的方法。
第六方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的面向大模型场景的存储数据方法和/或如第二方面中任一实现方式描述的面向大模型场景的处理数据的方法。
第七方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的面向大模型场景的存储数据方法和/或如第二方面中任一实现方式描述的面向大模型场景的处理数据的方法。
本公开实施例提供的面向大模型场景的存储数据方法、装置、电子设备、计算机可读存储介质及计算机程序产品,响应于接收到待存储至目标数据湖的待存储数据,检测待存储数据的数据类型,如果数据类型为非结构化数据类型,则生成待存储数据的特征向量,并将特征向量作为待存储数据的替代,存储至目标数据湖。
本公开提供的面向大模型场景的存储数据方法在向数据湖存入数据时,将非结构化数据转化为特征向量进行存储,使得数据湖能够利用特征向量的形式,来提供可以被直接使用、用于为模型推理和训练支持的“非结构化数据”,这样的方式能够提升数据湖的数据支持能力,并扩展数据湖的应用场景。
进一步地,基于上述面向大模型场景的存储数据方法,本公开提供的面向大模型场景的处理数据的方法,能够利用以特征向量形式存储非结构化数据的目标数据湖作为数据处理模型的数据来源,能够简化数据处理模型配置要求的同时,提升数据处理模型的处理能力。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开可以应用于其中的示例性系统架构;
图2为本公开实施例提供的一种面向大模型场景的存储数据方法的流程图;
图3为本公开实施例提供的构建数据处理队列的流程的流程图;
图4为本公开实施例提供的面向大模型场景的处理数据的方法的流程图;
图5为本公开实施例提供的在一应用场景下结合面向大模型场景的存储数据方法和处理数据的方法的流程示意图;
图6为本公开实施例提供的一种面向大模型场景的存储数据的装置的结构框图;
图7为本公开实施例提供的一种面向大模型场景的处理数据的装置的结构框图;
图8为本公开实施例提供的一种适用于执行面向大模型场景的存储数据的和/或面向大模型场景的处理数据的方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
此外,本公开涉及的技术方案中,所涉及的用户个人信息(例如本公开后续涉及的待存储数据)的获取、存储、使用、加工、运输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图1示出了可以应用本公开的面向大模型场景的存储数据和处理数据方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102和103,网络104和服务器105。网络104用以在终端设备101、102和103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102和103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102和103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用,例如在线存储类应用、云服务类应用、即时通讯类应用等。
终端设备101、102和103和服务器105可以是硬件,也可以是软件。当终端设备101、102和103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等;当终端设备101、102和103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,可以实现成多个软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。
服务器105通过内置的各种应用可以提供各种服务,以在面向大模型场景下,可以提供数据湖存储服务的在线存储类应用为例,服务器105在运行该在线存储类应用时可实现如下效果:首先,服务器105响应于通过网络104从终端设备101、102和103中接收到待存储至目标数据湖的待存储数据,服务器105检测待存储数据的数据类型;然后,服务器105响应于数据类型为非结构化数据类型,生成待存储数据的特征向量;最后,服务器105将特征向量作为待存储数据的替代,存储至目标数据湖。
需要指出的是,待存储数据除可以从终端设备101、102和103通过网络104获取到之外,也可以通过各种方式预先存储在服务器105本地。因此,当服务器105检测到本地已经存储有这些数据时(例如开始处理之前留存的数据存储任务),可选择直接从本地获取这些数据。
由于构建数据湖、维护数据糊、使用数据湖等可能需要占用较多的运算资源、存储资源,以及需要较强的运算能力,因此本公开后续各实施例所提供的面向大模型场景的存储数据方法以及处理数据的方法一般由拥有较强运算能力、较多运算资源的服务器105来执行,相应地,面向大模型场景的存储数据的装置一般也设置于服务器105中。但同时也需要指出的是,在终端设备101、102和103也具有满足要求的运算能力和运算资源时,终端设备101、102和103也可以通过其上安装的在线存储类应用完成上述本交由服务器105做的各项运算,进而输出与服务器105同样的结果。尤其是在同时存在多种具有不同运算能力的终端设备的情况下,但在线存储类应用判断所在的终端设备拥有较强的运算能力和剩余较多的运算资源时,可以让终端设备来执行上述运算,从而适当减轻服务器105的运算压力,相应的,面向大模型场景的存储数据的装置也可以设置于终端设备101、102和103中。例如,在一些场景中,可以以服务器105作为面向大模型场景的存储数据方法的执行主体,而终端设备101、102和103作为面向大模型场景的处理数据的方法的执行主体。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
首先,请参考图2,图2为本公开实施例提供的一种面向大模型场景的存储数据方法的流程图,其中流程200包括以下步骤:
步骤201:响应于接收到待存储至目标数据湖的待存储数据,检测待存储数据的数据类型;
本步骤旨在由面向大模型场景的存储数据方法的执行主体(例如图1所示的服务器105)在接收到待存储至目标数据湖的待存储数据时进行响应,检测该待存储数据的数据类型。待存储数据的数据类型例如可以是结构化数据、非结构化数据等。
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。非结构化数据可以包括各类格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。
需要指出的是,待存储数据可以由上述执行主体直接从本地的存储设备获取,也可以从非本地的存储设备(例如图1所示的终端设备101、102和103)中获取。本地的存储设备可以是设置在上述执行主体内的一个数据存储模块,例如服务器硬盘,在此种情况下,待存储数据可以在本地快速读取到;非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备,例如一些用户终端等,在此情况下,上述执行主体可以通过向该电子设备发送获取命令来获取所需的待存储数据。
步骤202:响应于数据类型为非结构化数据类型,生成待存储数据的特征向量;
在步骤201的基础上,本步骤旨在由上述执行主体在确定待存储数据的数据类型为非结构化数据类型(简称,非结构化数据)的情况下进行响应,对待存储数据进行处理,生成待存储数据的特征向量。
例如,执行主体可以基于特征工程(embedding),将待存储数据处理为特征向量。在一些实施例中,执行主体可以通过调用数据处理模型的方式,将待存储数据处理为特征向量。应当理解的是,通常可以根据非结构化数据的具体类型(例如,文本、图片等)来配置对应的数据处理模型,以对其进行处理、生成特征向量。例如,当待存储数据为文本形式的非结构化数据的情况下,执行主体可以通过例如词向量模型对其进行处理,将其处理为对应的特征向量(例如,词特征向量、语义特征向量等等)。类似地,当待存储数据为图片形式的非结构化数据的情况下,执行主体可以通过图像特征提取模型,将其处理为对应的特征向量(例如,图形语义特征向量)。
在本实施例的一些可选的实现方式中,如果执行主体确定待存储数据并不是非结构化数据,例如待存储数据是结构化数据,则执行主体可以直接将其存储至目标数据湖中,而不将其处理为特征向量。
步骤203:将特征向量作为待存储数据的替代,存储至目标数据湖。
在步骤202的基础上,本步骤旨在由上述执行主体使用上述步骤202中生成的特征向量,作为待存储数据的替代存储至目标数据湖。例如,执行主体可以获取预期用于存储待存储数据的位置(或者说,存储空间)后,将特征向量存入该位置,而不再将待存储数据存入该位置,以使得特征向量可以作为待存储数据的替代。在本实施例的一些可选的实现方式中,执行主体可以保持原有的针对待存储使用的访问路径、访问标识、关键字信息等,以使得后续仍可以基于原有的、调取待存储数据的调取方式来调取作为替代的特征向量。由此,使得后续在其他设备期望调取、使用非结构化数据时,数据湖可以利用与该非结构化数据相对应的特征向量作为替代,提供至其他设备。
本公开实施例提供的面向大模型场景的存储数据方法,在向数据湖存入数据时,将非结构化数据转化为特征向量进行存储,使得数据湖能够利用特征向量的形式,来提供可以被直接使用、用于为模型推理和训练支持的“非结构化数据”,这样的方式能够提升数据湖的数据支持能力,并扩展数据湖的应用场景。
在一些场景中,执行主体可能连续地接收到多个待存储数据,或者允许连续地接收到多个待存储数据,而执行主体可能不具有同时将这些待存储数据处理、存储至目标数据湖的能力。或者,考虑到资源配置成本等原因,执行主体提供有同时将这些待存储数据处理、存储至目标数据湖的能力是不被期望的。在此情况下,执行主体可以利用数据处理队列的方式,依次地对多个待存储数据进行处理。即,执行主体可以将这些待存储数据存入数据处理队列,并基于数据处理队列中所指示的顺序,依次地执行针对待存储数据的处理任务,进而可以连续、稳定、秩序地对多个待存储数据进行处理,以保障系统稳定的同时,降低执行主体对于算力资源的配置要求。例如,即便执行主体仅能单独执行1个待存储数据,或者仅能同时处理其他固定数量(该固定数量小于已经接收到的待存储数据的数量)的待存储数据的情况下,仍可以通过多轮次处理的方式,来完成对多个待存储数据的处理。
在一些实施例中,执行主体在接收到待存储数据时,还可以通过“查重、去重”的方式,仅对“增量”的待存储数据进行处理,或者说,仅将增量的待存储数据存入数据处理队列,以避免重复地执行相同任务造成运算资源的浪费。
为方便理解,可以同时参考图3。图3为本公开实施例提供的构建数据处理队列的流程的流程图,其中流程300具体包括以下步骤:
步骤301:响应于接收到数据源发出的数据提供请求,获取数据源提供的一组初始待存储数据;
具体地,执行主体响应于接收到数据源发出的数据提供请求,获取由该数据源提供的一组初始待存储数据。数据源可以是预先配置的,其具有向目标数据湖存入待存储数据的权限。
步骤302:基于一组初始待存储数据与数据处理队列中的一组待存储数据的差异比较,确定存入数据处理队列的一组差异待存储数据;
具体地,执行主体基于上述步骤301获取到一组初始待存储数据后,可以比较其与数据处理队列中的一组待存储数据的差异,以确定存在于一组初始待存储数据中,却未存在于在一组待存储数据中的初始待存储数据。简言之,执行主体可以通过比较一组初始待存储数据和数据处理队列中的一组待存储数据的差异,来确定作为增量的初始待存储数据,进而得到一组差异待存储数据。一组差异待存储数据中的差异待存储数据实际上便是存在于一组初始待存储数据中,且未存在于在一组待存储数据中的初始待存储数据。
步骤303:将一组差异待存储数据存入数据处理队列。
具体地,执行主体可以将一组差异待存储数据存入数据处理队列,以等待处理。
通常,执行主体可以通过将一组差异待存储数据存入数据处理队列中最后存在的待处理数据之后,以接入新的“待处理数据任务”。
应当理解的是,流程300,可以在例如图2所示的步骤201之前被执行,以构建用于提供、发送待存储数据的数据处理队列。相应地,执行主体可以通过控制数据处理队列的发送时机,来提供待存储数据,或者说,开启上述流程200。
作为备选或附加地,执行主体在执行流程200的流程中,也可以并行地执行流程300,以对数据处理队列中的内容进行更新,进使得可以连续、多阶段地执行流程200,以对多个待存储数据进行处理。
在本实施例的一些可选的实现方式中,为避免因执行主体已完成对数据处理队列中的待存储数据的处理后,消除数据处理队列中的待存储数据而导致的差异待存储数据误判。执行主体还可以在存在已处理待存储数据的情况下进行响应,检测一组差异待存储数据中是否存在与已处理待存储数据对应的目标差异待存储数据。已处理待存储数据包括已经生成对应的特征向量的历史待存储数据,即,已处理待存储数据可以是数据处理队列中的已经被完成处理的待存储数据。
为方便理解,可以继续参考图3进行说明。例如,流程300中在步骤302和步骤303之间,还可以包括步骤304至307。
步骤304:检测是否存在已处理待存储数据;
具体地,执行主体可以检测是否存在上述的已处理待存储数据,如果执行主体检测存在已处理待存储数据,则执行步骤305,否则继续执行303。
步骤305:检测一组差异待存储数据中是否存在与已处理待存储数据对应的目标差异待存储数据;
如果执行主体检测一组差异待存储数据中存在与已处理待存储数据对应的目标差异待存储数据,则执行步骤306,否则继续执行303。
步骤306:删除目标差异待存储数据,得到更新后的一组差异存储数据;
步骤307:将更新后的一组差异存储数据存入数据处理队列。
由此,执行主体可以在存在已处理待存储数据的情况下,再次进行筛选,避免因执行主体已完成对数据处理队列中的待存储数据的处理后,消除数据处理队列中的待存储数据而导致的差异待存储数据误判。
在上述任一实施例的基础上,如上述说明的在本公开的一些实施例中,还可以通过引入数据处理模型来处理待存储数据、生成待存储数据的特征向量。为方便理解,可以将用于生成特征向量的数据处理模型描述为第一数据处理模型。通常,第一数据处理模型可以被利用与其相关联的本地数据库中的数据进行训练,并在完成训练后,利用本地数据库中的数据来执行推理。在本实施例的一些可选的实现方式中,第一数据处理模型基于生成式语言模型被配置。
生成式语言模型(General Language Model,简称GLM),属于大语言模型(LargeLanguage Model,简称LLM)的一种,LLM也可以被称为大型语言模型,其是一种人工智能模型,旨在理解和生成人类语言。并且,生成式语言模型可以基于其理解的内容,相应地执行处理操作,以得到对应的处理结果。例如,在接收非结构化数据类型的待存储数据时,生成式语言模型可以在理解指示后,理解“将待存储数据转化为特征向量”的具体含义,并执行“将待存储数据转化为特征向量”的操作。LLM的特点是规模庞大,通常其可以包括大量的参数,以帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上提供更好的处理性能。在本公开的实施例中,执行主体还可以选择获取生成式语言模型。生成式语言模型至少被配置成将非结构化数据类型的待存储数据处理为特征向量。例如,生成式语言模型可以预先被训练,以具有生成非结构化数据类型的待存储数据的特征向量的能力。在此情况下,执行主体可以基于预先配置的引导词、引导标签等,来指示生成式语言模型生成非结构化数据类型的待存储数据的特征向量。例如,引导词可以是“请生成非结构化数据类型的待存储数据的特征向量”。在一些场景中,为了提升生成效率和生成质量,还可以通过同时录入例如“特征向量的应当是XX形式”的辅助引导词,以对生成式语言模型进行更为精细地引导、便于生成式语言模型得到满足期望的输出内容。
类似地,对于生成式语言模型,其可以通过被默认配置的方式,以省略“引导词”。例如,对于生成非结构化数据类型的待存储数据的特征向量这一目的,生成式语言模型中可以基于默认的配置,当然地理解需要生成非结构化数据类型的待存储数据的特征向量。由此,以通过默认配置的方式,使得生成式语言模型能够稳定、定向地对非结构化数据类型的待存储数据进行处理,生成对应的特征向量。由此,可以利用生成式语言模型来更效率、质量地生成非结构化数据类型的待存储数据的特征向量。
如上说明的,因非结构化数据无法被例如数据处理模型、数据分析模型等直接使用,所以导致数据湖无法直接地为数据处理模型、数据分析模型提供支持。而基于本公开所提供的存储数据的方式,利用特征向量作为待存储数据的替代,使得数据湖可以直接地为数据处理模型、数据分析模型提供支持,不仅提升了数据湖的数据支持能力,还可以扩展数据湖的应用场景。具体而言,本公开的实施例中所提供的、利用特征向量替代非结构化数据类型的待存储数据得到的目标数据湖,可以直接作为在线模型的数据源,为其提供数据支持。
例如,执行主体可以在线上提供第二数据处理模型,来为用户提供服务。第二数据处理模型通过将第一数据处理模型的模型数据来源由第一数据处理模型的本地数据调整为目标数据湖得到。即,第二数据处理模型可以利用目标数据湖作为数据支持来源,来被用户所使用的目标设备(例如,终端设备101、102和103)所使用。
相应地在一些场景中,执行主体也可以利用目标数据湖,来对用户所提供的其他模型数据支持。例如,在目标数据湖中存储的特征向量可以被用户所提供的其他模型所识别、使用时,用户可以通过将目标数据湖接入该其他模型的方式,来利用数据湖中存储的数据对期望使用的其他模型提供支持。
为方便理解,可以参考图4。图4本公开实施例提供的面向大模型场景的处理数据的方法的流程图,其中流程400包括:
步骤401:响应于从目标设备接收到调用第二数据处理模型处理目标输入数据的调用请求,获取目标输入数据;
本步骤旨在,在上述执行主体从目标设备接收到调用第二数据处理模型处理目标输入数据的调用请求时进行响应,以获取目标输入数据。例如,目标输入数据可以是用户录入的待处理文本、待处理图像等。如上述说明的,第二数据处理模型可以是通过将第一数据处理模型的模型数据来源由第一数据处理模型的本地数据调整为目标数据湖得到的数据处理模型。相应地,第二数据处理模型相比于第一数据处理模型,其可以利用例如上述图2所示实施例中得到的目标数据库作为数据源,以获取用于模型推理、训练的数据支持。
步骤402:响应于目标输入数据的数据类型为非结构化数据类型,确定是否能从目标数据湖中提取出与目标输入数据对应的目标特征向量;
本步骤旨在,在执行主体确定目标输入数据的数据类型为非结构化数据类型时,即,目标输入数据无法被第二数据处理模型所直接使用的情况下,确定是否能从目标数据湖中提取出与目标输入数据对应的目标特征向量,并将其作为用户提供的非结构化数据类型的替代。
在实践中,与目标输入数据对应的目标特征向量可以是基于目标输入数据处理得到的特征向量,也可以是用于将目标特征向量处理为特征向量所需要用到的支持数据(例如,该支持数据可以是作为样本被使用的特征向量等等)。
如果执行主体能够从目标数据湖中提取出与目标输入数据对应的目标特征向量以作为非结构化数据的替代,则执行步骤403。
应当理解的是,与向目标数据湖中存入内容相类似,执行主体也可以在目标输入数据的数据类型并不是非结构化数据类型的情况下,直接从目标数据湖中为将其提供至第二数据处理模型以进行处理,此处不再重复说明。
步骤403:从目标数据湖中提取目标特征向量,并将目标特征向量作为第二数据处理模型的实际输入,利用第二数据处理模型生成与目标特征向量对应的目标输出结果;
本步骤旨在,在上述步骤402的基础上,如果执行主体确定目标数据湖中可以提供目标特征向量,则执行主体可以从目标数据湖中提取出该目标特征向量,并将输入至第二数据处理模型进行处理,以利用第二数据处理模型生成与目标特征向量对应的目标输出结果。
步骤404:向目标设备提供目标输出结果。
本步骤旨在,在上述步骤403的基础上,由执行主体将输出的目标输出结果提供至目标设备,以完成数据处理流程。
本公开提供的面向大模型场景的处理数据的方法,能够利用以特征向量形式存储非结构化数据的目标数据湖作为数据处理模型的数据来源,能够简化数据处理模型配置要求的同时,提升数据处理模型的处理能力。
在本实施例的一些可选的实现方式中,响应于未能从目标数据湖中提取出与目标输入数据对应的目标特征向量,则流程400中还可以包括步骤405。步骤405可以在执行主体执行步骤402后,确定未能从目标数据湖中提取出与目标输入数据对应的目标特征向量以作为非结构化数据的替代的情况下执行。
步骤405:标记目标特征向量;
具体地,执行主体可以对所需要的目标特征向量进行标记。例如,执行主体可以维护目标特征向量的描述信息,以作为标记。
步骤406:监测存储至目标数据湖的更新特征向量,检测是否存在与目标特征向量相对应的目标更新特征向量;
具体地,在上述步骤405的基础上,执行主体可以持续地监控被存储至目标数据湖的更新特征向量的内容,并检测更新特征向量中是否包括、存在目标更新特征向量。即,执行主体可以连续地检测是否已经将所需要的目标更新特征向量更新、存储至目标数据湖中。
进一步地,如果执行主体检测到已经将所需要的目标更新特征向量更新、存储至目标数据湖中,则可以选择执行步骤407。
步骤407:向目标设备发送第一提示信息。
具体地,执行主体检测到已经将所需要的目标特征向量更新、存储至目标数据湖后(即,通过加入目标更新特征向量的方式将目标特征向量更新至目标数据湖),可以利用第一提示信息提示执行主体目标数据湖中已具备支持能力(即,可以提供目标数据湖)。或者说,第一提示信息可以指示目标设备被允许利用数据处理模型处理目标输入数据。相应地,目标设备的使用用户可以基于需求来选择是否需要再次发出使用目标特征向量的请求。由此,可以通过这样的事件通知机制,使得当上游将待存储数据存储至目标数据湖后发送通知消息,使得下游能够定时消费通知消息,处理增量数据。这种方式将上下游进行解耦,能够通过流式的方式处理增量数据。
在本实施例的一些可选的实现方式中,如上述说明的,在利用数据处理队列提供待处理数据的情况下,执行主体还就可以响应于数据处理队列中不存在与目标输入数据相关联的目标待存储数据,向目标设备发送第二提示信息,第二提示信息指示目标设备不被允许利用第二数据处理模型处理目标输入数据。
具体地,如果利用数据处理队列提供待处理数据,在目标数据湖中不存在目标特征向量的情况下,执行主体可以通过检测数据处理队列中的待处理数据,以确定未来是否会补入“目标特征向量”。如果执行主体确定数据处理队列中缺乏用于补入“目标特征向量”的待处理数据时,其可以向目标设备发送第二提示信息。第二提示信息可以指示目标设备不被允许利用第二数据处理模型处理目标输入数据。由此,使得目标数据湖在缺乏支持能力的情况下,拒绝目标设备调用由目标数据湖提供指示的第二数据模型,能够避免处理错误的同时,对用户进行反馈、避免用户错误地等待响应。
此外,在本实施例的一些可选的实现方式中,在利用数据处理队列提供待存储数据的情况下,如果执行主体确定数据处理队列中存在与目标输入数据相关联的目标待存储数据,则执行主体还可以选择调整目标待存储数据在数据处理队列中的数据输出优先级至目标优先级。例如,基于预先的处理优先级规则,基于优先处理顺序配置有优先级1、2和3,处理顺序可以为:优先级1>优先级2>优先级3。执行主体可以将优先级1确定为目标优先级,以对目标待存储数据的处理优先级进行调整,以使得目标待存储数据可以尽快地被处理。由此,使得与目标特征向量的待存储数据可以优先地被处理,以减少用户侧的等待时间。
在一些实施例中,执行主体也可以选择直接调整目标待存储数据在数据处理队列的序列,以达到类似的目的。例如,执行主体可以将目标待存储数据的处理顺位前调至第X位,以加快处理。示例性地,执行主体可以通过将目标待存储数据在数据处理队列的序列的位置调整为完成当前处理后,立即进行处理的“下一顺位”,以使得在完成当前的待处理数据的处理后,便能立即地对目标待存储数据进行处理,以减少用户侧的等待时间。
为加深理解,本公开还结合一个具体应用场景,给出了一种具体的实现方案,请参见如图5所示的流程500。流程500可以包括如上述说明的、面向大模型场景的存储数据和处理数据两个流程。例如,可以由服务器105作为存储数据和处理数据的执行主体,由终端设备103来为服务器105提供用于存储至数据湖(例如,目标数据湖530)的待存储数据(例如,待存储数据510)。由终端设备101来调取生成式语言模型525对目标输入数据(例如,目标输入数据540)进行处理。
下面将详细说明,具体流程如下:
服务器105响应于接收到来自终端设备103的、待存储至目标数据湖530的待存储数据510后,服务器105可以检测待存储数据530的数据类型。
服务器105响应于确定待存储有数据510的数据类型为非结构化数据类型,利用生成式语言模型520来对其进行处理,生成待存储数据510的特征向量515。
进一步地,服务器105可以将特征向量515作为待存储数据510的替代,存储至目标数据湖530中。
接下来,终端设备101在期望调用生成式语言模型525处理目标输入数据540的情况下,其可以向服务器105发送包括目标输入数据540的调用请求545的调用请求。生成式语言模型525通过将生成式语言模型520的模型数据来源由生成式语言模型520的本地数据调整为目标数据湖530得到。
服务器105响应于从终端设备101接收到调用生成式语言模型525处理目标输入数据540的调用请求545后,获取目标输入数据540。
接下来,服务器105响应于目标输入数据540的数据类型为非结构化数据类型,确定是否能从目标数据湖530中提取出与目标输入数据540对应的目标特征向量550。
为方便理解,示例性地在流程500中,服务器105能够从目标数据湖530中提取出与目标输入数据540对应的目标特征向量550。
接下来,服务器105可以将目标特征向量550作为生成式语言模型525的实际输入,利用生成式语言模型525生成与目标特征向量550对应的目标输出结果560。
最终,服务器105可以向终端设备101提供目标输出结果560,以利用目标数据湖530作为生成式语言模型525的模型数据来源,为用户(或者说,终端设备101)提供基于生成式语言模型525的数据处理服务。
进一步参考图6,作为对上述各图所示方法的实现,本公开提供了一种面向大模型场景的存储数据的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的面向大模型场景的存储数据的装置600可以包括:数据类型检测单元601、特征向量转换单元602和特征向量存储单元603。其中,数据类型检测单元601,被配置成响应于接收到待存储至目标数据湖的待存储数据,检测待存储数据的数据类型;特征向量转换单元602,被配置成响应于数据类型为非结构化数据类型,生成待存储数据的特征向量;特征向量存储单元603,被配置成将特征向量作为待存储数据的替代,存储至目标数据湖。
在本实施例中,面向大模型场景的存储数据的装置600中:数据类型检测单元601、特征向量转换单元602和特征向量存储单元603的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,响应于连续接收到多个待存储数据,多个待存储数据被基于数据处理队列的方式依次地进行处理,装置600还包括:初始数据获取单元,被配置成响应于接收到数据源发出的数据提供请求,获取数据源提供的一组初始待存储数据;数据差异比较单元,被配置成基于一组初始待存储数据与一组待存储数据的差异比较,确定存入数据处理队列的一组差异待存储数据,其中,一组差异待存储数据中的差异待存储数据包括存在于一组初始待存储数据中,且未存在于在一组待存储数据中的初始待存储数据;差异数据存入单元,被配置成将一组差异待存储数据存入数据处理队列。
在本实施例的一些可选的实现方式中,装置600还包括:重复数据检测单元,被配置成响应于存在已处理待存储数据,检测一组差异待存储数据中是否存在与已处理待存储数据对应的目标差异待存储数据,其中,已处理待存储数据包括已经生成对应的特征向量的历史待存储数据;差异数据更新单元,被配置成响应于一组差异待存储数据中存在目标差异待存储数据,删除目标差异待存储数据,得到更新后的一组差异存储数据;以及差异数据存入单元,进一步被配置成,将更新后的一组差异存储数据存入数据处理队列。
在本实施例的一些可选的实现方式中,特征向量转换单元602进一步被配置成,响应于数据类型为非结构化数据类型,利用第一数据处理模型处理待存储数据,生成待存储数据的特征向量。
进一步参考图7,作为对上述各图所示方法的实现,本公开提供了一种处理数据的装置的一个实施例,该装置实施例与图4所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的面向大模型场景的处理数据的装置700可以包括:调用请求接收单元701、目标特征向量检测单元702、目标特征向量提取单元703和目标结果输出单元704。其中,调用请求接收单元701,被配置成响应于从目标设备接收到调用第二数据处理模型处理目标输入数据的调用请求,获取目标输入数据,其中,第二数据处理模型通过将第一数据处理模型的模型数据来源由第一数据处理模型的本地数据调整为目标数据湖得到,目标数据湖基于图6所示出的存储数据的装置600得到;目标特征向量检测单元702,被配置成响应于目标输入数据的数据类型为非结构化数据类型,确定是否能从目标数据湖中提取出与目标输入数据对应的目标特征向量;目标特征向量提取单元703,被配置成响应于能从目标数据湖中提取出与目标输入数据对应的目标特征向量,从目标数据湖中提取目标特征向量,并将目标特征向量作为第二数据处理模型的实际输入,利用第二数据处理模型生成与目标特征向量对应的目标输出结果;目标结果输出单元704,被配置成向目标设备提供目标输出结果。
在本实施例中,面向大模型场景的处理数据的装置700中:调用请求接收单元701、目标特征向量检测单元702、目标特征向量提取单元703和目标结果输出单元704的具体处理及其所带来的技术效果可分别参考图4对应实施例中的步骤401-404的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,装置700还包括:调用请求接收单元,被配置成响应于从目标设备接收到调用第二数据处理模型处理目标输入数据的调用请求,获取目标输入数据,其中,第二数据处理模型通过将第一数据处理模型的模型数据来源由第一数据处理模型的本地数据调整为目标数据湖得到;目标特征向量检测单元,被配置成响应于目标输入数据的数据类型为非结构化数据类型,确定是否能从目标数据湖中提取出与目标输入数据对应的目标特征向量;目标特征向量提取单元,被配置成响应于能从目标数据湖中提取出与目标输入数据对应的目标特征向量,从目标数据湖中提取目标特征向量,并将目标特征向量作为第二数据处理模型的实际输入,利用第二数据处理模型生成与目标特征向量对应的目标输出结果;目标结果输出单元,被配置成向目标设备提供目标输出结果。
在本实施例的一些可选的实现方式中,响应于未能从目标数据湖中提取出与目标输入数据对应的目标特征向量,装置700还包括:目标特征向量标记单元,被配置成标记目标特征向量;数据湖更新监测单元,被配置成监测存储至目标数据湖的更新特征向量,检测是否存在与目标特征向量相对应的目标更新特征向量;第一提示信息发送单元,被配置成响应于存在与目标特征向量相对应的目标更新特征向量,向目标设备发送第一提示信息,第一提示信息用于指示目标设备被允许利用第二数据处理模型处理目标输入数据。
在本实施例的一些可选的实现方式中,响应于连续接收到多个待存储数据,多个待存储数据被基于数据处理队列的方式依次地进行处理,装置700还包括:队列处理顺序调整单元,被配置成响应于数据处理队列中存在与目标输入数据相关联的目标待存储数据,调整目标待存储数据在数据处理队列中的数据输出优先级至目标优先级。
在本实施例的一些可选的实现方式中,装置700还包括:第二提示信息发送单元,被配置成响应于数据处理队列中不存在与目标输入数据相关联的目标待存储数据,向目标设备发送第二提示信息,第二提示信息指示目标设备不被允许利用第二数据处理模型处理目标输入数据。
本实施例作为对应于上述方法实施例的装置实施例存在,本实施例提供的面向大模型场景的处理数据的装置,能够利用以特征向量形式存储非结构化数据的目标数据湖作为数据处理模型的数据来源,能够简化数据处理模型配置要求的同时,提升数据处理模型的处理能力。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如面向大模型场景的存储数据方法和/或处理数据的方法。例如,在一些实施例中,面向大模型场景的存储数据方法和/或处理数据的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的面向大模型场景的存储数据方法和/或处理数据的方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行面向大模型场景的存储数据方法和/或处理数据的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大,业务扩展性弱的缺陷。服务器也可以分为分布式系统的服务器,或者是结合了区块链的服务器。
根据本公开实施例的技术方案,在向数据湖存入数据时,将非结构化数据转化为特征向量进行存储,使得数据湖能够利用特征向量的形式,来提供可以被直接使用、用于为模型推理和训练支持的“非结构化数据”,这样的方式能够提升数据湖的数据支持能力,并扩展数据湖的应用场景。
进一步地,基于上述面向大模型场景的存储数据方法,本公开提供的面向大模型场景的处理数据的方法,能够利用以特征向量形式存储非结构化数据的目标数据湖作为数据处理模型的数据来源,能够简化数据处理模型配置要求的同时,提升数据处理模型的处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (21)
1.一种面向大模型场景的存储数据方法,包括:
响应于接收到待存储至目标数据湖的待存储数据,检测所述待存储数据的数据类型;
响应于所述数据类型为非结构化数据类型,生成所述待存储数据的特征向量;
将所述特征向量作为所述待存储数据的替代,存储至所述目标数据湖。
2.根据权利要求1所述的方法,其中,响应于连续接收到多个待存储数据,所述多个待存储数据被基于数据处理队列的方式依次地进行处理,还包括:
响应于接收到数据源发出的数据提供请求,获取所述数据源提供的一组初始待存储数据;
基于一组初始待存储数据与所述数据处理队列中的一组待存储数据的差异比较,确定存入所述数据处理队列的一组差异待存储数据,其中,所述一组差异待存储数据中的差异待存储数据包括存在于所述一组初始待存储数据中,且未存在于在所述一组待存储数据中的初始待存储数据;
将所述一组差异待存储数据存入所述数据处理队列。
3.根据权利要求2所述的方法,还包括:
响应于存在已处理待存储数据,检测所述一组差异待存储数据中是否存在与所述已处理待存储数据对应的目标差异待存储数据,其中,所述已处理待存储数据包括已经生成对应的特征向量的历史待存储数据;
响应于所述一组差异待存储数据中存在所述目标差异待存储数据,删除所述目标差异待存储数据,得到更新后的一组差异存储数据;以及
所述将所述一组差异待存储数据存入所述数据处理队列,包括:
将所述更新后的一组差异存储数据存入所述数据处理队列。
4.根据权利要求1所述的方法,其中,生成所述待存储数据的特征向量,包括:
利用第一数据处理模型处理所述待存储数据,生成所述待存储数据的特征向量。
5.根据权利要求1-4任一项所述的方法,其中,所述第一数据处理模型基于生成式语言模型被配置。
6.一种面向大模型场景的处理数据的方法,包括:
响应于从目标设备接收到调用第二数据处理模型处理目标输入数据的调用请求,获取所述目标输入数据,其中,所述第二数据处理模型通过将所述第一数据处理模型的模型数据来源由所述第一数据处理模型的本地数据调整为目标数据湖得到,所述目标数据湖基于权利要求1-5中所述的面向大模型场景的存储数据方法得到;
响应于所述目标输入数据的数据类型为非结构化数据类型,确定是否能从所述目标数据湖中提取出与所述目标输入数据对应的目标特征向量;
响应于能从所述目标数据湖中提取出与所述目标输入数据对应的目标特征向量,从所述目标数据湖中提取所述目标特征向量,并将所述目标特征向量作为所述第二数据处理模型的实际输入,利用所述第二数据处理模型生成与所述目标特征向量对应的目标输出结果;
向所述目标设备提供所述目标输出结果。
7.根据权利要求6所述的方法,其中,响应于未能从所述目标数据湖中提取出与所述目标输入数据对应的目标特征向量,还包括:
标记所述目标特征向量;
监测存储至所述目标数据湖的更新特征向量,检测是否存在与所述目标特征向量相对应的目标更新特征向量;
响应于存在与所述目标特征向量相对应的目标更新特征向量,向所述目标设备发送第一提示信息,所述第一提示信息用于指示所述目标设备被允许利用所述第二数据处理模型处理所述目标输入数据。
8.根据权利要求7所述的方法,其中,响应于连续接收到多个待存储数据,所述多个待存储数据被基于数据处理队列的方式依次地进行处理,还包括:
响应于所述数据处理队列中存在与所述目标输入数据相关联的目标待存储数据,调整所述目标待存储数据在所述数据处理队列中的数据输出优先级至目标优先级。
9.根据权利要求8所述的方法,还包括:
响应于所述数据处理队列中不存在与所述目标输入数据相关联的目标待存储数据,向所述目标设备发送第二提示信息,所述第二提示信息指示所述目标设备不被允许利用所述第二数据处理模型处理所述目标输入数据。
10.一种面向大模型场景的存储数据的装置,包括:
数据类型检测单元,被配置成响应于接收到待存储至目标数据湖的待存储数据,检测所述待存储数据的数据类型;
特征向量转换单元,被配置成响应于所述数据类型为非结构化数据类型,生成所述待存储数据的特征向量;
特征向量存储单元,被配置成将所述特征向量作为所述待存储数据的替代,存储至所述目标数据湖。
11.根据权利要求10所述的装置,其中,响应于连续接收到多个待存储数据,所述多个待存储数据被基于数据处理队列的方式依次地进行处理,还包括:
初始数据获取单元,被配置成响应于接收到数据源发出的数据提供请求,获取所述数据源提供的一组初始待存储数据;
数据差异比较单元,被配置成基于一组初始待存储数据与所述一组待存储数据的差异比较,确定存入所述数据处理队列的一组差异待存储数据,其中,所述一组差异待存储数据中的差异待存储数据包括存在于所述一组初始待存储数据中,且未存在于在所述一组待存储数据中的初始待存储数据;
差异数据存入单元,被配置成将所述一组差异待存储数据存入所述数据处理队列。
12.根据权利要求11所述的装置,还包括:
重复数据检测单元,被配置成响应于存在已处理待存储数据,检测所述一组差异待存储数据中是否存在与所述已处理待存储数据对应的目标差异待存储数据,其中,所述已处理待存储数据包括已经生成对应的特征向量的历史待存储数据;
差异数据更新单元,被配置成响应于所述一组差异待存储数据中存在所述目标差异待存储数据,删除所述目标差异待存储数据,得到更新后的一组差异存储数据;以及
所述差异数据存入单元,进一步被配置成,将所述更新后的一组差异存储数据存入所述数据处理队列。
13.根据权利要求10所述的装置,其中所述特征向量转换单元进一步被配置成,响应于所述数据类型为非结构化数据类型,利用第一数据处理模型处理所述待存储数据,生成所述待存储数据的特征向量。
14.根据权利要求10-13中任一项所述的装置,其中,所述第一数据处理模型基于生成式语言模型被配置。
15.一种面向大模型场景的处理数据的装置,包括:
调用请求接收单元,被配置成响应于从目标设备接收到调用第二数据处理模型处理目标输入数据的调用请求,获取所述目标输入数据,其中,所述第二数据处理模型通过将所述第一数据处理模型的模型数据来源由所述第一数据处理模型的本地数据调整为目标数据湖得到,所述目标数据湖基于权利要求10-14中所述的存储数据的装置得到;
目标特征向量检测单元,被配置成响应于所述目标输入数据的数据类型为非结构化数据类型,确定是否能从所述目标数据湖中提取出与所述目标输入数据对应的目标特征向量;
目标特征向量提取单元,被配置成响应于能从所述目标数据湖中提取出与所述目标输入数据对应的目标特征向量,从所述目标数据湖中提取所述目标特征向量,并将所述目标特征向量作为所述第二数据处理模型的实际输入,利用所述第二数据处理模型生成与所述目标特征向量对应的目标输出结果;
目标结果输出单元,被配置成向所述目标设备提供所述目标输出结果。
16.根据权利要求15所述的装置,其中,响应于未能从所述目标数据湖中提取出与所述目标输入数据对应的目标特征向量,还包括:
目标特征向量标记单元,被配置成标记所述目标特征向量;
数据湖更新监测单元,被配置成监测存储至所述目标数据湖的更新特征向量,检测是否存在与所述目标特征向量相对应的目标更新特征向量;
第一提示信息发送单元,被配置成响应于存在与所述目标特征向量相对应的目标更新特征向量,向所述目标设备发送第一提示信息,所述第一提示信息用于指示所述目标设备被允许利用所述第二数据处理模型处理所述目标输入数据。
17.根据权利要求16所述的装置,其中,响应于连续接收到多个待存储数据,所述多个待存储数据被基于数据处理队列的方式依次地进行处理,还包括:
队列处理顺序调整单元,被配置成响应于所述数据处理队列中存在与所述目标输入数据相关联的目标待存储数据,调整所述目标待存储数据在所述数据处理队列中的数据输出优先级至目标优先级。
18.根据权利要求17所述的装置,还包括:
第二提示信息发送单元,被配置成响应于所述数据处理队列中不存在与所述目标输入数据相关联的目标待存储数据,向所述目标设备发送第二提示信息,所述第二提示信息指示所述目标设备不被允许利用所述第二数据处理模型处理所述目标输入数据。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的面向大模型场景的存储数据方法和/或权利要求6-9中任一项所述的面向大模型场景的处理数据方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的面向大模型场景的存储数据方法和/或权利要求6-9中任一项所述的面向大模型场景的处理数据方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的面向大模型场景的存储数据方法和/或权利要求6-9中任一项所述的面向大模型场景的处理数据方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311745724.4A CN117743335A (zh) | 2023-12-18 | 2023-12-18 | 面向大模型场景的存储数据和处理数据的方法、相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311745724.4A CN117743335A (zh) | 2023-12-18 | 2023-12-18 | 面向大模型场景的存储数据和处理数据的方法、相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117743335A true CN117743335A (zh) | 2024-03-22 |
Family
ID=90260356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311745724.4A Pending CN117743335A (zh) | 2023-12-18 | 2023-12-18 | 面向大模型场景的存储数据和处理数据的方法、相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117743335A (zh) |
-
2023
- 2023-12-18 CN CN202311745724.4A patent/CN117743335A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10693816B2 (en) | Communication methods and systems, electronic devices, and computer clusters | |
JP2021170335A (ja) | アプリケーション構築方法、装置、電子設備、記憶媒体、及びプログラム | |
EP4057283A2 (en) | Method for detecting voice, method for training, apparatuses and smart speaker | |
EP3933719A2 (en) | Method, apparatus, device, storage medium and computer program product for labeling data | |
WO2023206889A1 (zh) | 模型推理方法、装置、设备及存储介质 | |
CN115964153A (zh) | 一种异步任务处理方法、装置、设备以及存储介质 | |
CN113778644B (zh) | 任务的处理方法、装置、设备及存储介质 | |
CN113094125A (zh) | 业务流程处理方法、装置、服务器及存储介质 | |
US10162829B2 (en) | Adaptive parallel data processing | |
CN116932147A (zh) | 流式作业处理方法、装置、电子设备及介质 | |
CN114697398B (zh) | 数据处理方法、装置、电子设备、存储介质及产品 | |
CN117743335A (zh) | 面向大模型场景的存储数据和处理数据的方法、相关装置 | |
CN116527652A (zh) | 一种文件格式转换路径的确定方法、装置、设备及介质 | |
CN115935909A (zh) | 一种文件生成方法、装置及电子设备 | |
CN115599571A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN113377476B (zh) | 界面显示方法、相关装置及计算机程序产品 | |
CN112966201B (zh) | 对象处理方法、装置、电子设备以及存储介质 | |
CN112925623B (zh) | 任务处理方法、装置、电子设备和介质 | |
CN114510334A (zh) | 类实例的调用方法、装置、电子设备及自动驾驶车辆 | |
CN113641359A (zh) | 一种数据处理方法和装置 | |
CN115826934B (zh) | 一种应用开发系统和方法 | |
CN113656038B (zh) | 编辑处理方法及装置 | |
CN113360407B (zh) | 函数的定位方法、装置、电子设备及可读存储介质 | |
CN113360624B (zh) | 训练方法、应答方法、装置、电子设备以及存储介质 | |
CN113722642B (zh) | 网页页面的转换方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |