CN117033394B - 一种大语言模型驱动的向量数据库构建方法及系统 - Google Patents

一种大语言模型驱动的向量数据库构建方法及系统 Download PDF

Info

Publication number
CN117033394B
CN117033394B CN202311287265.XA CN202311287265A CN117033394B CN 117033394 B CN117033394 B CN 117033394B CN 202311287265 A CN202311287265 A CN 202311287265A CN 117033394 B CN117033394 B CN 117033394B
Authority
CN
China
Prior art keywords
vector
data
dimensional
query
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311287265.XA
Other languages
English (en)
Other versions
CN117033394A (zh
Inventor
屠静
王亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuoshi Future Beijing technology Co ltd
Original Assignee
Zhuoshi Future Beijing technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuoshi Future Beijing technology Co ltd filed Critical Zhuoshi Future Beijing technology Co ltd
Priority to CN202311287265.XA priority Critical patent/CN117033394B/zh
Publication of CN117033394A publication Critical patent/CN117033394A/zh
Application granted granted Critical
Publication of CN117033394B publication Critical patent/CN117033394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种大语言模型驱动的向量数据库构建方法及系统,属于向量数据库技术领域。所述方法包括:对原始数据进行清洗和归一化处理,生成预处理后的数据;应用基于大语言模型的编码器,将预处理后的数据转换为高维向量;该编码器由多个Transformer层组成,每个Transformer层都包括多头自注意力机制和前馈神经网络,以便捕捉输入数据中的复杂模式和依赖关系;对生成的高维向量进行优化,该优化通过解决一个特定的优化问题来实现;将优化后的高维向量存储到一个基于树结构的高效索引结构中,从而构建向量数据库。这种方法及系统允许高度精确和高效的数据检索,特别适用于大规模数据集。

Description

一种大语言模型驱动的向量数据库构建方法及系统
技术领域
本发明涉及向量数据库技术领域,特别涉及一种大语言模型驱动的向量数据库构建方法及系统。
背景技术
在数据管理和信息检索的领域,向量数据库已经成为一种非常重要的数据存储和查询手段。向量数据库通常用于存储大量的高维向量,并允许用户通过向量检索的方式来查询和检索信息。然而,传统的向量数据库存在一些局限性,尤其是在处理大规模、高维和复杂数据时。例如,对于非结构化或半结构化数据,传统的编码和索引方法可能无法有效地捕捉数据中存在的复杂模式和依赖关系。此外,高维数据的优化和索引也是一大挑战,因为需要解决诸如"维数灾难"等问题。
大语言模型,如基于Transformer架构的模型,已经证明了其在处理复杂和大规模数据方面的有效性,特别是在自然语言处理、机器翻译和其他多种应用场景中。然而,到目前为止,这些模型还没有被广泛地应用于向量数据库的构建和优化。
针对以上问题,亟需研发一种新颖的向量数据库构建方法及系统,其能够有效地处理和优化高维向量数据,同时也能利用大语言模型的强大能力来提高数据库构建和查询的效率和准确性。
发明内容
本申请提供一种大语言模型驱动的向量数据库构建方法及系统,以提高向量数据库构建的效率和准确性。
本申请提供一种大语言模型驱动的向量数据库构建方法,包括:
对于原始数据进行清洗和归一化处理,生成预处理后数据;
应用基于大语言模型的编码器,将预处理后数据转换为高维向量;该编码器由多个Transformer层组成,每个Transformer层包含多头自注意力机制和前馈神经网络,以便捕捉输入数据中存在的复杂模式和依赖关系;
对生成的高维向量进行优化,该优化通过解决如下优化问题实现:
其中,表示目标为最小化矩阵/>的目标函数;矩阵/>包括所有生成的高维向量,/>;/>是高维向量的数量;/>表示生成的第i个高维向量和第/>个高维向量/>之间的相似度;/>是正则化系数;
将优化后的高维向量存储到一个基于树结构的高效索引结构中,从而构建向量数据库。
更进一步地,所述的向量数据库构建方法,还包括:
当接收到用户查询请求时,利用基于大语言模型的解码器,将所述用户查询请求转换为查询向量;
根据所述查询向量,使用所述高效索引结构,在所述向量数据库中找到与该查询向量最匹配的数据项。
更进一步地,所述查询向量经由一个软件过滤器处理,该软件过滤器根据以下公式确定是否接受查询:
其中,S是接受分数;是查询向量的第i个元素的权重;/>是查询向量的第i个元素;n是查询向量的维度;/>是一个预设的阈值。
更进一步地,所述优化问题解决过程进一步包括用于调节正则化系数的自适应算法,该自适应算法具体步骤包括:
初始化一个预设的正则化系数和阈值/>
在每个优化迭代过程中,计算目标函数的当前值和上一次迭代的值
计算两次迭代目标函数值之间的差值
如果,则按照/>增大/>,其中/>
如果,则按照/>减小/>,其中/>
使用调整后的值进行下一轮优化迭代;
其中,和/>是预先设定的常数,用于控制增大和减小幅度;/>是一个预设的阈值,用于判断目标函数是否已经趋于稳定。
更进一步地,所述优化问题的解决过程使用梯度下降算法,该梯度下降算法的具体步骤如下:
初始化一个高维向量矩阵作为初始解,其中,,N是高维向量的数量;
设置学习率和收敛阈值/>
进行多次迭代,每次迭代包括如下步骤:
计算当前矩阵的目标函数/>,具体为/>
根据目标函数,计算梯度/>
使用计算出的梯度更新矩阵/>,即/>
计算新的目标函数值
判断与/>之间的差值是否小于预设的收敛阈值/>,若是,则停止迭代;
其中,学习率是一个预先设定的常数,用于控制每次迭代中矩阵/>的更新步长,收敛阈值/>用于判断优化问题是否已经收敛。
更进一步地,所述预处理包括去除数据中的噪音和异常值。
更进一步地,所述基于大语言模型的编码器使用预训练权重。
更进一步地,所述高效索引结构是基于k-d树的索引结构。
更进一步地,所述相似度是通过余弦相似度计算得出的。
本申请提供一种大语言模型驱动的向量数据库构建系统,包括:
预处理单元,用于对于原始数据进行清洗和归一化处理,生成预处理后数据;
转换单元,用于应用基于大语言模型的编码器,将预处理后数据转换为高维向量;该编码器由多个Transformer层组成,每个Transformer层包含多头自注意力机制和前馈神经网络,以便捕捉输入数据中存在的复杂模式和依赖关系;
优化单元,用于对生成的高维向量进行优化,该优化通过解决如下优化问题实现:
其中,表示目标为最小化矩阵/>的目标函数;矩阵/>包括所有生成的高维向量,/>;/>是高维向量的数量;/>表示生成的第i个高维向量/>和第/>个高维向量/>之间的相似度;/>是正则化系数;
构建单元,用于将优化后的高维向量存储到一个基于树结构的高效索引结构中,从而构建向量数据库。
本申请提供的技术方案首次将大语言模型用于向量数据库的构建,这是一种全新的应用方式。在高维向量生成后,本申请提出了一个优化问题来进一步优化这些向量。这些步骤具有突出的实质性特点。
本申请提供的技术方案有如下有益的效果:
(1)通过使用基于大语言模型的编码器,可以更准确地捕获数据的内在结构和复杂性,从而提高后续数据检索和分析的准确性。
(2)优化后的高维向量被存储在一种高效索引结构中,这将显著提高查询速度和数据库操作的整体效率。
附图说明
图1是本申请第一实施例提供的一种大语言模型驱动的向量数据库构建方法的流程图。
图2是本申请第二实施例提供的一种大语言模型驱动的向量数据库构建系统的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请第一实施例提供一种大语言模型驱动的向量数据库构建方法。请参看图1,该图为本申请第一实施例的流程图。以下结合图1对本申请第一实施例提供一种大语言模型驱动的向量数据库构建方法进行详细说明。本实施例可以在一台高性能的计算机中实施。
步骤S101:对于原始数据进行清洗和归一化处理,生成预处理后数据。
本实施例中,原始数据指的是待输入到大语言模型驱动的向量数据库构建方法的信息。具体来说,这些数据可能包括但不限于文本、图像、视频、音频或其他多媒体内容,以及它们的元数据。对与语言大模型而言,原始数据主要可以是文本数据,例如文章、评论、社交媒体帖子等。也可以通过技术手段,将图像、视频、音频等其他类型数据转换为语言大模型可以识别的数据。
所述预处理包括去除数据中的噪音和异常值。比如:
数据缺失:某些字段或记录可能因为各种原因(如传感器故障或数据传输问题)而未被正确记录。
数据不准确:例如,传感器读数可能因为校准不准确或环境因素(如温度、湿度)的影响而产生误差。
数据冗余:在数据收集过程中,相同的信息可能会被多次记录,导致数据冗余。
数据格式不一致:如果数据来源多样,可能存在格式不一致的问题,例如日期和时间的格式,或者文本的编码方式等。
原始数据需要经过一系列预处理步骤,包括清洗和归一化,以便转换为更适用于后续分析和处理的格式。经过预处理后的数据一般更准确、更一致,并且更容易被后续步骤所利用。
数据清洗主要是识别并纠正(或删除)这些错误或不一致性。这可能包括但不限于移除异常值、填补缺失值或修正明显的错误。数据清洗通常需要定制的逻辑或算法来处理特定数据集的特性。
归一化是将所有数据变量调整到相同的范围的过程。这通常是为了确保数据在进行后续计算或应用机器学习算法时具有一致的影响。例如,某个特征的取值范围在1至10,而另一个特征的取值范围在100至1000,没有进行归一化处理的话,取值范围大的特征可能会对模型造成更大的影响。常见的归一化方法包括Z-score标准化、Min-Max标准化等。
经过清洗和归一化处理后,数据将被转换为一种更容易被后续步骤处理的格式或结构。这个预处理后的数据集不仅在数值上更为准确和一致,而且经过了结构化处理,适合用于高维向量的生成。
该步骤对于整个向量数据库构建流程至关重要,因为只有当数据经过严格的预处理后,基于大语言模型的编码器才能准确地捕捉到数据中存在的复杂模式和依赖关系。此外,优质的预处理数据还有助于优化步骤和高效索引结构的构建。
总体而言,步骤S101不仅为后续步骤提供了高质量的输入数据,还提高了整个向量数据库构建方法的准确性和效率。
步骤S102:应用基于大语言模型的编码器,将预处理后数据转换为高维向量。该编码器由多个Transformer层组成,每个Transformer层包含多头自注意力机制和前馈神经网络,以便捕捉输入数据中存在的复杂模式和依赖关系。
这里的大语言模型可以采用国内的华为盘古、阿里巴巴的通义千问、科大讯飞的星火、百度的文心一言以及国外的ChatGPT,Bard等等,对于本领域技术人员而言,可以根据需要,选用适用的大语言模型,并参考相关文档实施本步骤。这里仅作一般意义上的说明。
每个Transformer层包含多头自注意力机制,输入数据首先被投影到多个“头”中,每个头都有其自己的权重矩阵。这使得模型能够从不同的子空间中捕获输入数据的不同方面或特征。通过自注意力机制,模型可以对输入数据中的各部分赋予不同的关注程度,这样模型就能捕获数据中的长距离依赖和复杂模式。
经过多头自注意力机制的处理后,数据流会进入前馈神经网络。这通常是一个由全连接层构成的简单网络结构。前馈神经网络的目的是在保留输入数据复杂性的同时,进行一定程度的抽象和概括。
在Transformer层中,多头自注意力机制和前馈神经网络通常都会有自己的参数,这些参数在模型训练过程中会被优化以达到特定的性能指标。
编码器通常由多个这样的Transformer层堆叠而成,以便能捕捉到输入数据中存在的更复杂的模式和依赖关系。通过这种方式,编码器生成的高维向量能够更好地表示原始输入数据,为后续的数据优化和检索提供了有力的支持。
更进一步地,所述基于大语言模型的编码器使用预训练权重。
预训练权重通常来源于在大型数据集上进行的预训练模型。这些大型数据集可能包括各种类型的数据,如文本、图像、声音等,具体取决于预训练模型的应用场景和目标。这些预训练模型通常由研究机构、大学或企业通过高性能计算资源进行训练,并在多个任务和评价指标上进行验证和测试。
对于本领域技术人员来说,实施预训练权重有几种方式:
公开资源:许多预训练模型和对应的权重文件已经被公开,可以从各种开源平台或数据仓库下载。在这种情况下,技术人员只需下载相应的权重文件,并将其导入到自己的模型中。
商业产品:也有一些企业提供预训练模型作为商业产品,这些产品通常会提供更为详细和专业的支持和文档。
自行训练:技术人员也可以选择使用自己的数据集来训练模型,然后将训练得到的权重用于后续任务。这通常需要较大的计算资源和专门的知识。
微调:除了直接使用预训练权重,技术人员还可以选择在特定任务或数据集上对预训练模型进行微调(Fine-tuning),以提高模型在特定任务上的性能。
因此,预训练权重的实施对于本领域技术人员来说是相对直接和简单的,但可能需要根据具体的应用场景和需求进行适当的选择和调整。
预训练权重是通过在大量的数据集上进行预先训练的模型参数。这些权重包含了大量实际数据中的模式和信息,因此具有更好的泛化能力。引入预训练权重有助于快速并准确地将预处理后的原始数据转换为高维向量。
由于使用了预训练权重,编码器生成的高维向量更可能准确地捕获原始数据中的语义和结构信息。这对于构建高质量的向量数据库至关重要。
使用预训练权重通常会减少模型训练所需的时间和计算资源。因为大部分的模型参数已经在预训练阶段得到了优化,只需要在特定任务上进行微调即可。使用预训练权重的编码器通常对不同类型和来源的数据表现出更好的鲁棒性。这是因为预训练模型通常在多样化的大数据集上进行训练,能够捕捉到多种类型数据的通用特征和模式。
预训练权重不仅仅是用于一个特定的任务或数据集,它们具有很好的转移学习能力。这意味着同一套预训练权重可以用于多个不同但相关的任务,增加了其应用的灵活性。使用预训练权重可以提高编码器生成的高维向量的精度和可靠性,因为预训练模型通常在多个评价指标上都有很好的表现。
综合而言,步骤S102的关键在于有效地将预处理后的数据转换为一种能捕获其内在结构和语义信息的高维表示形式。这种转换是通过应用一个或多个精心设计的Transformer层来实现的,这些层能够综合捕获输入数据中的多层次、多维度信息。
步骤S103:对生成的高维向量进行优化。该优化通过解决如下优化问题实现:
其中,表示目标为最小化矩阵/>的目标函数;矩阵/>包括所有生成的高维向量,/>;/>是高维向量的数量;/>表示生成的第i个高维向量和第/>个高维向量/>之间的相似度;/>是正则化系数。
该优化问题的目标是最小化一个目标函数,该函数由两个主要组成部分构成。第一部分考虑生成的高维向量之间的相似度,第二部分是一个正则化项。
矩阵V包含了所有生成的高维向量,表示为;/>是生成的高维向量的数量。/>表示生成的第i个高维向量/>和第/>个高维向量/>之间的相似度。/>是正则化系数,用于控制正则化项的权重。正则化项是/>,它起到约束优化问题的作用,防止过拟合。
在目标函数中,表示欧氏距离的平方,用于衡量两个高维向量之间的距离。
虽然优化问题的具体形式已经定义,但实际解决这个问题通常需要使用一种优化算法,如梯度下降、牛顿法等。需要注意的是,优化算法可能只找到局部最优解,而非全局最优解。因此,初始条件和参数调整在实际应用中具有重要意义。
这种优化方式具有多方面的有益效果:首先,通过明确的数学优化模型,增加了模型的可解释性和可验证性;其次,正则化项的引入有助于防止模型过拟合,提高模型的泛化能力;最后,通过优化处理,生成的高维向量能够更准确地反映原始数据中的信息,从而提高向量数据库的查询精度和效率。
更进一步的,所述相似度是通过余弦相似度计算得出的。
具体地,余弦相似度可以通过如下公式进行计算:
其中,•表示向量和/>的点积,通过将相应维度的值相乘然后求和得到。
和/>过以下公式计算欧氏长度(即欧氏范数)的:
其中,vk是向量的第k维。
这样,通过余弦相似度,即使在高维空间中,也能够有效地计算两个向量的相似性,从而生成相似度
更进一步地,所述优化问题解决过程进一步包括用于调节正则化系数λ的自适应算法,该自适应算法具体步骤包括:
初始化一个预设的正则化系数和阈值/>
在每个优化迭代过程中,计算目标函数的当前值和上一次迭代的值
计算两次迭代目标函数值之间的差值
如果,则按照/>增大/>,其中/>
如果,则按照/>减小/>,其中/>
使用调整后的值进行下一轮优化迭代;
其中,和/>是预先设定的常数,用于控制的增大和减小幅度;/>是一个预设的阈值,用于判断目标函数是否已经趋于稳定。
正则化系数是优化问题中一个关键的超参数,它平衡了模型的复杂度和拟合度,从而避免过拟合或欠拟合。因此,该自适应算法的引入有助于优化目标函数,确保模型泛化能力和数据拟合的平衡。
该自适应算法具体步骤如下:
初始化一个预设的正则化系数和阈值/>,这一步为优化过程设置起始参数。其中,/>是正则化系数的初始值,而/>是用于判断优化过程是否收敛的阈值。
在每个优化迭代过程中,计算目标函数的当前值和上一次迭代的值,这里,/>表示目标函数在当前迭代中的值,/> 是上一次迭代的目标函数值。这两个值用于后续判断目标函数是否趋于稳定。
计算两次迭代目标函数值之间的差值;这一步的目的是量化目标函数的稳定性。
如果,则按照/>增大/>,其中/>,当目标函数变化小于预设阈值/>时,意味着模型可能过于简单或已经趋于稳定。为了进一步提炼模型,会通过参数/>来增大正则化系数/>
如果,则按照/>减小/>,其中/>,反之,如果目标函数的变化大于/>,则模型可能过于复杂。通过调小正则化系数/>,目的是降低模型的复杂度。
使用调整后的值进行下一轮优化迭代,根据新的/>值,进行下一步的优化,以便更有效地最小化目标函数。
特别需要注意的是,和/>是预先设定的常数,用于控制/>的增大和减小幅度。这两个参数的选取通常基于实验或领域知识,以确保λ的调整是合适和有效的。
通过这一自适应算法,本实施例提供了一种动态、自适应的方法来优化高维向量数据库构建过程中的关键超参数,从而实现更高的模型性能和更好的数据拟合。
更进一步地,所述优化问题的解决过程使用梯度下降算法,该梯度下降算法的具体步骤如下:
初始化一个高维向量矩阵作为初始解,其中,/>,N是高维向量的数量,这一步为优化算法提供了一个起点。初始解的选择可能依据问题的具体性质或随机初始化。
设置学习率和收敛阈值/>:学习率/>控制每次迭代更新的步长,而收敛阈值/>用于判断优化过程是否已达到稳定。这两个参数通常是基于经验或者预实验来设定的。
进行多次迭代,每次迭代包括如下步骤:
计算当前矩阵的目标函数/>,具体为/>,这个目标函数体现了高维向量之间的相似度和每个高维向量的大小。
根据目标函数,计算梯度/>,这一步是梯度下降算法的核心,通过计算目标函数关于当前解/>的梯度,以确定下一步迭代的方向。
使用计算出的梯度更新矩阵/>,即/>,这里/>是当前解,而/>是通过应用梯度下降更新得到的新解。
计算新的目标函数值,用于与当前目标函数值/>进行比较。
判断与/>之间的差值是否小于预设的收敛阈值/>,若是,则停止迭代,这一步用于判断优化过程是否已经收敛到一个稳定值,如果是,则算法终止。
需要特别强调的是,学习率是一个预先设定的常数,用于控制每次迭代中矩阵的更新步长。该值的选择至关重要,因为过大的学习率可能导致优化过程不稳定,而过小的值可能使得算法收敛速度过慢。同时,收敛阈值/>用于判断优化问题是否已经收敛,通常也是经验设定的。
综上所述,本实施例通过使用梯度下降算法精细化了优化问题的求解过程,提供了一种在高维空间中构建有效和高质量的向量数据库的具体途径。
步骤S104:将优化后的高维向量存储到一个基于树结构的高效索引结构中,从而构建向量数据库。
此步骤在整个方法中起到关键作用,因为它不仅促进了向量数据的有效管理,还实现了高效的数据检索。以下是对该步骤的超级详细的说明,以符合专利法对于说明书的要求:
在进行了前面几个步骤后,得到的高维向量经过了深度优化,以满足特定的目标函数或约束。这些高维向量是向量数据库的核心数据,需要被有效地组织和存储。
基于树结构的高效索引结构,所使用的是一种基于树结构(如K-D树、R树、B树等)的索引结构。这种结构提供了一个层次化的方式来存储高维向量,使得在大规模数据集上的查询能在较短的时间内完成。
向量数据库不仅仅是一个简单的数据存储容器,而是一个集成了多种功能,如数据检索、更新和删除等功能的复杂系统。在本步骤中,优化后的高维向量被插入到上述树结构中,构成了一个完整的、可操作的向量数据库。
具体实施步骤包括:
(1)在高维向量插入到树结构之前,可能还需进行一系列预处理操作,如向量分解或哈希等,以便更高效地存储和检索。
在向量插入到基于树结构的索引之前,进行预处理是一项重要步骤。预处理可能包括向量分解和哈希等操作。
向量分解,可以通过主成分分析(PCA)、自编码器或其他降维算法进行。目的是减小数据维度,同时保持原始数据中的主要特征。
哈希操作,可以通过哈希算法,例如Locality-Sensitive Hashing(LSH)或其他哈希技术,可将高维向量映射到更低维的哈希空间中。这样做不仅减小了存储需求,也加速了后续的数据检索操作。
(2)树结构的构建和更新过程可能涉及多种算法和优化策略,以保证数据库的高效性和可扩展性。
根据数据特性和查询需求,可以选择K-D树、R树、B树或其他适合的树结构。对树结构进行平衡和优化,例如通过旋转操作或合并子节点,以减少查询时间和提高存储效率。
(3)在树结构中,每个节点可能存储一个或多个高维向量,并可能包含指向子节点的链接,这些子节点进一步细分了存储空间。
节点可能仅存储一个高维向量,或者为了增加检索效率,可能存储多个相关的高维向量。除了存储高维向量,每个节点还可能包含指向其子节点的链接。这些子节点进一步细分了数据存储空间,并促进了更高效的数据检索。
(4)该树结构支持多种查询操作,包括但不限于范围查询、最近邻查询和复合查询等。
范围查询,能够找出在给定范围内的所有高维向量。
最近邻查询,通过特定的距离度量,如欧氏距离或余弦相似度,找出与查询向量最接近的高维向量。
复合查询,支持多条件和多维度的查询,例如,找出满足多个特性或条件的高维向量。
(5)为了提高数据的可用性和持久性,向量数据库可能会部署在分布式存储系统上。
数据可能分布在多个服务器或集群上,以提高数据的可访问性和故障容忍性。
为了进一步提高数据可用性,可能会对数据进行复制或备份。在分布式环境下,负载均衡和数据同步也是重要的考虑因素,以确保所有节点能高效地响应查询请求。
综上所述,步骤S104通过使用基于树结构的高效索引结构来存储优化后的高维向量,实现了对大规模高维数据的高效管理和检索。
更进一步地,所述向量数据库构建方法,还包括:
当接收到用户查询请求时,利用基于大语言模型的解码器,将所述用户查询请求转换为查询向量;
根据所述查询向量,使用所述高效索引结构,在所述向量数据库中找到与该查询向量最匹配的数据项。
用户查询请求的接收与转换的步骤涉及当系统接收到用户查询请求时,如何利用基于大语言模型的解码器,将这一请求转换为查询向量。请注意,该步骤本领域技术人员可以根据选用的大语言模型,参考相关文档实施,这里仅作一般性说明。
首先,选取一个基于大语言模型的解码器。这个解码器可能基于Transformer结构或其它先进的神经网络架构。解码器可以预先训练,也可能根据特定应用进行微调。
解码器接收用户的文本或语音查询,然后通过一系列神经网络层进行信息处理和特征提取,最终输出一个高维的查询向量。这一查询向量在多维空间中代表了用户查询的语义信息。
可能还需要对解码器进行一系列优化操作,例如使用梯度剪裁、正则化或其他技巧,以提高模型的泛化能力和准确度。
在转换得到查询向量后,系统会利用高效索引结构,在向量数据库中找到与该查询向量最匹配的数据项。
在此,选择一个高效的索引结构,例如K-D树、R树或哈希索引,以便快速进行向量检索。这些索引结构需要根据特定的应用需求和数据特性来选择和构建。
为了找到与查询向量最匹配的数据项,需要定义一个适当的相似度度量或距离函数,如余弦相似度、欧氏距离等。
执行实际的查询操作,这可能涉及遍历索引结构、计算距离或相似度,以及排序和选择最匹配的数据项。该过程可以通过多种优化算法来加速,例如启发式搜索、剪枝等。
系统将找到的最匹配数据项返回给用户。同时,如果需要,可以提供关于如何得到这一匹配项的解释,以提高用户体验和系统的可解释性。
更进一步地,所述查询向量经由一个软件过滤器处理,该软件过滤器根据以下公式确定是否接受查询:
其中,S是接受分数;是查询向量的第i个元素的权重;/>是查询向量的第i个元素;n是查询向量的维度;/>是一个预设的阈值。
该软件过滤器是一个编程实现的软件模块,可以是独立运行的程序或是嵌入在向量数据库系统内部的一个子模块。该软件过滤器应当在系统启动时初始化,加载所需的参数和设置。
该软件过滤器根据以下公式确定是否接受查询:
其中,S是接受分数,用于衡量查询向量是否应被接受。
是查询向量的第i个元素的权重。
该权重可以从多个来源获取:
(1)预先设定:在系统初始化时,权重可以被预先设定,并存储在一个权重矩阵或数组中。
(2)动态学习:系统也可以通过机器学习方法来动态地学习和调整这些权重。
(3)用户输入:在某些应用场景下,权重可以由用户或管理员设置。
该权重的确定方法包括如下几种方式:
(1)基于专家经验:根据该领域内的经验和知识,手动设定每个维度的权重。
(2)数据驱动:通过观察历史数据或进行数据分析来确定每个维度的影响力,并据此设定权重。
(3)优化算法:使用优化算法,如梯度下降或遗传算法,对权重进行自动优化。
是查询向量的第i个元素;n是查询向量的维度;/>是一个预设的阈值。
该过滤器操作流程包括:
(1)接收查询向量:软件过滤器接收来自解码器的查询向量,这是一个n维的高维向量。
(2)权重初始化与设置:根据实际需要,为查询向量的每一个维度i设置相应的权重
(3)计算接受分数S:依据上述公式,通过计算各项和其平方根,最终得出接受分数S。
(4)决策与输出:如果计算出的S大于预设阈值,则接受此查询向量并将其传送至下一阶段进行进一步处理。否则,该查询会被拒绝。
阈值应经过多次测试和验证,以确定其对系统性能和准确性的影响。权重/>可能需要根据实际应用场景或数据分布进行动态调整。
在上述的实施例中,提供了一种大语言模型驱动的向量数据库构建方法,与之相对应的,本申请还提供一种大语言模型驱动的向量数据库构建系统。请参看图2,其为本申请的一种大语言模型驱动的向量数据库构建实施例的示意图。由于本实施例,即第二实施例,基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。
本申请第二实施例提供一种大语言模型驱动的向量数据库构建系统,包括:
预处理单元201,用于对于原始数据进行清洗和归一化处理,生成预处理后数据;
转换单元202,用于应用基于大语言模型的编码器,将预处理后数据转换为高维向量;该编码器由多个Transformer层组成,每个Transformer层包含多头自注意力机制和前馈神经网络,以便捕捉输入数据中存在的复杂模式和依赖关系;
优化单元203,用于对生成的高维向量进行优化,该优化通过解决如下优化问题实现:
其中,表示目标为最小化矩阵/>的目标函数;矩阵/>包括所有生成的高维向量,/>;/>是高维向量的数量;/>表示生成的第i个高维向量和第/>个高维向量/>之间的相似度;/>是正则化系数;
构建单元204,用于将优化后的高维向量存储到一个基于树结构的高效索引结构中,从而构建向量数据库。
本申请第三实施例提供一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行本申请第一实施例中提供的大语言模型驱动的向量数据库构建方法。
本申请第四实施例提供一种计算机可读取存储介质,其上存储有计算机程序,该程序被处理器执行时,执行本申请第一实施例中提供的大语言模型驱动的向量数据库构建方法。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (8)

1.一种大语言模型驱动的向量数据库构建方法,其特征在于,包括:
对于原始数据进行清洗和归一化处理,生成预处理后数据;
应用基于大语言模型的编码器,将预处理后数据转换为高维向量;该编码器由多个Transformer层组成,每个Transformer层包含多头自注意力机制和前馈神经网络,以便捕捉输入数据中存在的复杂模式和依赖关系;
对生成的高维向量进行优化,该优化通过解决如下优化问题实现:
其中,表示目标为最小化矩阵V的目标函数;矩阵V包括所有生成的高维向量,N是高维向量的数量;/>表示生成的第i个高维向量/>和第j个高维向量/>之间的相似度;/>是正则化系数,用于控制正则化项的权重;正则化项是/>
在目标函数中,表示欧氏距离的平方,用于衡量两个高维向量之间的距离;
所述相似度是通过余弦相似度计算得出的,余弦相似度/>通过如下公式进行计算:
其中,表示向量/>和/>的点积,通过将相应维度的值相乘然后求和得到;/>和/>通过以下公式计算欧氏长度,即欧氏范数:
其中,v k 是向量v的第k维;
所述优化问题解决过程进一步包括用于调节正则化系数λ的自适应算法,该自适应算法具体步骤包括:
初始化一个预设的正则化系数和阈值/>
在每个优化迭代过程中,计算目标函数的当前值fV)和上一次迭代的值f(V prev );
计算两次迭代目标函数值之间的差值
如果,则按照/>增大/>,其中/>
如果,则按照/>减小/>,其中/>
使用调整后的值进行下一轮优化迭代;
其中,和/>是预先设定的常数,用于控制增大和减小幅度;/>是一个预设的阈值,用于判断目标函数是否已经趋于稳定;
将优化后的高维向量存储到一个基于树结构的高效索引结构中,从而构建向量数据库。
2.根据权利要求1所述的向量数据库构建方法,其特征在于,还包括:
当接收到用户查询请求时,利用基于大语言模型的解码器,将所述用户查询请求转换为查询向量;
根据所述查询向量,使用所述高效索引结构,在所述向量数据库中找到与该查询向量最匹配的数据项。
3.根据权利要求2所述的向量数据库构建方法,其特征在于,所述查询向量经由一个软件过滤器处理,该软件过滤器根据以下公式确定是否接受查询:
其中,S是接受分数;是查询向量的第i个元素的权重;/>是查询向量的第i个元素;n是查询向量的维度;/>是一个预设的阈值。
4.据权利要求1所述的向量数据库构建方法,其特征在于,所述优化问题的解决过程使用梯度下降算法,该梯度下降算法的具体步骤如下:
初始化一个高维向量矩阵V 0作为初始解,其中,N是高维向量的数量;
设置学习率η和收敛阈值
进行多次迭代,每次迭代包括如下步骤:
计算当前矩阵V的目标函数fV),具体为
根据目标函数,计算梯度/>
使用计算出的梯度更新矩阵V,即/>
计算新的目标函数值
判断与/>之间的差值是否小于预设的收敛阈值/>,若是,则停止迭代;
其中,学习率η是一个预先设定的常数,用于控制每次迭代中矩阵V的更新步长,收敛阈值'用于判断优化问题是否已经收敛。
5.根据权利要求1所述的向量数据库构建方法,其特征在于,所述预处理包括去除数据中的噪音和异常值。
6.根据权利要求1所述的向量数据库构建方法,其特征在于,所述基于大语言模型的编码器使用预训练权重。
7.根据权利要求1所述的向量数据库构建方法,其特征在于,所述高效索引结构是基于k-d树的索引结构。
8.一种大语言模型驱动的向量数据库构建系统,其特征在于,包括:
预处理单元,用于对于原始数据进行清洗和归一化处理,生成预处理后数据;
转换单元,用于应用基于大语言模型的编码器,将预处理后数据转换为高维向量;该编码器由多个Transformer层组成,每个Transformer层包含多头自注意力机制和前馈神经网络,以便捕捉输入数据中存在的复杂模式和依赖关系;
优化单元,用于对生成的高维向量进行优化,该优化通过解决如下优化问题实现:
其中,表示目标为最小化矩阵V的目标函数;矩阵V包括所有生成的高维向量,N是高维向量的数量;/>表示生成的第/>个高维向量/>和第个高维向量/>之间的相似度;/>是正则化系数,用于控制正则化项的权重;正则化项是
在目标函数中,表示欧氏距离的平方,用于衡量两个高维向量之间的距离;
所述相似度是通过余弦相似度计算得出的,余弦相似度/>通过如下公式进行计算:
其中,表示向量/>和/>的点积,通过将相应维度的值相乘然后求和得到;
和/>通过以下公式计算欧氏长度,即欧氏范数:
其中,v小 k 是向量v的第k维;
所述优化问题解决过程进一步包括用于调节正则化系数的自适应算法,该自适应算法具体步骤包括:
初始化一个预设的正则化系数和阈值/>
在每个优化迭代过程中,计算目标函数的当前值fV)和上一次迭代的值f(V prev );
计算两次迭代目标函数值之间的差值
如果,则按照/>增大/>,其中/>
如果,则按照/>减小/>,其中/>
使用调整后的值进行下一轮优化迭代;
其中,和/>是预先设定的常数,用于控制增大和减小幅度;/>是一个预设的阈值,用于判断目标函数是否已经趋于稳定;
构建单元,用于将优化后的高维向量存储到一个基于树结构的高效索引结构中,从而构建向量数据库。
CN202311287265.XA 2023-10-08 2023-10-08 一种大语言模型驱动的向量数据库构建方法及系统 Active CN117033394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311287265.XA CN117033394B (zh) 2023-10-08 2023-10-08 一种大语言模型驱动的向量数据库构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311287265.XA CN117033394B (zh) 2023-10-08 2023-10-08 一种大语言模型驱动的向量数据库构建方法及系统

Publications (2)

Publication Number Publication Date
CN117033394A CN117033394A (zh) 2023-11-10
CN117033394B true CN117033394B (zh) 2023-12-08

Family

ID=88632141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311287265.XA Active CN117033394B (zh) 2023-10-08 2023-10-08 一种大语言模型驱动的向量数据库构建方法及系统

Country Status (1)

Country Link
CN (1) CN117033394B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473071B (zh) * 2023-12-27 2024-04-05 珠海格力电器股份有限公司 数据检索方法、装置、设备及计算机可读介质
CN117954134A (zh) * 2024-03-26 2024-04-30 北京大学第三医院(北京大学第三临床医学院) 一种基于大语言模型的患者健康监测和干预系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033762A (zh) * 2022-04-30 2022-09-09 杭州电子科技大学 一种可编程控制器功能块智能聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021000362A1 (zh) * 2019-07-04 2021-01-07 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033762A (zh) * 2022-04-30 2022-09-09 杭州电子科技大学 一种可编程控制器功能块智能聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于高维特征表示的交通场景识别;刘文华;李浥东;王涛;邬俊;金一;;智能科学与技术学报(第04期);77-84 *

Also Published As

Publication number Publication date
CN117033394A (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN117033394B (zh) 一种大语言模型驱动的向量数据库构建方法及系统
Steck Embarrassingly shallow autoencoders for sparse data
WO2020019236A1 (en) Loss-error-aware quantization of a low-bit neural network
CN109783682B (zh) 一种基于点对相似度的深度非松弛哈希图像检索方法
US10510021B1 (en) Systems and methods for evaluating a loss function or a gradient of a loss function via dual decomposition
US7617164B2 (en) Efficiency of training for ranking systems based on pairwise training with aggregated gradients
US20180341862A1 (en) Integrating a memory layer in a neural network for one-shot learning
US20100076911A1 (en) Automated Feature Selection Based on Rankboost for Ranking
Mu et al. Gradients as features for deep representation learning
CN113868366B (zh) 一种面向流数据的在线跨模态检索方法与系统
CN110765363B (zh) 一种基于高斯分布表示的深度推荐系统
EP3920100A1 (en) Adaptive pointwise-pairwise learning to rank
CN111008224A (zh) 一种基于深度多任务表示学习的时间序列分类和检索方法
CN111709523A (zh) 一种基于内部集成的宽度学习方法
CN115525771A (zh) 基于上下文数据增强的少样本知识图谱表示学习方法及系统
Kishore et al. IncDSI: incrementally updatable document retrieval
Borsos et al. Data summarization via bilevel optimization
CN112949599B (zh) 基于大数据的候选内容推送方法
Gueorguieva et al. Solving large scale classification problems with stochastic based optimization
Hop Web-shop order prediction using machine learning
Hao et al. Learnable Model Augmentation Contrastive Learning for Sequential Recommendation
Massey Real-world text clustering with adaptive resonance theory neural networks
JP2021081930A (ja) 学習装置、情報分類装置、及びプログラム
Wu et al. Imbalanced Question Classification Using Generative Prototypes
Katharopoulos Stop Wasting my FLOPS: Improving the Efficiency of Deep Learning Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant