CN117113990B

CN117113990B - 面向大语言模型的词向量生成方法、电子设备及存储介质

Info

Publication number: CN117113990B
Application number: CN202311374453.6A
Authority: CN
Inventors: 罗引; 蒋永余; 王宇琪; 李庆晓; 徐楠; 曹家; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-12
Anticipated expiration: 2043-10-23
Also published as: CN117113990A

Abstract

本发明涉及计算机技术应用领域，提供了一种面向大语言模型的词向量生成方法、电子设备及存储介质，包括：获取待分词的文本，作为目标文本；对目标文本进行分词处理，得到对应的分词集S；基于预设词向量基准表T，获取每个词在每个嵌入矩阵的特征向量；基于预设滑动窗口长度d，将S划分为多个语句片段，得到对应的语句片段集SP；对每个语句片段的特征向量进行融合，得到对应的特征向量；得到SP对应的特征向量F作为目标文本的特征向量。本发明在词向量生成过程中，将多个相邻的词组合视为一个词，能够使得分词的长度得到极大的压缩。此外，将不同词的特征向量通过张量积的方式组合成一个词的特征向量，可以极大的降低可训练参数量。

Description

面向大语言模型的词向量生成方法、电子设备及存储介质

技术领域

本发明涉及计算机技术应用领域，特别是涉及一种面向大语言模型的词向量生成方法、电子设备及存储介质。

背景技术

目前，开源的大语言模型主要有三大类：ChatGLM衍生的大模型例如denda、ChatSQL等、LLaMA衍生的大模型例如Alpaca、Vicuna、BELLE、Phoenix、Chimera等、Bloom衍生的大模型例如Bloomz、BELLE、Phoenix等。其中，ChatGLM-6B主要以中英双语进行训练，LLaMA主要以英语为主要语言的拉丁语系进行训练，而Bloom使用了46种自然语言、13种编程语言进行训练。多语言大模型的研发是实现真正的通用人工智能的重要一步。

目前，大模型所使用的词嵌入技术能够将文本数据中的单词表示成一个固定长度的向量，以便计算机对文本进行处理。当词表大小和词向量维度很大时，词嵌入矩阵将占用大量的模型参数。原版LLaMA模型的词表大小是32K，而多语言模型（如：XLM-R、Bloom）的词表大小约为250K。开发及应用多语种大模型主要难点就是减少多语言模型的词表大小，压缩模型参数，从而减少磁盘和内存空间的需求，使模型能在资源受限的设备上进行部署。当前使用的词嵌入技术主要使用BBPE算法，采用BBPE的好处是可以跨语言共用词表，显著压缩多语种词表的大小。而坏处就是，对于类似中文这样需要多个字节编码的语言，一段文字的序列长度会显著增长，这也导致了更长的训练/推理时间。

发明内容

针对上述技术问题，本发明采用的技术方案为：

本发明实施例提供一种面向大语言模型的词向量生成方法，用于多语言大模型的分词器的分词处理，所述方法包括如下步骤：

S100，获取待分词的文本，作为目标文本。

S200，对目标文本进行分词处理，得到对应的分词集S=（S₁，S₂，……，S_i，……，S_m）；其中，S_i为目标文本中的第i个词，i的取值为1到m，m为目标文本中的词数量。

S300，基于预设词向量基准表T，获取S_i在第j个嵌入矩阵的特征向量P^j _i；T=（T₁，T₂，……，T_j，……，T_k），T_j为第j个词向量基准表，j的取值为1到k，k为词向量基准表的数量；T_j中的第r行为（w_r，D^j _r），w_r为T对应的预设词表中的第r个词，D^j _r为第r个词在第j个嵌入矩阵的特征向量，D^j _r=（d^j _r1，d^j _r2，……，d^j _rs，……，d^j _rn），d^j _rs为D^j _r中的第s个特征值；j的取值为1到k，k为嵌入矩阵的数量；r的取值为1到L，L为V中的词数量；s的取值为1到n，n为特征向量的长度。

S400，基于预设滑动窗口长度d，将S划分为t个语句片段，得到对应的语句片段集SP={SP₁，SP₂，……，SP_h，……，SP_t}；SP_h为SP中的第h个语句片段，h的取值为1到t，，/>表示向上取整。

S500，对SP_h对应的语句片段的特征向量进行融合，得到SP_h对应的特征向量F_h；得到SP对应的特征向量F作为目标文本的特征向量；F=（F₁，F₂，……，F_h，……，F_t）。

本发明至少具有以下有益效果：

本发明在词向量生成过程中，将多个相邻的词组合视为一个词，能够使得分词的长度得到极大的压缩。此外，将不同词的特征向量通过张量积的方式组合成一个词的特征向量，可以极大的降低可训练参数量。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征向量，也不用于限制本发明的范围。本发明的其它特征向量将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的面向大语言模型的词向量生成方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种面向大语言模型的词向量生成方法，旨在对多语言大模型的分词器进行优化，即用于多语言大模型的分词器的分词处理。

本领域技术人员知晓的是，多语言大模型可为现有的开源的大语言模型，如ChatGLM衍生的大模型例如denda、ChatSQL等、LLaMA衍生的大模型例如Alpaca、Vicuna、BELLE、Phoenix、Chimera等、Bloom衍生的大模型例如Bloomz、BELLE、Phoenix等。

本发明为了进一步压缩多语言模型的词表及在分词过程中构建一部分词法信息,本发明使用基于分解的词嵌入压缩方法，该方法主要是利用低秩矩阵分解和张量分解的逆过程，将原始大的词嵌入矩阵用一系列小的矩阵或者张量来代替，模型只需要存储这些小矩阵或张量的参数，从而实现词嵌入参数的压缩。首先，将每个UTF-8字节使用低纬度向量表示，然后将分词后的词语使用多个字节表示，最后通过将词语表示为若干个低维字节向量的张量直积的和。本发明的目的是实现数十倍甚至数百倍的词嵌入参数压缩，并以保持下游任务的效果。

本领域技术人员知晓的是，UTF-8使用1-4字节为每个字符编码。

进一步地，如图1所示，本发明实施例提供的词向量生成方法可包括如下步骤：

S100，获取待分词的文本，作为目标文本。

在本发明实施例中，待分词的文本可以是一句话或者一段话。

在S200中，可基于BBPE算法对目标文本进行分词处理，将目标文本分割成多个Subword（子词），即按照词的subword进行分词。如：Today is sunday. 则会分割成[to，day，is ， s，un，day， .]

S300，基于预设词向量基准表T，获取S_i在第j个嵌入矩阵的特征向量P^j _i。

在本发明实施例中，T可基于如下步骤获取得到：

S31，构建字节表。

本发明使用多语言初始词表构建字节表作为预设词表，以V表示，其长度为∣V∣+1，∣V∣表示词表的长度。其中，V中的每个元素表示在数据集上通过BBPE算法根据词表长度统计得到的一个subword字节组合，V中的最后一个元素为填充字节。填充字节例如可为空白字符。

本领域技术人员知晓的是，V中的每个元素可为包含各种语言字符、汉字、数字、标点符号、空白字符等任何组合形式的subword。词表长度可为自定义值。

本领域技术人员知晓，基于数据集和词表长度，利用BBPE算法生成对应的词表可为现有技术。

S32，构建嵌入矩阵，得到T。

对词表V中每个subword构建一个长度为n的特征向量，称之为嵌入矩阵。在一个示意性实施例中，本发明构建k个初始的subword嵌入矩阵，这样，能够得到V的每个元素在每个嵌入矩阵下的特征向量，即T=（T₁，T₂，……，T_j，……，T_k），T_j为第j个词向量基准表，j的取值为1到k，k为词向量基准表的数量；T_j中的第r行为（w_r，D^j _r），w_r为T对应的预设词表中的第r个词，D^j _r为第r个词在第j个嵌入矩阵的特征向量，D^j _r=（d^j _r1，d^j _r2，……，d^j _rs，……，d^j _rn），d^j _rs为D^j _r中的第s个特征值；j的取值为1到k，k为嵌入矩阵的数量；r的取值为1到L，L为V中的词数量；s的取值为1到n，n为特征向量的长度。

在本发明实施例中，k为用户自定义值，k≥1。

在本发明实施例中，初始的嵌入矩阵是通过正态分布随机初始化得到的，即嵌入矩阵的初始值通过正态分布随机初始化得到，随着多语言大模型的训练会不断更新。

进一步地，S300可具体包括：

S301，获取S和预设词表之间的索引集I={I₁，I₂，……，I_i，……，I_m}，I_i为S_i在预设词表中对应的索引值，索引值可为词在预设词表中的行编号。

S302，基于I_i和T_j，获取S_i在第j个嵌入矩阵的特征向量P^j _i。

通过构建索引集，能够将S中的subword用其在词表V中的索引值表示，进而方便索引。

在本发明实施例中，d的取值可基于实际需要设置。在一个示意性实施例中，d≥2。在一个优选实施例中，2≤d≤5，更优选，3≤d≤5。

本领域技术人员知晓的是，如果SP_h的长度不足d，则使用填充字节进行补充。例如，目标文本为“张三今天没有来上班。”，如果预设词表都是单个字的情况下，对应的分词集为“张，三，今，天，没，有，来，上，班，。”如果d=3，由于目标文本的词长度为10，=4，这样，第4个语句片段的长度为1，不足3，则使用两个填充字节补充。如果预设词表是字词词组，则“张三今天没有来上班。”对应的分词集为“张三，今天，没有来，上班，。”。如果d=3，由于目标文本的词长度为5，/>=2，这样，第2个语句片段的长度为2，不足3，则使用一个填充字节补充。

在本发明实施例中，F_h为SP_h对应的语句片段在k个嵌入矩阵的特征向量的加权平均，即F_h=（1/k）∑^k _j=1f^j _h。其中，f^j _h为SP_h在第j个嵌入矩阵的特征向量，f^j _h=y（P^j _h1，P^j _h2，……，P^j _hu，……，P^j _hd），P^j _hu为SP_h中的第u个词在第j个嵌入矩阵的特征向量，u的取值为1到d；y（）表示预设函数表达式。

在本发明一示意性实施例中，每个语句片段对应的特征向量可为包含的d个词的特征向量的张量积，即，/>表示叉乘。

本发明实施例提供的词向量生成方法，由于目标文本分词后的长度为⌈m/d⌉，与传统的BBPE算法分词后的长度相比，能够减少1/r，可训练词嵌入矩阵参数量由（∣V∣+1）×n降为k×（∣V∣+1）×（n）^1/r，从而能够极大的降低可训练参数量。

在本发明实施例提供的词向量生成方法在实际应用场景中，得到的目标文本的特征向量可以输入到大语言模型中对模型进行训练。

根据本发明的实施例，本发明还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

示例性实施例中，电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上实施例所述的方法。

示例性实施例中，可读存储介质可以是存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据以上实施例所述的方法。

示例性实施例中，计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现根据以上实施例所述的方法。

电子设备旨在表示各种形式的用户终端，各种形式的数字计算机，诸如，台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

在一个示意性实施例中，电子设备可包括计算单元，其可以根据存储在只读存储器(ROM)中的计算机程序或者从存储单元加载到随机访问存储器(RAM)中的计算机程序，来执行各种适当的动作和处理。在RAM中，还可存储设备操作所需的各种程序和数据。计算单元以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

进一步地，电子设备中的多个部件连接至I/O接口，包括：输入单元，例如键盘、鼠标等；输出单元，例如各种类型的显示器、扬声器等；存储单元，例如磁盘、光盘等；以及通信单元，例如网卡、调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元执行上文所描述的各个方法和处理，例如服务容量调控方法。例如，在一些实施例中，服务容量调控方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到RAM并由计算单元执行时，可以执行上文描述的服务容量调控方法的一个或多个步骤。备选地，在其他实施例中，计算单元可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行服务容量调控方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种面向大语言模型的词向量生成方法，其特征在于，用于多语言大模型的分词器的分词处理，所述方法包括如下步骤：

S100，获取待分词的文本，作为目标文本；

S200，对目标文本进行分词处理，得到对应的分词集S=（S₁，S₂，……，S_i，……，S_m）；其中，S_i为目标文本中的第i个词，i的取值为1到m，m为目标文本中的词数量；

S300，基于预设词向量基准表T，获取S_i在第j个嵌入矩阵的特征向量P^j _i；T=（T₁，T₂，……，T_j，……，T_k），T_j为第j个词向量基准表，j的取值为1到k，k为词向量基准表的数量；T_j中的第r行为（w_r，D^j _r），w_r为T对应的预设词表中的第r个词，D^j _r为第r个词在第j个嵌入矩阵的特征向量，D^j _r=（d^j _r1，d^j _r2，……，d^j _rs，……，d^j _rn），d^j _rs为D^j _r中的第s个特征值；j的取值为1到k，k为嵌入矩阵的数量；r的取值为1到L，L为V中的词数量；s的取值为1到n，n为特征向量的长度；

S400，基于预设滑动窗口长度d，将S划分为t个语句片段，得到对应的语句片段集SP={SP₁，SP₂，……，SP_h，……，SP_t}；SP_h为SP中的第h个语句片段，h的取值为1到t，t=⌈m/d⌉，⌈ ⌉表示向上取整；

S500，对SP_h对应的语句片段的特征向量进行融合，得到SP_h对应的特征向量F_h；得到SP对应的特征向量F作为目标文本的特征向量；F=（F₁，F₂，……，F_h，……，F_t）；

其中，F_h=（1/k）∑^k _j=1f^j _h；f^j _h为SP_h在第j个嵌入矩阵的特征向量，f^j _h=P^j _h1 P^j _h2/>……P^j _hu……/>P^j _hd，/>表示叉乘，P^j _hu为SP_h中的第u个词在第j个嵌入矩阵的特征向量，u的取值为1到d。

2.根据权利要求1所述的方法，其特征在于，所述嵌入矩阵的初始值通过正态分布随机初始化得到。

3.根据权利要求1所述的方法，其特征在于，在S200中，基于BBPE算法对目标文本进行分词处理。

4.根据权利要求1所述的方法，其特征在于，S300具体包括：

S301，获取S和预设词表之间的索引集I={I₁，I₂，……，I_i，……，I_m}，I_i为S_i在预设词表中对应的索引值；

5.根据权利要求1所述的方法，其特征在于，d≥2。

6.一种电子设备，其特征在于，包括处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至5任一项所述方法的步骤。

7.一种非瞬时性计算机可读存储介质，其特征在于，所述非瞬时性计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至5任一项所述方法的步骤。