CN118072128A

CN118072128A - 一种细粒度多模态大模型训练方法

Info

Publication number: CN118072128A
Application number: CN202410478451.XA
Authority: CN
Inventors: 杨恒; 龙涛; 余文炫; 李轩; 吴永杰; 李娟�; 陈序
Original assignee: Shenzhen Aimo Technology Co ltd
Current assignee: Shenzhen Aimo Technology Co ltd
Priority date: 2024-04-19
Filing date: 2024-04-19
Publication date: 2024-05-24

Abstract

本发明公开了一种细粒度多模态大模型训练方法，包括如下步骤：S1、获取烟包陈列图像，将烟包陈列图像输入语义分割模型；S2、语义分割模型对烟包陈列图像进行分割，生成烟包分割图像，烟包分割图像包括每个烟包的陈列位置信息；S3、将烟包分割图像输入至图像识别模型，生成烟包信息，每个烟包信息包括烟包品牌、规格、商标、公司以及烟包价格；S4、将每个烟包的烟包信息和烟包分割图像的陈列位置信息进行结构化处理，得到每个烟包的文本信息，并输入至大语言模型；S5、基于用户提问，大语言模型根据每个烟包的文本信息输出用户提问对应的烟包陈列信息。本发明能够使大语言模型所输出的烟包陈列信息与用户的提问更加契合。

Description

一种细粒度多模态大模型训练方法

技术领域

本发明涉及大语言模型应用领域，尤其涉及一种细粒度多模态大模型训练方法。

背景技术

LVM（Large Visual Model）是一种用于图像处理和计算机视觉任务的模型，其主要是在图像数据集上进行训练和推理。例如，百度的文心一言、腾讯的混元助手、阿里的通义千问、讯飞的讯飞星火、清华的VisualGLM等，这些通用的LVM在图像理解和解析领域都具备一定的通用能力，因此被广泛应用。

在现有技术中，LVM一般会对图像数据进行预处理以及特征提取，并将特征表示为向量，随后将这些数据输入到经训练的模型中，最后基于用户的提问来输出图像的类别或标签。

然而，上述的LVM对于粗粒度的图像虽具备一定的识别能力，但在细粒度（也即，目标相似）的烟包陈列图像的识别和理解上误差较大，无法准确地识别烟包陈列图像中具体的烟草信息（例如，烟草品牌、价格、公司和产地等信息），因此在获取用户输入的烟包陈列图像以及关于烟草信息的提问后，可能导致用户无法得到准确的答案。

发明内容

本发明的目的在于提供一种细粒度多模态大模型训练方法，以解决现有技术中存在的大语言模型对于烟包陈列图像的识别结果与用户提问之间匹配的误差较大从而导致用户无法准确获取烟包信息的技术问题。本发明提供的诸多技术方案中的优选技术方案所能产生的诸多技术效果详见下文阐述。

为实现上述目的，本发明提供了以下技术方案：

本发明提供的一种细粒度多模态大模型训练方法，包括如下步骤：S1、获取至少一个烟包陈列图像，将所述烟包陈列图像输入至经训练的语义分割模型；

S2、所述语义分割模型对所述烟包陈列图像进行分割，生成多个烟包的烟包分割图像，其中，每个烟包的烟包分割图像包括每个烟包的陈列位置信息；

S3、将每个烟包的烟包分割图像输入至经训练的图像识别模型，生成每个烟包的烟包信息，每个所述烟包信息包括烟包品牌、规格、商标、公司以及烟包价格；

S4、将每个烟包的烟包信息和所述烟包分割图像的陈列位置信息进行结构化处理，得到每个烟包的文本信息，并将每个烟包的文本信息输入至大语言模型；

S5、基于用户提问，所述大语言模型根据每个烟包的文本信息输出所述用户提问对应的烟包陈列信息。

优选的，所述语义分割模型为yolov8-seg模型、全卷积神经网络、U-Net、SegNet、DeepLab中的一种或组合。

优选的，每个烟包的烟包分割图像还包括每个烟包的位置区域；所述步骤S2之后，还包括：S21、对每个所述位置区域在第一方向进行投影，得到多个第一投影区域和每个所述第一投影区域的中心点，以及在第二方向进行投影得到多个第二投影区域和每个所述第二投影区域的中心点；

S22、对所有位置区域的所述第一投影区域的中心点以及所述第二投影区域的中心点进行无监督聚类，获取所述烟包陈列图像的行数信息和列数信息。

优选的，所述步骤S22之后，还包括：

根据每个烟包的位置区域、以及所述烟包陈列图像的行数信息和列数信息，获取每个烟包的陈列位置信息。

优选的，所述第一方向与所述第二方向正交。

优选的，所述图像识别模型为argface模型、GoogleNet模型、R-CNN模型、Transformers模型中的一种或组合。

优选的，所述步骤S4，包括如下步骤：

按照预设格式，将每个烟包的烟包信息与每个烟包的烟包分割图像的陈列位置信息进行拼接，得到每个烟包的文本信息。

根据本发明的另一方面，还提供一种用于细粒度多模态大模型训练的装置，包括：

获取模块，用于获取至少一个烟包陈列图像；分割模块，所述分割模块配置为基于语义分割模型对所述烟包陈列图像进行分割，生成多个烟包的烟包分割图像，其中，每个烟包的烟包分割图像包括每个烟包的陈列位置信息；识别模块，所述识别模块配置为将每个烟包的烟包分割图像输入至经训练的图像识别模型，生成每个烟包的烟包信息，每个所述烟包信息包括烟包品牌、规格、商标、公司以及烟包价格；结构化模块，用于将每个烟包的烟包信息和所述烟包分割图像的陈列位置信息进行结构化处理，得到每个烟包的文本信息，并将每个烟包的文本信息输入至大语言模型；输出模块，所述输出模块配置为基于用户提问，令所述大语言模型根据每个烟包的文本信息输出所述用户提问对应的烟包陈列信息。

根据本发明的另一方面，还提供一种计算机可读的存储介质，所述存储介质上存储有计算机程序，所述计算机程序被执行时实现如上文所述的细粒度多模态大模型训练方法。

根据本发明的另一方面，还提供一种用于细粒度多模态大模型训练的设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序，一个或多个所述处理器用于执行所述存储器存储的一个或多个计算机程序，以使一个或多个所述处理器执行如上文所述的细粒度多模态大模型训练方法。

实施本发明上述技术方案中的一个技术方案，具有如下优点或有益效果：本发明首先对烟包陈列图像进行分割、识别来获取每个烟包的烟包信息以及陈列位置信息，随后将烟包信息以及陈列位置信息进行结构化处理，获取烟包的文本信息，将烟包的文本信息输入至大语言模型，使大语言模型根据文本信息输出用户提问对应的烟包陈列信息。在这种情况下，通过获取包含烟包信息以及陈列位置信息的识别结果后，将识别结果转换为烟包的文本信息再输入至大语言模型中，能够使基于烟包的文本信息的大语言模型所输出的烟包陈列信息与用户的提问更加契合，从而能够提高大语言模型回答的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，附图中：

图1是本发明实施例的一种细粒度多模态大模型训练方法流程图；

图2是本发明实施例的一种细粒度多模态大模型训练方法中步骤S2之后的流程图；

图3是本发明实施例的一种用于细粒度多模态大模型训练的装置的结构框图。

图中：1、装置；10、获取模块；11、分割模块；12、识别模块；13、结构化模块；14、输出模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下文将要描述的各种示例性实施例将要参考相应的附图，这些附图构成了示例性实施例的一部分，其中描述了实现本发明可能采用的各种示例性实施例。除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。应明白，它们仅是与如所附权利要求书中所详述的、本发明公开的一些方面相一致的流程、方法和装置等的例子，还可使用其他的实施例，或者对本文列举的实施例进行结构和功能上的修改，而不会脱离本发明的范围和实质。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”等指示的是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的元件必须具有的特定的方位、以特定的方位构造和操作。术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。术语“多个”的含义是两个或两个以上。术语“相连”、“连接”应做广义理解，例如，可以是固定连接、可拆卸连接、一体连接、机械连接、电连接、通信连接、直接相连、通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明，仅示出了与本发明实施例相关的部分。

实施例一：

如图1至图2所示，本发明提供了一种细粒度多模态大模型训练方法，包括如下步骤：

S1、获取至少一个烟包陈列图像，将烟包陈列图像输入至经训练的语义分割模型。烟包陈列图像可以为公开的网络图像，也可以为用户在烟草零售点和/或大型商超所拍摄的一张或多张图像。可以基于用户输入获取烟包陈列图像，也即可以将用户所输入的烟包陈列图像输入至经训练的语义分割模型。语义分割模型可以为yolov8-seg模型、全卷积神经网络、U-Net、SegNet、DeepLab中的一种或组合。优选的，在本实施方式中，语义分割模型可以为yolov8-seg模型。

在本发明实施例中，获取经训练的语义分割模型可以包括如下步骤：构建包含多张烟包陈列图像的训练集，并对烟包陈列图像进行标注；对烟包陈列图像进行预处理；输入至待训练的语义分割模型获取分割结果，并计算损失值；利用优化器更新权重；并且通过多次迭代训练至损失函数收敛，获取经训练的语义分割模型。

S2、语义分割模型对烟包陈列图像进行分割，生成多个烟包的烟包分割图像，其中，每个烟包的烟包分割图像包括每个烟包的陈列位置信息。可以利用标注框对每个烟包所在的位置进行分割。进一步地，还可以通过像素级标注、轮廓标注或点标注的方式对烟包陈列图像进行分割，生成烟包分割图像。进一步地，每个烟包的烟包分割图像还包括每个烟包的位置区域。位置区域可以为每个烟包在烟包陈列图像上的坐标位置。在另一些示例中，语义分割模型可以对烟包陈列图像进行分割，生成多个烟包的价签分割图像，其中，价签分割图像包括每个烟包的价格信息。进一步地，可以通过动态规划或者图神经来匹配每个烟包的陈列位置信息以及价格信息。

在步骤S2之后，还包括：

S21、对每个位置区域在第一方向进行投影，得到多个第一投影区域和每个所述第一投影区域的中心点，以及在第二方向进行投影得到多个第二投影区域和每个第二投影区域的中心点。具体地，可以基于位置区域的排列方式设置第一方向和第二方向，例如，可以将位置区域的所在行的方向设置为第一方向（例如，X轴），将位置区域所在列的方向设置为第二方向（例如，Y轴）。第一方向可以与第二方向正交。

在本发明实施例中，可以按序对每个位置区域在第一方向进行投影得到多个第一投影区域，并得到每个第一投影区域的中心点。相应地，可以按序对每个位置区域在第二方向进行投影得到多个第二投影区域，并得到每个第二投影区域的中心点。

S22、对所有位置区域的第一投影区域的中心点以及第二投影区域的中心点进行无监督聚类，获取烟包陈列图像的行数信息以及列数信息。可以利用DBSCAN算法、K均值聚类（K-Means）或层次聚类（Hierarchical Clustering）进行无监督聚类。在本实施方式中，优选的，可以利用DBSCAN算法进行无监督聚类。具体地，可以对所有第一投影区域的中心点进行无监督聚类，再根据聚类的数量获取烟包陈列图像的列数信息，例如当聚类的数量为5时，可以认为烟包陈列图像具有5列；相应地，可以对第二投影区域的中心点进行无监督聚类，再根据聚类的数量获取烟包陈列图像的行数信息，例如当聚类的数量为3时，可以认为烟包陈列图像具有3行。

在步骤S22之后，还包括：

根据每个烟包的位置区域、以及烟包陈列图像的行数信息和列数信息，获取每个烟包的陈列位置信息。具体地，可以获取每个烟包的位置区域所在的行数和/或列数，从而能够获取烟包陈列图像中每个烟包的陈列位置信息。例如，A烟的陈列位置信息为第X行、第Y列。

S3、将每个烟包的烟包分割图像输入至经训练的图像识别模型，生成每个烟包的烟包信息，每个烟包信息包括烟包品牌、规格、商标、公司以及烟包价格。具体地，可以通过识别每个烟包的烟包分割图像获取每个烟包的烟包信息。例如，可以通过对位置区域内的烟包进行识别来获取该烟包的烟包品牌、规格、商标、公司（即为生产公司）以及烟包价格。在另一些示例中，也可以将每个烟包的烟包分割图像以及所对应的价签分割图像输入至经训练的图像识别模型，生成每个烟包的烟包信息以及价格信息。

在本发明实施例中，获取经训练的图像识别模型可以包括如下步骤：构建包含多张烟包图像的训练集，并对烟包图像的烟包信息进行标注；对烟包图像进行预处理；输入至待训练的图像识别模型获取识别结果，并计算损失值；利用优化器更新权重；并且通过多次迭代训练至损失函数收敛，获取经训练的图像识别模型。图像识别模型可以为argface模型、GoogleNet模型、R-CNN模型、Transformers模型中的一种或组合。在本实施方式中，优选的，图像识别模型可以为argface模型。

S4、将每个烟包的烟包信息和烟包分割图像的陈列位置信息进行结构化处理，得到每个烟包的文本信息，并将每个烟包的文本信息输入至大语言模型。具体地，可以对陈列位置信息以及该陈列位置信息所对应的烟包的烟包信息进行结构化处理。结构化处理是指将非结构化或半结构化的数据（如文本、图像等）转换为具有明确定义的结构，以便后续的大语言模型能够更轻松地理解和处理。例如，结构化后的烟包的文本信息可以为“第2行，第5列的烟是A牌，规格是B规格，商标是C类，生产公司是D公司，价格为E元”。可以将至少一个烟包的文本信息输入至大语言模型，令大语言模型将至少一个烟包的文本信息作为回答用户提问的背景信息。

步骤S4，包括如下步骤：

按照预设格式，将每个烟包的烟包信息与每个烟包的烟包分割图像的陈列位置信息进行拼接，得到每个烟包的文本信息。预设格式是指预先定义的格式，可以基于需求人为设置。例如，烟包的陈列位置信息为“第2行，第5列”，烟包信息为“A牌，B规格，C类，D公司，E元”，进行拼接后的烟包的文本信息可以为“第2行，第5列的烟是A牌烟，规格是B规格，商标是C类，生产公司是D公司，价格为12元”。进一步地，可以基于所获取的烟包信息的数量以及内容对预设格式进行调整，使其与用户提问更加契合。

S5、基于用户提问，大语言模型根据每个烟包的文本信息输出用户提问对应的烟包陈列信息。当大语言模型接收到用户提问后，从上述烟包的文本信息中获取烟包陈列信息并输出作为答案。具体地，大语言模型可以基于用户提问从烟包的文本信息（也即，背景信息）中检索相关的信息，并将相关的信息作为烟包陈列信息输出。在这种情况下，能够将输入大语言模型的烟包陈列图像的信息转换为对应的每个烟包的文本信息，能够使基于烟包陈列图像所输出的答案与用户提问更加适配，从而能够提高大语言模型回答的准确性。

本发明可以适用于以下场景：用户将烟包陈列图像输入至大语言模型后，并将用户提问输入至大语言模型中，例如：“第一行第一列的烟是什么？价格多少？”；本发明利用上述的方法获取用户输入的烟包陈列图像所对应的每个烟包的文本信息，并将每个烟包的文本信息输入至大语言模型；大语言模型基于所获取的每个烟包的文本信息输出与用户提问相对应的烟包陈列信息，该烟包陈列信息即为上述用户提问的答案。例如，烟包陈列信息可以为“第一行第一列的烟是A牌，价格为E元”。

综上所述，本发明首先对烟包陈列图像进行分割、识别来获取每个烟包的烟包信息以及陈列位置信息，随后将烟包信息以及陈列位置信息进行结构化处理，获取烟包的文本信息，将烟包的文本信息输入至大语言模型，使大语言模型基于烟包的文本信息输出用户提问对应的烟包陈列信息。在这种情况下，通过获取包含烟包信息以及陈列位置信息的识别结果后，将识别结果转换为烟包的文本信息再输入至大语言模型中，能够使基于烟包的文本信息的大语言模型所输出的烟包陈列信息与用户的提问更加契合，从而能够提高大语言模型回答的准确性。

实施例二：

如图3所示，本发明还提供一种用于细粒度多模态大模型训练的装置1，包括：

获取模块10，用于获取至少一个烟包陈列图像；

分割模块11，分割模块11配置为基于语义分割模型对烟包陈列图像进行分割，生成多个烟包的烟包分割图像，其中，每个烟包的烟包分割图像包括每个烟包的陈列位置信息；

识别模块12，识别模块12配置为将每个烟包的烟包分割图像输入至经训练的图像识别模型，生成每个烟包的烟包信息，每个烟包信息包括烟包品牌、规格、商标、公司以及烟包价格；

结构化模块13，用于将每个烟包的烟包信息和烟包分割图像的陈列位置信息进行结构化处理，得到每个烟包的文本信息，并将每个烟包的文本信息输入至大语言模型；

输出模块14，输出模块14配置为基于用户提问，令大语言模型根据每个烟包的文本信息输出用户提问对应的烟包陈列信息。

实施例三：

本领域普通技术人员可以理解，实现上述各方法实施例的全部或部分特征/步骤可以通过方法、数据处理系统或计算机程序来实现，这些特征可不采用硬件的方式、全部采用软件的方式或者采用硬件和软件结合的方式来实现。前述的计算机程序可以存储于一种或多种计算机可读的存储介质中，存储介质上存储有计算机程序，计算机程序被（如处理器）执行时，执行包括上述的细粒度多模态大模型训练方法实施例的步骤。

前述的可以存储程序代码的存储介质包括：静硬态盘、固态硬盘、随机存取存储器（SRAM）、电可擦除可编程只读存储器（EEPROM）、可擦除可编程只读存储器（EPROM）、可编程只读存储器（PROM）、只读存储器（ROM）、光存储设备、磁存储设备、快闪存储器、磁盘或光盘和/或上述设备的组合，即可以由任何类型的易失性或非易失性存储设备或者它们的组合实现。

实施例四：

本发明还提供一种用于细粒度多模态大模型训练的设备实施例，包括一个或多个处理器及存储器；其中，存储器用于存储一个或多个计算机程序，一个或多个处理器用于执行存储器存储的一个或多个计算机程序，以使处理器执行上述的细粒度多模态大模型训练方法实施例的特征/步骤。

以上所述仅为本发明的较佳实施例而已，本领域技术人员知悉，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等同替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims

1.一种细粒度多模态大模型训练方法，其特征在于，包括如下步骤：

S1、获取至少一个烟包陈列图像，将所述烟包陈列图像输入至经训练的语义分割模型；

2.根据权利要求1所述的细粒度多模态大模型训练方法，其特征在于，所述语义分割模型为yolov8-seg模型、全卷积神经网络、U-Net、SegNet、DeepLab中的一种或组合。

3.根据权利要求1所述的细粒度多模态大模型训练方法，其特征在于，

每个烟包的烟包分割图像还包括每个烟包的位置区域；所述步骤S2之后，还包括：

S21、对每个所述位置区域在第一方向进行投影，得到多个第一投影区域和每个所述第一投影区域的中心点，以及在第二方向进行投影得到多个第二投影区域和每个所述第二投影区域的中心点；

4.根据权利要求3所述的细粒度多模态大模型训练方法，其特征在于，所述步骤S22之后，还包括：

5.根据权利要求3所述的细粒度多模态大模型训练方法，其特征在于，所述第一方向与所述第二方向正交。

6.根据权利要求1所述的细粒度多模态大模型训练方法，其特征在于，所述图像识别模型为argface模型、GoogleNet模型、R-CNN模型、Transformers模型中的一种或组合。

7.根据权利要求1所述的细粒度多模态大模型训练方法，其特征在于，所述步骤S4，包括如下步骤：

8.一种用于细粒度多模态大模型训练的装置，其特征在于，包括：

获取模块，用于获取至少一个烟包陈列图像；

分割模块，所述分割模块配置为基于语义分割模型对所述烟包陈列图像进行分割，生成多个烟包的烟包分割图像，其中，每个烟包的烟包分割图像包括每个烟包的陈列位置信息；

识别模块，所述识别模块配置为将每个烟包的烟包分割图像输入至经训练的图像识别模型，生成每个烟包的烟包信息，每个所述烟包信息包括烟包品牌、规格、商标、公司以及烟包价格；

结构化模块，用于将每个烟包的烟包信息和所述烟包分割图像的陈列位置信息进行结构化处理，得到每个烟包的文本信息，并将每个烟包的文本信息输入至大语言模型；

输出模块，所述输出模块配置为基于用户提问，令所述大语言模型根据每个烟包的文本信息输出所述用户提问对应的烟包陈列信息。

9.一种计算机可读的存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被执行时实现权利要求1-7任一项所述的细粒度多模态大模型训练方法。

10.一种用于细粒度多模态大模型训练的设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序，一个或多个所述处理器用于执行所述存储器存储的一个或多个计算机程序，以使一个或多个所述处理器执行如权利要求1-7任一项所述的细粒度多模态大模型训练方法。