CN117934997A

CN117934997A - 用于corner case样本生成的大语言模型系统及方法

Info

Publication number: CN117934997A
Application number: CN202410323901.8A
Authority: CN
Inventors: 冯偲; 李红雁; 薛寒; 项榆皓
Original assignee: Tibet Ningsuan Technology Group Co ltd; Nanjing Computing Nanjing Technology Co ltd
Current assignee: Tibet Ningsuan Technology Group Co ltd; Nanjing Computing Nanjing Technology Co ltd
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-04-26
Anticipated expiration: 2044-03-21
Also published as: CN117934997B

Abstract

本发明用于corner case样本生成的大语言模型系统及方法，包括感知器，用于感知系统的运行状态信息，以及获取文本信息、图像信息的输入，对文本信息、图像信息分别进行特征提取，并对提取后的特征进行多模态信息融合，形成融合特征；大语言模型集群和专家知识库，用于获取所述感知器得到的系统运行状态信息和融合特征，对融合特征是否包含corner case训练样本需求进行判断，若包含，进行自动驾驶领域的逻辑推理得到任务类型，根据任务类型拆解出执行步骤，并评估每个步骤的执行结果；执行器，用于完成大语言模型集群拆解出的执行步骤。本发明实现了实现样本生成的智能化和便捷化。

Description

用于corner case样本生成的大语言模型系统及方法

技术领域

本发明涉及自动驾驶技术领域，具体涉及用于corner case样本生成的大语言模型系统及方法。

背景技术

长期以来，人类一直致力实现真正的人工智能（AI），希望人工智能把人类从繁重的工作中解放出来。

随着大语言模型技术的逐渐兴起，利用网络上规模庞大的数据进行自监督学习，让NLP领域的各个任务有了更大的突破。大模型在NLP领域获得巨大的成功后，被越来越多的研发人员运用到计算机视觉领域，执行各种视觉任务，诸如目标检测，语义分割，图像检索等。

现在的研究发现，当大模型将文本-视觉感知-决策信息等多模态的数据结合起来，强化模型的逻辑推理能力，在自动驾驶等领域可能会产生巨大的影响。经过多模态数据训练的模型可以执行多项自动驾驶相关的任务，包括corner case训练样本的生成，路径规划和决策等，其中corner case指的是在某种情况下造成自动驾驶系统发生异常的案例，由于corner case训练数据的采集困难，因此需要通过GAN网络或者扩散模型对样本进行生成。

自动驾驶技术领域中有很多任务，比如数据标注，路径规划等，在云端可能还有训练数据的生成，但是数据的生成过程复杂，需要专业的研发人员花费大量时间在参数的调整上。

目前，大语言模型技术正在逐步应用于各个领域，但依然缺乏一个用于云端自动驾驶业务corner case样本生成的大模型应用系统。

发明内容

发明目的：本发明目的在于针对现有技术的不足，提供用于corner case样本生成的大语言模型系统及方法，实现样本生成的智能化和便捷化，让非核心研发人员可以花费较少的时间完成corner case训练样本生成。

技术方案：本发明所述用于corner case样本生成的大语言模型系统，包括：

感知器，用于感知系统的运行状态信息，以及获取文本信息、图像信息的输入，对文本信息、图像信息分别进行特征提取，并对提取后的特征进行多模态信息融合，形成融合特征；

大语言模型集群，用于获取所述感知器得到的系统运行状态信息和融合特征，对融合特征是否包含corner case训练样本需求进行判断，若包含，进行自动驾驶领域的逻辑推理，识别出corner case的类型，根据类型拆解出执行步骤，评估每个步骤的执行结果；

执行器，用于完成大语言模型集群拆解出的执行步骤，以生成corner case样本图像；

结果输出模块，用于将生成的corner case样本图像存储在云端服务器上，并在前端输出样本的描述信息，包括生成样本的数量和保存路径。

进一步完善上述技术方案，所述感知器包括主动感知器、被动感知器，所述主动感知器用于感知系统的运行状态信息，所述被动感知器包括文本输入处理模块、图像信息处理模块、多模态信息融合处理模块；所述文本输入处理模块用于对输入的文本信息进行预处理以得到文本特征，所述图像信息处理模块用于提取图像信息的特征以得到图像特征，所述多模态信息融合处理模块采用注意力机制对文本特征和图像特征进行加权融合，形成多模态的融合特征。

进一步地，所述文本输入处理模块采用Transformer构成，对输入文本的预处理操作包括追加提示词、文本纠错、无用字符的剔除和文本的向量化。

进一步地，所述大语言模型集群包括自动驾驶垂直领域模型、扩展模型、通用大语言模型，所述自动驾驶垂直领域模型用于自动驾驶领域的逻辑推理；所述通用大语言模型用于判断是否有corner case训练样本生成需求，若有，拆解出执行步骤；所述扩散模型用于生成corner case的训练样本。

进一步地，还包括专家知识库，所述专家知识库用于存储自动驾驶领域专家知识，支持多维度查询和检索。

进一步地，所述执行器包括：API请求，用于获取网络上的信息，包括专家知识库的更新，第三方的训练样本集检索；内部接口调用，用于处理本地资源的信息；应用程序，用于执行仿真和计算；langchain，用于解析逻辑推理后的输出，拆分为具体任务步骤，定义模型和工具功能，进行任务步骤执行的调度。

采用上述用于corner case样本生成的大语言模型系统进行样本生成方法，包括：

步骤1：获取Corner case图像信息和包含任务描述的文本信息；

步骤2：分别对图像信息和文本信息进行处理，得到图像特征和文本特征，对图像特征和文本特征进行融合，形成融合特征，并感知当前系统的运行状态信息；

步骤3：根据步骤2中的信息判断是否有corner case训练样本生成需求，如果有，进入步骤3.1，否则输出一般性的闲聊回答；

步骤3.1：将步骤2中的信息输入至自动驾驶垂直领域模型，进行自动驾驶领域的逻辑推理，识别出corner case的类型，拆解出执行步骤，并由执行器调用相关资源完成每个步骤的计算和执行；

步骤3.2：步骤3.1的每步执行结果由对应的大语言模型进行评估，当前结果通过后再进入下一个执行步骤；

步骤4：生成的样本图像存储至云端服务器上，并在前端输出最终给出样本的描述信息，包括生成样本的数量和保存路径。

有益效果：与现有技术相比，本发明的优点在于：本发明提基于大语言模型构建一个用于云端自动驾驶corner case样本生成的系统，提升自动驾驶云服务的智能水平，降低资源浪费，改善用户体验，系统具备推理、感知和执行能力，避免了大量硬件和人力资源的浪费，将本发明的方法提升自动驾驶云服务的智能化水平，减少专业领域工具和算法的使用门槛，运用于云服务行业后可以进一步提升云服务的智能化水平，增加拓展到其他领域的可行性。

本发明整合了多个关键组件，旨在提供智能化、高度灵活和可扩展的系统，以实现云端自动驾驶corner case样本的智能生成。系统能够根据输入的corner case图像和文本信息，智能地进行逻辑推理、任务拆分、资源调度，生成符合要求的训练样本。系统在不同场景下能够高效、准确地生成corner case训练样本，提高自动驾驶系统的鲁棒性和性能；方便地应对不同任务需求，集成新的技术和算法，适应不断变化的自动驾驶领域；系统的灵活性体现在其能够迅速适应新的需求和技术，保持高度可扩展性。

附图说明

图1是本发明中用于corner case样本生成的大语言模型系统的原理框图；

图2是本发明中的生成样本的过程示意图。

具体实施方式

下面通过附图对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：如图1所示用于corner case样本生成的大语言模型系统，包括模块一、模块二、模块三。模块一用于根据输入的文本信息和图像信息，通过逻辑推理，拆解出执行步骤，并评估每个步骤的执行结果；模块二，用于处理和融合输入的文本信息和图像信息，形成融合特征，并感知当前硬件的情况；模块三，用于提供各种工具，包括API请求，内部接口调用，应用程序等，用于完成模块一拆解出的执行步骤。

模块二感知当前硬件情况，通过API请求向模块三获取网络上信息，包括专家知识库更新等，以优化信息处理和融合。模块三提供工具，支持模块一的大模型集群和专家知识库的调用，用于执行逻辑推理任务和提供领域专家知识；模块三的工具箱调用API请求和内部接口调用，用于处理本地和网络资源信息，以支持模块二感知器的主动和被动感知。大模型集群通过模块三提供的工具相互协作，完成逻辑推理任务的拆解和执行，评估每步执行结果，确保任务按顺序和逻辑被触发和执行。

模块一：包括大语言模型集群和专家知识库，大语言模型集群包括自动驾驶垂直领域模型、扩散模型（Diffusion Model，DM）、通用大语言模型，大语言模型集群、专家知识库之间的通信依靠模块三执行器提供的工具完成。

（1）自动驾驶垂直领域模型，用于自动驾驶领域的逻辑推理，该模型参数规模为70亿，采用LORA算法微调的技术，使用自动驾驶领域相关专家知识进行训练。选择合适的特征，例如车辆状态、环境感知、传感器数据等，以确保模型能够有效地捕捉自动驾驶场景的重要信息；LORA算法微调：LORA（Language-Optimized Representation learningAlgorithm）算法是一种用于微调大型语言模型的方法，其目的是使模型适应特定领域的语言和语境，在这里，LORA算法用于微调模型，使其更好地适应自动驾驶领域的逻辑推理任务，微调的过程中，可以调整模型的学习率、损失函数权重等超参数，以更好地适应自动驾驶领域的任务。

数据集准备：使用包含丰富场景和复杂交通情境的自动驾驶数据集进行训练。这可以包括真实场景中的视频、传感器数据以及与自动驾驶相关的专家注释。领域专家知识融合：结合自动驾驶领域的专家知识，将其融入模型训练过程中。这可以通过在模型的输入层或中间层引入领域专家定义的特征，以便模型更好地理解并处理与自动驾驶相关的情景。迁移学习：使用预训练模型（例如通用大模型中的基座模型）来初始化自动驾驶垂直领域模型，以利用通用知识和逻辑推理能力。然后，通过微调和迭代训练，逐步调整模型以适应自动驾驶特定的任务和场景。

逻辑推理在自动驾驶领域的应用：环境感知：通过对感知信息的逻辑推理，模型可以识别和理解环境中的各种元素，包括其他车辆、交叉口、信号灯等，这有助于提高车辆对周围环境的认知水平；交互与决策：模型可以在实际场景中进行逻辑推理，以做出车辆行为决策，例如超车、变道、减速等。这需要考虑其他交通参与者的行为、交通状况以及车辆自身状态；异常处理和决策树：模型可以通过逻辑推理建立决策树，用于处理各种异常情况，例如传感器故障、不明确的路标、紧急停车等，这有助于提高系统的鲁棒性和安全性。

（2）扩散模型，用于生成corner case的训练样本，该模型通过大量的样本训练，使得其具备一定corner case场景的样本生成能力；

（3）通用大模型，用于判断是否有corner case训练样本生成需求，以及拆解出执行步骤；该模型由70亿参数构成，基座模型来源于Llama2，通过增加中文词表，Lora微调等技术，提升模型在中文领域的逻辑推理能力。

（4）专家知识库，用于存储自动驾驶领域专家知识，系统运行日志，设定的其他规则事项等；该知识库采用图数据库的形式，支持多维度的查询和检索。

模块二：感知器能够主动或者被动感知系统的运行环境，主动感知的信息包括云端服务器硬件的负载信息，算力资源占用情况，存储和网络环境等；被动感知的信息包括多模态数据的输入和处理，主要包含文本输入处理模块、图像信息处理模块和多模态信息融合处理模块。

（1）文本输入的处理模块，用于对输入的文本数据进行预处理，包括追加提示词，文本纠错，无用字符的剔除和文本的向量化等；该模块主要由Transformer构成，支持多种语言的输入和输出；

（2）图像信息处理模块，用于提取图像的特征，该模块主要由Resnet50构成的特征提取网络构成；该模块参数通过coco数据集和kitti数据集的联合训练，主要用于提取图像的特征。

（3）多模态信息融合处理模块，用于将文本信息处理模块和图像信息处理模块抽取的单一模态的特征进行融合，形成一个多模态的特征向量，该模块通过CLIP（Contrastive Language-Image Pre-training）算法实现，CLIP算法是一个联合训练模型，通过最大化相关性来训练图像和文本的表示。在训练过程中，模型学会了将相关的图像和文本表示在嵌入空间中靠近，使用训练好的CLIP模型，分别对输入的文本和图像进行特征提取。这可以通过模型的前几层或中间层来获得抽象的语义信息；使用注意力机制，根据文本和图像的特征对其进行加权融合，这可以通过自注意力机制（Self-Attention）或交叉注意力机制（Cross-Attention）来实现，确保融合过程中更关注相关的信息；将文本和图像的特征直接拼接在一起，形成一个更大的特征向量。这样的简单融合方式也可能在某些场景中取得良好效果。可以提高系统对多模态信息的理解和处理能力。

模块三：功能丰富的工具箱构成的执行器，为模块一和模块二提供了获取信息和处理信息的一系列工具，主要包括以下方式：包括API请求、内部接口调用和应用程序。

（1）API请求，用于获取网络上的信息，包括专家知识库的更新，第三方的训练样本集检索等；该工具可以实现系统与外部资源的交互和共享；

（2）内部接口调用，用于处理本地资源的信息，包括云端服务器硬件的算力占用、服务器的温度、本地专家数据的检索等；该工具可以实现系统对内部资源的管理和优化；

（3）应用程序，用于执行各种仿真和计算，包括自动驾驶仿真程序，如Carla、Carsim、LGSVL等，以及流体仿真程序等；该工具可以实现系统对各种场景和问题的模拟和解决；

（4） langchain，用于辅助完成逻辑推理后步骤的拆分，模型功能的定义，工具功能的描述等，该工具可以实现系统对自身的描述和改进。可以调用大模型完成任务的拆分，具体拆分的方式可以通过设计提示词工程完成，拆分的目的是更好的执行任务，对于大模型来说很难一次性的获得满意的结果。

Langchain能够解析逻辑推理模型的输出，并将其拆分为具体的任务步骤，这有助于将大型的逻辑推理问题分解为更小的、可管理的部分，以提高整体系统的可维护性；Langchain允许对整体系统的模型功能进行定义和配置。通过Langchain，可以灵活地调整模型的输入、输出、层次结构等参数，以适应不同的任务和场景需求；Langchain有助于描述和定义工具箱中工具的功能。每个工具的输入、输出、执行逻辑等细节可以通过Langchain进行明确定义，从而使工具箱中的功能与模型的需求更为匹配； Langchain可以用于调度和协调整体系统的任务执行。它能够确保不同任务按照预定的顺序和逻辑被触发和执行，从而实现整体系统的有序运行。通过配置Langchain，可以方便地引入新的模型或工具，并根据需要进行修改，而无需对整体系统进行大规模的修改。Langchain提供任务间的通信渠道和数据传递机制。这有助于模型和工具之间的协作，使得它们能够有效地交换信息和共享数据，提高整体系统的协同效率。Langchain的灵活性使得整体系统能够更容易地集成新的技术和算法。它可以作为整体系统的中介，将新的组件集成到现有的系统中，实现系统的更新和升级。

实施例2：采用实施例1提供的系统进行corner case图像样本生成的方法，包括以下步骤：

步骤1，从云端的数据库中选择要上传的corner case图像，像素大小为1920*1080，并输入文本信息，用于大模型执行推理，可以是对任务的描述等，该步骤可以实现系统对用户需求的获取和理解。

步骤2，将步骤1中的输入信息通过模块二进行处理和融合，形成融合特征，并感知当前硬件的情况，包括GPU的占用等信息，该步骤可以实现系统对输入信息的预处理和优化，以及对当前运行环境的感知和调整。

步骤3，将步骤2中所感知到信息送入模块一，模块一中的通用大模型会根据步骤2中的信息判断是否有corner case训练样本生成需求，如果是则进入步骤3.1，否则输出一般性的闲聊回答，该步骤可以实现系统对用户需求的分析和判断，以及对用户的友好交互。

在该步骤中，基础是步骤2中输入的文本和图像这两个多模态信息，通过CLIP算法进行多模态信息的融合处理，进而判断出用户是否有训练样本的生成需求，具体过程如下：

特征融合和相似度计算：将文本信息的向量和图像特征的向量进行融合，使用余弦相似度或其他相似度度量方法，计算文本和图像之间的相似性，设定一个相似度阈值，如0.8。

任务描述分析：分析文本信息中的关键词、短语和描述，如果文本中包含类似“请帮我生成更多该场景下的样本”等描述，则倾向于判断存在corner case训练样本生成的需求。

上下文信息考虑：回顾之前的对话历史，查看用户之前的提问和需求，如果之前的对话中有关于corner case的提及，模型会将这些上下文信息纳入考虑；根据上下文信息，动态调整相似度阈值，如果用户之前明确表现出对样本生成的兴趣，则降低相似度阈值。

综合判断：综合考虑相似度、任务描述和上下文信息，判断是否有corner case训练样本生成的需求，如果相似度高于阈值或文本描述明确，则认为存在样本生成需求。

步骤3.1，将步骤2中的信息送入模块一中的自动驾驶大模型，经过逻辑推理，拆解出执行步骤，并由模块三的执行机构调用相关资源完成每个步骤的计算和执行，该步骤可以实现系统对用户需求的具体实现，以及对各种资源的调用和协调；

步骤3.2：步骤3.1的每步执行结果由模块一中的大模型集群负责评估，当前结果通过才能进入下一个执行步骤，该步骤可以实现系统对执行结果的评估和反馈，以及对执行流程的控制和优化；

步骤4：输出生成的样本图像到云端存储服务上，并在前端输出最终给出的文本信息，通常包括生成样本的数量和保存路径等，该步骤可以实现系统对用户需求的满足和回应，以及对生成样本的存储和展示。

实施例3：采用实施例2提供的方法进行具体的应用，如图2所示，包括如下过程：

Thought 1：我需要首先分析图片

Act 1：Get_img_actions('image.png')

Obs 1：关键词，汽车，阴雨，高速

Thought 2：加载数据库，扩散模型

Act 2：Load_Sd_modle('image.png')

Obs 2：工具集加载完成

Thought 3：处理多模态数据

Act 3：process_mutil_data('img_fm',txt_fm)

Obs 3：获得多模态数据融合特征

Thought 4：通过扩散模型生成corner case样本

Act 4：create_corner_case('./save_path')

Obs 4：完成一次图像的生成

Thought 5：给输入图片增加随机白噪声

Act 5：add_image_noise('image.png')

Obs 5：完成一次图像扰动

Thought 6：通过扩散模型生成corner case 样本

Act 6：create_corner_case('./save_path')

Obs 6：完成一次图像的生成

Thought 7：我认为已经完成类似图片

Final Answer：已经生成500张样例。

在这个例子中：模块一中的通用大模型完成了有任务到可执行步骤的拆分，即拆分出Thought 1至Thought 7；具体的每个步骤的执行(Act)和数据流通由模块三中提供各种工具完成，部分步骤会调用大模型完成，比如Thought 4调用模块一中Diffusion Model，比如Thought 7中调用自动驾驶垂直领域模型构成；大模型集群会根据每个步骤的不同，介入到每个步骤执行完成度的评价上（Obs），只有通过评价，系统才会执行下一个步骤。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。

Claims

1.用于corner case样本生成的大语言模型系统，其特征在于，包括：

2.根据权利要求1所述的用于corner case样本生成的大语言模型系统，其特征在于：所述感知器包括主动感知器、被动感知器，所述主动感知器用于感知系统的运行状态信息，所述被动感知器包括文本输入处理模块、图像信息处理模块、多模态信息融合处理模块；所述文本输入处理模块用于对输入的文本信息进行预处理以得到文本特征，所述图像信息处理模块用于提取图像信息的特征以得到图像特征，所述多模态信息融合处理模块采用注意力机制对文本特征和图像特征进行加权融合，形成多模态的融合特征。

3.根据权利要求2所述的用于corner case样本生成的大语言模型系统，其特征在于：所述文本输入处理模块采用Transformer构成，对输入文本的预处理操作包括追加提示词、文本纠错、无用字符的剔除和文本的向量化。

4.根据权利要求1所述的用于corner case样本生成的大语言模型系统，其特征在于：所述大语言模型集群包括自动驾驶垂直领域模型、扩展模型、通用大语言模型，所述自动驾驶垂直领域模型用于自动驾驶领域的逻辑推理；所述通用大语言模型用于判断是否有corner case训练样本生成需求，若有，拆解出执行步骤；所述扩散模型用于生成cornercase的训练样本。

5.根据权利要求4所述的用于corner case样本生成的大语言模型系统，其特征在于：还包括专家知识库，所述专家知识库用于存储自动驾驶领域专家知识，支持多维度查询和检索。

6.根据权利要求5所述的用于corner case样本生成的大语言模型系统，其特征在于，所述执行器包括：

API请求，用于获取网络信息，包括专家知识库的更新，第三方的训练样本集；

内部接口调用，用于处理本地资源的信息；

应用程序，用于执行仿真和计算；

langchain，用于解析逻辑推理后的输出，拆分为具体任务步骤，定义相应模型或工具的功能，进行任务步骤执行的调度。

7.采用权利要求1所述的用于corner case样本生成的大语言模型系统进行样本生成方法，其特征在于，包括：

步骤1：获取Corner case图像信息和包含任务描述的文本信息；