CN116522912A

CN116522912A - 一种包装设计语言模型的训练方法、装置、介质及设备

Info

Publication number: CN116522912A
Application number: CN202310817200.5A
Authority: CN
Inventors: 陈彦; 郝晓伟
Original assignee: Dajia Zhihe Beijing Network Technology Co ltd
Current assignee: Dajia Zhihe Beijing Network Technology Co ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-08-01
Anticipated expiration: 2043-07-05
Also published as: CN116522912B

Abstract

本发明涉及一种包装设计语言模型的训练方法、装置、设备及介质，属于包装设计技术领域，本发明技术方案主要包括：获取包装设计用语数据和预训练语言模型；对所述包装设计用语数据进行分词处理，以提取所述包装设计用语数据中的关键词、短语或者行业术语；将所述关键词、短语和行业术语进行去重之后加入所述预训练语言模型的词汇表中；获取自定义包装设计数据集；根据设定的损失函数和优化器，基于所述自定义包装设计数据集对所述预训练语言模型进行微调，以更新所述预训练语言模型的网络权重和所述词汇表中词汇对应的词向量，获得所述包装语言模型。

Description

一种包装设计语言模型的训练方法、装置、介质及设备

技术领域

本发明属于包装设计技术领域，具体而言涉及一种包装设计语言模型的训练方法、装置、介质及设备。

背景技术

随着市场竞争的加剧，各种产品的包装设计越来越受到企业和消费者的重视。

传统的包装设计方法耗时、耗费人力物力，且设计师与客户沟通存在误解，导致设计效果与客户需求存在一定的差距。因此，能够提高设计效率并满足客户需求，具有重要的现实意义。

本发明的目的在于解决对于用户包装设计需求的信息理解问题。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种包装设计语言模型的训练方法、装置、设备及介质，用以解决现有技术中用户包装设计需求的信息理解的问题。

本发明第一方面实施例提供一种包装设计语言模型的训练方法，包括以下步骤：

获取包装设计用语数据和预训练语言模型；

对所述包装设计用语数据进行分词处理，以提取所述包装设计用语数据中的关键词、短语或者行业术语；

将所述关键词、短语和行业术语进行去重之后加入所述预训练语言模型的词汇表中；

获取自定义包装设计数据集；

根据设定的损失函数和优化器，基于所述自定义包装设计数据集对所述预训练语言模型进行微调，以更新所述预训练语言模型的网络权重和所述词汇表中词汇对应的词向量，获得所述包装语言模型。

在一些实施例中，在对所述包装设计用语数据进行分词处理之前还包括：

对所述包装设计用语数据进行第一预处理，所述第一预处理包括去除HTML标签和特殊字符、进行数据清洗以及去除停用词。

在一些实施例中，所述分词处理包括采用文本处理工具对所述包装设计用语数据进行分词处理以获得分词结果，所述文本处理工具包括jieba分词或者THULAC。

在一些实施例中，所述关键词的提取方法包括基于BERT的TextRank或者BERT关键词抽取库从所述分词结果中提取所述关键词，所述BERT关键词抽取库包括Bert-extractive-keywords；

所述短语和所述行业术语的提取包括，通过词性标注工具对所述分词结果进行词性分析，通过组合不同词性的词汇提取包含实际意义的短语和行业术语，所述词性标注工具包括jieba词性标注或者LTP。

在一些实施例中，所述获取自定义包装设计数据集，包括：

对包装设计行业数据进行第二预处理以使得所述包装设计行业数据满足所述预训练语言模型的输入格式，进而形成所述自定义包装设计数据集。

在一些实施例中，所述损失函数包括交叉熵损失或者均方差损失；所述优化器包括Adam或者SGD。

在一些实施例中，将所述自定义包装设计数据集划分为训练集和验证集，通过所述验证集对经过训练集微调后的所述预训练语言模型进行评估以获得准确率、召回率或者F1分，根据所述准确率、召回率或者F1分对所述微调的过程进行调整。

本发明第二方面实施例提供一种包装设计语言模型的训练装置，包括：

第一获取模块，用于获取包装设计用语数据和预训练语言模型；

分词和提取模块，用于对所述包装设计用语数据进行分词处理，以提取所述包装设计用语数据中的关键词、短语或者行业术语；

去重模块，用于将所述关键词、短语和行业术语进行去重之后加入所述预训练语言模型的词汇表中；

第二获取模块，用于获取自定义包装设计数据集；

微调模块，用于根据设定的损失函数和优化器，基于所述自定义包装设计数据集对所述预训练语言模型进行微调，以更新所述预训练语言模型的网络权重和所述词汇表中词汇对应的词向量，获得所述包装语言模型。

本发明第三方面实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如上任一实施例所述的包装设计语言模型的训练方法。

本发明第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一实施例所述的包装设计语言模型的训练方法。

本发明实施例至少具有以下有益效果：

本发明提供的包装设计语言模型可以对包装设计专业术语和概念的理解，可有效完成人机交互、设计需求预测和设计案例生成等任务。本发明提供了一种实用、高性能的包装设计智能助手，有益于提升包装设计行业的工作效率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明第一方面实施例提供的包装设计语言模型的训练方法流程示意图；

图2为本发明第二方面实施例提供的包装设计语言模型的训练装置架构示意图；

图3为本发明第三方面实施例提供的电子设备架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合、分离、互换和/或重新布置。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

这里使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

以下通过具体实施例对本发明第一方面实施例提供的知识图谱构建和动态扩展方法进行介绍。请参阅图1，本发明第一方面实施例提供一种包装设计语言模型的训练方法，包括以下步骤：

获取包装设计用语数据和预训练语言模型；

获取自定义包装设计数据集；

本发明实施例基于LLM（Large Language Model）语言模型技术，这是一种当前自然语言处理领域的前沿技术，它可以通过训练模型，让模型预测下一个词或者句子，实现对自然语言的理解。相比于传统的基于规则的自然语言处理技术，LLM语言模型技术可以更加准确地理解自然语言输入。在本发明中，LLM语言模型技术可以帮助系统更加准确地解析客户的自然语言输入，理解客户的需求，从而生成更加符合客户需求的设计方案效果。

LLM语言模型技术的另一个优点是可以进行无监督预训练。这意味着，通过大量的无标签数据进行预训练，LLM语言模型可以学习到更多的语言知识，提高对自然语言的理解能力。在本发明中，通过对大量的包装设计相关文本进行无监督预训练，LLM语言模型可以更好地理解与包装设计相关的自然语言输入，并生成更加符合客户需求的设计方案效果。

此外，LLM语言模型技术还可以对客户输入的数据进行分析和挖掘，为系统的持续优化和更新提供支持。通过对客户输入的大量数据进行分析，LLM语言模型可以发现一些隐藏的规律和模式。例如，LLM语言模型可以发现一些类型相似的包装设计方案，从而为客户提供更多的选择。同时，LLM语言模型还可以发现一些客户需求的变化和趋势，为系统的持续优化和更新提供支持。

LLM语言模型技术是一种非常有前途的自然语言处理技术，它可以帮助系统更加准确地理解客户的自然语言输入，生成更加符合客户需求的设计方案效果，并为系统的持续优化和更新提供支持。

具体地，本发明实施例提供一种针对包装设计行业的垂直领域语言模型，用于在包装设计行业中实现人机交互、设计需求预测和设计案例生成。使用包装设计领域的专业数据微调预训练的深度学习语言模型，以提供对包装设计专业术语和概念的理解。首先选择一个适用于本发明的预训练语言模型。该预训练模型为基于深度学习的Transformer架构，并在自然语言处理任务中表现出优越性能的生成式预训练式Transformer（OpenAI GPT系列）或者双向Transformer（例如BERT系列）模型。在一些实施例中，预训练语言模型直接使用已经训练好的上述模型即可，也可以是采用通过以下方法训练的预训练语言模型。

预训练语言模型的训练过程概括：首先根据任务特性收集大量相关数据，然后将数据集对选定的Transformer模型中进行模型训练，然后通过测试集在训练好的模型上做推理查看模型的表现是否符合预期来决定超参数优化的策略，最后将微调后的模型用于最终的推理应用。

预训练模型的训练过程包括：

数据收集，首先，收集大量与本发明相关的数据，包括文本、图像等。为了构建高质量数据集，可以从多个来源搜集数据，例如行业论坛、设计博客、学术论文等。

数据预处理：对收集到的数据进行预处理，包括去除无关元素、转换图片格式、分词、标注等。数据预处理的目的是将原始数据转化为神经网络适合输入的格式。

选定Transformer模型：选择一个适用于本发明的生成式预训练式Transformer模型，例如OpenAI GPT系列。这些模型在自然语言处理任务中表现出优越性能，有利于本发明的实现。

模型训练：将预处理过的数据集划分为训练集和验证集。将训练集数据送入选定的Transformer模型中，进行多轮训练。在训练过程中，可以适时调整学习速率、模型参数等超参数以优化模型表现。

模型验证：使用验证集对训练好的模型进行验证。通过验证集上的损失函数值、准确率等指标，评估模型的表现。如果模型验证结果不佳，需要返回至超参数调整环节优化模型。

以上完成预训练语言模型的训练之后需要对模型进行微调，当模型在验证集上的表现符合预期时，可以对模型进行微调。微调通常通过继续在针对性的数据上训练模型实现，例如本发明中收集的专业设计相关数据。这可以使模型更好地适应具体任务，提高最终推理应用的表现。

模型测试：在模型微调后，使用之前留出的测试集对模型进行最终测试。评估模型在各项指标上的表现，确认是否符合实际应用场景的需求。

模型部署：将训练和微调好的模型部署到实际应用环境，如API、嵌入式系统等。此时模型可以用于生成包装设计描述、解答设计相关问题等任务，实现本发明的目标。

具体地，本发明实施例选用现有的预训练语言模型，确定预训练语言模型之后，先收集与包装设计行业密切相关的文本数据，本实施例中对此称作包装设计用语数据。这些数据包括但不限于包装设计论坛、博客、教程、行业文章等内容。通过网络爬虫技术和API技术从网站、社交平台、在线论坛等来源爬取数据。

对所述包装设计用语数据进行第一预处理，所述第一预处理包括去除HTML标签和特殊字符、进行数据清洗以及去除停用词。对于数据清洗，在数据采集阶段，为了获得更加准确可靠的数据，可以从多个数据源采集相同的数据，然后通过比较和核验来删除错误的数据，这一方法称为“数据融合”。数据清洗的一般过程包括：1、数据采集；2、数据整理：填补缺失值、格式化数据等；3、数据校验：比如长度校验、值域校验、相关性校验等；4、数据筛选：根据业务需求筛选正确的数据；5、数据转换：进行数据提炼、归一化等转换。对于文本数据，常用的清洗方法是：删除空格和换行符；更正拼写错误；归一化大小写；去掉标点符号等。对数字数据，常用的方法是：去除异常值；插补缺失值；校准不同量纲的数据等。数据清洗结束后，需要进行数据校验，以确保数据的质量。常用的校验方法有：与原始数据源进行对比，校验清洗过程是否产生新的错误；抽样调查清洗后的数据，核验其准确性；专业人员审核部分清洗结果等。

对预处理后的所述包装设计用语数据进行分词处理，以提取所述包装设计用语数据中的关键词、短语或者行业术语。

较佳地，这里先对分词结果去除停用词，去除文本中的常见停用词，如“的”、“和”等，留下有实际意义的词汇，方便后续的关键词提取。

应当理解的是，关键词、短语和行业术语构成了该包装设计领域的关键性词语，可以更好的表达包装设计语言之中的重点和主题，有利于模型理解用户的输入。常用的方法有：统计方法，如TF-IDF，提取高频词的短语；语义方法，利用词与词之间的关系提取代表意思的词和短语；专家知识方法，聘请领域专家根据专利内容提取关键词。

将所述关键词、短语和行业术语进行去重之后加入所述预训练语言模型的词汇表中。

具体地，将提取出的关键词、短语和行业术语集合起来，创建一个词汇表。可以将这些词汇排序并去重，保证词汇表的唯一性和准确性。将新创建的词汇表中的词汇添加到预训练语言模型的词汇表中。这样，预训练语言模型在处理包装设计相关任务时，可以更好地识别和理解行业相关术语，提高模型在该领域应用的表现。

通过以上过程，可以有效地对文本数据进行分词处理，并提取关键词、短语及行业术语，进而将这些术语添加到预训练模型的词汇表中，为后续任务提供更准确的行业领域信息。

然后需要使用收集到的专业数据对预训练语言模型进行微调。微调过程包括导入预训练语言模型权重，并使用面向包装设计行业的自定义数据集和损失函数对模型进行逐步优化。在优化过程中，可调整不同的超参数以达到最佳性能。包括：

获取自定义包装设计数据集，包括对包装设计行业数据进行第二预处理以使得所述包装设计行业数据满足所述预训练语言模型的输入格式，进而形成所述自定义包装设计数据集。

根据选定损失函数和优化器，基于所述自定义包装设计数据集对所述预训练语言模型进行微调，以更新所述预训练语言模型的网络权重和所述词汇表中词汇对应的词向量，获得所述包装语言模型。

其中，预训练语言模型权重是指在训练好的神经网络模型中，各层神经元之间连接的数值。这些权重经过大量数据的训练，得到了对输入数据进行有效表示和学习任务的能力。在预训练语言模型中，权重通常包括两个部分：词嵌入权重和Transformer网络权重。词嵌入权重：词嵌入权重用于将文本数据中的每个词汇映射为一个固定长度的向量（通常称为词向量）。这些向量可以捕捉词之间的语义关系，如相似词在向量空间中的距离较近。预训练语言模型的词嵌入权重是经过大量数据训练得到的，具有较好的语义表达能力。Transformer网络权重：Transformer网络权重包含多层的自注意力机制和位置前馈神经网络。这些权重在训练过程中不断地调整，以学习输入文本数据的复杂关系和结构。预训练语言模型的Transformer网络权重已经学习到了一定程度的文本表示，可以直接用于解决一些自然语言处理任务。

在微调过程中，使用收集到的专业数据即包装设计行业数据（如已积累的设计资料或网络资源）对预训练语言模型权重进行优化。这包括：

导入预训练语言模型权重：将已经训练好的预训练语言模型权重（如GPT系列模型权重）导入自定义模型中，作为模型初始权重。

使用自定义包装设计数据集将收集到的包装设计行业数据，按照模型输入要求进行预处理，构建自定义数据集。

设定损失函数和优化器：选择一个适用于模型的损失函数（如交叉熵损失、均方误差损失等）和优化器（如Adam、SGD等），用于指导模型的优化过程。

微调模型：自定义包装设计数据集喂入模型中，计算损失值。在优化过程中，根据损失值调整模型的权重。通过迭代训练数轮（Epochs），使模型在自定义包装设计数据集上表现更好。

超参数调整：在微调过程中，可尝试调整不同的超参数，如学习速率、权重衰减等，以达到最佳性能。超参数的选取可以通过网格搜索、随机搜索等方法进行确定。

在完成微调过程后，预训练语言模型将具有更好地理解和处理包装设计行业任务的能力。

较佳地，在微调过程中，将自定义包装设计数据集分为训练集和验证集。使用验证集评估模型在包装设计专业任务上的性能。结合准确率、召回率、F1分等评价指标，对所述模型进行性能优化。在微调过程中，将数据集分为训练集和验证集是为了评估模型在包装设计专业任务上的性能，并避免过拟合。具体包括：

划分数据集：首先，将收集到的专业数据集按照80%和20%的比例随机分为训练集和验证集。训练集用于模型训练，更新模型权重。验证集用于在训练过程中评估模型在包装设计任务上的表现。

防止过拟合：通过在验证集上评估模型性能，我们可以观察到模型是否对训练数据过拟合。过拟合是指模型在训练数据上表现很好，但在新数据上表现较差。通过设置一个验证集，我们可以追踪模型在新数据（验证集）上的性能，并在模型开始过拟合时停止训练。

评价指标：为了衡量模型在包装设计专业任务上的性能，我们可以使用准确率、召回率、F1分等评价指标。准确率衡量的是模型预测正确的结果占总预测结果的比例；召回率衡量的是模型正确预测的结果占真实正例的比例；F1分则是准确率和召回率的调和平均值，可以综合考虑准确率和召回率。这些评价指标有助于我们更全面地了解模型的性能。

性能优化：在训练过程中，根据验证集上的准确率、召回率和F1分等指标情况，我们可以对模型进行性能优化。这包括调整学习速率、权重衰减等超参数，以及尝试不同的模型结构、损失函数等。优化目标是使模型在包装设计专业任务上取得更好的性能。

通过以上步骤，我们可以有效地利用训练集和验证集，评估并优化模型在包装设计任务上的性能。在验证集上表现良好的模型预计在实际应用中也能取得较好的效果。

完成模型调优后，使用容器技术（例如Docker）将模型部署到服务器上。也可以利用云服务（例如AWS、Google Cloud、Azure）进行部署。为便于客户端调用，创建API接口供客户端调用，将语言模型嵌入实际应用场景，如Web平台和移动应用程序。

此外，周期性地重新收集数据并对模型进行重新微调，以适应包装设计领域的变化。对模型的实际使用情况进行监控，并收集反馈，根据需求对模型进行优化和更新。以实现模型的监控与更新。

本发明第二方面实施例提供一种包装设计语言模型的训练装置，如图2所示，包括：

第二获取模块，用于获取自定义包装设计数据集；

本发明第三方面实施例提供一种电子设备，如图3所示，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如上任一实施例所述的包装设计语言模型的训练方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种包装设计语言模型的训练方法，其特征在于，包括：

获取包装设计用语数据和预训练语言模型；

获取自定义包装设计数据集；

2.根据权利要求1所述的包装设计语言模型的训练方法，其特征在于：在对所述包装设计用语数据进行分词处理之前还包括：

3.根据权利要求1所述的包装设计语言模型的训练方法，其特征在于：所述分词处理包括采用文本处理工具对所述包装设计用语数据进行分词处理以获得分词结果，所述文本处理工具包括jieba分词或者THULAC。

4.根据权利要求1所述的包装设计语言模型的训练方法，其特征在于：所述关键词的提取方法包括基于BERT的TextRank或者BERT关键词抽取库从所述分词结果中提取所述关键词，所述BERT关键词抽取库包括Bert-extractive-keywords；

5.根据权利要求1所述的包装设计语言模型的训练方法，其特征在于：所述获取自定义包装设计数据集，包括：

6.根据权利要求1或5所述的包装设计语言模型的训练方法，其特征在于：所述损失函数包括交叉熵损失或者均方差损失；所述优化器包括Adam或者SGD。

7.根据权利要求1所述的包装设计语言模型的训练方法，其特征在于，还包括：将所述自定义包装设计数据集划分为训练集和验证集，通过所述验证集对经过训练集微调后的所述预训练语言模型进行评估以获得准确率、召回率或者F1分，根据所述准确率、召回率或者F1分对所述微调的过程进行调整。

8.一种包装设计语言模型的训练装置，其特征在于，包括：

第二获取模块，用于获取自定义包装设计数据集；

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的包装设计语言模型的训练方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的包装设计语言模型的训练方法。