CN117390497B - 基于大语言模型的类目预测方法、装置和设备 - Google Patents

基于大语言模型的类目预测方法、装置和设备 Download PDF

Info

Publication number
CN117390497B
CN117390497B CN202311685788.XA CN202311685788A CN117390497B CN 117390497 B CN117390497 B CN 117390497B CN 202311685788 A CN202311685788 A CN 202311685788A CN 117390497 B CN117390497 B CN 117390497B
Authority
CN
China
Prior art keywords
category
categories
predicted
commodity
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311685788.XA
Other languages
English (en)
Other versions
CN117390497A (zh
Inventor
董正心
胡盼盼
苑爱泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lazas Network Technology Shanghai Co Ltd
Zhejiang Koubei Network Technology Co Ltd
Original Assignee
Lazas Network Technology Shanghai Co Ltd
Zhejiang Koubei Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lazas Network Technology Shanghai Co Ltd, Zhejiang Koubei Network Technology Co Ltd filed Critical Lazas Network Technology Shanghai Co Ltd
Priority to CN202311685788.XA priority Critical patent/CN117390497B/zh
Publication of CN117390497A publication Critical patent/CN117390497A/zh
Application granted granted Critical
Publication of CN117390497B publication Critical patent/CN117390497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种基于大语言模型的类目预测方法、装置和设备,该方法应用于人工智能技术领域。该方法包括:获取待预测商品标题;对所述待预测商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选类目;基于所述多个候选类目,确定描述所述待预测商品标题的类目预测任务的语言提示词;采用已微调大语言模型基于所述语言提示词对所述待预测商品标题进行类目预测,得到所述待预测商品标题的目标类目。该方法通过筛选出的置信度较高的候选类目生成更符合人类意图的语言提示词,并进一步对待预测商品标题进行类目预测,能够提高待预测商品标题的目标类目的准确度。

Description

基于大语言模型的类目预测方法、装置和设备
技术领域
本申请涉及人工智能技术领域,并且更具体地,涉及人工智能技术领域中一种基于大语言模型的类目预测方法、装置和设备。
背景技术
商品类目预测是商品管理的核心基础能力之一,除了对商品分类管理外,还可以落地到搜索内的召回、相关性以及商品推荐等应用场景。因此,为了发挥类目预测更多的作用,通常将商品类目预测拓展到叶子节点,得到商品的多层级类目信息。
但当类目叶子节点数量较多时,如零售商品类目体系具有两千多的叶子节点,这时类别多,而用于训练分类器的样本远远不够支撑模型充分训练,导致模型预测商品类别的效果较差。
发明内容
本申请提供了一种基于大语言模型的类目预测方法、装置和设备,该方法通过筛选出的置信度较高的候选类目生成更符合人类意图的语言提示词,并进一步对待预测商品标题进行类目预测,能够提高待预测商品标题的目标类目的准确度。
第一方面,提供了一种基于大语言模型的类目预测方法,该方法包括:
获取待预测商品标题;
对所述待预测商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选类目;
基于所述多个候选类目,确定描述所述待预测商品标题的类目预测任务的语言提示词;
采用已微调大语言模型基于所述语言提示词对所述待预测商品标题进行类目预测,得到所述待预测商品标题的目标类目。
上述技术方案中,对于获取的待预测商品标题,通过对该待预测商品标题所属的类目进行初步分类,从而确定出置信度满足预设条件的多个候选类目。之后,采用已微调大语言模型按照该多个候选类目生成描述待预测商品标题的类目预测任务的语言提示词,这样,以语言提示词的形式描述该待预测商品标题的类目预测任务,能够便于后续的语义理解和常识推理。最后,按照语言提示词对待预测商品标题进行类目预测,得到待预测商品标题的目标类目。如此,通过筛选出的置信度较高的候选类目生成更符合人类意图的语言提示词,并进一步采用已微调大语言模型对待预测商品标题进行类目预测,能够提高待预测商品标题的目标类目的准确度。
结合第一方面,在某些可能的实现方式中,所述方法还包括:获取用于类目预测的原始大语言模型和样本商品标题;基于所述原始大语言模型所述样本商品标题所属的类目进行置信度调整,得到多个已调整样本类目;基于所述多个已调整样本类目对所述原始大语言模型进行参数调整,得到所述已微调大语言模型。
上述技术方案中,通过采用打乱排列顺序的多个候选样本类目对原始大语言模型进行微调,能够已微调大语言模型能够适应下游的类目预测任务,以达到调用大语言模型的强大通用的知识储备能力的目的,提高了已微调大语言模型进行类目预测的性能。
结合第一方面,在某些可能的实现方式中,所述基于所述原始大语言模型所述样本商品标题所属的类目进行置信度调整,得到多个已调整样本类目,包括:
基于所述原始大语言模型对所述样本商品标题所属的类目进行分类,得到置信度满足所述预设条件的多个候选样本类目;
对所述多个候选样本类目之间的排列顺序进行调整,得到多个已调整样本类目。
上述技术方案中,对该多个候选样本类目之间的排列顺序进行随机打乱,从而得到多个已调整样本类目,使得使正确类目出现在不同位置,从而使得原始大语言模型能够学习到更加丰富的特征,提高已微调大语言模型进行类目预测的准确度。
结合第一方面,在某些可能的实现方式中,所述基于所述多个已调整样本类目对所述原始大语言模型进行参数调整,得到所述已微调大语言模型,包括:
基于所述多个已调整样本类目和所述样本商品标题,预测所述样本商品标题的类目预测任务对应的虚拟令牌;
基于所述虚拟令牌对所述原始大语言模型进行调整,得到所述已微调大语言模型。
在上述方案中,通过少量样本自动构建模版来抽取特定知识,同时,在调节原始大语言模型的过程中只优化一部分可学习的参数而非全部参数,能够降低调节成本,而是使得已微调大语言模型更加适用于商品标题的类目预测任务。
结合第一方面,在某些可能的实现方式中,所述基于所述多个候选类目,确定描述所述待预测商品标题的类目预测任务的语言提示词,包括:
基于所述类目预测任务,确定用于提供文本框架的第一提 示词;
基于所述待预测商品标题和所述多个候选类目,确定用于提供文本内容的第二提示词;
将所述第二提示词嵌入所述第一提示词,得到所述语言提示词。
在上述方案中,通过按照该类目预测任务生成提供文本框架的第一提示词,以及,按照待预测商品标题和多个候选类目生成提供文本内容的第二提示词,从而将第二提示词嵌入第一提示词,能够使得到的语言提示词更加准确的描述该类目预测任务的语义,更加贴合人类意图。
结合第一方面,在某些可能的实现方式中,所述采用已微调大语言模型基于所述语言提示词对所述待预测商品标题进行类目预测,得到所述待预测商品标题的目标类目,包括:
采用所述已微调大语言模型对所述语言提示词进行类目推理,得到中间类目;
在预设真实类目库中查找所述中间类目;
响应于在所述预设真实类目库中查找到所述中间类目,将所述中间类目确定为所述目标类目。
在上述方案中,如果中间类目是真实存在的类目,那么该中间类目即可作为该待预测商品标题的目标类目,使得输出的目标类目既准确又合理。
结合第一方面,在某些可能的实现方式中,所述方法还包括:
响应于在所述预设真实类目库中未查找到所述中间类目,将所述多个候选类目中置信度最高的候选类目确定为所述目标类目。
在上述方案中,如果中间类目不是真实存在的类目,那么将置信度最高的候选类目作为目标类目,这样,既能够快速得到目标类目还能够使得目标类目真实有效。
结合第一方面,在某些可能的实现方式中,所述对所述待预测商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选类目,包括:
将所述待预测商品标题对应的文本转换为输入向量;
基于所述输入向量,确定描述所述类目预测任务的整句语义的嵌入向量;
基于所述嵌入向量,确定所述置信度满足所述预设条件的多个候选类目。
在上述方案中,通过对待预测商品标题对应的文本进行向量转换,以生成能够作为整句话语义表示的嵌入向量,便于通过该嵌入向量更加准确地实现类目分类,以较为精准的选择出多个候选类目。
结合第一方面,在某些可能的实现方式中,所述基于所述嵌入向量,确定所述置信度满足预设条件的多个候选类目,包括:
对所述嵌入向量所属的类目进行分类,得到所述待预测商品标题的初步类目集合;
在所述初步类目集合中,将置信度排列在前k个的初步类目作为所述多个候选类目;其中,k为大于1的整数。
在上述方案中,通过在初步类目集合中选择置信度较高的前k个初步类目,能够通过置信度较高的该多个候选类目生成语言提示词,从而便于后续已微调大语言模型对语言提示词进行语义理解,使得最终确定的目标类目更加准确。
第二方面,提供了一种基于大语言模型的类目预测装置,该装置包括:
获取模块,用于获取待预测商品标题;
分类模块,用于对所述待预测商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选类目;
确定模块,用于基于所述多个候选类目,确定描述所述待预测商品标题的类目预测任务的语言提示词;
预测模块,用于采用已微调大语言模型基于所述语言提示词对所述待预测商品标题进行类目预测,得到所述待预测商品标题的目标类目。
第三方面,提供了一种基于大语言模型的类目预测设备,包括存储器和处理器。该存储器用于存储可执行程序代码,该处理器用于从存储器中调用并运行该可执行程序代码,使得该设备执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
第四方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
附图说明
图1是本申请实施例提供的一种基于大语言模型的类目预测方法的实施环境示意图;
图2是本申请实施例提供的一种基于大语言模型的类目预测方法的示意性流程图;
图3是本申请实施例提供的一种基于大语言模型的类目预测方法的另一示意性流程图;
图4是本申请实施例提供的一种基于大语言模型的类目预测方法的又一示意性流程图;
图5为本申请实施例提供的类目预测方法的实现流程示意图;
图6为本申请实施例提供的类目分类器的实现原理示意图;
图7是本申请实施例提供的一种基于大语言模型的类目预测装置的结构示意图;
图8是本申请实施例提供的一种基于大语言模型的类目预测设备的结构示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行清楚、详尽地描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B:文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。
为便于理解本申请实施例,下面对本申请实施例中涉及到的专业术语进行解释:
大语言模型(Large Language Model,LLM):是使用大量文本训练的深度学习模型,可以生成语言提示词或理解语言文本的含义,从而处理多种自然语言任务,包括对话问答、信息抽取、文本分类等,并在多项任务上展现出了巨大的潜力。
提示词(prompt)模型:指输入的文本段落或短语,加在待解决任务文本的前面,一起传递给LLM来实现预期任务,具有指令、提示的含义,通常为问题、对话、描述等形式,prompt的输入使LLM具有适应各种下游应用的能力。
商品类目体系:为了更好地管理商品,需要将商品进行分类,通常会定义一个多层级的类目体系,表现为树结构,每个商品会被分类到类目体系中一个叶子节点上。如本地生活搜索场景下的零售商品类目体系,包括30多个一级类目、300多个二级类目、2000多个三级类目。
类目预测任务:对于商品标题,通常为短文本,通过模型预测得到应该挂载的类目节点信息,如对于三级的类目体系,预测结果应包括一级类目、二级类目、三级类目。
分类器:分类是数据挖掘的一种非常重要的方法,是在已有数据的基础上学习一个分类函数或构造出一个分类模型,即通常所说的分类器。该函数或模型能够将未知的数据映射到给定类别中的某一个,即进行类别预测。
类目树结构:对于三层级的类目体系,自上而下是一对多的关系,而自下而上是多对一的关系,每个三级类目只可能属于一个二级类目。
类目路径:从类目树的最顶层类目节点,通常为一级类目,其中每个一级类目节点,到叶子类目节点,存在一条将一级类目与叶子类目之间的所有层级类目串联起来,称为类目路径。如在本地生活零售商品类目体系中,类目路径为“一级类目—二级类目—三级类目”,并且每条类目路径都是唯一的。
树形数据结构:树形数据结构是一类重要的非线性数据结构;树形数据结构可以表示数据元素之间一对多的关系。
父节点:若一个节点含有子节点,则这个节点称为其子节点的父节点;比如在三层级的类目树中,一级类目下有多个二级类目,那么该一级类目为其二级类目的父节点。
子节点:一个节点含有的子树的根节点称为该节点的子节点;比如在三个层级的类目树中,一级类目下具有多个二级类目,那么该二级类目均为其一级类目的子节点。
叶子节点:若一个节点不含有子节点,则这个节点称为叶子节点;比如在三层级的类目树中,三级类目下没有子节点,即为叶子节点。
下面对本申请实施例的实施环境进行以下介绍,该实施环境如图1所示,本申请实施例提供的类目预测方法的实施环境包括发送终端101、服务器102、类目预测终端103。
发送终端101和类目预测终端103通过无线网络相连,类目预测终端103与服务器102通过无线或有线网络相连。发送终端101将预测商品标题发送给类目预测终端103。并将类目预测终端103发送至服务器102,服务器102对待预测商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选类目,并确定描述待预测商品标题的类目预测任务的语言提示词;最后,基于语言提示词对待预测商品标题进行类目预测,得到待预测商品标题的目标类目。服务器102将待预测商品标题的目标类目输出至类目预测终端103。
服务器102是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
下面对本申请实施例提供的技术方案进行介绍,本申请实施例提供一种基于大语言模型的类目预测方法,参见图2,图2是本申请实施例提供的一种基于大语言模型的类目预测方法的示意性流程图,该方法包括以下步骤:
201,获取待预测商品标题。
这里,待预测商品标题可以是任意类型的商品的标题,可以是购物平台的任一商品的商品标题,比如,A品牌黑鸭经典鸭脖140克(g)。在一些可能的实现方式中,可以接收平台发送的待预测商品标题,还可以是主动从平台读取待预测商品标题。
202,对所述待预测商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选类目。
这里,预设条件可以是指置信度排列在前k个,还可以是指置信度大于预设置信度阈值,该预设置信度阈值可以是自定义设置的,比如,设定预设置信度阈值为0.5。
在一些可能的实现方式中,采用前置分类器对待预测商品标题所属的类目进行分类,得到预测的类目集合,之后,从该类目集合中选择出置信度满足预设条件的多个候选类目。对待预测商品标题进行特征编码,得到输入向量,将该输入向量输入至前置分类器进行多分类预测;在输出结果中筛选置信度满足预设条件的多个候选类目。该前置分类器可以是基于转换器的双向编码器表示(Bidirectional Encoder Representations fromTransformers,BERT)模型。通过该BERT模型对待预测商品标题进行类目预测,能够得到准确度较高的候选类目。
203,基于所述多个候选类目,确定描述所述待预测商品标题的类目预测任务的语言提示词。
这里,将该多个候选类目输入提示词模型中,以生成描述待预测商品标题的类目预测任务的语言提示词。语言提示词为描述该类目预测任务的人类语言,以便用于类目预测的大语言模型更易理解该文本,从而使得输出的目标类目准确率更高。
在一些可能的实现方式中,在得到多个候选类目之后,将待预测商品标题的类目预测任务使用便于大语言模型理解的自然语言表述出来。示例性的,多个候选类目为通过前置分类器得到置信度排列在前5个的候选类目,使用全类目路径表示,语言提示词为:“类目范围有:(类目1)、(类目2)、(类目3)、(类目4)、(类目5)”,对于商品标题:(商品标题),请判断该商品最适合哪个类目。
204,基于所述语言提示词对所述待预测商品标题进行类目预测,得到所述待预测商品标题的目标类目。
这里,采用大语言模型基于语言提示词对待预测商品标题进行类目预测,得到目标类目。由于该语言提示词通过提示词模型将分类任务转换成了通过语义理解、推理完成的判断选择题,所以将该语言提示词输入大语言模型,便于大语言模型更易对待预测商品标题进行类目预测。这样,采用语言提示词作为输入,通过大语言模型来对齐人类意图,能够生成符合人类偏好的回答,从而能够使得预测目标类目更加准确。
在本申请实施例中,通过对待预测商品标题所属的类目进行初步分类,从而确定出置信度满足预设条件的多个候选类目。之后,按照该多个候选类目生成描述待预测商品标题的类目预测任务的语言提示词,这样,以语言提示词的形式描述该待预测商品标题的类目预测任务,能够便于后续的语义理解和常识推理。最后,按照语言提示词对待预测商品标题进行类目预测,得到待预测商品标题的目标类目。如此,通过置信度满足预设条件的多个候选类目生成语言提示词,将该语言提示词作为提示词更符合人类的思维,进一步对待预测商品标题进行类目预测,能够提高待预测商品标题的目标类目的预测准确度。
在一些实施例中,通过确定提供文本框架的第一提示词和听过文本具体内容的第二提示词,生成该语言提示词,即上述步骤203可以通过以下步骤231至233(图示未示出)实现:
231,基于所述类目预测任务,确定用于提供文本框架的第一提示词。
这里,通过类目预测任务进行解析,能够得到该类目预测任务的类型以及应用场景等信息;之后,按照类目预测任务的类型以及应用场景等,生成描述该类目预测任务的类型以及应用场景的文件框架。比如,类目预测任务是预测商品标题的类目,那么类目预测任务的类型为标题类目分类,应用场景为商品,所以确定第一提示词为:商品标题,类目范围。这样,针对同一类型和应用场景的类目预测任务,文本框架均相同,即第一提示词相同,之后,针对每一类目预测任务的具体内容在该文本框架中进行补充,即可形成语言提示词。
232,基于所述待预测商品标题和所述多个候选类目,确定用于提供文本内容的第二提示词。
这里,按照待预测商品标题的具体内容以及多个候选类目对应的文本,生成描述该类目预测任务的判断句,比如,该判断句为“请判断该商品最适合哪个类目”。将该判断句、待预测商品标题的具体内容以及多个候选类目对应的文本相结合,作为该第二提示词。比如,待预测商品标题为“A品牌黑鸭经典鸭脖140g”,多个候选类目为:类目1,类目2,类目3,类目4,类目5。那么第二提示词即为:A品牌黑鸭经典鸭脖140g,类目1,类目2,类目3,类目4,类目5,请判断该商品最适合哪个类目。
233,将所述第二提示词嵌入所述第一提示词,得到所述语言提示词。
这里,将第二提示词按照该提示词的具体内容,嵌入第一提示词的框架中的对应位置,即可得到语言提示词。比如,第一提示词为商品标题,类目范围,第二提示词为A品牌黑鸭经典鸭脖140g,类目1,类目2,类目3,类目4,类目5,请判断该商品最适合哪个类目。按照商品标题在第一提示词所表示的框架中的位置,嵌入第二提示词中的“A品牌黑鸭经典鸭脖140g”;并按照类目范围在第一提示词所表示的框架中的位置,嵌入第二提示词中的“类目1,类目2,类目3,类目4,类目5”,之后,将第二提示词中的“请判断该商品最适合哪个类目”置于文本结尾,得到语言提示词为:类目范围有:类目1,类目2,类目3,类目4,类目5,对于商品:A品牌黑鸭经典鸭脖140g,请判断该商品最适合哪个类目。
在本申请实施例中,通过按照该类目预测任务生成提供文本框架的第一提示词,以及,按照待预测商品标题和多个候选类目生成提供文本内容的第二提示词,从而将第二提示词嵌入第一提示词,能够使得到的语言提示词更加准确的描述该类目预测任务的语义,更加贴合人类意图。
在一些实施例中,已微调大语言模型的训练过程可以通过图3所示的步骤301至303实现:
301,获取用于类目预测的原始大语言模型和样本商品标题。
这里,样本商品标题为具有真值类目标签的多个商品标题。原始大语言模型用于自然语言的理解和生成。
302,基于所述原始大语言模型所述样本商品标题所属的类目进行置信度调整,得到多个已调整样本类目。
这里,通过原始大语言模型对样本商品标题所属的类目进行预测,并按照预测的置信度对样本商品标题所属的类目进行随机排序,从而得到打乱所属类目顺序的已调整样本类目。
303,基于所述多个已调整样本类目对原始大语言模型进行调整,得到所述已微调大语言模型。
这里,将多个已调整样本类目作为训练样本,预测出对应的虚拟令牌;通过将该虚拟令牌自动构建模版来抽取特定知识,以优化原始大语言模型中的部分可学习的参数,从而得到已微调大语言模型。如此,通过采用打乱排列顺序的多个候选样本类目对原始大语言模型进行微调,能够已微调大语言模型能够适应下游的类目预测任务,以达到调用大语言模型的强大通用的知识储备能力的目的,提高了已微调大语言模型进行类目预测的性能。
在一些可能的实现方式中,通过按照初步预测的置信度对样本商品所属的类目进行随机排列,以构造用于调整原始大语言模型的数据集,即构造已调整样本类目,可以通过以下步骤321和322(图示未示出)实现:
321,基于所述原始大语言模型对所述样本商品标题所属的类目进行分类,得到置信度满足所述预设条件的多个候选样本类目。
这里,通过原始大语言模型对样本商品标题进行类目预测,以得到预测的样本类目,从中选择出置信度排列在前k个候选样本类目。
322,对所述多个候选样本类目之间的排列顺序进行调整,得到多个已调整样本类目。
这里,忽略多个候选样本类目的置信度,将多个候选样本类目作为后续调整原始大语言模型的输入样本。由于多个候选样本类目本是按照各自置信度从大到小排列的,而且大部分置信度最高的候选类目为正确类目,与样本标签相等,会使得大语言模型学习到此模式而忽略真实的语义,所以将该多个候选样本类目对应的置信度忽略掉,对该多个候选样本类目之间的排列顺序进行随机打乱,从而得到多个已调整样本类目,使得使正确类目出现在不同位置,从而使得原始大语言模型能够学习到更加丰富的特征,提高已微调大语言模型进行类目预测的准确度。
在一些可能实现方式中,通过将生成的输入向量仅加入到原始大语言模型的输入层,实现对原始大语言模型的微调,即上述步骤313可以通过以下过程实现:
首先,基于所述多个已调整样本类目和所述样本商品标题,预测所述样本商品标题的类目预测任务对应的虚拟令牌。
这里,通过先将多个已调整样本类目和所述样本商品标题转换为文本格式,再将该文本格式表示为向量。按照该向量预测实现该样本商品标题的类目预测任务的虚拟令牌(virtual tokens),该虚拟令牌可以作为原始大语言模型的输入数据的前缀,携带于该输入数据。该虚拟令牌为连续的可微分的向量,以便于能够输入到原始大语言模型中,对原始大语言模型进行调整。
然后,基于所述虚拟令牌对所述原始大语言模型进行调整,得到所述已微调大语言模型。
这里,通过该虚拟令牌自动化地寻找连续空间中的知识模板,并且训练知识模板。比如,通过提示词编码器根据样本商品标题的类目预测任务,预测该任务特定的虚拟令牌。将该虚拟令牌插入多个已调整样本类目中的任一位置,虚拟令牌根据用户定义的模板插入到离散令牌的嵌入向量中,并一起传递到原始大语言模型的其余部分,以实现对原始大语言模型的部分参数进行调整。在一些可能的实现方式中,虚拟令牌仅加入到原始大语言模型的输入层而不是原始大语言模型的每一层,从而能够实现对原始大语言模型的部分参数的优化,而无需优化全部参数。如此,通过少量样本自动构建模版来抽取特定知识,同时,在调节原始大语言模型的过程中只优化一部分可学习的参数而非全部参数,能够降低调节成本,而是使得已微调大语言模型更加适用于商品标题的类目预测任务。
在一些实施例中,为进一步提高目标类目的准确度,采用已微调大语言模型对输入的语言提示词进行类目预测,以得到该目标类目,即上述步骤204可以通过以下过程实现:
首先,采用所述已微调大语言模型对语言提示词进行语义理解,得到候选语义。
这里,由于该已微调大语言模型是通过样本商品标题的多个已调整样本类目对原始大语言模型进行微调得到的,所以该已微调大语言模型适用于商品标题的类目预测任务,能够很好的实现语言理解以及语义生成。这样,通过已微调大语言模型对语言提示词进行语义理解,能够提高得到的候选语义的准确度。
然后,基于所述候选语义,预测所述商品标题所属的目标类目。
这里,在已微调大语言模型中对语言提示词进行语义理解之后,再预测候选语义所对应的类目。之后,对预测到的类目进行后处理,以判断预测类目是否为真实存在的类目,从而提高目标类目的合理性。
在一些可能的实现方式中,对该候选语义所属的类目进行分类,来推断正确的类目,并且按照待预测商品标题的类目预测任务所匹配的格式输出预测结果。该类目预测任务所匹配的格式为该待预测商品标题所属类目的一整条类目路径,比如,输出结果为:肉蛋禽类_鸭肉_鸭脖。
在本申请实施例中,由于已微调大语言模型对于语义理解和语义生成具有较好的性能,所以通过已微调大语言模型对语言提示词进行语义理解后,再进行类目推理,能够提高预测的目标类目的准确度。
在一些实施例中,对语言提示词进行类目推理之后,再对得到的中间类目进行后处理,以确定目标类目,即上述步骤204可以通过以下步骤241至244(图示未示出)实现:
241,采用所述已微调大语言模型对所述语言提示词进行类目推理,得到中间类目。
这里,在已微调大语言模型中,对语言提示词所属的类目进行分类预测,即实现对语言提示词的类目推理,以预测语言提示词所属的类目,并按照类目预测任务所匹配的格式输出中间类目。该中间类目即为已微调大语言模型的输出结果。
242,在预设真实类目库中查找所述中间类目。
这里,预设真实类目库用于存储大量的真实存在的类目路径。比如,该预设真实类目库中存储几千条的真实存在的类目路径。由于已微调大语言模型具有一定的随机性和不确定性,所以在得到已微调大语言模型输出的中间类目之后,对中间类目进行后处理,在预设真实类目库中查找中间类目,以准确判断中间类目是否为真实存在的类目。这样,通过预设真实类目库判断中间类目的真实性,从而使得最终确定的目标类目更加合理。
243,响应于在所述预设真实类目库中查找到所述中间类目,将所述中间类目确定为所述目标类目。
这里,如果在预设真实类目库中查找到中间类目,说明中间类目是真实存在的一整条类目路径,所以可以直接将该中间类目确定为目标类目。如此,如果中间类目是真实存在的类目,那么该中间类目即可作为该待预测商品标题的目标类目,使得输出的目标类目既准确又合理。
244,响应于在所述预设真实类目库中未查找到所述中间类目,将所述多个候选类目中置信度最高的候选类目确定为所述目标类目。
这里,如果在预设真实类目库中未查找到中间类目,说明中间类目不是真实存在的一整条类目路径,因此,为能够输出较为准确的目标类目,将置信度最高的候选类目作为目标类目。如此,如果中间类目不是真实存在的类目,那么将置信度最高的候选类目作为目标类目,这样,既能够快速得到目标类目还能够使得目标类目真实有效。
在一些实施例中,通过BERT分类器实现对待预测商品标题所属的类目进行分类,以从中选择出多个候选类目,即上述步骤202可以通过图4所示的步骤实现:
401,将所述待预测商品标题对应的文本转换为输入向量。
这里,将待预测商品标题对应的文本通过向量的形式进行表示,即得到该输入向量。在一些可能的实现方式中,将该输入文本转换为对应的令牌(token),在通过独热编码得到该输入向量,以作为BERT模型的输入。
402,基于所述输入向量,确定描述所述类目预测任务的整句语义的嵌入向量。
这里,将输入向量输入到BERT模型,在输入向量前方加入特殊符号[CLS],该位置对应的输出向量即为应用于分类的嵌入向量,该嵌入向量作为描述类目预测任务的整句话的语义表示,从而能够用于BERT模型中的分类任务。在一些可能的实现方式中,将前方加入特殊符号[CLS]的输入向量输入到BERT模型的嵌入层,即该BERT模型的第一层,该嵌入层将将高维离散的输入向量转换成低维连续的嵌入向量,以便于通过该嵌入向量进行分类。
403,基于所述嵌入向量,确定所述置信度满足所述预设条件的多个候选类目。
这里,将该嵌入向量输入BERT模型的分类层,即由全连接层构成的多层感知器中,从而得到分类结果,并从分类结果中选择出置信度满足预设条件的多个候选类目。如此,通过对待预测商品标题对应的文本进行向量转换,以生成能够作为整句话语义表示的嵌入向量,便于通过该嵌入向量更加准确地实现类目分类,以较为精准的选择出多个候选类目。
在一些可能的实现方式中,通过对嵌入向量进行类目分类,以从中选择出置信度在前k个的候选类目,即上述步骤403可以通过以下过程实现:
首先,对所述嵌入向量所属的类目进行分类,得到所述待预测商品标题的初步类目集合。
这里,通过BERT模型的分类层对嵌入向量所属的类目进行分类,能够准确预测待预测商品标题的初步类目集合。该初步类目集合中包括大量类目以及每一类目对应的置信度,比如,类目范围为几千个类目,那么初步类目集合为均存在各自对应的置信度的几千个类目。
然后,在所述初步类目集合中,将置信度排列在前k个的初步类目作为所述多个候选类目。
这里,k为大于1的整数。由于初步类目集合中的每一初步类目均携带各自对应的置信度,所以从初步类目集合中选择出置信度较高的前几个初步类目作为候选类目。比如,在包括2000个类目的初步类目集合中,选择前5个初步类目为该候选类目。如此,通过在初步类目集合中选择置信度较高的前k个初步类目,能够通过置信度较高的该多个候选类目生成语言提示词,从而便于后续已微调大语言模型对语言提示词进行语义理解,使得最终确定的目标类目更加准确。
在一些实施例中,在商品类目体系中,叶子类目间存在明显的边界性,与商品实体强相关。部分类目之间存在混淆性,甚至人工都难以判断。当叶子节点数量多时,分类难度大大增加。由于各人理解差异,商家在对商品类目进行初始挂载时难以选中符合业务规则的类目节点,导致叶子类目挂载准确率低,同时,大量商品挂在“其他”类目。部分同父节点下的叶子节点区分度小,以及存在跨父节点的相近叶子节点,更易混淆;如在零售商品类目体系中,“休闲食品--豆制品/蛋制品--豆干/豆腐类”与“豆制品--豆制干货类--豆干/豆腐干”是比较容易混淆的两条类目路径。因此,简单的叶子类目节点多分类很难实现类目的准确分类。
在相关技术的类目预测方法中,集中于平面的叶子节点多分类,只考虑三级叶子节点,忽略了各个层级类目之间的关系,但不同层级的类目间具有重要的连接关系,如在不同的一级类目下,即使三级类目具有相似的类目节点名称,含义也完全不同。
在机器学习领域,对于普通的基于机器学习或深度学习模型构造的分类器,进行单标签多分类时,将文本输入映射为某一空间内的特征编码,表示为向量,通过模型计算后得到在各个类别上的概率值,取概率值最高的类别作为分类结果。相关技术中的类目预测方法大多为通过分类器计算各类别上的概率。
与分类模型不同,面对以生成式预训练转化器(Chat Generative Pre-trainedTransformer,ChatGPT)为首的各种LLM,主要为生成式任务,首先想到的是智能问答任务,这些模型强大的信息理解能力、对话交互能力令人惊艳,而训练过程中使用到的大量数据是LLM如此成功的重要因素之一。随着LLM的兴起,大型生成式模型展现出了优越的性能,其背后海量的知识储备,赋予了LLM更强大的理解能力。在面对容易混淆的类目时,文本分类模型可能会由于部分标志性词语导致分类偏差,但从人类的角度来看,结合生活常识和简单推理,可以得到正确的分类结果,如“A品牌 皮革气垫20 14克/个”,由于含有“皮革”类目高频词,极易预测为“家庭清洁_皮革保养_皮具皮革护理剂”错误类目,但通过常识可以看出,标题中有“A品牌”品牌词以及“气垫”品类词,可以推断为“美妆饰品_彩妆_粉底液/膏”正确类目。然而在普通的分类器输出中,由于文本语义混淆,易混淆的类目会集中在预测概率最高的几个类别,导致误判。因此,通过LLM进行类目预测,可以利用该模型储备的基本常识,经过样本微调补充领域内常识,通过prompt设计将普通分类器得到的前k(top k)个候选类目构造成LLM的输入问题,再利用LLM大模型的推理理解能力生成回答,完成分类。
在相关技术中,对于商品类目预测可以通过以下两种方式实现:
方式一:基于预训练语言模型(Bidirectional Encoder Representations fromTransformers,BERT)多分类的类目预测:
将类目预测任务建模为叶子节点多分类任务,由预训练BERT模型得到商品标题的文本表征,通过多分类器直接进行类目预测。
方式二:基于BERT双塔结构的类目预测:
BERT双塔结构包括多分类器和文本相似度计算两个任务。商品标题和类目文本共享底层的BERT模型作为文本编码器,同时进行文本多分类任务,文本与类目的文本相似度计算,利用商品标题和类目之间的文本相似度辅助多分类器训练。
在上述方式一和二中局限于分类器计算各类别上的概率,仅从平面的叶子节点出发进行多分类,这样依靠商品标题的文本语义进行预测,容易造成语义混淆,部分需借助图片等其他源信息辅助模型判断;而另外一部分需要常识推理进行判断。
基于此,本申请实施例提供了一种基于LLM结合前置分类器的类目预测方法,从分类器和LLM出发,利用大型语言模型LLM的知识储备和理解能力、推理能力得到更准确的分类结果。通过分类器得到概率最高的前几个类目,再输入LLM进行语义理解和常识推理,生成最终类目预测结果。充分利用了大型语言模型的知识储备和理解能力、推理能力,并且通过前置分类器缩小了候选的类目范围,便于LLM理解,降低了在易混淆文本及类目上的分类误差。
图5为本申请实施例提供的类目预测方法的实现流程示意图,结合图5进行以下说明:对于待预测的商品标题501,通过特征编码输入前置分类器(比如,BERT分类器502)进行多分类预测,在输出结果中筛选概率值(类目置信度503)最高的top k个类目作为候选类目(比如,top5候选类目504)。结合部分prompt 505和主要prompt 506,生成prompt 507(比如,商品标题:【B品牌黑鸭经典鸭脖140g】prompt:【类目范围有:······对于商品:B品牌黑鸭经典鸭脖140g,请判断该商品最适合哪个类目】),即构造成选择题问题文本,输入LLM 508得到回答,即为最终的类目预测结果509。
在图5中,BERT分类器502是语言模型。对于预训练BERT模型来说,文本分类任务比较常见且表现较好,在本申请实施例中,选用预训练BERT模型作为前置分类器,通过类目训练数据集进行微调,得到基础的商品类目分类器。
BERT模型分类原理如图6所示,输入文本601被转换为对应的令牌(token),再通过独热编码(one-hot)得到输入模型的输入向量,即。在输入文本前方加入特殊符号[CLS],该位置对应的输出向量即为应用于分类的嵌入向量(embedding),即/>,将该嵌入向量转换为表示整句话的语义的向量,从而用于下游的分类任务。然后经过分类层602,该分类层602为由全连接层构成的多层感知器,得到分类结果603。假设存在2000个类别,则分类结果在2000个类别的维度上均存在一个置信度,常采用概率值作为置信度,取置信度最大的前五个类目作为候选类目。
在图5中,prompt指输入的文本段落或短语,为目标任务的自然语言描述,与待解决任务结合在一起形成LLM模型的输入,传递给LLM来得到回答,具有指令、提示的含义,通常为问题、对话、描述等形式,prompt的输入使LLM具有适应各种下游应用的能力。对于LLM来说,设计合适的prompt至关重要,通过设计符合要求的prompt来优化输入内容,引导模型生成更加准确、稳定可靠、符合预期的结果,从而发挥LLM的潜力和优势。
在本申请实施例中,prompt的设计围绕类目预测任务,将任务要求使用便于LLM理解的自然语言表述出来,既要简单明了,又要清晰全面。通过前置分类器得到top k个候选的类目,使用全类目路径表示。假设k=5,则使用prompt:“类目范围有:(类目1)、(类目2)、(类目3)、(类目4)、(类目5)”,后加入商品标题与对应的任务描述,如“对于商品标题:(商品标题),请判断该商品最适合哪个类目”。由此,通过prompt将分类任务转换成了通过语义理解、推理完成的判断选择题。以下为一个商品类目预测prompt的完整示例:“类目范围有:水果_石榴类_石榴、水果_梨类_啤梨、酒_啤酒_啤酒、鲜花绿植_礼品鲜花_玫瑰类主打、酒_啤酒_果啤、饮料_碳酸饮料_加味汽水。对于商品:A国家 石榴进口精酿啤酒3.5%vol330ml/瓶,请判断该商品最适合哪个类目。”
另外,对于少量类目,存在特殊的业务规则,如在零售商品场景下,如包含“花束”关键词的鲜花为礼品鲜花类目,其中第一个出现的花材决定三级类目,如“玫瑰花主打类”。因此,对于部分含有特定业务规则的类目可以在prompt中加入业务规则的描述,使大模型作出更符合领域知识的判断。
对于生成系列的LLM模型来说,模型本身更侧重于生成任务,但在类目预测的场景下,本质上是理解和分类任务,因此为了更好地发挥LLM的能力,需要对模型进行微调来适应下游任务,达到调用LLM模型强大通用的知识储备能力的目的。
在本申请实施例中,使用大语言模型对话机器人(Chat GLM),通过参数调整(Parameter tuning,p-tuning)方法进行微调训练;其中:
Chat GLM模型是一个开源的对话语言模型,基于通用语言模型(GeneralLanguage Mode,GLM)架构,具有62亿参数,使用了监督微调、反馈自助、人类反馈强化学习等方式进行预训练,来对齐人类意图,可以生成相当符合人类偏好的回答,模型部署门槛较低,满足应用需求。GLM模型通过自回归空格填充任务融合了自回归、自编码、双向注意力机制等多种预训练框架的思想,将各框架优势融合在一起,既能支持自然语言理解任务,也能支持自然语言生成任务。
面对预训练LLM的海量参数,相关技术中finetune方法使用少量的标记数据(即目标任务的训练数据),对预训练模型进行微小的调整,使其适应新的任务,难以影响模型预测结果。因此,需要采用更适用于大语言模型的“微调”方法,在本申请实施例中采用p-tuning方法使得LLM模型更适用于下游任务。p-tuning方法的优势在于自动化地寻找连续空间中的知识模板,并且训练知识模板。p-tuning突破了人工构建离散模版的限制,通过少量样本自动构建模版来抽取特定知识;同时,在调节模型的过程中只优化一部分可学习的参数而非全部参数,从而降低调节成本。
使用少量数据集对LLM进行微调,可以得到更符合期望的输出结果。实验发现,当top k个类目按照概率值由高到低排列时,由于大部分概率最高的类目为正确类目,与样本标签相等,会导致大模型学习到此模式而忽略真实的语义。因此,在微调数据集中,为了使LLM真正去通过语义来推断正确类目,而不是只学习到判断模式,需要将top k个类目的顺序进行随机打乱,使正确类目出现在不同位置。
在通过少量数据“微调”模型的过程中,指定了一定的输出格式,而经过微调过后的LLM基本可以按照期望格式进行输出。但是由于生成式模型具有一定的随机性和不确定性,仍需要对模型输出结果进行后处理。包括类目真实性判断,即判断LLM输出的类目路径是否在目标类目体系中真实存在,若不存在则仍采用前置分类器得到的置信度最高的(即top1)类目预测结果,从而使得到的类目预测结果都是真实有效的。
在本申请实施例中,针对零售商品类目预测结果抽样中,对于易混淆类目的商品预测结果进行评测,其中只使用BERT模型进行分类的预测结果正确率为9%,而经过LLM预测得到的结果准确率为64.93%,得到了56%的提升,可以看出本申请实施例提供的类目预测方法在困难类目预测上有较大幅度的提升,能突破原文本分类方法的局限。基于LLM结合前置分类器的类目预测,使用前置分类器得到候选top k个类目,结合商品标题生成prompt输入LLM进行判断,得到最终类目预测结果。如此,借助预训练LLM模型的强大知识储备,引入额外的知识理解能力,通过少量样本微调来适应领域知识,能在给定候选范围内生成类目体系内的预测类目,突破了原有仅通过概率值决定类别的分类器方法,通过常识理解进一步选择正确类目,更符合人类的思维方法,提高了类目预测结果的准确率。
本申请实施例提供一种基于大语言模型的类目预测装置,图7是本申请实施例提供的一种基于大语言模型的类目预测装置的结构示意图。示例性的,如图7所示,该类目预测装置700包括:
获取模块701,用于获取待预测商品标题;
分类模块702,用于对所述待预测商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选类目;
确定模块703,用于基于所述多个候选类目,确定描述所述待预测商品标题的类目预测任务的语言提示词;
预测模块704,用于采用已微调大语言模型基于所述语言提示词对所述待预测商品标题进行类目预测,得到所述待预测商品标题的目标类目。
在某些可能的实现方式中,所述装置还包括模型微调模块,用于获取用于类目预测的原始大语言模型和样本商品标题;基于所述原始大语言模型所述样本商品标题所属的类目进行置信度调整,得到多个已调整样本类目;基于所述多个已调整样本类目对所述原始大语言模型进行参数调整,得到所述已微调大语言模型。
在某些可能的实现方式中,所述模型微调模块,还用于基于所述原始大语言模型对所述样本商品标题所属的类目进行分类,得到置信度满足所述预设条件的多个候选样本类目;对所述多个候选样本类目之间的排列顺序进行调整,得到多个已调整样本类目。
在某些可能的实现方式中,所述模型微调模块,还用于基于所述多个已调整样本类目和所述样本商品标题,预测所述样本商品标题的类目预测任务对应的虚拟令牌;基于所述虚拟令牌对所述原始大语言模型进行调整,得到所述已微调大语言模型。
在某些可能的实现方式中,所述确定模块703,还用于基于所述类目预测任务,确定用于提供文本框架的第一提示词;基于所述待预测商品标题和所述多个候选类目,确定用于提供文本内容的第二提示词;将所述第二提示词嵌入所述第一提示词,得到所述语言提示词。
在某些可能的实现方式中,所述预测模块704,还用于采用所述已微调大语言模型对所述语言提示词进行类目推理,得到中间类目;在预设真实类目库中查找所述中间类目;响应于在所述预设真实类目库中查找到所述中间类目,将所述中间类目确定为所述目标类目。
在某些可能的实现方式中,所述分类模块702,还用于将所述待预测商品标题对应的文本转换为输入向量;基于所述输入向量,确定描述所述类目预测任务的整句语义的嵌入向量;基于所述嵌入向量,确定所述置信度满足所述预设条件的多个候选类目。
在某些可能的实现方式中,所述分类模块702,还用于对所述嵌入向量所属的类目进行分类,得到所述待预测商品标题的初步类目集合;在所述初步类目集合中,将置信度排列在前k个的初步类目作为所述多个候选类目;其中,k为大于1的整数。
需要说明的是:上述实施例提供的类目预测装置进行类目预测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的类目预测装置与类目预测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种基于大语言模型的类目预测设备,图8是本申请实施例提供的一种基于大语言模型的类目预测设备的结构示意图。
示例性的,如图8所示,该设备800包括:存储器801和处理器802,其中,存储器801中存储有可执行程序代码8011,处理器802用于调用并执行该可执行程序代码8011执行一种基于大语言模型的类目预测方法。
此外,本申请实施例还保护一种装置,该装置可以包括存储器和处理器,其中,存储器中存储有可执行程序代码,处理器用于调用并执行该可执行程序代码执行本申请实施例提供的一种基于大语言模型的类目预测方法。
本实施例可以根据上述方法示例对该装置进行功能模块的划分,例如,可以对应各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中,上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个模块的情况下,该装置还可以包括信号上传模块、确定模块和调整模块等。需要说明的是,上述方法实施例涉及的各个步骤的所有相关内容的可以援引到对应功能模块的功能描述,在此不再赘述。
应理解,本实施例提供的装置用于执行上述一种基于大语言模型的类目预测方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,该装置可以包括处理模块、存储模块。其中,当该装置应用于设备上时,处理模块可以用于对设备的动作进行控制管理。存储模块可以用于支持设备执行相互程序代码等。
其中,处理模块可以是处理器或控制器,其可以实现或执行结合本申请公开内容所藐视的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,数字信号处理(Digital Signal Processing,DSP)和微处理器的组合等等,存储模块可以是存储器。
另外,本申请的实施例提供的装置具体可以是芯片、组件或模块,该芯片可包括相连的处理器和存储器;其中,存储器用于存储指令,当处理器调用并执行指令时,可以使芯片执行上述实施例提供的一种基于大语言模型的类目预测方法。
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述相关方法步骤实现上述实施例提供的一种基于大语言模型的类目预测方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例提供的一种基于大语言模型的类目预测方法。
其中,本实施例提供的装置、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于大语言模型的类目预测方法,其特征在于,所述方法包括:
获取用于类目预测的原始大语言模型和样本商品标题;
基于所述原始大语言模型对所述样本商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选样本类目;
对所述多个候选样本类目之间的排列顺序进行调整,得到多个已调整样本类目;
基于所述多个已调整样本类目对所述原始大语言模型进行参数调整,得到已微调大语言模型;
获取待预测商品标题;
对所述待预测商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选类目;
基于所述多个候选类目,确定描述所述待预测商品标题的类目预测任务的语言提示词;
采用所述已微调大语言模型基于所述语言提示词对所述待预测商品标题进行类目预测,得到所述待预测商品标题的目标类目。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个已调整样本类目对所述原始大语言模型进行参数调整,得到所述已微调大语言模型,包括:
基于所述多个已调整样本类目和所述样本商品标题,预测所述样本商品标题的类目预测任务对应的虚拟令牌;
基于所述虚拟令牌对所述原始大语言模型进行调整,得到所述已微调大语言模型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述多个候选类目,确定描述所述待预测商品标题的类目预测任务的语言提示词,包括:
基于所述类目预测任务,确定用于提供文本框架的第一提示词;
基于所述待预测商品标题和所述多个候选类目,确定用于提供文本内容的第二提示词;
将所述第二提示词嵌入所述第一提示词,得到所述语言提示词。
4.根据权利要求1所述的方法,其特征在于,所述采用已微调大语言模型基于所述语言提示词对所述待预测商品标题进行类目预测,得到所述待预测商品标题的目标类目,包括:
采用所述已微调大语言模型对所述语言提示词进行类目推理,得到中间类目;
在预设真实类目库中查找所述中间类目;
响应于在所述预设真实类目库中查找到所述中间类目,将所述中间类目确定为所述目标类目。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于在所述预设真实类目库中未查找到所述中间类目,将所述多个候选类目中置信度最高的候选类目确定为所述目标类目。
6.根据权利要求1所述的方法,其特征在于,所述对所述待预测商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选类目,包括:
将所述待预测商品标题对应的文本转换为输入向量;
基于所述输入向量,确定描述所述类目预测任务的整句语义的嵌入向量;
基于所述嵌入向量,确定所述置信度满足所述预设条件的多个候选类目。
7.根据权利要求6所述的方法,其特征在于,所述基于所述嵌入向量,确定所述置信度满足预设条件的多个候选类目,包括:
对所述嵌入向量所属的类目进行分类,得到所述待预测商品标题的初步类目集合;
在所述初步类目集合中,将置信度排列在前k个的初步类目作为所述多个候选类目;其中,k为大于1的整数。
8.一种基于大语言模型的类目预测装置,其特征在于,所述装置包括:
获取模块,用于获取待预测商品标题;
分类模块,用于对所述待预测商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选类目;
确定模块,用于基于所述多个候选类目,确定描述所述待预测商品标题的类目预测任务的语言提示词;
预测模块,用于获取用于类目预测的原始大语言模型和样本商品标题;基于所述原始大语言模型对所述样本商品标题所属的类目进行分类,得到置信度满足预设条件的多个候选样本类目;对所述多个候选样本类目之间的排列顺序进行调整,得到多个已调整样本类目;基于所述多个已调整样本类目对所述原始大语言模型进行参数调整,得到已微调大语言模型;采用所述已微调大语言模型基于所述语言提示词对所述待预测商品标题进行类目预测,得到所述待预测商品标题的目标类目。
9.一种基于大语言模型的类目预测设备,其特征在于,所述类目预测设备包括:
存储器,用于存储可执行程序代码;
处理器,用于从所述存储器中调用并运行所述可执行程序代码,使得所述类目预测设备执行如权利要求1至7中任意一项所述的方法。
CN202311685788.XA 2023-12-08 2023-12-08 基于大语言模型的类目预测方法、装置和设备 Active CN117390497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311685788.XA CN117390497B (zh) 2023-12-08 2023-12-08 基于大语言模型的类目预测方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311685788.XA CN117390497B (zh) 2023-12-08 2023-12-08 基于大语言模型的类目预测方法、装置和设备

Publications (2)

Publication Number Publication Date
CN117390497A CN117390497A (zh) 2024-01-12
CN117390497B true CN117390497B (zh) 2024-03-22

Family

ID=89472459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311685788.XA Active CN117390497B (zh) 2023-12-08 2023-12-08 基于大语言模型的类目预测方法、装置和设备

Country Status (1)

Country Link
CN (1) CN117390497B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118013047A (zh) * 2024-04-03 2024-05-10 浙江口碑网络技术有限公司 一种基于大语言模型的数据分类预测方法和装置
CN118069852B (zh) * 2024-04-22 2024-07-12 数据空间研究院 一种多模型融合的数据分类预测方法与系统
CN118132752B (zh) * 2024-05-06 2024-08-06 浙江口碑网络技术有限公司 商品描述词的分类方法以及装置
CN118468090B (zh) * 2024-07-08 2024-09-27 浙江鸟潮供应链管理有限公司 商品菜单的诊断方法和装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114529351A (zh) * 2022-03-10 2022-05-24 上海微盟企业发展有限公司 一种商品类目预测方法、装置、设备及存储介质
CN115423118A (zh) * 2022-09-06 2022-12-02 中国人民解放军军事科学院系统工程研究院 一种预训练语言模型微调方法、系统及装置
JP2023031756A (ja) * 2021-08-25 2023-03-09 日本電気株式会社 販売促進予測装置、販売促進予測方法、及びコンピュータプログラム
CN116010622A (zh) * 2023-01-31 2023-04-25 湖南视觉伟业智能科技有限公司 融合实体类型的bert知识图谱补全方法及系统
CN116050394A (zh) * 2022-12-20 2023-05-02 杭州有赞科技有限公司 一种商品识别方法、装置和存储介质
CN116049386A (zh) * 2021-10-27 2023-05-02 北京橙心无限科技发展有限公司 文本对应类目的预测方法、装置以及电子设备
CN116415170A (zh) * 2023-03-20 2023-07-11 华南理工大学 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质
CN116561311A (zh) * 2023-04-21 2023-08-08 武汉大学 基于大语言模型的引文文本自动分类方法
CN116757270A (zh) * 2023-06-28 2023-09-15 阿里巴巴(中国)有限公司 基于人机交互模型或大模型的数据处理方法、服务器
CN116757652A (zh) * 2023-08-17 2023-09-15 北京华品博睿网络技术有限公司 一种基于大语言模型的在线招聘推荐系统及方法
CN117076668A (zh) * 2023-07-18 2023-11-17 腾讯科技(深圳)有限公司 文本信息处理方法、装置、设备、存储介质及程序产品
CN117131155A (zh) * 2023-08-17 2023-11-28 小米科技(武汉)有限公司 多类目识别方法、装置、电子设备及储存介质
CN117151082A (zh) * 2023-10-30 2023-12-01 量子数科科技有限公司 一种基于大语言模型的商品标题spu关键词提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962315B (zh) * 2021-10-28 2023-12-22 北京百度网讯科技有限公司 模型预训练方法、装置、设备、存储介质以及程序产品

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023031756A (ja) * 2021-08-25 2023-03-09 日本電気株式会社 販売促進予測装置、販売促進予測方法、及びコンピュータプログラム
CN116049386A (zh) * 2021-10-27 2023-05-02 北京橙心无限科技发展有限公司 文本对应类目的预测方法、装置以及电子设备
CN114529351A (zh) * 2022-03-10 2022-05-24 上海微盟企业发展有限公司 一种商品类目预测方法、装置、设备及存储介质
CN115423118A (zh) * 2022-09-06 2022-12-02 中国人民解放军军事科学院系统工程研究院 一种预训练语言模型微调方法、系统及装置
CN116050394A (zh) * 2022-12-20 2023-05-02 杭州有赞科技有限公司 一种商品识别方法、装置和存储介质
CN116010622A (zh) * 2023-01-31 2023-04-25 湖南视觉伟业智能科技有限公司 融合实体类型的bert知识图谱补全方法及系统
CN116415170A (zh) * 2023-03-20 2023-07-11 华南理工大学 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质
CN116561311A (zh) * 2023-04-21 2023-08-08 武汉大学 基于大语言模型的引文文本自动分类方法
CN116757270A (zh) * 2023-06-28 2023-09-15 阿里巴巴(中国)有限公司 基于人机交互模型或大模型的数据处理方法、服务器
CN117076668A (zh) * 2023-07-18 2023-11-17 腾讯科技(深圳)有限公司 文本信息处理方法、装置、设备、存储介质及程序产品
CN116757652A (zh) * 2023-08-17 2023-09-15 北京华品博睿网络技术有限公司 一种基于大语言模型的在线招聘推荐系统及方法
CN117131155A (zh) * 2023-08-17 2023-11-28 小米科技(武汉)有限公司 多类目识别方法、装置、电子设备及储存介质
CN117151082A (zh) * 2023-10-30 2023-12-01 量子数科科技有限公司 一种基于大语言模型的商品标题spu关键词提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attention-Based Joint Entity Linking with Entity Embedding;LIU C;《Information》;20191231;全文 *
用于文本分类的多探测任务语言模型微调;傅群超;王枞;;北京邮电大学学报;20191215(06);全文 *

Also Published As

Publication number Publication date
CN117390497A (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
CN117390497B (zh) 基于大语言模型的类目预测方法、装置和设备
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111159385A (zh) 一种基于动态知识图谱的无模板通用智能问答方法
US11687716B2 (en) Machine-learning techniques for augmenting electronic documents with data-verification indicators
CN112766507B (zh) 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN110941958B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN114491077A (zh) 文本生成方法、装置、设备及介质
CN112818120B (zh) 习题标注方法、装置、存储介质及电子设备
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
CN114997288A (zh) 一种设计资源关联方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN116244412A (zh) 多意图识别方法及装置
CN116821781A (zh) 分类模型的训练方法、文本分析方法及相关设备
CN117217277A (zh) 语言模型的预训练方法、装置、设备、存储介质及产品
CN117196716A (zh) 基于Transformer网络模型的数字标牌广告主题推荐方法
CN112560490A (zh) 知识图谱关系抽取方法、装置、电子设备及存储介质
CN116757195A (zh) 一种基于提示学习的隐性情感识别方法
CN115248846B (zh) 文本识别方法、设备、介质
CN114254622B (zh) 一种意图识别方法和装置
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
CN112989054B (zh) 一种文本处理方法和装置
Zheng et al. Remote sensing image generation from audio
CN114330367A (zh) 一种基于句子的语义相似度获得方法、装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant