CN117788109A - 一种基于大语言模型生成商品标签的方法及电子设备 - Google Patents

一种基于大语言模型生成商品标签的方法及电子设备 Download PDF

Info

Publication number
CN117788109A
CN117788109A CN202311815342.4A CN202311815342A CN117788109A CN 117788109 A CN117788109 A CN 117788109A CN 202311815342 A CN202311815342 A CN 202311815342A CN 117788109 A CN117788109 A CN 117788109A
Authority
CN
China
Prior art keywords
commodity
target
information
labels
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311815342.4A
Other languages
English (en)
Inventor
承怡菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Original Assignee
Rajax Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rajax Network Technology Co Ltd filed Critical Rajax Network Technology Co Ltd
Priority to CN202311815342.4A priority Critical patent/CN117788109A/zh
Publication of CN117788109A publication Critical patent/CN117788109A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种基于大语言模型生成商品标签的方法及电子设备,该方法涉及电子技术领域,具体包括:获取与目标商品相关的商品描述信息;对所述商品描述信息进行结构化处理,得到所述目标商品的客观属性特征;采用已微调大语言模型基于语言提示词库处理所述客观属性特征,得到所述目标商品的一个或多个商品标签,该方法能够通过多来源、多途径获取的商品描述信息生成商品卖点标签,扩大了商品描述信息的来源,能够通过图文详情识别、获取到不同来源的商品信息等,可以辅助模型更好地理解商品,生成更为可靠、置信度更高、可溯源的卖点标签。

Description

一种基于大语言模型生成商品标签的方法及电子设备
技术领域
本申请涉及电子技术领域,尤其涉及一种基于大语言模型生成商品标签的方法及电子设备。
背景技术
随着电子商务行业的发展,用户网上购物的频率和需求越来越大。用户可以在电商平台或者外卖平台上浏览不同的店铺、不同种类的商品,并根据自己的需求购买所需要的商品。
在浏览商品的过程中,商品卖点标签是商品展示页面上的重要元素之一,它能够简洁地概括该商品的特点和优点,吸引潜在消费者的注意力,让消费者一眼可以看出商品的亮点和优势,起到了促进销售的作用。
目前,在商品展示页面上呈现的商品卖点标签的生成依赖于商品标题,获取到的商品卖点标签的信息非常有限,生成的商品卖点标签准确率低,且缺乏对消费者的吸引力。
此外,对于同一个商品,可能在不同商家或平台进行销售,当前的标签生成方式主要依赖于不同商家输入的商品标题或商品描述,那么对于同一个商品可能会生成不同的商品标签,无法实现同一个商品的批量挂载。
发明内容
本申请提供一种基于大语言模型生成商品标签的方法及电子设备,该方法能够通过多来源、多途径获取的商品描述信息生成商品卖点标签,扩大了商品描述信息的来源,生成更为可靠、置信度更高、可溯源的卖点标签。
第一方面,提供了一种基于大语言模型生成商品标签的方法,其特征在于,包括:
获取与目标商品相关的商品描述信息;
对所述商品描述信息进行结构化处理,得到所述目标商品的客观属性特征;
采用已微调大语言模型基于语言提示词库处理所述客观属性特征,得到所述目标商品的一个或多个商品标签。
结合第一方面,在第一方面的某些实现方式中,所述商品描述信息包括从所述目标商品关联的详情图片中获取的文本信息,所述获取与目标商品相关的商品描述信息,包括:
获取所述目标商品关联的详情图片;
对所述详情图片进行字符识别,得到所述详情图片中的一个或多个文本片段;
对所述一个或多个文本片段进行拼接处理得到所述文本信息。
结合第一方面和上述实现方式,在第一方面的某些实现方式中,所述方法还包括:
获取用于生成商品标签的原始大语言模型;
将所述文本信息和所述一个或多个商品标签作为训练样本,对所述原始大语言模型进行调整,得到所述已微调大语言模型。
结合第一方面和上述实现方式,在第一方面的某些实现方式中,所述商品描述信息包括所述目标商品被挂载在其他购物平台售卖时所有具有的标签信息,所述获取与目标商品相关的商品描述信息,包括:
获取所述目标商品被挂载在其他购物平台售卖时所有具有的标签信息;
以及,所述方法还包括:
采用所述已微调大语言模型分析所述标签信息,确定第一语言提示词,并根据所述第一语言提示词更新所述已微调大语言模型中的语言提示词库。
结合第一方面和上述实现方式,在第一方面的某些实现方式中,所述商品描述信息包括来源于预设数据库的信息,所述预设数据库中包括多个不同购物平台的一个或多个商品的信息,所述获取与目标商品相关的商品描述信息,包括:
获取所述目标商品的条形码;
根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息。
结合第一方面和上述实现方式,在第一方面的某些实现方式中,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息之后,所述方法还包括:
计算所述商品信息和所述目标商品的客观属性特征之间的相关性,保留所述相关性满足预设要求的所述商品信息。
结合第一方面和上述实现方式,在第一方面的某些实现方式中,在获取所述目标商品的条形码之后,所述方法还包括:
根据分类模型对所述目标商品进行分类,确定所述目标商品所属的类目;
以及,所述根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息,包括:
根据所述目标商品的条形码和所述目标商品所属的类目,从所述预设数据库中查找与所述目标商品的条形码一致且所述目标商品所属的类目相同的商品所关联的商品信息。
结合第一方面和上述实现方式,在第一方面的某些实现方式中,所述根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息,包括:
根据所述目标商品的条形码,采用所述已微调大语言模型的文本检索和/或向量检索功能,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息。
结合第一方面和上述实现方式,在第一方面的某些实现方式中,得到所述目标商品的一个或多个商品标签之后,所述方法还包括:
对所述一个或多个商品标签进行过滤处理,去除所述一个或多个商品标签中包含风险词汇的商品标签,并根据过滤处理后的商品标签挂载所述目标商品;和/或,
计算所述一个或多个商品标签中的任意两个商品标签之间的相似度,将相似度大于或等于预设阈值的两个商品标签进行归类处理,并根据归类处理后的商品标签挂载所述目标商品;和/或,
计算所述一个或多个商品标签中的每一个商品标签和所述目标商品的客观属性特征之间的相关性,将所述相关性由高到底的顺序确定为所述每一个商品标签的优先级顺序,并按照所述优先级顺序将满足预设优先级要求的商品标签挂载所述目标商品。
结合第一方面和上述实现方式,在第一方面的某些实现方式中,得到所述目标商品的一个或多个商品标签之后,所述方法还包括:
根据预设规则,确定所述一个或多个商品标签中每一个商品标签关联的场景关键词,并根据场景关键词选择商品标签挂载所述目标商品。
第二方面,提供了一种基于大语言模型生成商品标签的装置,包括:
获取单元,用于获取与目标商品相关的商品描述信息;
第一处理单元,用于对所述商品描述信息进行结构化处理,得到所述目标商品的客观属性特征;
第二处理单元,用于采用已微调大语言模型基于语言提示词库处理所述客观属性特征,得到所述目标商品的一个或多个商品标签。
结合第二方面,在第二方面的某些实现方式中,所述获取单元还用于获取所述目标商品关联的详情图片;该生成商品标签的装置还包括第三处理单元,用于对所述详情图片进行字符识别,得到所述详情图片中的一个或多个文本片段;对所述一个或多个文本片段进行拼接处理得到所述文本信息。
结合第二方面和上述实现方式,在第二方面的某些实现方式中,所述获取单元还用于获取用于生成商品标签的原始大语言模型;该生成商品标签的装置还包括调整单元,用于将所述文本信息和所述一个或多个商品标签作为训练样本,对所述原始大语言模型进行调整,得到所述已微调大语言模型。
结合第二方面和上述实现方式,在第二方面的某些实现方式中,当所述商品描述信息包括所述目标商品被挂载在其他购物平台售卖时所有具有的标签信息时,所述获取单元具体用于获取所述目标商品被挂载在其他购物平台售卖时所有具有的标签信息;以及,所述第二处理单元具体用于采用所述已微调大语言模型分析所述标签信息,确定第一语言提示词,并根据所述第一语言提示词更新所述已微调大语言模型中的语言提示词库。
结合第二方面和上述实现方式,在第二方面的某些实现方式中,当所述商品描述信息包括来源于预设数据库的信息时,所述获取单元具体用于获取所述目标商品的条形码;该生成商品标签的装置还包括确定单元,用于根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息。
结合第二方面和上述实现方式,在第二方面的某些实现方式中,该生成商品标签的装置还包括第四处理单元,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息之后,用于计算所述商品信息和所述目标商品的客观属性特征之间的相关性,保留所述相关性满足预设要求的所述商品信息。
结合第二方面和上述实现方式,在第二方面的某些实现方式中,该生成商品标签的装置还包括第五处理单元,在获取所述目标商品的条形码之后,用于根据分类模型对所述目标商品进行分类,确定所述目标商品所属的类目;以及,所述第四处理单元具体用于根据所述目标商品的条形码和所述目标商品所属的类目,从所述预设数据库中查找与所述目标商品的条形码一致且所述目标商品所属的类目相同的商品所关联的商品信息。
结合第二方面和上述实现方式,在第二方面的某些实现方式中,所述第四处理单元具体用于根据所述目标商品的条形码,采用所述已微调大语言模型的文本检索和/或向量检索功能,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息。
结合第二方面和上述实现方式,在第二方面的某些实现方式中,该生成商品标签的装置还包括第六处理单元,在得到所述目标商品的一个或多个商品标签之后,用于对所述一个或多个商品标签进行过滤处理,去除所述一个或多个商品标签中包含风险词汇的商品标签,并根据过滤处理后的商品标签挂载所述目标商品;和/或,计算所述一个或多个商品标签中的任意两个商品标签之间的相似度,将相似度大于或等于预设阈值的两个商品标签进行归类处理,并根据归类处理后的商品标签挂载所述目标商品;和/或,计算所述一个或多个商品标签中的每一个商品标签和所述目标商品的客观属性特征之间的相关性,将所述相关性由高到底的顺序确定为所述每一个商品标签的优先级顺序,并按照所述优先级顺序将满足预设优先级要求的商品标签挂载所述目标商品。
结合第二方面和上述实现方式,在第二方面的某些实现方式中,该生成商品标签的装置还包括第七处理单元,在得到所述目标商品的一个或多个商品标签之后,用于根据预设规则,确定所述一个或多个商品标签中每一个商品标签关联的场景关键词,并根据场景关键词选择商品标签挂载所述目标商品。
第三方面,提供了一种服务器,包括存储器和处理器。该存储器用于存储可执行程序代码,该处理器用于从存储器中调用并运行该可执行程序代码,使得该设备执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
第四方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
附图说明
图1是一例用户运行应用A启动的图形用户界面示意图。
图2是本申请实施例提供的一例商品卖点的生成方法的示意性流程图。
图3是本申请实施例提供的一例生成商品标签的实现过程的总流程图。
图4是本申请实施例提供的另一例生成商品标签的实现过程的流程图。
图5是本申请实施例提供的另一例生成商品标签的实现过程的流程图。
图6是本申请实施例提供的另一例生成商品标签的实现过程的流程图。
图7是本申请实施例提供的另一例生成商品标签的实现过程的流程图。
图8是本申请实施例提供的另一例生成商品标签的实现过程的流程图。
图9是本申请实施例提供的一例基于大语言模型生成商品标签的装置示意图。
图10是本申请实施例提供的一例计算机设备1000的结构示意图。
具体实施方式
为了便于理解,下面将以手机上安装的第一应用(例如应用A)为例,结合附图,针对手机安装的第一应用(例如应用A)中为用户显示应用A的运行界面的场景,进行具体阐述。
图1是一例用户运行应用A启动的图形用户界面(graphical user interface,GUI)示意图。
示例性的,图1中的(a)图示出了手机在解锁模式下显示的界面101,该界面101显示了天气时钟组件以及多款应用程序(application,App)等。其中,应用程序可以包括电话、信息、设置和应用A等。应理解,该界面101还可以包括其他更多的应用程序,本申请实施例对此不作限定。
如图1中的(a)图所示,用户点击应用A的图标,响应于用户的点击操作,手机显示如图1中的(b)图所示应用A的主界面102,该界面102还可以称为“应用A的首页”。该应用A的主界面102可以为用户显示多个分类菜单、可操作的控件或按钮、图片等界面内容,以满足用户的使用需求。
示例性的,如图1中的(b)图所示,在该应用A的主界面102上,显示了当前的配送地址(例如“XX区XX街道”)、搜索框,以及美食外卖、超市、水果、买药、甜品、汉堡、龙虾和烧烤等不同的分类菜单,以及商家列表等,本申请实施例对该应用A的主界面102上的显示内容、显示区域的大小等不做限定。
目前在应用A的主界面102上,商家列表中可以为用户显示一个或多个商家,用户可以通过上下滑动操作查看更多的商家信息。可选地,每一个商家显示区域中可以显示该商家的用户评分、月售销量、配送时间、配送距离、起送价格、配送费用、促销信息等一种或多种内容。示例性的,如图1中的(b)图所示,B超市显示区域10中显示了用户评分4.9分、月售443、配送时间23分钟、距离当前设备的配送距离1.2km、起送价格20元、配送费用6元、8元无门槛等促销信息;C面包店显示区域20中显示了用户评分4.9分、月售100、配送时间30分钟、距离当前设备的配送距离3.5km、起送价格20元、配送费用6元、26减1、38减2等促销信息。
当用户点击B超市显示区域10的任意位置,响应于用户的点击操作,手机显示如图1中的(c)图所示B超市商品展示界面103,该界面103可以显示该B超市的商家信息、以及为用户显示商品列表,该商品列表可以对B超市的一个或多个售卖的商品进行分类显示。示例性的,如图1中的(c)图所示,该界面103上显示了“肉蛋家禽”、“家电数码”、“休闲食品”、“熟食冻品”、“酒水饮料”、“水产海鲜”、“进口食品”等不同的商品类别,且当用户点击“休闲食品”类别时,该界面103的商品显示区域中可以显示如A薯片、B香瓜子、C火腿肠等一种或多种休闲食品类的商品,用户还可以通过上下滑动等操作查看更多的商品,为了简便,这里不再赘述。
当用户点击A薯片的商品显示区域30的任意位置,响应于用户的点击操作,手机显示如图1中的(d)图所示A薯片对应的商品购买界面104,该界面104可以显示与A薯片相关的商品信息,例如A薯片的口味特征、月销量、价格信息、红包优惠、促销信息、配送信息,以及商品详情、商品评价和关联的推荐商品等一种或多种内容,本申请实施例对此不做限定。
上述通过应用A浏览商品的过程中,应用A的B超市商品展示界面103显示了B超市的一种或多种商品内容,但是在A薯片的商品显示区域30中显示的商品标签单一,例如仅显示了商品口味为黄瓜味、月销量等,无法突出商品的特点和优点,无法让消费者一眼看出商品的亮点和优势,无法对客户产生购买的吸引力。
此外,在商品购买界面104上显示的该A薯片的商品信息,一般仅依赖商品标题和来进行卖点生成,该种方式模型能够获取到的商品相关的信息非常有限,导致为用户显示的商品标签单一,例如仅显示了商品口味为黄瓜味、月销量等,无法突出商品的特点和优点缺乏购买吸引力。
此外,对于同一个商品,可能在不同商家或平台进行销售,当前的标签生成方式主要依赖于不同商家输入的商品标题或商品描述,那么对于同一个商品可能会生成不同的商品标签,无法实现同一个商品的批量挂载。
因此,针对上述问题,本申请将提供一种商品卖点的生成方法,该方法能够实现商品标签的批量挂载,同时为每一个商品生成能够突出商品优势和特点的商品标签,增加商品对消费者的吸引力,提高用户的购物体验。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
为便于理解本申请实施例,下面对本申请实施例中涉及到的专业术语进行解释:
1.大语言模型(Large Language Model,LLM)
LLM是一种基于深度学习的自然语言处理模型,其目标是生成与人类语言相似的文本。LLM使用了大量文本进行训练,可以生成语言提示词或理解语言文本的含义,从而处理多种自然语言任务,包括对话问答、信息抽取、文本分类等,并在多项任务上展现出了巨大的潜力。
LLM模型通常由数十亿个参数组成,经过大规模的训练数据训练得到。大语言模型的核心思想是通过学习大量的语言数据来自动捕捉单词、短语、句子和段落之间的语义和语法关系。这些模型可以从给定的上下文中生成连贯的文本,并且能够生成具有一定逻辑性和合理性的新语句。它们可以应用于自动文本生成、机器翻译、问答系统、文本摘要等自然语言处理任务中。
2.提示词(prompt)模型
指输入的文本段落或短语,加在待解决任务文本的前面,一起传递给LLM来实现预期任务,具有指令、提示的含义,通常为问题、对话、描述等形式,prompt的输入使LLM具有适应各种下游应用的能力。
prompt通常为人工智能(Artificial Intelligence,AI)模型或系统提供输入和指导,以产生特定输出的文本。它可以是一个简短的指令、问题、提示或描述,用于引导AI模型生成相应的回答、文章、代码或其他文本形式的输出。prompt在自然语言处理和生成模型领域被广泛应用。通过提供具体的prompt,可以引导AI模型在生成文本时更加准确和有针对性。例如,在自动问答系统中,用户的问题可以作为prompt,指导系统生成相应的答案。在文本生成任务中,可以提供一个起始的prompt或上下文,模型将根据这个prompt来生成连贯的文本。prompt的设计和选择对于生成的输出结果具有重要影响。一个清晰、具体和合理的prompt可以帮助模型理解任务要求,生成准确和符合预期的文本。同时,prompt的灵活性也允许用户通过调整和优化来实现更好的输出效果。
3.ChatGPT
ChatGPT是由OpenAI开发的一种对话式生成模型。它是基于生成式预训练(Generative Pre-trained Transformer,GPT)架构构建的,具有强大的自然语言处理和生成能力。ChatGPT专注于生成对话式文本,可以模拟自然语言对话,并以人类般的方式与用户交互。ChatGPT通过在大规模文本数据上进行预训练来学习语言模式和语义关系,并且可以根据上下文生成连贯的回复。它可以应用于多种对话式任务,如问题回答、文本摘要、指南提示等。用户可以通过提供一个起始的对话文本或问题来与ChatGPT进行交互,并获取系统生成的回应。
4.ChatGLM
ChatGLM是一个基于人工智能的语言模型,由清华大学KEG实验室和智谱AI开发。它通过学习大量的文本数据,可以识别用户的情绪和需求,为用户提供有帮助的建议和指导。ChatGLM可以与用户进行实时交流,回答用户的问题和需求,甚至可以进行语音对话。它可以帮助用户解决各种问题和需求,如情感咨询、健康咨询、教育咨询、金融咨询等。
5.FABE体系
在商品营销文案写作中,通常使用会用到FABE法则。FABE法则是指产品特点(Features,F)、产品优势(Advantages,A)、产品好处(Benefits,B)、证明(Evidence,E)。它是一个传统的产品销售模型,通过描述产品的特点、优势和好处来吸引消费者的购买意愿,并通过情感和证明来增强消费者的信任感。
6.CPV
CPV体系是电商行业中用于刻画商品和管理商品的一种方式,具体为:类目(category,C)、属性(property,P)、属性值(value,V)。在电商行业,通常对部分渠道有前台和后台之分。后台类目更专业,更稳定,用于商品发布等后台商品管理,适用于卖家和集团视角;前台类目更灵活,随机应变,满足营销运营的需求快速的对商品进行定义和展示,适用于用户视角。
7.光学字符识别(Optical Character Recognition,OCR)
OCR是一种将图像中的文字转化为可编辑和可搜索的文本的技术。它可以将印刷体字体、手写文字和印刷品中的文字等各种形式的文字内容识别出来,并转化为计算机可处理的文本格式。OCR技术的应用非常广泛,比如文档扫描、自动化数据输入、车牌识别、身份证识别、票据识别等等。它的出现大大提高了文字处理的效率,减少了人工录入的错误率,并为各种文字相关的应用提供了便利。
图2是本申请实施例提供的一例商品卖点的生成方法的示意性流程图。应理解,该方法200可以应用于具有数据处理能力的电子设备,或云端服务器等,本申请实施例对执行主体的设备形态不做限定。该方法200包括以下步骤:
S201,获取与目标商品相关的商品描述信息。
应理解,在S201之前,首先可以圈选需要挂载商品标签的目标商品,圈选了需要挂载的目标商品之后,可以按照不同给的方式生成该目标商品的商品标签,最后再根据商品标签挂载该目标商品。
一种可能的实现方式中,商品圈选的过程可以通过项目粒度(item)来确定该目标商品,可以称为“item圈选”。示例性的,“item圈选”方法可以选中某商店中的某一件商品。
另一种可能的实现方式中,商品圈选的过程可以通过条形码粒度(barcode)来确定该目标商品,可以称为“barcode圈选”。示例性的,不同店铺里面的相同一件商品的itemID是不同的,因此,item圈选可能仅可以圈选A超市的商品1,可能就会漏掉了B超市的商品1。“barcode圈选”就可以从产品视角出发,全部选中同一种商品,换言之,既可以圈选A超市的商品1,也可以圈选B超市的商品1、C超市的商品1等。
上述目标商品的圈选方式,选中了不同商店的相同商品,后续根据本申请实施例提供的方法生成了商品标签之后,可以针对该相同商品实现批量挂载,既生成的标签可以应用于不同商店、不同平台的商品1,从而提高了商品标签的覆盖率。
还应理解,在本申请实施例中,“商品描述信息”可以包括一种或多种不同来源的与该目标商品相关联信息。
可选地,“商品描述信息”可以是来源于该目标商品的商品标题的信息。例如,同一件商品在不同的平台或不同的店铺售卖时,可能商家会输入不同的商品标题,换言之,该商品描述信息可以是来源于不同的商品标题。
可选地,“商品描述信息”还可以来源于该目标商品的图文详情界面的宣传内容。例如,在淘宝店铺中的图文详情界面,包含了该目标商品的图片、宣传卖点等信息。
或者,“商品描述信息”还可以是获取其他平台、小程序等获取的商品详情页面的信息。例如,获取到一些其他小程序上的一些该目标商品的标签信息。
又或者,“商品描述信息”还可以来源于集团同步信息。例如,阿里集团的预设数据库的商品数据源。
S202,对所述商品描述信息进行结构化处理,得到所述目标商品的客观属性特征。
S203,采用已微调大语言模型基于语言提示词库处理所述客观属性特征,得到所述目标商品的一个或多个商品标签。
在生成商品的营销文案中,通常使用会用到FABE法则。FABE法则是指产品特点(Features)、产品优势(Advantages)、产品好处(Benefits)、证明(Evidence),它是一个传统的产品销售模型,通过描述产品的特点、优势和好处来吸引消费者的购买意愿,并通过情感和证明来增强消费者的信任感。
其中,产品特点(Features)用于列举产品的特点和功能,例如产品的尺寸、颜色、材质、品牌等信息。产品优势(Advantages)用于描述产品的优势,即产品特点对消费者的好处,例如产品的性能、耐用性、易使用等。产品好处(Benefits)用于描述产品的好处,即产品的优势对消费者的实际利益,例如产品能够提高生产效率、节省时间和成本等。证明(Evidence)用于提供产品的证明,例如消费者的评价、相关机构的认证和使用案例等,来增强消费者的信任感。
在本申请实施例中,将以上介绍的AB类标签,称为主观标签;相对的,将以上介绍的F类可以称为客观标签。
在S202中,对获取到的不同来源的商品描述信息进行结构化处理,可以得到该目标商品的客观属性特征,例如可以得到目标商品的尺寸、颜色、材质、品牌等信息。
随着ChatGPT的出现,LLM能够处理多种自然语言任务,例如对话问答、信息抽取、文本分类等。在生成卖点标签的过程中,本质其实就是自然语言生成(Natural LanguageGeneration,NLG)任务,可以通过S203的过程,利用LLM的能力,分别处理多个不同来源的商品描述信息,从而生成独特而具体、能够体现出目标商品的特点和优点、吸引人的商品标签,以提升标签的置信度和丰富度。
图3是本申请实施例提供的一例生成商品标签的实现过程的总流程图。如图3所示,本申请实施例将以上介绍的生成商品标签的过程划分为四个不同阶段,分别包括:
第一阶段:商品圈选的过程。
第一阶段可以参照前述S201的实现过程,为了简便,此处不再赘述。
第二阶段:生成商品标签的过程。
第二阶段可以针对商品描述信息的不同来源,分别对应不同的生成商品标签的过程。
示例性的,当“商品描述信息”来源于该目标商品的商品标题时,对应于图3中的第一条实现路径,对该目标商品的商品标题进行结构化处理,得到所述目标商品的客观属性特征,再采用已微调大语言模型归纳出相应的商品标签或宣传卖点。
示例性的,当“商品描述信息”来源于该目标商品的图文详情界面的宣传内容时,对应于图3中的第二条实现路径,通过商品对应的图文详情抽取,进行OCR识别,得到商品描述信息之后,再采用已微调大语言模型归纳出相应的商品标签或宣传卖点。
示例性的,当“商品描述信息”是获取其他平台、小程序等获取的商品详情页面的信息时,对应于图3中的第三条实现路径,获取第一数据源,将第一数据源和目标商品进行商品对齐,即将获取的第一数据源中包含的商品信息对齐到商品库中的目标商品的“同品归一”过程;从第一数据源中得到该目标商品的商品描述信息之后,再采用已微调大语言模型归纳出相应的商品标签或宣传卖点。
示例性的,“商品描述信息”还可以来源于不同于第一数据源的信息,例如“商品描述信息”还可以来源于第二数据源的信息,对应于图3中的第四条实现路径。例如,该第二数据源可以是阿里集团的商品数据库的商品信息,也可以称为“集团同步信息”,需要确定商品数据库的商品信息和该目标商品的相关性,例如根据barcode商品粒度进行关联,将数据源对齐到商品数据库的实现“同品归一”之后,从商品数据库的商品信息(集团同步信息)中得到该目标商品的商品描述信息之后,再采用已微调大语言模型归纳出相应的商品标签或宣传卖点。
应理解,本申请实施例中,“第一数据源”和“第二数据源”用于表示不同来源的商品信息。
示例性的,当“商品描述信息”还可以来源于业务人员设置的预设规则时,对应于图3中的第五条实现路径。例如,业务人员设置了该目标商品在不同场景下的关联模式,可以对该目标商品进行模式匹配,不同模式下匹配不同的类目,从而确定出对应的商品标签或宣传卖点。
第三阶段:后处理过程。
第三阶段可以针对第二阶段生成的商品标签进行处理,例如进行黑名单过滤等,从而提高生成的商品标签的准确性和置信度。
一种可能的实现方式中,得到所述目标商品的一个或多个商品标签之后,后处理过程可以包括以下的一种或多种:
对所述一个或多个商品标签进行过滤处理,去除所述一个或多个商品标签中包含风险词汇的商品标签,并根据过滤处理后的商品标签挂载所述目标商品;
或者,计算所述一个或多个商品标签中的任意两个商品标签之间的相似度,将相似度大于或等于预设阈值的两个商品标签进行归类处理,并根据归类处理后的商品标签挂载所述目标商品;
或者,计算所述一个或多个商品标签中的每一个商品标签和所述目标商品的客观属性特征之间的相关性,将所述相关性由高到底的顺序确定为所述每一个商品标签的优先级顺序,并按照所述优先级顺序将满足预设优先级要求的商品标签挂载所述目标商品;
或者,根据预设规则,确定所述一个或多个商品标签中每一个商品标签关联的场景关键词,并根据场景关键词选择商品标签挂载所述目标商品。
第四阶段:商品挂载过程。
第四阶段可以理解为根据第三阶段得到的商品标签,实现对目标商品的挂载过程,即为用户展示能够突出商品特点和优势、吸引用户的商品标签。
下面分别针对商品描述信息的不同来源,详细介绍生成商品标签的不同实现过程。
图4是本申请实施例提供的另一例生成商品标签的实现过程的流程图。当“商品描述信息”来源于该目标商品的商品标题时,如图4所示,以上介绍的生成商品标签的过程的四个阶段的具体实现过程可以包括:
第一阶段:商品圈选的过程。
第二阶段:生成商品标签的过程。
当“商品描述信息”来源于该目标商品的商品标题时,获取了该目标商品的商品标题之后,可以进行结构化处理,得到该目标商品的客观属性特征。具体地,获取到的商品标题可以为一段自然语言形成的文本,可能有很多种描述,不同对的商家可能有多种写法。“结构化处理”即从一串自然语言形成的文本中抽取所需要的信息,比如品牌信息、实体信息、颜色信息、口味信息等,并规范成结构化的表示。
当获取了该商品的客观属性特征之后,可以将获取到的客观属性特征进行不同的属性组合。该过程可以利用LLM进行,具体包括:1)根据客观属性特征转义生成更有吸引力的表达方式;2)结合具体商品实体转换为更深层次的用户利益点。
示例性的,将不同颜色的描述可以归一为相同的值。
示例性的,某商品A的口味写的比较平淡,可以通过结构化处理将口味描述转化为更有吸引力的表达方式,转化为用户更关心的利益点。
例如,商品A为麻辣兔头200g,经过结构化处理之后,可以提取到该商品的客观属性特征可以包括口味:麻辣兔头200g,进而得到商品标签为:香辣十足。商品B为衣服,提取到该商品的客观属性特征可以包括材质:纯棉,进而得到商品标签为:柔软亲肤和/或不起静电。商品C为水果,提取到该商品的产地:水果产地特色等,此处不再一一举例。
上述商品标签的生成方式有一个明显的优势:商品的卖点标签与客观标签可直接产生挂载关系;而客观标签又与item粒度商品有挂载关系,因此卖点标签可白盒化、批量化地挂载到商品侧,进行下游的投放应用。
但同时,由ChatGLM测试结果来看,其输出结果并没有完全覆盖指令,不能直接使用,需要进行后处理。标签质量方面,在冷启动阶段,需要进行人工审核积累高质量样本,一方面保证批量挂载的正确性,另一方面也可作为后续模型微调的训练样本。
图4中,“属性组合”可以理解为结构化处理之后的客观属性特征的不同组合方式。如前举例,对于“材质:纯棉——柔软亲肤/不起静电”这个例子来说,纯棉材质的商品可以是衣物,也可以是洗脸巾,而“不起静电”这个卖点,显然不适用于洗脸巾。因此,对于某些属性来说,其卖点标签可以分为通用标签和实体/类目独有标签,这就需要进行通过属性组合的方式进行独有标签的生产。
为了提高商品标签的准确性,在本申请实施例中,可以把客观标签粗分为3类:
·类目:1级、2级、3级
·实体:结构化理解核心实体
·属性:品牌/口味/颜色/材质……
“属性组合”的形式有:类目、实体、类目+属性、类目+实体、实体+属性……,根据不同的属性组合的形式,采用已微调大语言模型基于语言提示词库处理所述客观属性特征,即选择不同的语言提示词库中的prompt,得到所述目标商品的一个或多个商品标签,从而保证通过LLM生成更有针对性的卖点标签。表1是部分白盒化挂载规则及其对应标签的示例。
第三阶段:后处理过程。
当生成了一个或多个商品标签之后,可以根据该一个或多个商品标签对商品进行批量挂载。但是,通过第一阶段和第二阶段生成的一个或多个商品标签中可能会产生相似、相近含义的标签,或者比较泛化的标签,那么,为了提高商品标签的准确度,可以通过该第三阶段对生成的一个或多个标签进行后处理过程。
可选地,后处理过程的操作可以包括商品标签的字数控制、小标题抽取、黑名单过滤、点间互信息(Pointwise Mutual Information,PMI)排序、标签项分类过滤中的一项或多项处理。
应理解,后处理过程会为生成的商品标签加上一些统计层面的信息。其中,“黑名单过滤”可以理解为去除商品标签中的风险违禁词,例如“价格优惠史上最低”、“保健功效”等可能具有风险的违禁词。
“标签项分类过滤”可以将商品标签划分为“标签项”和“标签值”,“标签项”即笼统称为“卖点标签”,细分为描述材质的、描述试用场景的、描述口感的,对卖点做细分,分类可以在后处理阶段分出来,分类时候添加“分类项”即不相关标签,从而通过“标签项分类过滤”把LLM生成的不符合事实、和当前商品不相关的标签过滤掉,涉及“分类模型”,利用分类模型对商品标签进行过滤,此处不再赘述。
示例性的,黑盒模型输出的商品标签可能会存在风险词、违禁词,需要后处理过程过滤掉,避免产品展示层面的风险;或者,LLM只会输出4个字的商品标签,需要后处理过程对字数进行控制;又或者,后处理过程会根据一些算法给LLM输出的商品标签进行排序、分数,在下游做展示可以用该排序和参考分数。
可选地,在进行商品标签的批量挂载时,还需要下述问题:
(1)标签归一或去重
由于原生ChatGLM在生成时,同一条组合规则下会出现语义相似的标签,而在投放应用时,又希望从不同维度进行展示,提高坑位效率,因此需要将相似标签进行归一去重。
针对上述问题,可以利用图结构,根据jaccard得分建边,通过连通子图标签归一。
(2)针对性标签和泛化标签的选择
有一些标签适用范围极广,比如“美味可口”,可以用在任何与吃相关的品类上;而有些标签则非常有针对性,比如“富含花青素”“促进消化”。显然,描述更加具体的针对性标签需要被优先挂载。
针对上述问题,可以通过点间互信息(Pointwise Mutual Information,PMI)计算标签与类目、实体、属性维度的匹配程度,降序排列得到优先级,从而在标签挂载过程中,可以根据优先级选择针对性标签或者泛化标签。
通过上述后处理过程的标签处理,可以控制LLM生成标签的质量,进而提高LLM标签生成的准确率。
第四阶段:商品挂载过程。
一种可能的实现方式中,在商品挂载过程中,还可以对生成的商品标签进行审核分档。可选地,该审核分档过程可以由人工审核并标注分数,例如由业务人员完成,评估商品标签的质量和准确率,审核之后并将评估结果反馈给算法,辅助算法做后续的迭代。
可选地,还可以根据人工标注分数,让LLM自动评估商品标签,自动给商品标签打分,生成另一种pmi分数,该分数可以给下游做展示的时候作为参考分数。
示例性的,在审核分档的过程中,可以根据商品和标签的相关性,将一个或多个商品标签标记为强相关标签、弱相关标签、不相关标签,下游做展示的时候也可以作为参考。
“规则入库”可以理解为批量挂载的过程,明确客观标签转义组合生成规则,例如“类目+口味”,圈选的所有商品中,结构化理解之后,得到的“类目+口味”=“休闲食品+黄瓜味”的商品都可以挂同一个商品标签。
当“商品描述信息”来源于该目标商品的商品标题时,利用LLM的能力,可以通过上述介绍的不同阶段的处理过程,生成独特而具体、能够体现出目标商品的特点和优点、吸引人的商品标签,以提升标签的置信度和丰富度。此外,根据上述方式,能够实现商品标签的批量挂载,可以提高商品标签的覆盖率。
另一种可能的实现方式中,所述商品描述信息包括从所述目标商品关联的详情图片中获取的文本信息,所述获取与目标商品相关的商品描述信息,包括:获取所述目标商品关联的详情图片;对所述详情图片进行字符识别,得到所述详情图片中的一个或多个文本片段;对所述一个或多个文本片段进行拼接处理得到所述文本信息。
换言之,当“商品描述信息”来源于该目标商品的图文详情内容时,可以通过商品对应的图文详情页面归纳出相应的宣传卖点,该途径生成的商品标签的优点是可溯源、置信度高。
图5是本申请实施例提供的另一例生成商品标签的实现过程的流程图。如图5所示,以上介绍的生成商品标签的过程的四个阶段分别包括:
第一阶段:商品圈选的过程。
第二阶段:生成商品标签的过程。
当“商品描述信息”来源于该目标商品的图文详情内容时,先获取详情图片,对所述详情图片进行字符识别,得到所述详情图片中的一个或多个文本片段;对所述一个或多个文本片段进行文本拼接处理,得到所述文本信息。再由微调LLM处理处理所述文本信息,得到所述目标商品的一个或多个商品标签。
应理解,此方案依赖前置OCR识别。示例性的,点击商品进去该商品的商品详情页面,会有很多很长的描述,或者图片形式的介绍。图片形式的介绍上一般可能会包括“卖点”的文字,抽取出来,生成比较可靠的标签。
OCR仅识别文字,可以提取图片中的文字信息。ORC提取出来是区域1、区域2等不同区域的文字,该文字可以是具有艺术字体的文字,或者横竖不同排列的文字,本申请实施例对此不做限定。“文本拼接处理”即可以根据不同区域提取到的文字进行拼接得到完整的文本信息。
可选地,拿到识别文本后,同一张图,多个文本段落需要进行拼接;而单个商品可能对应有多张图片,不同图片的文本也需要拼接。复杂的文本拼接策略可以涉及到字体、大小、背景颜色、临近距离等,简单的则可使用长度过滤(4-16)左右、上下的顺序拼接,单图段落间用空格拼接,多图间用换行拼接。
拼接处理后得到完整的文本信息,需要从完整的文本信息中抽取出卖点标签。文本摘要是ChatGLM擅长的任务,因此考虑适用大模型。
一种可能的实现过程中,所述方法还包括:获取用于生成商品标签的原始大语言模型;将所述文本信息和所述一个或多个商品标签作为训练样本,对所述原始大语言模型进行调整,得到所述已微调大语言模型。
具体地,如图5所示的虚线框的步骤,借助业务同学通过人工看图的方式总结的卖点标签,与模型OCR结果进行组对,可以得到一批训2k+的样本,构建出训练样本,由此可以进行LLM微调训练。人工OCR可由业务同学长期进行,持续积累样本,迭代优化模型。
通过上述方式,从商品的图文详情界面中的真实图片中得到的标签,置信度、可靠度更高,同样地,利用该样本迭代训练LLM,也可以进行LLM的优化,提升LLM生成标签的准确度。
考虑到目前商品库中的图文详情率较低,而相同的商品会出现A店中有图而B店中无图的情况。此时可以利用同品归一能力提高标签的覆盖率及利用率。
第三阶段:后处理过程。
第四阶段:商品挂载过程。
该第三阶段和第四阶段的过程可以参考前述图3和图4的介绍,为了简便,此处不再赘述。
另一种可能的实现方式中,所述商品描述信息包括所述目标商品被挂载在其他购物平台售卖时所有具有的标签信息,所述获取与目标商品相关的商品描述信息,包括:获取所述目标商品被挂载在其他购物平台售卖时所有具有的标签信息;以及,所述方法还包括:采用所述已微调大语言模型分析所述标签信息,确定第一语言提示词,并根据所述第一语言提示词更新所述已微调大语言模型中的语言提示词库。
换言之,当“商品描述信息”可以来源于第一数据源的信息,例如获取其他平台的商店详页、商品详页下挂载的标签信息,可以获取现成的卖点标签。
图6是本申请实施例提供的另一例生成商品标签的实现过程的流程图。如图6所示,以上介绍的生成商品标签的过程的四个阶段分别包括:
第一阶段:商品圈选的过程。
第二阶段:生成商品标签的过程,具体包括结构化理解和同品归一处理。
该过程中,获取第一数据源的信息,并对获取的第一数据源的信息进行预处理,得到其他平台的商店详页、商品详页下挂载的标签信息,再执行标签项分类过滤,将过滤后的标签信息进行结构化理解。
可选地,利用第一数据源的信息的关键步骤有两个:
1)标签清洗,即图6中示出的标签项分类过滤过程。获取第一数据源的信息,获取现成的卖点标签,其中,部分短标签可直接用,部分为不相关描述标签,需要剔除不相关标签。可选地,标签清洗过程,可以基于分类模型(例如Bert分类模型)标注样本,对样本进行分类,再基于大模型进行结构化处理。
2)标签挂载。需要通过商品对齐,即将第一数据源的商品信息对齐到目标商品库,从而进行标签的对齐挂载。
标签挂载可以包括从商品层面的挂载,即商品对齐,例如将获取到的商品对齐到饿了么商品库,需要用到同品归一能力。
可选地,同品归一目前支持cpv层面的归一,即根据商品结构化理解结果(客观层面的商品信息,类目+实体+属性),将相同类目+实体+属性的商品进行归一。其中,不同类目下的商品会有不同的关键属性,如果认为某属性在判断是否相同品时需要做区别,那么该属性必须在结构化理解时被识别,否则将会忽略。因此,cpv同品归一依赖于F类属性标签的识别,而关键属性的确定则需要业务同学协助。
可选地,还可以使用同品归一的升级方案,是利用大模型的文本检索/向量检索功能搭建在线链路来进行,可以不完全依赖于结构化处理的结果。为了提高同品归一率,可借助LLM提高对商品的理解能力。该过程为商品层面的对齐,如何将第一数据源的商品映射到目标商品上,该过程不会涉及到商品层面的批量挂载。
可选地,从客观标签层面实现挂载,将第一数据源的商品做结构化理解之后,可以基于LLM进行主观标签与客观标签之间的关系发现,具体地,通过LLM发现标签,确定这个标签是如何根据属性组合得到的;发现规律之后,获取规则,当做商品标签的挂载规则直接使用。例如,在某4bc商品信息中,商品标题为“freego一次性毛巾75*35cm(2条装)”,卖点标签为“天然植物纤维|亲肤舒适”,可以发现,该卖点是根据商品的“品类”+“材质”得到,由此可以将卖点批量拓展到其他拥有相同“品类”+“材质”的商品上。
应理解,客观标签不一定在商品标题中出现,例如:freego一次性毛巾75*35cm(2条装)——(材质)天然植物纤维/亲肤舒适;此外,部分标签为特定商品特有,模型能否理解品牌特色,例如吉士丁撕奶酪(原味)25g*2——6倍牛奶蛋白/低碳水。以上列举的特殊情况可以进行测试,并对LLM进行微调,并增加LLM的结构化输出能力。
第三阶段:后处理过程。
第四阶段:商品挂载过程。
该第三阶段和第四阶段的过程可以参考前述图3和图4的介绍,为了简便,此处不再赘述。
另一种可能的实现方式中,所述商品描述信息还可以包括来源于预设数据库的信息,所述预设数据库中包括多个不同购物平台的一个或多个商品的信息,所述获取与目标商品相关的商品描述信息,包括:获取所述目标商品的条形码;根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息。
应理解,这里“预设数据库的信息”可以是商品库的信息,或者称为集团同步信息。例如,阿里集团的商品库的数据源(第二数据源)、数据回流信息等。阿里集团很多平台,比如盒马、饿了么、淘宝等,不同零售渠道得到的标签,都可以用于其他平台的商品上。那么将商品库的信息和目标商品信息对应的过程中,可以通过条形码(barcode)进行映射。
示例性的,获取该目标商品的条形码(barcode),集团给的barcode和当前商品的barcode直接对应上,就可以获取标签和barcode的对应关系。再根据barcode做挂载,但是如果集团信息或许有误差,则会存在不相关问题,标签和商品可能是不对应的,例如可能barcode打错了,或者标签给错了,会存在标签和商品不对应的问题。
为了解决上述问题,可以进行相关性过滤,剔除掉不相关的标签。
可选地,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息之后,所述方法还包括:计算所述商品信息和所述目标商品的客观属性特征之间的相关性,保留所述相关性满足预设要求的所述商品信息。
可选地,在获取所述目标商品的条形码之后,所述方法还包括:根据分类模型对所述目标商品进行分类,确定所述目标商品所属的类目;以及,所述根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息,包括:根据所述目标商品的条形码和所述目标商品所属的类目,从所述预设数据库中查找与所述目标商品的条形码一致且所述目标商品所属的类目相同的商品所关联的商品信息。
可选地,所述根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息,包括:根据所述目标商品的条形码,采用所述已微调大语言模型的文本检索和/或向量检索功能,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息。
图7是本申请实施例提供的另一例生成商品标签的实现过程的流程图。如图7所示,将获取到的集团信息预处理之后,进行标签项分类过滤处理,得到的商品标签进行相关性过滤,再通过条形码(barcode)将商品库的信息和目标商品信息进行映射。
具体地,根据barcode标品粒度进行关联,标签需要额外进行清洗过滤,可使用分类模型。需要注意是,该过程需要人工发现并人工干预,例如错字问题,如“口威柔和”调整为“口感柔和。又例如,barcode错误关联问题,barcode与标题的同品归一问题等。虽然barcode天然有集成了同品归一能力,但考虑到关联的准确性,依然可以同自建同品归一能力进行扩充覆盖。
还需要注意的是,barcode与标签的相关性问题。在统计了类目与标签的分布关系之后发现,类目下存在不相关的标签描述,比如酒类目下存在肉质相关描述。该部分需要通过模型解决。
另外还发现,集团同步标签有很多是某品牌商品对外宣传的商品亮点,属于专业知识,并不直接体现在标题当中。比如,“45度小郎酒(经典分享装)100ml*6瓶/盒”其中一个卖点标签为“纯粮固态发酵”,这一方面为barcode与标签的相关性判断增加了难度,另一方面,也启发我们将该类标签扩展至拥有相同类目+商品名/品牌品类的所有item(即4bc中的主观标签与客观标签之间的关系发现)。在尝试中,相比于一般品类词(“风味牛奶”),商品名(“蒙牛”)下的标签直接泛化覆盖的置信度更高。
同理,图5中介绍的图文详情中的标品部分也可做相同的关系发现扩展,为了简便,此处不再赘述。
另一种可能的实现方式中,得到所述目标商品的一个或多个商品标签之后,所述方法还包括:根据预设规则,确定所述一个或多个商品标签中每一个商品标签关联的场景关键词,并根据场景关键词选择商品标签挂载所述目标商品。
图8是本申请实施例提供的另一例生成商品标签的实现过程的流程图。如图8所示,商品圈选之后,可以根据业务规则,设计了自动化的流程进行自动化模式匹配。规则展示形式如下表2所示。
表2
在规则匹配过程中,表2中“试用类目”做约束,标题包含了关键字,即命中了关键词,就给标签值。可选地,规则可以是业务人员给的业务规则,或者运营人员根据行业经验、运营经验给的规则,本申请实施例对此不做限定。
通过上述方法,本申请主要通过多来源、多途径获取的商品描述信息生成商品卖点标签。一般方法仅依赖商品标题生成卖点标签,导致获取到的商品相关的信息非常有限,本申请提供的方式扩大了商品描述信息的来源,能够通过图文详情识别、获取的不同来源的数据信息等,可以辅助模型更好地理解商品,生成更为可靠、置信度更高、可溯源的卖点标签。
具体地,本申请实施例结合当前的大模型趋势,充分利用了大模型的能力优点,对多来源数据进行标签生成。具体地,在图文详情抽取中,本申请实施例充分利用了大模型的概述能力,从大量的OCR文本中抽取出简短干练、有信息量的卖点标签;在客观标签转义中,有充分利用了大模型的语义理解能力,对相关实体和属性进行改写描述,生成更有吸引力的卖点标签;在第一数据源(4bc来源)部分,则利用了大模型的更深层次的理解能力和尝试能力,进行客观标签和主观标签的关系发现,从而提高标签利用率和商品覆盖率。同时,得益于大模型生成能力的多样性,在标签丰富度上,也迅速得到了积累。
再者,本申请还充分利用了结构化理解能力和同品归一能力,完成商品标签的高效批量挂载,并提高标签覆盖率。同品归一在多个来源中都有用武之地,在实际操作中,通过同品归一可以将标签覆盖率提升10%左右。
图9是本申请实施例提供的一例基于大语言模型生成商品标签的装置示意图,该生成商品标签的装置900包括获取单元910、第一处理单元920和第二处理单元930。
获取单元910,用于获取与目标商品相关的商品描述信息;
第一处理单元920,用于对所述商品描述信息进行结构化处理,得到所述目标商品的客观属性特征;
第二处理单元930,用于采用已微调大语言模型基于语言提示词库处理所述客观属性特征,得到所述目标商品的一个或多个商品标签。
在一种可能的实现方式中,所述获取单元910还用于获取所述目标商品关联的详情图片;该生成商品标签的装置900还包括第三处理单元,用于对所述详情图片进行字符识别,得到所述详情图片中的一个或多个文本片段;对所述一个或多个文本片段进行拼接处理得到所述文本信息。
在一种可能的实现方式中,所述获取单元910还用于获取用于生成商品标签的原始大语言模型;该生成商品标签的装置900还包括调整单元,用于将所述文本信息和所述一个或多个商品标签作为训练样本,对所述原始大语言模型进行调整,得到所述已微调大语言模型。
在一种可能的实现方式中,当所述商品描述信息包括所述目标商品被挂载在其他购物平台售卖时所有具有的标签信息时,所述获取单元910具体用于获取所述目标商品被挂载在其他购物平台售卖时所有具有的标签信息;以及,所述第二处理单元930具体用于采用所述已微调大语言模型分析所述标签信息,确定第一语言提示词,并根据所述第一语言提示词更新所述已微调大语言模型中的语言提示词库。
在一种可能的实现方式中,当所述商品描述信息包括来源于预设数据库的信息时,所述获取单元910具体用于获取所述目标商品的条形码;该生成商品标签的装置900还包括确定单元,用于根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息。
在一种可能的实现方式中,该生成商品标签的装置900还包括第四处理单元,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息之后,用于计算所述商品信息和所述目标商品的客观属性特征之间的相关性,保留所述相关性满足预设要求的所述商品信息。
在一种可能的实现方式中,该生成商品标签的装置900还包括第五处理单元,在获取所述目标商品的条形码之后,用于根据分类模型对所述目标商品进行分类,确定所述目标商品所属的类目;以及,所述第四处理单元具体用于根据所述目标商品的条形码和所述目标商品所属的类目,从所述预设数据库中查找与所述目标商品的条形码一致且所述目标商品所属的类目相同的商品所关联的商品信息。
在一种可能的实现方式中,所述第四处理单元具体用于根据所述目标商品的条形码,采用所述已微调大语言模型的文本检索和/或向量检索功能,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息。
在一种可能的实现方式中,该生成商品标签的装置900还包括第六处理单元,在得到所述目标商品的一个或多个商品标签之后,用于对所述一个或多个商品标签进行过滤处理,去除所述一个或多个商品标签中包含风险词汇的商品标签,并根据过滤处理后的商品标签挂载所述目标商品;和/或,计算所述一个或多个商品标签中的任意两个商品标签之间的相似度,将相似度大于或等于预设阈值的两个商品标签进行归类处理,并根据归类处理后的商品标签挂载所述目标商品;和/或,计算所述一个或多个商品标签中的每一个商品标签和所述目标商品的客观属性特征之间的相关性,将所述相关性由高到底的顺序确定为所述每一个商品标签的优先级顺序,并按照所述优先级顺序将满足预设优先级要求的商品标签挂载所述目标商品。
在一种可能的实现方式中,该生成商品标签的装置900还包括第七处理单元,在得到所述目标商品的一个或多个商品标签之后,用于根据预设规则,确定所述一个或多个商品标签中每一个商品标签关联的场景关键词,并根据场景关键词选择商品标签挂载所述目标商品。
图10是本申请实施例提供的一例计算机设备1000的结构示意图。可选地,该计算机设备1000可以是具有计算功能的设备,或者是服务器,本申请实施例对此不做限定。
示例性的,如图10所示,该计算机设备1000包括:存储器1001、处理器1002以及存储在该存储器1001中并在处理器1002上运行的计算机程序1003,其中,该处理器1002执行该计算机程序1003时,使得该计算机设备可执行前述介绍的任意一种基于大语言模型生成商品标签的方法。
本申请实施例中提供的服务器或计算机设备中的各个模块的实现可为计算机程序的形式。该计算机程序可在服务器或计算机设备上运行。该计算机程序构成的程序模块可存储在服务器或计算机设备的存储器上。该计算机程序被处理器执行时,实现本申请实施例中所描述的方法的全部或部分步骤。
需要说明的是,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
应理解,本申请实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便,不应构成特别的限定,各种方式、类别、情况以及实施例中的特征在不矛盾的情况下可以相结合。
还应理解,本申请实施例中的术语“第一”、“第二”以及“第三”仅为了区分,不应对本申请构成任何限定。例如,本申请实施例中的“第一处理单元”、“第二处理单元”等,表示不同的处理单元。
还应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
还需要说明的是,本申请实施例中,“预设”、“固定值”等可以通过在计算机设备(例如发送端设备和接收端设备等)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现,本申请对于其具体的实现方式不做限定。例如,本申请实施例中“预设数据库”等。
可以理解的是,计算机设备为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本实施例可以根据上述方法示例对计算机设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,上述实施例中涉及的计算机设备的一种可能的组成示意图,该计算机设备可以包括:显示单元、检测单元和处理单元。其中,显示单元、检测单元和处理单元相互配合,可以用于支持计算机设备执行上述步骤等,和/或用于本文所描述的技术的其他过程。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
需要说明的是,本申请所涉及的信息和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本实施例提供的计算机设备,用于执行上述基于大语言模型生成商品标签的方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,计算机设备可以包括处理模块、存储模块和通信模块。其中,处理模块可以用于对计算机设备的动作进行控制管理,例如,可以用于支持计算机设备执行上述显示单元、检测单元和处理单元执行的步骤。存储模块可以用于支持计算机设备执行存储程序代码和数据等。通信模块,可以用于支持计算机设备与其他设备的通信。
其中,处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理(digital signal processing,DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他计算机设备交互的设备。
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机设备上运行时,使得计算机设备执行上述相关方法步骤实现上述实施例中的基于大语言模型生成商品标签的方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的基于大语言模型生成商品标签的方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的基于大语言模型生成商品标签的方法。
其中,本实施例提供的计算机设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种基于大语言模型生成商品标签的方法,其特征在于,包括:
获取与目标商品相关的商品描述信息;
对所述商品描述信息进行结构化处理,得到所述目标商品的客观属性特征;
采用已微调大语言模型基于语言提示词库处理所述客观属性特征,得到所述目标商品的一个或多个商品标签。
2.根据权利要求1所述的方法,其特征在于,所述商品描述信息包括从所述目标商品关联的详情图片中获取的文本信息,所述获取与目标商品相关的商品描述信息,包括:
获取所述目标商品关联的详情图片;
对所述详情图片进行字符识别,得到所述详情图片中的一个或多个文本片段;
对所述一个或多个文本片段进行拼接处理得到所述文本信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取用于生成商品标签的原始大语言模型;
将所述文本信息和所述一个或多个商品标签作为训练样本,对所述原始大语言模型进行调整,得到所述已微调大语言模型。
4.根据权利要求1所述的方法,其特征在于,所述商品描述信息包括来源于预设数据库的信息,所述预设数据库中包括多个不同购物平台的一个或多个商品的信息,所述获取与目标商品相关的商品描述信息,包括:
获取所述目标商品的条形码;
根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息。
5.根据权利要求4所述的方法,其特征在于,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息之后,所述方法还包括:
计算所述商品信息和所述目标商品的客观属性特征之间的相关性,保留所述相关性满足预设要求的所述商品信息。
6.根据权利要求4所述的方法,其特征在于,在获取所述目标商品的条形码之后,所述方法还包括:
根据分类模型对所述目标商品进行分类,确定所述目标商品所属的类目;
以及,所述根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息,包括:
根据所述目标商品的条形码和所述目标商品所属的类目,从所述预设数据库中查找与所述目标商品的条形码一致且所述目标商品所属的类目相同的商品所关联的商品信息。
7.根据权利要求4所述的方法,其特征在于,所述根据所述目标商品的条形码,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息,包括:
根据所述目标商品的条形码,采用所述已微调大语言模型的文本检索和/或向量检索功能,从所述预设数据库中查找与所述目标商品的条形码一致的商品所关联的商品信息。
8.根据权利要求1至7中任一项所述的方法,其特征在于,得到所述目标商品的一个或多个商品标签之后,所述方法还包括:
对所述一个或多个商品标签进行过滤处理,去除所述一个或多个商品标签中包含风险词汇的商品标签,并根据过滤处理后的商品标签挂载所述目标商品;和/或,
计算所述一个或多个商品标签中的任意两个商品标签之间的相似度,将相似度大于或等于预设阈值的两个商品标签进行归类处理,并根据归类处理后的商品标签挂载所述目标商品;和/或,
计算所述一个或多个商品标签中的每一个商品标签和所述目标商品的客观属性特征之间的相关性,将所述相关性由高到底的顺序确定为所述每一个商品标签的优先级顺序,并按照所述优先级顺序将满足预设优先级要求的商品标签挂载所述目标商品。
9.根据权利要求1至7中任一项所述的方法,其特征在于,得到所述目标商品的一个或多个商品标签之后,所述方法还包括:
根据预设规则,确定所述一个或多个商品标签中每一个商品标签关联的场景关键词,并根据场景关键词选择商品标签挂载所述目标商品。
10.一种基于大语言模型生成商品标签的装置,其特征在于,包括:
获取单元,用于获取与目标商品相关的商品描述信息;
第一处理单元,用于对所述商品描述信息进行结构化处理,得到所述目标商品的客观属性特征;
第二处理单元,用于采用已微调大语言模型基于语言提示词库处理所述客观属性特征,得到所述目标商品的一个或多个商品标签。
11.一种服务器,其特征在于,包括:
存储器,用于存储可执行程序代码;
处理器,用于从所述存储器中调用并运行所述可执行程序代码,使得所述服务器执行如权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1至9中任一项所述的方法。
CN202311815342.4A 2023-12-26 2023-12-26 一种基于大语言模型生成商品标签的方法及电子设备 Pending CN117788109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311815342.4A CN117788109A (zh) 2023-12-26 2023-12-26 一种基于大语言模型生成商品标签的方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311815342.4A CN117788109A (zh) 2023-12-26 2023-12-26 一种基于大语言模型生成商品标签的方法及电子设备

Publications (1)

Publication Number Publication Date
CN117788109A true CN117788109A (zh) 2024-03-29

Family

ID=90388639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311815342.4A Pending CN117788109A (zh) 2023-12-26 2023-12-26 一种基于大语言模型生成商品标签的方法及电子设备

Country Status (1)

Country Link
CN (1) CN117788109A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118093635A (zh) * 2024-04-23 2024-05-28 杭州同花顺数据开发有限公司 一种数据查询方法、装置、设备及计算机可读存储介质
CN118132752A (zh) * 2024-05-06 2024-06-04 浙江口碑网络技术有限公司 商品描述词的分类方法以及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118093635A (zh) * 2024-04-23 2024-05-28 杭州同花顺数据开发有限公司 一种数据查询方法、装置、设备及计算机可读存储介质
CN118132752A (zh) * 2024-05-06 2024-06-04 浙江口碑网络技术有限公司 商品描述词的分类方法以及装置

Similar Documents

Publication Publication Date Title
US11055557B2 (en) Automated extraction of product attributes from images
CN107748754B (zh) 一种知识图谱完善方法和装置
CN107833082B (zh) 一种商品图片的推荐方法和装置
Satomura et al. Copy alert: A method and metric to detect visual copycat brands
CN109635198B (zh) 在商品展示平台上呈现用户搜索结果的方法、装置、介质及电子设备
CN117788109A (zh) 一种基于大语言模型生成商品标签的方法及电子设备
CN109992763A (zh) 语言标注处理方法、系统、电子设备及计算机可读介质
CN110196972B (zh) 文案生成方法、装置及计算机可读存储介质
CN110196930A (zh) 一种多模态客服自动回复方法及系统
CN111259281B (zh) 商户标签的确定方法、装置及存储介质
CN113570413B (zh) 广告关键词的生成方法、装置、存储介质及电子设备
CN111260437A (zh) 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法
CN111667337A (zh) 一种商品评价的排序方法和系统
CN117350825B (zh) 基于大语言模型的导购方法和系统
CN107861971A (zh) 一种商品搜索方法和装置
CN107833088A (zh) 内容提供方法、装置及智能设备
CN114580405A (zh) 商品评论文本的分析方法、装置、电子设备及存储介质
CN116894711A (zh) 商品推荐理由生成方法及其装置、电子设备
CN110874534A (zh) 数据处理方法和数据处理装置
CN113744019A (zh) 一种商品推荐方法、装置、设备及存储介质
KR101498944B1 (ko) 상품 판매 업체 관련 글 판단 방법 및 그 장치
Qiu et al. A deep matching model for detecting reviews mismatched with products in e-commerce
CN110035111A (zh) 一种可配送实体的推送方法以及装置
CN112184250B (zh) 挽回页的生成方法、装置、存储介质和计算机设备
KR20220118703A (ko) 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination