CN116976920A - 商品导购方法及其装置、设备、介质 - Google Patents
商品导购方法及其装置、设备、介质 Download PDFInfo
- Publication number
- CN116976920A CN116976920A CN202310965257.XA CN202310965257A CN116976920A CN 116976920 A CN116976920 A CN 116976920A CN 202310965257 A CN202310965257 A CN 202310965257A CN 116976920 A CN116976920 A CN 116976920A
- Authority
- CN
- China
- Prior art keywords
- commodity
- word
- text
- target
- commodities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000011218 segmentation Effects 0.000 claims description 129
- 239000013598 vector Substances 0.000 claims description 123
- 238000012549 training Methods 0.000 claims description 120
- 238000004422 calculation algorithm Methods 0.000 claims description 75
- 238000011156 evaluation Methods 0.000 claims description 71
- 238000000605 extraction Methods 0.000 claims description 31
- 238000013210 evaluation model Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008451 emotion Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000004927 fusion Effects 0.000 description 9
- 238000011176 pooling Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013016 damping Methods 0.000 description 3
- 239000004744 fabric Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241001133760 Acoelorraphe Species 0.000 description 1
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000700112 Chinchilla Species 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 241001416177 Vicugna pacos Species 0.000 description 1
- 241000282840 Vicugna vicugna Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0281—Customer communication at a business location, e.g. providing product or service information, consulting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及电商技术领域中一种商品导购方法及其装置、设备、介质,所述方法包括:获取用户输入的搜索文本,基于搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出相匹配的多个商品标题对应的商品作为目标商品,获取每个目标商品的销售特征、反馈特征、价格特征中任意一项或任意多项,构造出生成提示文本,所述销售特征包括表示相应目标商品吸引用户购买相对应的关键词,所述反馈特征包括表示相应目标商品的真实用户好评原文,所述价格特征包括表示相应目标商品的价格竞争力的量化数值。根据每个目标商品对应的生成提示文本采用预设的导购语生成模型生成相应的导购语。由此可精准地导购商品。
Description
技术领域
本申请涉及电商技术领域,尤其涉及一种商品导购方法及其相应的装置、计算机设备、计算机可读存储介质。
背景技术
随着电子商务的快速发展,消费者在购物过程中面临了巨多的选择和信息过载。在这种情况下,商品导购能够帮助消费者更轻松地找到他们需要的商品,并提供相关的商品信息和购买建议。
传统技术中,通常采用大语言模型根据商品的商品标题生成概要文本作为商品的导购语,然而这样的导购语一般只是流畅地复述商品标题中的部分关键词,以至于无法让阅读的用户产生深入了解商品的兴致,更谈不上激发用户购买商品的冲动,使得无法取得符合预期的导购成效。
鉴于传统技术的不足,本申请人长期从事相关领域的研究,为解决电商领域业内难题,故另辟蹊径。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种商品导购方法及其相应的装置、计算机设备、计算机可读存储介质。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种商品导购方法,包括如下步骤:
获取用户输入的搜索文本;
基于所述搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出匹配所述搜索文本的多个商品标题对应的商品作为目标商品;
获取每个所述目标商品的销售特征、反馈特征、价格特征中任意一项或任意多项,构造出生成提示文本,所述销售特征包括表示相应目标商品吸引用户购买相对应的关键词,所述反馈特征包括表示相应目标商品的真实用户好评原文,所述价格特征包括表示相应目标商品的价格竞争力的量化数值;
采用预设的导购语生成模型根据每个目标商品对应的生成提示文本生成每个目标商品的导购语。
另一方面,适应本申请的目的之一而提供的一种商品导购装置,包括搜索获取模块、商品匹配模块、生成构造模块以及导购生成模块,其中,搜索获取模块,用于获取用户输入的搜索文本;商品匹配模块,用于基于所述搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出匹配所述搜索文本的多个商品标题对应的商品作为目标商品;生成构造模块,用于获取每个所述目标商品的销售特征、反馈特征、价格特征中任意一项或任意多项,构造出生成提示文本,所述销售特征包括表示相应目标商品吸引用户购买相对应的关键词,所述反馈特征包括表示相应目标商品的真实用户好评原文,所述价格特征包括表示相应目标商品的价格竞争力的量化数值;导购生成模块,用于采用预设的导购语生成模型根据每个目标商品对应的生成提示文本生成每个目标商品的导购语。
又一方面,适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的商品导购方法的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的商品导购方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
本申请的技术方案存在多方面优势,包括但不限于如下各方面:
本申请通过基于用户输入的搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出相匹配的多个商品标题对应的商品作为目标商品。获取每个目标商品的销售特征、反馈特征、价格特征中任意一项或任意多项,构造出生成提示文本,所述销售特征包括表示相应目标商品吸引用户购买相对应的关键词,所述反馈特征包括表示相应目标商品的真实用户好评原文,所述价格特征包括表示相应目标商品的价格竞争力的量化数值。根据每个目标商品对应的生成提示文本采用预设的导购语生成模型生成相应的导购语。一方面,通过基于搜索文本与商品的商品标题对应的向量化语义表示进行匹配,能够精确地确定与用户搜索意图相关的目标商品,避免了关键词匹配的模糊性和误导性。在此基础上,根据每个目标商品的相应特征构造出的生成提示文本,能够针对目标商品在吸引用户购买的特性确定出相应的特征,进而构造出相应的生成提示文本,再以此生成相应的导购语,确保导购语的可读性,能够吸引用户关注,以尽可能地激发其购买冲动。另一方面,能够适配实际情况中,目标商品不一定具备全销售特征、反馈特征、价格特征,而是通常具备其中任意一项或任意多项,依据目标商品相应的特征构造出的生成提示文本,生成相应的导购语。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的商品导购方法的典型实施例的流程示意图;
图2为本申请的一种实施例中依据搜索文本检索出商品数据库中的目标商品的流程示意图;
图3为本申请的一种实施例中确定出目标商品的销售特征、反馈特征、价格特征的流程示意图;
图4为本申请的实施例中构造出训练导购语生成模型的训练集的流程示意图;
图5为本申请的实施例中构造出训练购买评估模型的训练集的流程示意图;
图6为本申请的实施例中构造出训练评价评分模型的训练集的流程示意图;
图7为本申请的实施例中构造出热搜商品词集、热销商品词集、购买商品词集的流程示意图;
图8为本申请的商品导购装置的原理框图;
图9为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩充到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种商品导购方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如,本申请的示例性应用场景中,可以在电商平台的服务器中部署实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的商品导购方法,在其典型实施例中,包括如下步骤:
步骤S1100、获取用户输入的搜索文本;
可以在电商平台的商品搜索功能基础上,提供对搜索结果中的商品进行导购的服务。用户通过在电商平台提供的商品搜索页面上输入关于所需商品的搜索文本,以启用所述服务,触发生成携带所述搜索文本的商品搜索请求提交至服务器。服务器接收所述商品搜素请求并对其响应,获得所述搜索文本。
步骤S1200、基于所述搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出匹配所述搜索文本的多个商品标题对应的商品作为目标商品;
所述商品数据库中存放电商平台中所有商品的文本信息和图片信息。所述文本信息包括相应商品的商品描述信息,通常是商品标题、商品详情文本、商品品类、产品参数、商品价格等中任意一项或任意多项。所述图片信息是展示商品的整体外观、卖点、局部细节中任意一项或任意多项的图片,通常是商品主图、商品详情图等中任意一项或两项。通过调用商品数据库的数据访问接口可根据商品的唯一标识获取相对应的文本信息中的商品标题。所述数据访问接口可由本领域技术人员灵活变通实现。所述唯一标识用于唯一指代单个商品,通常是商品ID,具体可由本领域技术人员灵活变通设定所述唯一标识。
所述向量化表示通过文本编码模型确定,所述文本编码模型预先训练至收敛,习得基于提取出文本的语义确定出相应向量的能力。所述文本编码模型可采用NLP领域中适用于提取文本特征的模型,推荐选型为BERT模型,亦可采用其他的例如TransfomerEncoder、RoBERTa、XLM-RoBERTa、MPNet、BiBiLSTM、GPT等任意一种模型。鉴于这些模型的训练为本领域技术人员所知悉,恕不对此展开详细的讲述。
一种实施例中,所述文本编码模型使用Bert模型实现,采用文本编码模型以所述搜索文本、商品数据库中每个商品的商品标题分别作为单个输入文本,以单个输入文本为例,采用预设的分词算法对所述输入文本进行分词,获得输入文本中所有分词构成分词序列,对分词序列中的每个分词进行embedding处理,确定出每个分词对应的三种嵌入表示,将三种嵌入表示加和,获得每个分词对应的输入向量表示,所述三种嵌入表示包括用于表示相应分词的文本嵌入向量(Token Embedding)、用于表示相应分词的位置信息的位置嵌入向量(Position Embedding)、用于表示句子间区分信息的分句嵌入向量(SegmentEmbedding)。将每个分词对应的输入向量表示输入至模型的多层堆叠的TransformerEncoder,所述层数可由本领域技术人员按需设定,例如12层或24层。对于单个TransformerEncoder,对每个分词对应的输入向量表示,经过多头注意力层时对其进行多头注意力计算,从而对每个分词进行不同维度的自注意力加权,获得相应的加权的向量表示。通过残差连接,将每个分词对应的输入向量表示与加权的向量表示加和,获得相应的修改向量表示。经过规范化层时对每个分词对应的修改向量表示进行0均值1方差的标准化操作,获得相应的标准化向量表示。经过两层线性层时每层分别对每个分词对应的标准化向量表示进行一次线性变换操作,获得每个分词对应的词特征向量。据此,所述分词序列经过如此的多层堆叠的Transformer Encoder,获得最后一个Transformer Encoder输出的该分词序列中每个分词对应的词特征向量。进一步,对所述分词序列中每个分词对应的词特征向量进行池化操作,获得该分词序列对应的句特征向量作为所述输入文本的文本特征向量,所述池化操作可以是平均池化或最大值池化,本领域技术人员可根据先验知识或实验数据择一实现。不难理解,所述文本特征向量便是相应文本的向量化语义表示。
所述分词算法可以是Jieba分词、n-gram分词、WordPiece分词、CRF分词等,本领域技术人员可灵活变通择一实现。
可以理解,所述搜索文本的向量化语义表示可以在服务器接收后,实时依照前述采用文本编码模型得出,然而为了提升效率,对于所述商品数据库中的所有商品的商品标题对应的向量化语义表示,可以预先依照前述采用文本编码模型得出,以备本步骤调用。
采用向量距离算法计算出确定出所述搜索文本的文本特征向量与商品数据库中各个商品的商品标题对应的文本特征向量之间的向量距离,作为相似度,可以理解,所述相似度反映搜索文本与相应的商品标题之间的语义相关程度,据此,筛选出所述相似度超过预设阈值和/或相似度较高的多个商品标题对应的商品,所述商品便是与搜索文本高度相关的商品,从而将其作为目标商品。所述向量距离算法可以是余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等任意一种。所述预设阈值可由本领域技术人员按需设定。所述筛选出相似度较高的商品标题,具体而言,可通过根据所述相似度从高到低的顺序进行排序,筛选出排序靠前的N个商品标题,所述这N个商品标题相对于其他排序靠后的商品标题而言,便是相似度较高的商品标题,所述N可由本领域技术人员按需设定。
步骤S1300、获取每个所述目标商品的销售特征、反馈特征、价格特征中任意一项或任意多项,构造出生成提示文本,所述销售特征包括表示相应目标商品吸引用户购买相对应的关键词,所述反馈特征包括表示相应目标商品的真实用户好评原文,所述价格特征包括表示相应目标商品的价格竞争力的量化数值;
调用商品数据库的数据访问接口根据每个所述目标商品对应的唯一标识,获取每个目标商品对应的文本信息。以单个目标商品为例,采用分词算法对该目标商品的文本信息进行分词,获得文本信息中的所有分词构成分词序列。以所述分词序列作为预设的购买评估模型的输入,由购买评估模型的文本特征提取层提取出所述分词序列中每个分词对应的深层语义信息,获得相应向量化表示所述深层语义信息的词特征向量,所述深层语义信息表征相应的分词能够吸引用户购买的可能性。由购买评估模型的分类器将每个分词对应的词特征向量分别映射至预设的二分类别,获得每个分词对应的映射至正类别的分类概率作为购买权重,所述二分类别包括表征相应的分词能够吸引用户购买的正类别,以及表征相应的分词不能够吸引用户购买的负类别。根据每个分词对应的购买权重从高到低的顺序进行排序,筛选出排序靠前的N个分词构成销售特征,所述N可由本领域技术人员按需设定。据此,依据每个目标商品的文本信息,获得每个目标商品对应的销售特征。
根据每个所述目标商品对应的唯一标识,获取每个目标商品对应的所有用户好评原文及相应的评价时间分布,所述评价时间分布是由相应的每个用户好评原文对应的发布时间构成。以单个目标商品为例,采用分词算法对该目标商品的每个用户好评原文进行分词,获得相应的所有分词构成分词序列。采用评价评分模型以所有的用户好评原文对应的分词序列及所述评价时间分布作为输入,对每个用户好评原文对应的分词序列,由评价评分模型的第一文本特征提取层提取出所述分词序列中每个分词对应的深层语义信息,获得相应向量化表示所述深层语义信息的词特征向量,进一步,对分词序列中的所有分词对应的词特征向量进行平均池化,即在分词序列中分词总数这个维度上所有词特征向量分别求取相应的均值,至此,获得分词序列的句特征向量作为所述分词序列的文本特征向量。此外,由评价评分模型的第二文本特征提取层提取出所述评价时间分布中对应每个用户好评原文的发布时间的深层语义信息,获得向量化表示每个所述深层语义信息对应的时间特征向量,所述深层语义信息表征相应的用户好评原文的发布时间与邻近的用户好评原文的分布时间之间的紧密程度,所述紧密程度包括稀疏或稠密。将每个用户好评原文对应的文本特征向量与时间特征向量进行拼接,构成融合特征向量,由评价评分模型将每个融合特征向量分别映射至预设的二分类别,获得每个融合特征向量对应的映射至正类别的分类概率作为真实评分,所述二分类别包括表征相应的用户好评原文是真实的正类别,以及表征相应的用户好评原文是虚假的负类别。根据每个用户好评原文对应的真实评分超过预设阈值,筛选出相应的用户好评原文构成反馈特征,所述预设阈值可由本领域技术人员按需设定,例如0.8。据此,依据每个目标商品的所有用户好评原文与相应评价时间分布,获得每个目标商品的反馈特征。
所述购买评估模型预先经过训练至收敛,习得确定出依据商品的文本信息所得的分词序列,其中每个分词对应的购买权重的能力,具体训练过程由后续部分实施例进一步揭示,本步骤暂且按下不表。所述购买评估模型包括文本特征提取层和分类器,所述文本特征提取层可采用NLP领域中适用于提取文本特征的模型,推荐选型为BERT模型,亦可采用其他的例如Transfomer Encoder、RoBERTa、XLM-RoBERTa、MPNet、BiBiLSTM、GPT等任意一种模型。所述分类器适用于二分类任务,可以是MLP(前馈神经网络)或者FC(全连接层)。
所述评价评分模型预先经过训练至收敛,习得确定出用户好评原文的真实评分的能力,具体训练过程由后续部分实施例进一步揭示,本步骤暂且按下不表。所述评价评分模型包括第一文本特征提取层、第二文本特征提取层以及分类器,所述第一文本特征提取层和第二文本特征提取层对应的网络结构相同,均可采用NLP领域中适用于提取文本特征的模型,推荐选型为BERT模型,亦可采用其他的例如Transfomer Encoder、RoBERTa、XLM-RoBERTa、MPNet、BiBiLSTM、GPT等任意一种模型。所述分类器适用于二分类任务,可以是MLP(前馈神经网络)或者FC(全连接层)。
调用商品数据库的数据访问接口根据每个所述目标商品对应的唯一标识,获取每个目标商品对应的文本信息中的商品价格,以及获取每个目标商品对应预设的竞品集的商品价格均值。所述竞品集可由本领域技术人员灵活变通预先确定,其中每个竞品与相应的目标商品之间是商业竞争关系,所述商品价格均值是依据竞品集中所有竞品的商品价格求取出的均值。确定出每个目标商品对应的商品价格与商品价格均值之间的差值,对每个目标商品,当相应的商品价格小于商品价格均值时,一种实施例中,确定相应的差值作为该目标商品的价格特征;推荐的实施例中,确定相应的差值与该商品价格均值之间的比值为该目标商品的价格特征。
对每个所述目标商品,均可以该目标商品的销售特征、反馈特征、价格特征中任意一项或任意多项,构造出相应的生成提示文本。示范性举例,以目标商品的销售特征、反馈特征、价格特征,构造出相应的生成提示文本为:
“请根据商品以下的销售特征、反馈特征、价格特征,生成该商品的导购语:
销售特征:[青春流行、情侣、GENANX、T恤、卡通漫画印花、多彩]
反馈特征:[“衣服布料不错、稍微有一点厚,尺码是偏大号的,总体质感很好。外观漂亮”、...、“衣服颜色挺正,有点厚,中袖,图案很潮流。”]
价格特征:目标商品的商品价格与竞品集的商品价格均值之间的差值,该差值与该商品价格均值之间的比值为0.2”
步骤S1400、采用预设的导购语生成模型根据每个目标商品对应的生成提示文本生成每个目标商品的导购语。
所述导购语生成模型可以是=大语言模型,所述大语言模型适用于NLP领域的文本处理,其预先使用极其庞大的语料库训练至收敛,习得生成人类语言的能力,具备准确的文本语义理解能力和逻辑推理能力。所述大语言模型的选型包括OPT、Chinchilla、PaLM、LLaMA、Alpaca、Vicuna、GPT3、GPT3.5、GPT4、ChatGPT等。进一步,对所述导购语生成模型进行微调训练,使其习得根据商品的销售特征、反馈特征、价格特征中任意一项或任意多项构造出的生成提示文本,生成导购语的能力。所述微调训练具体实现由后续部分实施例进一步揭示,本步骤暂不揭晓。
一种实施例中,以单个目标商品对应的生成提示文本为例,采用GPT-3.5实现所述导购语生成模型,将所述生成提示文本作为输入,由模型中的编码端,通过堆叠多层多头注意力层和全连接层,对所述生成提示文本进行编码,具体而言,对所述生成提示文本,经过多头注意力层时对其进行多头注意力计算,从而对生成提示文本进行不同维度的自注意力加权,获得相应的加权的向量表示,再经过全连接层后,得到相应的编码向量表示,进一步,将所述编码向量表示输入至模型中的解码端,对所述生成提示文本中的每个分词对应的编码向量表示进行解码,具体而言,解码过程中根据已生成的单词和当前单词位置和单词对应的编码向量表示,计算每次生成单词的生成概率,采用贪心搜索策略根据每次生成单词的生成概率,生成导购语。据此,便可生成每个目标商品对应的导购语。
根据本申请的典型实施例可以知晓,本申请的技术方案存在多方面优势,包括但不限于如下各方面:
本申请通过基于用户输入的搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出相匹配的多个商品标题对应的商品作为目标商品。获取每个目标商品的销售特征、反馈特征、价格特征中任意一项或任意多项,构造出生成提示文本,所述销售特征包括表示相应目标商品吸引用户购买相对应的关键词,所述反馈特征包括表示相应目标商品的真实用户好评原文,所述价格特征包括表示相应目标商品的价格竞争力的量化数值。根据每个目标商品对应的生成提示文本采用预设的导购语生成模型生成相应的导购语。一方面,通过基于搜索文本与商品的商品标题对应的向量化语义表示进行匹配,能够精确地确定与用户搜索意图相关的目标商品,避免了关键词匹配的模糊性和误导性。在此基础上,根据每个目标商品的相应特征构造出的生成提示文本,能够针对目标商品在吸引用户购买的特性确定出相应的特征,进而构造出相应的生成提示文本,再以此生成相应的导购语,确保导购语的可读性,能够吸引用户关注,以尽可能地激发其购买冲动。另一方面,能够适配实际情况中,目标商品不一定具备全销售特征、反馈特征、价格特征,而是通常具备其中任意一项或任意多项,依据目标商品相应的特征构造出的生成提示文本,生成相应的导购语。
请参阅图2,进一步的实施例中,步骤S1200、基于所述搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出匹配所述搜索文本的多个商品标题对应的商品作为目标商品,包括如下步骤:
步骤S1210、采用大语言模型提取出所述搜索文本及商品数据库中所有商品的商品标题对应的深层语义信息,获得相对应的文本特征向量;
为了保证向量化语义表示的准确性,采用GPT-3模型实现所述大语言模型,并以所述搜索文本、商品数据库中每个商品的商品标题分别作为单个输入文本,以单个输入文本为例,对所述输入文本进行分词,获得输入文本中的所有分词构成分词序列,提取出分词序列中每个分词对应的深层语义信息,获得相应向量化表示所述深层语义信息的词特征向量,所述深层语义信息包括相应分词本身的语义,以及该分词与分词序列中的其他所有分词之间的语义即上下文语义。进一步,对分词序列中的所有分词对应的词特征向量进行平均池化,即在分词序列中分词总数这个维度上所有词特征向量分别求取相应的均值,至此,获得分词序列的句特征向量作为所述输入文本的文本特征向量。不难理解,所述文本特征向量便是相应文本的向量化语义表示。
可以理解,所述搜索文本的向量化语义表示可以在服务器接收后,实时依照前述采用大语言模型得出,然而为了提升效率,对于所述商品数据库中的所有商品的商品标题对应的向量化语义表示,可以预先依照前述采用大语言模型得出,以备本步骤调用。
步骤S1220、确定出所述搜索文本的文本特征向量与商品数据库中各个商品的商品标题对应的文本特征向量之间的相似度;
采用向量距离算法计算出确定出所述搜索文本的文本特征向量与商品数据库中各个商品的商品标题对应的文本特征向量之间的向量距离,作为相似度,可以理解,所述相似度反映搜索文本与相应的商品标题之间的语义相关程度。
所述向量距离算法可以是余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等任意一种。所述预设阈值可由本领域技术人员按需设定。
步骤S1230、根据所述相似度满足预设条件,筛选出相应的多个商品标题对应的商品作为目标商品。
筛选出所述相似度超过预设阈值和/或相似度较高的多个商品标题对应的商品,所述商品便是与搜索文本高度相关的商品,从而将其作为目标商品。所述筛选出相似度较高的商品标题,具体而言,可通过根据所述相似度从高到低的顺序进行排序,筛选出排序靠前的N个商品标题,所述这N个商品标题相对于其他排序靠后的商品标题而言,便是相似度较高的商品标题,所述N可由本领域技术人员按需设定。
本实施例中,通过基于搜索文本、商品数据库中所有商品的商品标题对应的语义,相对应得出的文本特征向量,计算搜索文本与每个商品标题对应的文本特征向量之间的相似度,据此,筛选出相似度满足预设条件的商品标题的商品作为目标商品。使得一方面基于精准的向量化语义表示,能够保证目标商品与搜索文本高度相关,确保商品搜索的精准度。另一方面,执行高效,提升用户搜索体验。
请参阅图3,进一步的实施例中,步骤S1300、获取每个所述目标商品的销售特征、反馈特征、价格特征,包括如下步骤:
步骤S1310、获取每个所述目标商品的文本信息,对文本信息进行分词,获得分词序列,采用预设的购买评估模型确定出分词序列中每个分词对应的购买权重,筛选出购买权重符合第一预设条件的分词构成销售特征,所述文本信息包括相应目标商品的商品描述信息;
调用商品数据库的数据访问接口根据每个所述目标商品对应的唯一标识,获取每个目标商品对应的文本信息。以单个目标商品为例,采用分词算法对该目标商品的文本信息进行分词,获得文本信息中的所有分词构成分词序列。以所述分词序列作为预设的购买评估模型的输入,由购买评估模型的文本特征提取层提取出所述分词序列中每个分词对应的深层语义信息,获得相应向量化表示所述深层语义信息的词特征向量,所述深层语义信息表征相应的分词能够吸引用户购买的可能性。由购买评估模型的分类器将每个分词对应的词特征向量分别映射至预设的二分类别,获得每个分词对应的映射至正类别的分类概率作为购买权重,所述二分类别包括表征相应的分词能够吸引用户购买的正类别,以及表征相应的分词不能够吸引用户购买的负类别。
根据每个分词对应的购买权重从高到低的顺序进行排序,筛选出排序靠前的N个分词构成销售特征,所述N可由本领域技术人员按需设定。据此,依据每个目标商品的文本信息,获得每个目标商品对应的销售特征。
步骤S1320、获取每个目标商品的所有用户好评原文及相应的评价时间分布,采用预设的评价评分模型,确定出每个用户好评原文对应的真实评分,筛选出真实评分符合第二预设条件的用户好评原文构成反馈特征;
用户可在购买电商平台中的商品后,可对商品进行评价,编辑出用户评价数据,进而将用户评价数据和自动生成其相应的发布时间一并发送至服务器,以发布该用户评价数据。服务器接收用户评价数据和发布时间后通常将其关联相应的商品的唯一标识进行存储,从而可根据商品的唯一标识获取该商品的用户评价数据和发布时间,在该商品的详情页面上的评论展示区域中显示。所述用户评价数据主要包含评价描述文本及评价类别,所述评价类别包括差评、中评、好评。
根据每个目标商品对应的唯一标识,获得每个目标商品对应的所有用户评价数据及其发布时间。对每个目标商品,从相应的所有用户评价数据中确定出评价类别为好评的评价描述文本作为用户好评原文,获得所有用户好评原文,以每个用户好评原文对应的发布时间构成评价时间分布。
以单个目标商品为例,采用分词算法对该目标商品的每个用户好评原文进行分词,获得相应的所有分词构成分词序列。采用评价评分模型以所有的用户好评原文对应的分词序列及所述评价时间分布作为输入,对每个用户好评原文对应的分词序列,由评价评分模型的第一文本特征提取层提取出所述分词序列中每个分词对应的深层语义信息,获得相应向量化表示所述深层语义信息的词特征向量,进一步,对分词序列中的所有分词对应的词特征向量进行平均池化,即在分词序列中分词总数这个维度上所有词特征向量分别求取相应的均值,至此,获得分词序列的句特征向量作为所述分词序列的文本特征向量。此外,由评价评分模型的第二文本特征提取层提取出所述评价时间分布中对应每个用户好评原文的发布时间的深层语义信息,获得向量化表示每个所述深层语义信息对应的时间特征向量,所述深层语义信息表征相应的用户好评原文的发布时间与邻近的用户好评原文的分布时间之间的紧密程度,所述紧密程度包括稀疏或稠密。将每个用户好评原文对应的文本特征向量与时间特征向量进行拼接,构成融合特征向量,由评价评分模型将每个融合特征向量分别映射至预设的二分类别,获得每个融合特征向量对应的映射至正类别的分类概率作为真实评分,所述二分类别包括表征相应的用户好评原文是真实的正类别,以及表征相应的用户好评原文是虚假的负类别。
根据每个用户好评原文对应的真实评分超过预设阈值,筛选出相应的用户好评原文构成反馈特征,所述预设阈值可由本领域技术人员按需设定,例如0.8。据此,依据每个目标商品的所有用户好评原文与相应的评价时间分布,获得每个目标商品的反馈特征。
步骤S1330、获取每个目标商品的商品价格,以及每个目标商品对应的竞品集的商品价格均值,根据相应的商品价格与商品价格均值之间的差距确定出价格特征。
所述目标商品的竞品集可由本领域技术人员灵活变通预先确定,示范性举例,一种实施例中,通过获取目标商品的商品品类,确定属于该商品品类的商品作为所述目标商品的竞品,以所有竞品构成竞品集,求取竞品集中各个竞品的商品价格之和除以竞品总个数,得到所述竞品集的商品价格均值。推荐的实施例中,通过获取目标商品的商品品类,确定属于该商品品类的商品作为所述目标商品的候选竞品,进一步,获取所述目标商品及所有候选竞品分别的商品标题,采用聚类算法对所有商品标题进行聚类,确定出与目标商品的商品标题同属同一类簇的候选竞品的商品标题,将所述候选竞品作为竞品,以所述竞品构成竞品集,求取竞品集中各个竞品的商品价格之和除以竞品总个数,得到所述竞品集的商品价格均值。所述聚类算法可以是K-means算法、GMM高斯混合模型聚类算法、DBSCAN算法、meanshift算法、spectral clustering算法等,本领域技术人员按需择一实现即可。
调用商品数据库的数据访问接口根据每个所述目标商品对应的唯一标识,获取每个目标商品对应的文本信息中的商品价格,以及获取每个目标商品对应预设的竞品集的商品价格均值。确定出每个目标商品对应的商品价格与商品价格均值之间的差值,对每个目标商品,当相应的商品价格小于商品价格均值时,确定相应的差值与该商品价格均值之间的比值为该目标商品的价格特征。
本实施例中,对每个目标商品,通过以目标商品的最能吸引用户购买的部分文本信息构成销售特征,以目标商品的真实的用户评价好评构成反馈特征,以目标商品与其对应竞品集的商品价格均值之间的差距所得的价格竞争力构成价格特征。使得确保销售特征能够精准地提供相应商品在销售推广方面的重要特征,确保反馈特征能够精准地提供相应商品在售后评价方面的真实反馈,确保价格特征能够精准地提供相应商品在市场竞争方面的量化的价格竞争力。
请参阅图4,进一步的实施例中,步骤S1100、获取用户输入的搜索文本之前,包括如下步骤:
步骤S1000、获取多个商品的销售特征、反馈特征、价格特征;
对每个商品,获取商品的所有用户好评原文及相应的评价时间分布,并且调用商品数据库的数据访问接口获取商品的文本信息以及文本信息中的商品价格,相应按照步骤S1310-1330确定出该商品的销售特征、反馈特征、价格特征,具体实施恕本步骤不作详述。所述商品的具体个数,可由本领域技术人员按需设定。
步骤S1010、以商品的销售特征、反馈特征、价格特征中每个特征、每两个特征、所有特征分别构造出相应的生成提示文本,对应作为第一训练样本、第二训练样本、第三训练样本、第四训练样本、第五训练样本、第六训练样本、第七训练样本,标注每个训练样本对应的导购语作为监督标签;
可以理解,实际情况中,商品不一定具备全销售特征、反馈特征、价格特征,而是通常具备其中任意一项或任意多项,为了适配所述实际情况,将所有可能的商品具备的特征进行穷举,即每个特征、每两个特征、所有特征分别构造出相应的生成提示文本,将每个生成提示文本作为相应的训练样本,并且针对每个训练样本确定出对应的导购语,从而相应以导购语对训练样本进行标注作为监督标签。
为便于理解,示范性举例,以商品的销售特征、反馈特征、价格特征所构造出相应的生成提示文本为:
“请根据商品以下的销售特征、反馈特征、价格特征,生成该商品的导购语:
销售特征:[青春流行、情侣、GENANX、T恤、卡通漫画印花、多彩]
反馈特征:[“衣服布料不错、稍微有一点厚,尺码是偏大号的,总体质感很好。外观漂亮”、...、“衣服颜色挺正,有点厚,中袖,图案很潮流。”]
价格特征:目标商品的商品价格与竞品集的商品价格均值之间的差值,该差值与该商品价格均值之间的比值为0.2”
将该生成提示文本作为第七训练样本,该第七训练样本的导购语为:“这款GENANX品牌的青春流行情侣T恤采用了卡通漫画图案,质感好,布料稍厚,尺码偏大适合追求宽松风格的人选择。外观设计时尚别致,图案富有潮流元素,展现个性风格。喜欢时尚、舒适和经济实惠的你,还在等什么,快来购买吧!”
所述每个训练样本的导购语,可以根据相应的每个生成提示文本采集线下商品销售场景和/或线上商品销售场景中,由商家和/或商品导购员工制定的导购语;亦可以先采用大语言模型根据相应的每个生成提示文本,采取多样化生成策略生成每个生成提示文本对应的多个导购语,进而人工对这些导购语进一步编辑和/或筛选,得出最终的导购语。所述多样化生成策略可以是采用Temperature Scaling(温度控制)、Top-k Sampling(顶部K采样)、Random Sampling(随机采样)、Beam Search(集束采样)等本领域技术人员可按需择一实现。
步骤S1020、以所有训练样本及其监督标签构成训练集,用于训练导购语生成模型,使其习得根据商品的销售特征、反馈特征、价格特征中任意一项或任意多项构造出的生成提示文本,生成导购语的能力。
获取所述训练集中的单个训练样本,将其输入至导购语生成模型,由模型中的编码端,通过堆叠多层多头注意力层和全连接层,对相应的生成提示文本进行编码,具体而言,对相应的生成提示文本,经过多头注意力层时对其进行多头注意力计算,从而对生成提示文本进行不同维度的自注意力加权,获得相应的加权的向量表示,再经过全连接层后,得到相应的编码向量表示,进一步,将所述编码向量表示输入至模型中的解码端,对所述生成提示文本中的每个分词对应的编码向量表示进行解码,具体而言,解码过程中根据已生成的单词和当前单词位置和单词对应的编码向量表示,计算每次生成单词的生成概率,采用贪心搜索策略根据每次生成单词的生成概率,生成预测的导购语作为预测结果。调用预设的交叉熵损失函数或均方差损失函数,此处可由本领域技术人员根据先验知识或实验经验灵活变通设置,基于根据所述训练样本的监督标签计算所述预测结果对应的损失值,当所述损失值达到预设阈值时,表明导购语生成模型已被训练至收敛状态,从而可以终止导购语生成模型的训练;当所述损失值未达到预设阈值时,采用LoRA(Low-Rank Adaptation ofLarge Language Models)方式对所述导购语生成模型进行微调,从而对权重矩阵进行隐式的低秩转换,固定模型的权重矩阵的原有参数,根据所述损失值确定出模型的权重矩阵的权重变化参数,根据权重变化参数对权重矩阵进行相应的调整,然后,继续调用其他训练样本对标题生成模型进行迭代训练,直至导购语生成模型被训练至收敛状态为止。所述预设阈值可由本领域技术人员灵活变通设定。
本实施例中,揭示了用于训练导购语生成模型的训练集的构造,以及训练导购语生成模型至收敛状态的过程。使得导购语生成模型能够适配实际情况中,商品所具备的特征构成的生成提示文本,精准地生成相应的导购语。
请参阅图5,进一步的实施例中,步骤S1310、获取每个所述目标商品的文本信息之前,包括如下步骤:
步骤S1301、获取多个商品的文本信息,对文本信息进行分词,获得分词序列;
根据每个商品的唯一标识调用商品数据库的数据访问接口,从商品数据库中相应获取每个商品的文本信息,进而对每个商品,采用分词算法对相应的文本信息进行分词,获得所有分词构成分词序列,所述分词算法可以是Jieba分词、n-gram分词、WordPiece分词、CRF分词等,本领域技术人员可灵活变通择一实现。
步骤S1302、采用关键词提取算法确定出所述分词序列中属于关键词的分词以标注其词类;
所述关键词提取算法可以是TF-IDF、TextRank、RAKE、LDA等,本领域技术人员可按需择一实现。一种实施例中,采用所述大语言模型确定出所述分词序列中每个分词对应的词特征向量,然后,采用向量距离算法计算出分词序列中每个分词与其他分词对应的词特征向量之间的向量距离,作为每个分词与其他分词之间的相关度。所述向量距离算法可以是余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等任意一种。
所述关键词提取算法是采用TextRank实现。将所述分词序列转换成图示,其中节点为分词序列中的分词,节点之间边表示为相连节点之间的相关性。对应每个节点都有一个权重,表示该节点的重要性。节点的权重由其与其他节点的相关度和该节点本身的重要性决定,对于单个节点i的权重可以表示为:
其中:d为阻尼系数,通常取值为0.85,本领域技术人员亦可按需设定;ln(i)为与节点i相连的所有节点;Out(j)为从节点j出发能够到达的所有节点;wji为节点i与节点j之间的相关度。
进一步,通过迭代不断更新所有节点的权重直至收敛,即所有节点的权重不再因迭代更新而变化,迭代结束;或者预设迭代次数,当满足迭代次数时,迭代结束。获取迭代结束所有节点的权重。可知所述权重表征相应节点的重要性,据此,对所有节点即分词序列中的所有分词根据相应的权重从高到低的顺序进行排序,筛选出排序靠前的多个分词视为关键词,相应标注所述各个分词的词类为关键词。所述关键词的筛选个数可由本领域技术人员按需而定。
步骤S1303、采用预设的热搜商品词集、热销商品词集、购买商品词集与所述分词序列中的分词进行匹配,确定出属于热搜商品词、热销商品词、购买商品词中任意一项或任意多项对应的分词以标注其词类;
所述热搜商品词集中包含多个热搜商品词,所述热搜商品词是与近期高频搜索的搜索文本相匹配的商品,所述商品的文本信息中的分词。所述热销商品词集中包含多个热销商品词,所述热销商品词是近期销售量超过第一预设阈值的商品,所述商品的文本信息中的关键词。所述购买商品词集包括多个购买商品词,所述购买商品词是近期复购次数超过第二预设阈值的商品,所述商品的文本信息中的关键词。所述第一预设阈值、第二预设阈值可分别由本领域技术人员按需设定。所述商品的文本信息中的关键词确定可采用关键词提取算法实现。所述各个词集可由本领域技术人员按此处揭示灵活变通预先分别制备。
将预设的热搜商品词集、热销商品词集、购买商品词集与所述分词序列中的分词进行字符匹配,确定出热搜商品词集中与所述分词字符匹配相同的热搜商品词,该分词属于热搜商品词,即标注该分词的词类为热搜商品词;确定出热销商品词集中与所述分词字符匹配相同的热销商品词,该分词属于热销商品词,即标注该分词的词类为热销商品词;确定出购买商品词集中与所述分词字符匹配相同的购买商品词,该分词属于购买商品词,即标注该分词的词类为购买商品词。
步骤S1304、根据所述分词序列中每个分词所属的词类,标注每个分词对应的购买权重;
可以理解,对应分词所属的词类不同,且所属的词类的个数不同,表示相应分词的能够吸引用户购买的可能性不同。据此,针对单个分词所属的词类对应的所有情况进行穷举,确定出每种情况对应的购买权重之别,一种实施例中,所述每种情况对应的购买权重从高到低的排序为:属于热搜商品词、热销商品词、购买商品词、关键词>属于热搜商品词、热销商品词、购买商品词>属于热销商品词、购买商品词、关键词>属于热搜商品词、购买商品词、关键词>属于热搜商品词、热销商品词、关键词>属于热销商品词、购买商品词>属于热搜商品词、购买商品词>属于热搜商品词、热销商品词>属于购买商品词、关键词>属于热销商品词、关键词>属于热搜商品词、关键词>属于购买商品词>属于热销商品词>属于热搜商品词>关键词,进一步,依序相应设定每种情况对应的购买权重,所述购买权重值域为[1,0),本领域技术人员可按此处揭示再按需设定每种情况对应的购买权重。此外,不难理解,对于不属于热销商品词、热搜商品词、购买商品词、关键词任何一项词类的分词,该分词的购买权重可设为0。当然,本领域技术人员亦可按需确定出所述排序,进而依序相应设定各种情况对应的购买权重。由此,所述分词序列中每个分词所属的词类或不属于任意一种词类均有其对应的购买权重,从而标注每个分词对应的购买权重。
步骤S1305、将所述分词序列作为训练样本,将相应标注的每个分词对应的购买权重作为所述训练样本的监督标签,以所有训练样本及其监督标签构成训练集,用于训练购买预估模型,使其习得确定出依据商品的文本信息所得的分词序列,其中每个分词对应的购买权重的能力。
获取所述训练集中的单个训练样本,将其输入至购买评估模型,由购买评估模型的文本特征提取层提取出所述训练样本中每个分词对应的深层语义信息,获得相应向量化表示所述深层语义信息的词特征向量,所述深层语义信息表征相应的分词能够吸引用户购买的可能性。由购买评估模型的分类器将每个分词对应的词特征向量分别映射至预设的二分类别,获得每个分词对应的映射至正类别的分类概率作为预测购买权重,以每个分词对应的预测购买权重构成预测结果,所述二分类别包括表征相应的分词能够吸引用户购买的正类别,以及表征相应的分词不能够吸引用户购买的负类别。调用预设的交叉熵损失函数或均方差损失函数,此处可由本领域技术人员根据先验知识或实验经验灵活变通设置,基于根据所述训练样本的监督标签计算所述预测结果的损失值,当所述损失值达到预设阈值时,表明购买评估模型已被训练至收敛状态,从而可以终止购买评估模型训练;损失值未达到预设阈值时,表明购买评估模型未收敛,于是根据损失值对模型实施梯度更新,通常通过反向传播修正模型各个环节的权重参数以使模型进一步逼近收敛,然后,继续调用其他训练样本对购买评估模型实施迭代训练,直至该模型被训练至收敛状态为止。所述预设阈值可由本领域技术人员灵活变通设定。
本实施例中,揭示了用于训练购买评估模型的训练集的构造,以及训练购买评估模型至收敛状态的过程。能够确保购买评估模型的准确性和可靠性。
请参阅图6,进一步的实施例中,步骤S1320、获取每个目标商品的所有用户好评原文及相应的评价时间分布之前,包括如下步骤:
步骤S1311、获取多个商品的所有用户好评原文及相应的评价时间分布,以每个商品为单位对应作为单个训练样本;
根据每个所述商品对应的唯一标识,获取每个商品对应的所有用户好评原文及相应的评价时间分布,所述评价时间分布是由相应的每个用户好评原文对应的发布时间构成。
步骤S1312、对每个训练样本,根据相应的评价时间分布和每个用户好评原文的细节描述程度和/或情感极端程度,标注每个用户好评原文对应的真实评分构成监督标签;
可以理解,一方面,通常同一天发布多个用户好评原文,或者多个用户好评原文之间的发布时间相隔不久,这些用户好评原文有可能是虚假的。另一方面,通常用户好评原文的细节描述程度越低,即描述上泛泛而谈的,这样的用户好评原文很有可能是虚假的。再一方面,通常用户好评原文的情感极端程度越高,即过于夸张或夸大其词的,这样的用户好评原文很有可能是虚假的。
由此,对每个训练样本,相应的每个用户好评原文,以单个用户好评原文为例,根据该用户好评原文在评价时间分布中的发布时间,确定出该发布时间前、后分别N个发布时间,计算出2N+1(包括训练样本的发布时间)个发布时间中每两个发布时间之间的时间差,得出相应的2N个时间差,进一步,确定出所述2N个时间差中低于预设阈值的时间差视为可疑时间差,计算出2N减去可疑时间差的个数所得的结果再除以2N,获得该用户好评原文的真实权重。所述N和预设阈值可由本领域技术人员按需设定。
进一步,人工根据该用户好评原文的细节描述程度越高,确定该用户好评原文的基本真实评分越高,或者根据该用户好评原文的情感极端程度越低,确定该用户好评原文的基本真实评分越高,再或者根据该用户好评原文的细节描述程度越高且情感极端程度越低,确定该用户好评原文的基本真实评分越高,本领域技术人员可按需择一种实现确定出所述用户好评原文的基本真实评分,将该用户好评原文的基本真实评分乘上真实权重,得出该用户好评原文的真实评分。据此,可确定出每个用户好评原文对应的真实评分。
步骤S1313、以所有训练样本及其监督标签构成训练集,用于训练评价评分模型,使其习得确定出用户好评原文的真实评分的能力。
获取训练集中的单个训练样本,采用分词算法对训练样本中的每个用户好评原文进行分词,获得相应的所有分词构成分词序列。采用评价评分模型以所有的用户好评原文对应的分词序列及相应的评价时间分布作为输入,对每个用户好评原文对应的分词序列,由评价评分模型的第一文本特征提取层提取出所述分词序列中每个分词对应的深层语义信息,获得相应向量化表示所述深层语义信息的词特征向量,进一步,对分词序列中的所有分词对应的词特征向量进行平均池化,即在分词序列中分词总数这个维度上所有词特征向量分别求取相应的均值,至此,获得分词序列的句特征向量作为所述分词序列的文本特征向量。此外,由评价评分模型的第二文本特征提取层提取出所述评价时间分布中对应每个用户好评原文的发布时间的深层语义信息,获得向量化表示每个所述深层语义信息对应的时间特征向量,所述深层语义信息表征相应的用户好评原文的发布时间与邻近的用户好评原文的分布时间之间的紧密程度,所述紧密程度包括稀疏或稠密。将每个用户好评原文对应的文本特征向量与时间特征向量进行拼接,构成融合特征向量,由评价评分模型将每个融合特征向量分别映射至预设的二分类别,获得每个融合特征向量对应的映射至正类别的分类概率作为预测结果,所述二分类别包括表征相应的用户好评原文是真实的正类别,以及表征相应的用户好评原文是虚假的负类别。调用预设的交叉熵损失函数或均方差损失函数,此处可由本领域技术人员根据先验知识或实验经验灵活变通设置,基于根据所述训练样本的监督标签计算所述预测结果的损失值,当所述损失值达到预设阈值时,表明评价评分模型已被训练至收敛状态,从而可以终止评价评分模型训练;损失值未达到预设阈值时,表明评价评分模型未收敛,于是根据损失值对模型实施梯度更新,通常通过反向传播修正模型各个环节的权重参数以使模型进一步逼近收敛,然后,继续调用其他训练样本对评价评分模型实施迭代训练,直至该模型被训练至收敛状态为止。所述预设阈值可由本领域技术人员灵活变通设定。
本实施例中,揭示了用于训练评价评分模型的训练集的构造,以及训练评价评分模型至收敛状态的过程。能够确保评价评分模型的准确性和可靠性。
请参阅图7,进一步的实施例中,步骤S1303、采用预设的热搜商品词集、热销商品词集、购买商品词集与所述分词序列中的分词进行匹配之前,包括如下步骤:
步骤S13020、获取热搜文本集,将其中的每个热搜文本分别与商品数据库中所有商品的文本信息进行匹配,确定出相匹配的热搜商品词构成热搜商品词集;
可以通过预先获取电商平台中近期的用户每次搜索输入的搜索文本,统计每个搜索文本的搜索次数,采用聚类算法对所有搜索文本进行聚类,获得相应的多个类簇,进而确定出距离每个类簇中间点最近的候选搜索文本,以及计算出每个类簇中每个搜索文本的搜索次数之和,获得每个类簇对应的搜索总数,筛选出搜索总数超过预设阈值的类簇,将这些类簇对应的候选搜索文本作为热搜文本,构成热搜文本集。所述聚类算法可以是K-means算法、GMM高斯混合模型聚类算法、DBSCAN算法、meanshift算法、spectral clustering算法等,本领域技术人员按需择一实现即可。所述近期可由本领域技术人员按需设定,例如近半年、近三个月、近一个月、近一周等中任意一种。
为了保证向量化语义表示的准确性,采用GPT-3模型实现所述大语言模型,并以所述热搜文本集中的每个热搜文本分别作为输入,以单个热搜文本为例,对所述热搜文本进行分词,获得热搜文本中的所有分词构成分词序列,提取出分词序列中每个分词对应的深层语义信息,获得相应向量化表示所述深层语义信息的词特征向量,所述深层语义信息包括相应分词本身的语义,以及该分词与分词序列中的其他所有分词之间的语义即上下文语义。进一步,对分词序列中的所有分词对应的词特征向量进行平均池化,即在分词序列中分词总数这个维度上所有词特征向量分别求取相应的均值,至此,获得分词序列的句特征向量作为所述热搜文本的文本特征向量。此外,以所述商品数据库中的各个商品的文本信息分别作为所述大语言模型的输入,以单个文本信息为例,对所述文本信息进行分词,获得文本信息中的所有分词构成分词序列,提取出分词序列中每个分词对应的深层语义信息,相应向量化表示所述深层语义信息的词特征向量,所述深层语义信息包括相应分词本身的语义,以及该分词与分词序列中的其他所有分词之间的语义即上下文语义。
对所述每个热搜文本,采用向量距离算法计算出确定出所述热搜文本的文本特征向量,分别与商品数据库中各个商品的文本信息中各个分词的词特征向量之间的向量距离,作为相似度,可以理解,所述相似度反映热搜文本与相应的分词之间的语义相关程度,据此,筛选出所述相似度超过预设阈值和/或相似度较高的多个分词,所述分词便是与热搜文本高度相关的热搜商品词。所述向量距离算法可以是余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等任意一种。所述预设阈值可由本领域技术人员按需设定。所述筛选出相似度较高的分词,具体而言,可通过根据所述相似度从高到低的顺序进行排序,筛选出排序靠前的N个分词,所述这N个分词相对于其他排序靠后的分词而言,便是相似度较高的分词,所述N可由本领域技术人员按需设定。
步骤S13021、获取热销商品集,采用关键词提取算法确定出相应的每个热销商品的文本信息中的热销商品词构成热销商品词集;
所述热销商品词集中包含多个热销商品词,所述热销商品词是近期销售量超过第一预设阈值的商品,所述商品的文本信息中的关键词。所述购买商品词集包括多个购买商品词,所述购买商品词是近期复购次数超过第二预设阈值的商品,所述商品的文本信息中的关键词。
可以理解,对于同一商品每卖出一件,便可将该商品的销售量加一,据此,便可得出电商平台中每个商品的销售量,获取近期销售量超过第一预设阈值的商品作为热销商品,以所有热销商品构成热销商品集。所述近期可由本领域技术人员按需设定,例如近半年、近三个月、近一个月、近一周等中任意一种。所述第一预设阈值可由本领域技术人员按需设定。
获取所述热销商品集中每个热销商品的文本信息,对每个热销商品,对相应的文本信息进行分词,获得其中的所有分词构成分词序列。所述关键词提取算法可以是TF-IDF、TextRank、RAKE、LDA等,本领域技术人员可按需择一实现。一种实施例中,以单个热销商品的文本信息为例,采用所述大语言模型确定出相应分词序列中每个分词对应的词特征向量,然后,采用向量距离算法计算出分词序列中每个分词与其他分词对应的词特征向量之间的向量距离,作为每个分词与其他分词之间的相关度。所述向量距离算法可以是余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等任意一种。
所述关键词提取算法是采用TextRank实现。将所述分词序列转换成图示,其中节点为分词序列中的分词,节点之间边表示为相连节点之间的相关性。对应每个节点都有一个权重,表示该节点的重要性。节点的权重由其与其他节点的相关度和该节点本身的重要性决定,对于单个节点i的权重可以表示为:
其中:d为阻尼系数,通常取值为0.85,本领域技术人员亦可按需设定;ln(i)为与节点i相连的所有节点;Out(j)为从节点j出发能够到达的所有节点;wji为节点i与节点j之间的相关度。
进一步,通过迭代不断更新所有节点的权重直至收敛,即所有节点的权重不再因迭代更新而变化,迭代结束;或者预设迭代次数,当满足迭代次数时,迭代结束。获取迭代结束所有节点的权重。可知所述权重表征相应节点的重要性,据此,对所有节点即分词序列中的所有分词根据相应的权重从高到低的顺序进行排序,筛选出排序靠前的多个分词视为关键词,将所述关键词作为热销商品词。所述关键词的筛选个数可由本领域技术人员按需而定。
步骤S13022、获取购买商品集,采用关键词提取算法确定出相应的每个购买商品的文本信息中的购买商品词构成购买商品词集。
可以理解,对于同一商品每被同一用户再次购买,便可将该商品的复购次数加一,据此,便可得出电商平台中每个商品的销售量,获取近期复购次数超过第二预设阈值的商品作为购买商品,以所有购买商品构成购买商品集。所述近期可由本领域技术人员按需设定,例如近半年、近三个月、近一个月、近一周等中任意一种。所述第二预设阈值可由本领域技术人员按需设定。
获取所述购买商品集中每个购买商品的文本信息,对每个购买商品,对相应的文本信息进行分词,获得其中的所有分词构成分词序列。所述关键词提取算法可以是TF-IDF、TextRank、RAKE、LDA等,本领域技术人员可按需择一实现。一种实施例中,以单个购买商品的文本信息为例,采用所述大语言模型确定出相应分词序列中每个分词对应的词特征向量,然后,采用向量距离算法计算出分词序列中每个分词与其他分词对应的词特征向量之间的向量距离,作为每个分词与其他分词之间的相关度。所述向量距离算法可以是余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等任意一种。
所述关键词提取算法是采用TextRank实现。将所述分词序列转换成图示,其中节点为分词序列中的分词,节点之间边表示为相连节点之间的相关性。对应每个节点都有一个权重,表示该节点的重要性。节点的权重由其与其他节点的相关度和该节点本身的重要性决定,对于单个节点i的权重可以表示为:
其中:d为阻尼系数,通常取值为0.85,本领域技术人员亦可按需设定;ln(i)为与节点i相连的所有节点;Out(j)为从节点j出发能够到达的所有节点;wji为节点i与节点j之间的相关度。
进一步,通过迭代不断更新所有节点的权重直至收敛,即所有节点的权重不再因迭代更新而变化,迭代结束;或者预设迭代次数,当满足迭代次数时,迭代结束。获取迭代结束所有节点的权重。可知所述权重表征相应节点的重要性,据此,对所有节点即分词序列中的所有分词根据相应的权重从高到低的顺序进行排序,筛选出排序靠前的多个分词视为关键词,将所述关键词作为购买商品词。所述关键词的筛选个数可由本领域技术人员按需而定。
本实施例中,通过揭示了热搜商品词集、热销商品词集、购买商品词集分别的构造过程,能够确保各个词集的可靠性和准确性。
请参阅图8,适应本申请的目的之一而提供的一种商品导购装置,是对本申请的商品导购方法的功能化体现,该装置另一方面,适应本申请的目的之一而提供的一种商品导购装置,包括搜索获取模块1100、商品匹配模块1200、生成构造模块1300以及导购生成模块1400,其中,搜索获取模块1100,用于获取用户输入的搜索文本;商品匹配模块1200,用于基于所述搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出匹配所述搜索文本的多个商品标题对应的商品作为目标商品;生成构造模块1300,用于获取每个所述目标商品的销售特征、反馈特征、价格特征中任意一项或任意多项,构造出生成提示文本,所述销售特征包括表示相应目标商品吸引用户购买相对应的关键词,所述反馈特征包括表示相应目标商品的真实用户好评原文,所述价格特征包括表示相应目标商品的价格竞争力的量化数值;导购生成模块1400,用于采用预设的导购语生成模型根据每个目标商品对应的生成提示文本生成每个目标商品的导购语。
进一步的实施例中,所述商品匹配模块1200,包括:向量化语义子模块,用于采用大语言模型提取出所述搜索文本及商品数据库中所有商品的商品标题对应的深层语义信息,获得相对应的文本特征向量;相似度确定子模块,用于确定出所述搜索文本的文本特征向量与商品数据库中各个商品的商品标题对应的文本特征向量之间的相似度;商品筛选子模块,用于根据所述相似度满足预设条件,筛选出相应的多个商品标题对应的商品作为目标商品。
进一步的实施例中,所述生成构造模块1300,包括:销售特征确定子模块,用于获取每个所述目标商品的文本信息,对文本信息进行分词,获得分词序列,采用预设的购买评估模型确定出分词序列中每个分词对应的购买权重,筛选出购买权重符合第一预设条件的分词构成销售特征,所述文本信息包括相应目标商品的商品描述信息;反馈特征确定子模块,用于获取每个目标商品的所有用户好评原文及相应的评价时间分布,采用预设的评价评分模型,确定出每个用户好评原文对应的真实评分,筛选出真实评分符合第二预设条件的用户好评原文构成反馈特征;价格特征确定子模块,用于获取每个目标商品的商品价格,以及每个目标商品对应的竞品集的商品价格均值,根据相应的商品价格与商品价格均值之间的差距确定出价格特征。
进一步的实施例中,所述搜索获取模块1100之前,包括:特征获取模块,用于获取多个商品的销售特征、反馈特征、价格特征;样本构造及标注模块,用于以商品的销售特征、反馈特征、价格特征中每个特征、每两个特征、所有特征分别构造出相应的生成提示文本,对应作为第一训练样本、第二训练样本、第三训练样本、第四训练样本、第五训练样本、第六训练样本、第七训练样本,标注每个训练样本对应的导购语作为监督标签;训练集构造模块,用于以所有训练样本及其监督标签构成训练集,用于训练导购语生成模型,使其习得根据商品的销售特征、反馈特征、价格特征中任意一项或任意多项构造出的生成提示文本,生成导购语的能力。
进一步的实施例中,所述销售特征确定子模块之前,包括:文本分词子模块,用于获取多个商品的文本信息,对文本信息进行分词,获得分词序列;第一词类标注子模块,用于采用关键词提取算法确定出所述分词序列中属于关键词的分词以标注其词类;第二词类标注子模块,用于采用预设的热搜商品词集、热销商品词集、购买商品词集与所述分词序列中的分词进行匹配,确定出属于热搜商品词、热销商品词、购买商品词中任意一项或任意多项对应的分词以标注其词类;权重标注子模块,用于根据所述分词序列中每个分词所属的词类,标注每个分词对应的购买权重;第一训练集构造子模块,用于将所述分词序列作为训练样本,将相应标注的每个分词对应的购买权重作为所述训练样本的监督标签,以所有训练样本及其监督标签构成训练集,用于训练购买预估模型,使其习得确定出依据商品的文本信息所得的分词序列,其中每个分词对应的购买权重的能力。
进一步的实施例中,所述反馈特征确定子模块之前,包括:样本确定子模块,用于获取多个商品的所有用户好评原文及相应的评价时间分布,以每个商品为单位对应作为单个训练样本;样本标注子模块,用于对每个训练样本,根据相应的评价时间分布和每个用户好评原文的细节描述程度和/或情感极端程度,标注每个用户好评原文对应的真实评分构成监督标签;第二训练集构造子模块,用于以所有训练样本及其监督标签构成训练集,用于训练评价评分模型,使其习得确定出用户好评原文的真实评分的能力。
进一步的实施例中,所述第二词类标注子模块之前,包括:第一词集构造子模块,用于获取热搜文本集,将其中的每个热搜文本分别与商品数据库中所有商品的文本信息进行匹配,确定出相匹配的热搜商品词构成热搜商品词集;第二词集构造子模块,用于获取热销商品集,采用关键词提取算法确定出相应的每个热销商品的文本信息中的热销商品词构成热销商品词集;第三词集构造子模块,用于获取购买商品集,采用关键词提取算法确定出相应的每个购买商品的文本信息中的购买商品词构成购买商品词集。
为解决上述技术问题,本申请实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种商品导购方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的商品导购方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的商品导购装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的商品导购方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请能够精准地确定出与用户搜索意图相匹配的目标商品,基于目标商品能够吸引用户购买的特性确定出相应的特征构造出生成提示文本,以此生成相应的导购语,有望取得符合预期的导购成效。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种商品导购方法,其特征在于,包括如下步骤:
获取用户输入的搜索文本;
基于所述搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出匹配所述搜索文本的多个商品标题对应的商品作为目标商品;
获取每个所述目标商品的销售特征、反馈特征、价格特征中任意一项或任意多项,构造出生成提示文本,所述销售特征包括表示相应目标商品吸引用户购买相对应的关键词,所述反馈特征包括表示相应目标商品的真实用户好评原文,所述价格特征包括表示相应目标商品的价格竞争力的量化数值;
采用预设的导购语生成模型根据每个目标商品对应的生成提示文本生成每个目标商品的导购语。
2.根据权利要求1所述的商品导购方法,其特征在于,基于所述搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出匹配所述搜索文本的多个商品标题对应的商品作为目标商品,包括如下步骤:
采用大语言模型提取出所述搜索文本及商品数据库中所有商品的商品标题对应的深层语义信息,获得相对应的文本特征向量;
确定出所述搜索文本的文本特征向量与商品数据库中各个商品的商品标题对应的文本特征向量之间的相似度;
根据所述相似度满足预设条件,筛选出相应的多个商品标题对应的商品作为目标商品。
3.根据权利要求1所述的商品导购方法,其特征在于,获取每个所述目标商品的销售特征、反馈特征、价格特征,包括如下步骤:
获取每个所述目标商品的文本信息,对文本信息进行分词,获得分词序列,采用预设的购买评估模型确定出分词序列中每个分词对应的购买权重,筛选出购买权重符合第一预设条件的分词构成销售特征,所述文本信息包括相应目标商品的商品描述信息;
获取每个目标商品的所有用户好评原文及相应的评价时间分布,采用预设的评价评分模型,确定出每个用户好评原文对应的真实评分,筛选出真实评分符合第二预设条件的用户好评原文构成反馈特征;
获取每个目标商品的商品价格,以及每个目标商品对应的竞品集的商品价格均值,根据相应的商品价格与商品价格均值之间的差距确定出价格特征。
4.根据权利要求1所述的商品导购方法,其特征在于,获取用户输入的搜索文本之前,包括如下步骤:
获取多个商品的销售特征、反馈特征、价格特征;
以商品的销售特征、反馈特征、价格特征中每个特征、每两个特征、所有特征分别构造出相应的生成提示文本,对应作为第一训练样本、第二训练样本、第三训练样本、第四训练样本、第五训练样本、第六训练样本、第七训练样本,标注每个训练样本对应的导购语作为监督标签;
以所有训练样本及其监督标签构成训练集,用于训练导购语生成模型,使其习得根据商品的销售特征、反馈特征、价格特征中任意一项或任意多项构造出的生成提示文本,生成导购语的能力。
5.根据权利要求1所述的商品导购方法,其特征在于,获取每个所述目标商品的文本信息之前,包括如下步骤:
获取多个商品的文本信息,对文本信息进行分词,获得分词序列;
采用关键词提取算法确定出所述分词序列中属于关键词的分词以标注其词类;
采用预设的热搜商品词集、热销商品词集、购买商品词集与所述分词序列中的分词进行匹配,确定出属于热搜商品词、热销商品词、购买商品词中任意一项或任意多项对应的分词以标注其词类;
根据所述分词序列中每个分词所属的词类,标注每个分词对应的购买权重;
将所述分词序列作为训练样本,将相应标注的每个分词对应的购买权重作为所述训练样本的监督标签,以所有训练样本及其监督标签构成训练集,用于训练购买预估模型,使其习得确定出依据商品的文本信息所得的分词序列,其中每个分词对应的购买权重的能力。
6.根据权利要求1所述的商品导购方法,其特征在于,获取每个目标商品的所有用户好评原文及相应的评价时间分布之前,包括如下步骤:
获取多个商品的所有用户好评原文及相应的评价时间分布,以每个商品为单位对应作为单个训练样本;
对每个训练样本,根据相应的评价时间分布和每个用户好评原文的细节描述程度和/或情感极端程度,标注每个用户好评原文对应的真实评分构成监督标签;
以所有训练样本及其监督标签构成训练集,用于训练评价评分模型,使其习得确定出用户好评原文的真实评分的能力。
7.根据权利要求1所述的商品导购方法,其特征在于,采用预设的热搜商品词集、热销商品词集、购买商品词集与所述分词序列中的分词进行匹配之前,包括如下步骤:
获取热搜文本集,将其中的每个热搜文本分别与商品数据库中所有商品的文本信息进行匹配,确定出相匹配的热搜商品词构成热搜商品词集;
获取热销商品集,采用关键词提取算法确定出相应的每个热销商品的文本信息中的热销商品词构成热销商品词集;
获取购买商品集,采用关键词提取算法确定出相应的每个购买商品的文本信息中的购买商品词构成购买商品词集。
8.一种商品导购装置,其特征在于,包括:
搜索获取模块,用于获取用户输入的搜索文本;
商品匹配模块,用于基于所述搜索文本的向量化语义表示,分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配,确定出匹配所述搜索文本的多个商品标题对应的商品作为目标商品;
生成构造模块,用于获取每个所述目标商品的销售特征、反馈特征、价格特征中任意一项或任意多项,构造出生成提示文本,所述销售特征包括表示相应目标商品吸引用户购买相对应的关键词,所述反馈特征包括表示相应目标商品的真实用户好评原文,所述价格特征包括表示相应目标商品的价格竞争力的量化数值;
导购生成模块,用于采用预设的导购语生成模型根据每个目标商品对应的生成提示文本生成每个目标商品的导购语。
9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310965257.XA CN116976920A (zh) | 2023-08-01 | 2023-08-01 | 商品导购方法及其装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310965257.XA CN116976920A (zh) | 2023-08-01 | 2023-08-01 | 商品导购方法及其装置、设备、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116976920A true CN116976920A (zh) | 2023-10-31 |
Family
ID=88472876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310965257.XA Pending CN116976920A (zh) | 2023-08-01 | 2023-08-01 | 商品导购方法及其装置、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116976920A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217236A (zh) * | 2023-11-07 | 2023-12-12 | 深圳市灵智数字科技有限公司 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
CN117350825A (zh) * | 2023-12-05 | 2024-01-05 | 浙江口碑网络技术有限公司 | 基于大语言模型的导购方法和系统 |
-
2023
- 2023-08-01 CN CN202310965257.XA patent/CN116976920A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217236A (zh) * | 2023-11-07 | 2023-12-12 | 深圳市灵智数字科技有限公司 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
CN117217236B (zh) * | 2023-11-07 | 2024-02-27 | 深圳市灵智数字科技有限公司 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
CN117350825A (zh) * | 2023-12-05 | 2024-01-05 | 浙江口碑网络技术有限公司 | 基于大语言模型的导购方法和系统 |
CN117350825B (zh) * | 2023-12-05 | 2024-03-15 | 浙江口碑网络技术有限公司 | 基于大语言模型的导购方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Boorugu et al. | A survey on NLP based text summarization for summarizing product reviews | |
Yang et al. | A hybrid retrieval-generation neural conversation model | |
US11475227B2 (en) | Intelligent routing services and systems | |
CN116976920A (zh) | 商品导购方法及其装置、设备、介质 | |
Gomathi et al. | Restaurant recommendation system for user preference and services based on rating and amenities | |
CN116521906B (zh) | 元描述生成方法及其装置、设备、介质 | |
CN114663197A (zh) | 商品推荐方法及其装置、设备、介质、产品 | |
CN114186013A (zh) | 实体识别模型热更新方法及其装置、设备、介质、产品 | |
CN116797280A (zh) | 广告文案生成方法及其装置、设备、介质 | |
CN114971730A (zh) | 文案素材提取方法及其装置、设备、介质、产品 | |
CN114663155A (zh) | 广告投放选品方法及其装置、设备、介质、产品 | |
CN115545832A (zh) | 商品搜索推荐方法及其装置、设备、介质 | |
CN115689672A (zh) | 聊天式商品导购方法及其装置、设备、介质 | |
CN116796027A (zh) | 商品图片标签生成方法及其装置、设备、介质、产品 | |
CN114862480A (zh) | 广告投放定向方法及其装置、设备、介质、产品 | |
CN114218948A (zh) | 关键词识别方法及其装置、设备、介质、产品 | |
CN113971599A (zh) | 广告投放选品方法及其装置、设备、介质、产品 | |
CN117149812A (zh) | 结构化查询语句生成方法及其装置、设备、介质 | |
CN116823404A (zh) | 商品组合推荐方法及其装置、设备、介质 | |
CN116521843A (zh) | 面向用户的智能客服方法及其装置、设备、介质 | |
CN116029793A (zh) | 商品推荐方法及其装置、设备、介质 | |
CN115907928A (zh) | 商品推荐方法及其装置、设备、介质 | |
CN114997921A (zh) | 广告文案推荐方法及其装置、设备、介质、产品 | |
CN115293818A (zh) | 广告投放选品方法及其装置、设备、介质 | |
CN115700579A (zh) | 广告文本生成方法及其装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |