CN116050394A - 一种商品识别方法、装置和存储介质 - Google Patents
一种商品识别方法、装置和存储介质 Download PDFInfo
- Publication number
- CN116050394A CN116050394A CN202211638888.2A CN202211638888A CN116050394A CN 116050394 A CN116050394 A CN 116050394A CN 202211638888 A CN202211638888 A CN 202211638888A CN 116050394 A CN116050394 A CN 116050394A
- Authority
- CN
- China
- Prior art keywords
- commodity
- vector
- title
- matrix
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种商品识别方法、装置和存储介质,所述方法包括:获取待识别的商品的商品标题;利用预先训练好的第一识别模型,对所述商品标题进行识别,得到第一标题向量;所述第一识别模型根据搜索词和对应的商品标题进行训练得到;利用预先训练好的第二识别模型,对所述商品标题进行识别,得到第二标题向量;根据所述第一标题向量和所述第二标题向量对所述商品进行识别。通过本申请,提高了识别模型的数据集的准确性,解决了现有的商品识别技术中存在的识别模型的数据集的准确性不高的问题。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种商品识别方法、装置和存储介质。
背景技术
在电商领域,商品的品类如产品词和类目,是商品的基本属性。商品的产品词(即中心词),是指商品标题中所涉及的具体商品,例如商品“2020春季新款简约H型直筒纯色百搭圆领连衣裙”的产品词是“连衣裙”。商品的类目体系是按照层级划分的,商品的叶子类目少则是二级,多则是五级,例如商品“2021夏季新款字母印花休闲常规粉色潮流T恤女”的叶子类目是“服装鞋包>女装/女士精品>T恤”。对商品的产品词和类目进行识别是一个底层的通用能力,在电商业务中有着广泛的应用,比如推荐系统、搜索系统、商品管理系统等。
现有的商品产品词和类目识别:需要大量的人工标注数据,对数据集的准确性要求比较高,数据集构建难度比较大。
针对现有的商品识别技术中存在的识别模型的数据集的准确性不高的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种商品识别方法、装置和存储介质,以解决现有的商品识别技术中存在的识别模型的数据集的准确性不高的问题。
第一个方面,在本实施例中提供了一种商品识别方法,所述方法包括:
获取待识别的商品的商品标题;
利用预先训练好的第一识别模型,对所述商品标题进行识别,得到第一标题向量;所述第一识别模型根据搜索词和对应的商品标题进行训练得到;
利用预先训练好的第二识别模型,对所述商品标题进行识别,得到第二标题向量;
根据所述第一标题向量和所述第二标题向量对所述商品进行识别。
在其中的一些实施例中,所述方法还包括:
根据所述第一标题向量,从产品向量中获取与所述第一标题向量相似度最高的第一产品向量;所述产品向量预先根据所述第一识别模型获取;
根据所述第二标题向量,从类目向量中获取与所述第二标题向量相似度最高的第一类目向量;所述类目向量预先根据所述第二识别模型获取。
在其中的一些实施例中,根据所述第一标题向量和所述第二标题向量对所述商品进行识别,包括:
根据所述第一产品向量和所述第一类目向量,获取所述商品的产品词和商品类目,以对所述商品进行识别。
在其中的一些实施例中,所述方法还包括:
从历史数据中获取搜索词和商品标题关系对数据;
根据所述关系对数据,生成样本矩阵;所述样本矩阵包括搜索词样本数据和第一商品标题样本数据;
根据所述样本矩阵对所述第一识别模型进行训练。
在其中的一些实施例中,所述根据所述样本矩阵对所述第一识别模型进行训练,包括:
根据所述搜索词样本数据和所述第一识别模型,生成搜索词向量矩阵;
根据所述第一商品标题样本数据和所述第一识别模型,生成商品标题向量矩阵;
根据所述搜索词向量矩阵和所述商品标题向量矩阵,生成所述第一识别模型的第一损失函数;
根据所述第一损失函数对所述第一识别模型进行训练。
在其中的一些实施例中,所述第一识别模型包括第一编码器,所述根据所述样本矩阵对所述第一识别模型进行训练,包括:
根据所述第一编码器对所述搜索词样本数据进行编码,生成搜索词向量矩阵;
根据所述第一编码器对所述第一商品标题样本数据进行编码,生成商品标题向量矩阵;
根据所述搜索词向量矩阵和所述商品标题向量矩阵,生成所述第一识别模型的第一损失函数;
根据所述第一损失函数对所述第一编码器进行训练。
在其中的一些实施例中,所述第二识别模型包括第二编码器和第三编码器,所述方法还包括:
从历史数据中获取商品类目样本数据和第二商品标题样本数据;
根据所述第二编码器用于对所述商品类目样本数据进行编码,生成类目向量矩阵;
根据所述第三编码器对所述第二商品标题样本数据进行编码,生成商品标题向量矩阵;
根据所述类目向量矩阵和所述商品标题向量矩阵,生成所述第二编码器的第二损失函数;
根据所述商品标题向量矩阵生成所述第三编码器的第三损失函数;
根据所述第二损失函数和所述第三损失函数,生成所述第二识别模型的第四损失函数;
根据所述第四损失函数,对所述第二识别模型进行训练。
在其中的一些实施例中,所述根据所述商品标题向量矩阵生成所述第三编码器的第三损失函数,包括:
利用多层感知器对所述商品标题向量进行商品类目分类,并根据分类结构计算交叉熵损失函数,作为所述第三损失函数。
第二个方面,在本实施例中提供了一种商品识别装置,所述装置包括:
获取模块,用于获取待识别的商品的商品标题;
第一识别模块,用于利用预先训练好的第一识别模型,对所述商品标题进行识别,得到第一标题向量;所述第一识别模型根据搜索词和商品标题进行训练得到;
第二识别模块,用于利用预先训练好的第二识别模型,对所述商品标题进行识别,得到第二标题向量;
第三识别模块,用于根据所述第一标题向量和所述第二标题向量对所述商品进行识别。
第三个方面,在本实施例中提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一个方面所述的商品识别方法的步骤。
与现有技术相比,在本实施例中提供的一种商品识别方法、装置和存储介质,通过根据两个识别模型分别对商品产品词和商品类别进行识别,第一识别模型根据搜索词和对应的商品标题进行训练得到,搜索和商品标题之间具有一定的语义相关性,从而提高了识别模型的数据集的准确性,解决了现有的商品识别技术中存在的识别模型的数据集的准确性不高的问题。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是执行本申请实施例的一种商品识别方法的终端的硬件结构框图;
图2是本申请实施例的一种商品识别方法的流程图;
图3是本具体实施例的一种基于对比学习和Transformer模型的商品品类识别方法的流程图;
图4是本具体实施例的训练样本矩阵的示意图;
图5是本具体实施例的模型训练的前向计算过程示意图;
图6是本具体实施例的Transformer预训练模型的网络结构示意图;
图7是本具体实施例的Transformer微调模型的网络结构示意图;
图8是本具体实施例的商品产品词识别在线服务部署流程图;
图9是本具体实施例的商品类目识别在线服务部署流程图;
图10是本申请实施例的一种商品识别装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是执行本申请实施例的一种商品识别方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的一种商品识别方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种商品识别方法,图2是本申请实施例的一种商品识别方法的流程图,如图2所示,该方法包括如下步骤:
步骤S210,获取待识别的商品的商品标题。
具体地,这里的商品标题可以是用户输入的商品标题,商品标题中包括用户待检索的商品,识别商品标题中的商品的产品词和类目,从而对商品进行识别。
步骤S220,利用预先训练好的第一识别模型,对商品标题进行识别,得到第一标题向量;第一识别模型根据搜索词和对应的商品标题进行训练得到。
具体地,将该待识别的商品的商品标题输入至预先训练好的第一识别模型,对商品标题进行识别,得到第一标题向量。该第一识别模型根据搜索词和该搜索词对应的商品标题进行训练得到。
步骤S230,利用预先训练好的第二识别模型,对商品标题进行识别,得到第二标题向量。
具体地,将该待识别的商品的商品标题输入至预先训练好的第二识别模型,对商品标题进行识别,得到第二标题向量。该第二识别模型根据商品标题和该商品标题对应的类目训练得到。
步骤S240,根据第一标题向量和第二标题向量对商品进行识别。
具体地,根据第一标题向量识别商品的产品词,根据第二标题向量识别商品的类目,从而实现商品的识别。
在本实施例中,通过根据两个识别模型分别对商品产品词和商品类别进行识别,第一识别模型根据搜索词和对应的商品标题进行训练得到,搜索和商品标题之间具有一定的语义相关性,从而提高了识别模型的数据集的准确性,解决了现有的商品识别技术中存在的识别模型的数据集的准确性不高的问题。
在其中的一些实施例中,该方法还包括:根据第一标题向量,从产品向量中获取与第一标题向量相似度最高的第一产品向量;产品向量预先根据第一识别模型获取;根据第二标题向量,从类目向量中获取与第二标题向量相似度最高的第一类目向量;类目向量预先根据第二识别模型获取。
在其中的一些实施例中,根据第一标题向量和第二标题向量对商品进行识别,包括:根据第一产品向量和第一类目向量,获取商品的产品词和商品类目,以对商品进行识别。
在其中的一些实施例中,该方法还包括:从历史数据中获取搜索词和商品标题关系对数据;根据关系对数据,生成样本矩阵;样本矩阵包括搜索词样本数据和第一商品标题样本数据;根据样本矩阵对第一识别模型进行训练。
在其中的一些实施例中,根据样本矩阵对第一识别模型进行训练,包括:
根据搜索词样本数据和第一识别模型,生成搜索词向量矩阵;根据第一商品标题样本数据和第一识别模型,生成商品标题向量矩阵;根据搜索词向量矩阵和商品标题向量矩阵,生成第一识别模型的第一损失函数;根据第一损失函数对第一识别模型进行训练。
在其中的一些实施例中,第一识别模型包括第一编码器,根据样本矩阵对第一识别模型进行训练,包括:根据第一编码器对搜索词样本数据进行编码,生成搜索词向量矩阵;根据第一编码器对第一商品标题样本数据进行编码,生成商品标题向量矩阵;根据搜索词向量矩阵和商品标题向量矩阵,生成第一识别模型的第一损失函数;根据第一损失函数对第一编码器进行训练。
在其中的一些实施例中,第二识别模型包括第二编码器和第三编码器,方法还包括:从历史数据中获取商品类目样本数据和第二商品标题样本数据;根据第二编码器用于对商品类目样本数据进行编码,生成类目向量矩阵;根据第三编码器对第二商品标题样本数据进行编码,生成商品标题向量矩阵;根据类目向量矩阵和商品标题向量矩阵,生成第二编码器的第二损失函数;根据商品标题向量矩阵生成第三编码器的第三损失函数;根据第二损失函数和第三损失函数,生成第二识别模型的第四损失函数;根据第四损失函数,对第二识别模型进行训练。
在其中的一些实施例中,根据商品标题向量矩阵生成第三编码器的第三损失函数,包括:利用多层感知器对商品标题向量进行商品类目分类,并根据分类结构计算交叉熵损失函数,作为第三损失函数。
下面通过具体实施例对本申请实施例进行描述和说明。
图3是本具体实施例的一种基于对比学习和Transformer模型的商品品类识别方法的流程图,如图3所示,该方法包括如下步骤:
步骤S510,制作搜索Query和商品标题数据集。
具体地,从历史用户搜索日志中收集搜索Query(查询)和商品标题关系对数据,对Transformer模型进行预训练。搜索日志数据量大且容易获取,搜索点击是一种弱监督的数据,搜索Query和商品标题之间具有一定的语义相关性。
可使用店铺名,商品类型,商品描述等信息,对商品标题特征数据进一步丰富。使用键为字符,值为ID的字典,对搜索Query和商品标题的文本数据进行映射,获取搜索Query的ID序列和商品标题的ID序列。根据设定的数据集最大字符长度,分别对搜索Query的ID序列和商品标题ID序列进行最大长度限制和长度补齐。最终构建出搜索Query和商品标题匹配对数据集,对Transformer模型进行预训练。
步骤S520,通过Batch内负采样来构建训练样本。
具体地,在Transformer模型训练的每个训练步骤中,会从商品标题和搜索Query数据集中,取出Batch(批处理)样本对Transformer模型进行预训练。假设Batch样本集为[(t1,q1),(t2,q2),...,(tn,qn)],其中,n为Batch样本的大小,(ti qi)为Batch样本中第i个商品标题和搜索Query匹配对。
如图4所示,根据Batch样本集中的商品标题和搜索Query,可构建n*n的训练样本矩阵。对于第i个商品标题ti,第i个搜索Query qi即为对应的正样本,对应位置为1,其他搜索Query为负样本,对应位置为0。所以,训练样本矩阵的对角线为正样本对,值为1,其余位置为0。
将训练样本矩阵中的每一行数据[ti,q1,q2,...,qn],作为Transformer模型的训练样本。此时可以将问题转化为多分类问题,即对于第i个商品标题ti,Transformer模型需要学习出匹配程度最高的搜索Query qi,正确类别标签为i。
步骤S530,对Transformer预训练模型和Transformer微调模型进行训练。
具体地,基于对比学习的方式对模型进行训练,图5为模型训练的前向计算过程。商品标题的Batch数据经Transformer编码器(Transformer编码器为Transformer模型中的一部分)得到向量矩阵ET=[T1,T2,...,Tn],矩阵的维度为n*dim,其中dim为Transformer编码器输出的向量维度,向量矩阵中的元素均为向量。搜索Query的Batch数据经Transformer编码器得到向量矩阵EQ=[Q1,Q2,...,Qn],矩阵的维度为n*dim。经过矩阵乘法ET*Transpose(EQ)后得到n*n的相似度矩阵,相似度矩阵中第i行第j列数据,表示Batch内搜索Query qi和商品标题ti的模型预测相似度Logits,记为P(qj|ti)。
使用Transformer模型学习文本的向量表示,图6为Transformer预训练模型的网络结构示意图。模型采用经典的双塔结构,由于商品标题和搜索Query的分布很接近,所以双塔的结构和参数完全共享,一个塔使用两次。
对于输入商品标题t,首先,使用嵌入层对输入商品标题ID序列进行Embedding(嵌入),嵌入层输出的数据维度为n*len*dim,其中len为输入商品标题ID序列的长度。其次,使用Transformer编码器对嵌入层输出数据进行编码,最后经平均池化进行输出,数据维度为n*dim。最后,经L2 Norm归一化操作,得到模型最终的输出T,数据的维度为n*dim。同理,对于输入搜索Query q,得到模型最终的输出Q,数据的维度为n*dim,Similarity matrix为大小为n*n的相似度矩阵。
使用InfoNCE Loss作为Transformer预训练模型的的损失函数,对于每个Batch样本集,损失函数的定义为:式中,n为Batch样本的大小,τ为温度系数。InfoNCE Loss相比于Cross Entropy Loss具有超参数温度系数τ,温度系数可以控制模型表示向量分布的作用。较小的温度系数,模型学习的表示向量分布较均匀,较大的温度系数,模型学习的表示向量分布类间距离较明显。
为了提高商品类目识别的准确率,使用历史积累的商家输入商品类目数据,构建商品标题和商品类目的数据集,构造Transformer微调模型。图7为Transformer微调模型的网络结构示意图。同样使用双塔模型结构,使用类目编码器和标题编码器分别对商品类目和商品标题进行编码(这里的类目编码器和步骤S530中的编码器,模型结构相同,模型参数不同,类目编码器的模型参数会在步骤S530中的编码器的基础上,使用商品标题和类目的数据集微调训练,进行更新),两个编码器的参数不共享,相互独立。其中,编码器的模型结构和InfoNCE Loss计算,与Transformer预训练模型的一致。标题编码器的输出,经过多层感知机MLP进行商品类目分类,并计算交叉熵损失函数CE Loss。使用InfoNCE Loss和CELoss计算Total Loss作为新的损失函数,对模型进行优化,Total Loss的计算公式为:TotalLoss=α*InfoNCELoss+(1-α)*CELoss,其中,权重α控制不同损失函数的权重。
本实施例中,模型的超参数设置如下:模型输入的最大序列长度为100,输入Embedding维度为512,Transformer模型的维度为512,Transformer模型的层数为6,Transformer模型注意力头的数量为8,Dropout比例为0.1,模型总参数量为17M。模型训练的超参数设置如下:搜索点击日志数据集的大小为184M,InfoNCE Loss的温度系数为0.1,学习率为1e-4,Batch size为500,微调时Total Loss的权重α为0.9。
步骤S540,商品产品词和类目在线服务部署。
具体地,对商品产品词和类目识别服务分别进行在线部署。图8为商品产品词识别在线服务部署流程图,其中步骤S310-S330为离线操作过程,步骤S340-S370为在线服务过程,具体步骤如下:
步骤S310,Transformer预训练模型部署。
具体地,将预训练后的Transformer预训练模型,在服务器集群上部署为在线服务并提供接口,输入商品标题和产品词,可获取对应的文本表示向量。
步骤S320,离线遍历产品词库。
步骤S330,离线将产品词文本编码为向量。
具体地,导入Milvus向量检索引擎。调用Transformer预训练模型在线服务接口,分别将产品词文本数据编码为向量,导入Milvus向量检索引擎。
步骤S340,在线输入商品标题。
步骤S350,在线将商品标题编码为向量。
具体地,调用Transformer预训练模型在线服务接口,将商品标题文本数据编码为标题向量。
步骤S360,获取和标题向量匹配度最高的产品词向量。
具体地,在线查询Milvus向量搜索引擎,使用商品标题向量,在线查询Milvus向量搜索引擎,获取和标题向量匹配度最高的产品词向量。
步骤S370,在线获取输出商品产品词。
具体地,将匹配度最高的产品词作为识别的商品产品词。Milvus会输出匹配程度最高产品词的索引,根据索引找到对应的产品词即可,产品词和索引一一对应。
图9为商品类目识别在线服务部署流程图,其中S410-S430为离线操作过程,S440-S470为在线服务过程,具体步骤如下:
步骤S410,Transformer微调模型部署。
具体地,将微调后得到的类目编码器和标题编码器,分别在服务器集群上部署为在线服务并提供接口,输入商品类目和标题,可获取文本表示向量。
步骤S420,离线遍历类目文本库。
步骤S430,离线将类目文本编码为向量。
具体地,导入Milvus向量检索引擎。调用类目编码器在线服务接口,将类目文本数据编码为向量,导入Milvus向量检索引擎;
步骤S440,在线输入商品标题。
步骤S450,在线将商品标题编码为向量。
具体地,调用标题编码器在线服务接口,将商品标题文本数据编码为标题向量。
步骤S460,获取和标题向量匹配度最高的类目向量。
具体地,在线查询Milvus向量搜索引擎,使用商品标题向量,在线查询Milvus向量搜索引擎,获取和标题向量匹配度最高的类目向量。
步骤S470,在线获取输出商品类目。
具体地,将匹配度最高的类目作为识别的商品类目。
基于历史用户搜索点击数据,构建搜索Query和商品标题匹配对数据集。搭建Transformer模型作为编码器,对文本输入进行编码,基于Batch内负采样,构建正负样本,对Transformer模型进行预训练得到Transformer预训练模型;使用Transformer预训练模型,对产品词文本进行编码,获取文本的向量表示,并将文本向量导入Milvus向量检索引擎,对于输入的商品标题,使用Transformer预训练模型进行编码,从Milvus中检索出匹配度最高的产品词,作为识别产品词;使用商品标题和类目数据集,对Transformer预训练模型进行微调得到Transformer微调模型,分别获取类目编码器和标题编码器,使用类目编码器对类目文本进行编码,获取文本的向量表示,并将文本向量导入Milvus向量检索引擎,对于输入的商品标题,使用标题编码器进行编码,从Milvus中检索出匹配度最高的类目,作为识别类目。
在本具体实施例中,Batch内负采样节省了训练样本构建的大量前期准备工作,提高了样本计算的使用效率,Batch越大模型的泛化性能越好;将商品产品词和类目导入向量检索引擎,基于向量检索推理,耗时短QPS高;在大规模数据集上对Transformer模型进行预训练得到Transformer预训练模型,Transformer预训练模型对产品词和类目识别的泛化能力强,对Transformer预训练模型进行微调得到Transformer微调模型,商品类目识别准确率高;当商品产品词和类目体系发生变化时,不需要重新训练模型。只需将变化后的商品产品词和类目,重新导入Milvus向量搜索引擎即可;当商品标题中存在多个产品词和不存在产品词时,依旧能够通过向量检索,识别出唯一的核心产品词。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中还提供了一种商品识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图10是本申请实施例的一种商品识别装置的结构框图,如图10所示,该装置包括:
获取模块10,用于获取待识别的商品的商品标题;
第一识别模块20,用于利用预先训练好的第一识别模型,对商品标题进行识别,得到第一标题向量;第一识别模型根据搜索词和商品标题进行训练得到;
第二识别模块30,用于利用预先训练好的第二识别模型,对商品标题进行识别,得到第二标题向量;
第三识别模块40,用于根据第一标题向量和第二标题向量对商品进行识别。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的商品的商品标题;
S2,利用预先训练好的第一识别模型,对商品标题进行识别,得到第一标题向量;第一识别模型根据搜索词和对应的商品标题进行训练得到;
S3,利用预先训练好的第二识别模型,对商品标题进行识别,得到第二标题向量;
S4,根据第一标题向量和第二标题向量对商品进行识别。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的一种商品识别方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种商品识别方法的步骤。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种商品识别方法,其特征在于,所述方法包括:
获取待识别的商品的商品标题;
利用预先训练好的第一识别模型,对所述商品标题进行识别,得到第一标题向量;所述第一识别模型根据搜索词和对应的商品标题进行训练得到;
利用预先训练好的第二识别模型,对所述商品标题进行识别,得到第二标题向量;
根据所述第一标题向量和所述第二标题向量对所述商品进行识别。
2.根据权利要求1所述的商品识别方法,其特征在于,所述方法还包括:
根据所述第一标题向量,从产品向量中获取与所述第一标题向量相似度最高的第一产品向量;所述产品向量预先根据所述第一识别模型获取;
根据所述第二标题向量,从类目向量中获取与所述第二标题向量相似度最高的第一类目向量;所述类目向量预先根据所述第二识别模型获取。
3.根据权利要求2所述的商品识别方法,其特征在于,根据所述第一标题向量和所述第二标题向量对所述商品进行识别,包括:
根据所述第一产品向量和所述第一类目向量,获取所述商品的产品词和商品类目,以对所述商品进行识别。
4.根据权利要求1所述的商品识别方法,其特征在于,所述方法还包括:
从历史数据中获取搜索词和商品标题关系对数据;
根据所述关系对数据,生成样本矩阵;所述样本矩阵包括搜索词样本数据和第一商品标题样本数据;
根据所述样本矩阵对所述第一识别模型进行训练。
5.根据权利要求4所述的商品识别方法,其特征在于,所述根据所述样本矩阵对所述第一识别模型进行训练,包括:
根据所述搜索词样本数据和所述第一识别模型,生成搜索词向量矩阵;
根据所述第一商品标题样本数据和所述第一识别模型,生成商品标题向量矩阵;
根据所述搜索词向量矩阵和所述商品标题向量矩阵,生成所述第一识别模型的第一损失函数;
根据所述第一损失函数对所述第一识别模型进行训练。
6.根据权利要求4所述的商品识别方法,其特征在于,所述第一识别模型包括第一编码器,所述根据所述样本矩阵对所述第一识别模型进行训练,包括:
根据所述第一编码器对所述搜索词样本数据进行编码,生成搜索词向量矩阵;
根据所述第一编码器对所述第一商品标题样本数据进行编码,生成商品标题向量矩阵;
根据所述搜索词向量矩阵和所述商品标题向量矩阵,生成所述第一识别模型的第一损失函数;
根据所述第一损失函数对所述第一编码器进行训练。
7.根据权利要求6所述的商品识别方法,其特征在于,所述第二识别模型包括第二编码器和第三编码器,所述方法还包括:
从历史数据中获取商品类目样本数据和第二商品标题样本数据;
根据所述第二编码器用于对所述商品类目样本数据进行编码,生成类目向量矩阵;
根据所述第三编码器对所述第二商品标题样本数据进行编码,生成商品标题向量矩阵;
根据所述类目向量矩阵和所述商品标题向量矩阵,生成所述第二编码器的第二损失函数;
根据所述商品标题向量矩阵生成所述第三编码器的第三损失函数;
根据所述第二损失函数和所述第三损失函数,生成所述第二识别模型的第四损失函数;
根据所述第四损失函数,对所述第二识别模型进行训练。
8.根据权利要求7所述的商品识别方法,其特征在于,所述根据所述商品标题向量矩阵生成所述第三编码器的第三损失函数,包括:
利用多层感知器对所述商品标题向量进行商品类目分类,并根据分类结构计算交叉熵损失函数,作为所述第三损失函数。
9.一种商品识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的商品的商品标题;
第一识别模块,用于利用预先训练好的第一识别模型,对所述商品标题进行识别,得到第一标题向量;所述第一识别模型根据搜索词和商品标题进行训练得到;
第二识别模块,用于利用预先训练好的第二识别模型,对所述商品标题进行识别,得到第二标题向量;
第三识别模块,用于根据所述第一标题向量和所述第二标题向量对所述商品进行识别。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求8中任一项所述的商品识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211638888.2A CN116050394A (zh) | 2022-12-20 | 2022-12-20 | 一种商品识别方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211638888.2A CN116050394A (zh) | 2022-12-20 | 2022-12-20 | 一种商品识别方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116050394A true CN116050394A (zh) | 2023-05-02 |
Family
ID=86121330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211638888.2A Pending CN116050394A (zh) | 2022-12-20 | 2022-12-20 | 一种商品识别方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050394A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662599A (zh) * | 2023-07-28 | 2023-08-29 | 知呱呱(天津)大数据技术有限公司 | 一种基于对比学习算法的多模态商标检索方法及系统 |
CN117390497A (zh) * | 2023-12-08 | 2024-01-12 | 浙江口碑网络技术有限公司 | 基于大语言模型的类目预测方法、装置和设备 |
-
2022
- 2022-12-20 CN CN202211638888.2A patent/CN116050394A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662599A (zh) * | 2023-07-28 | 2023-08-29 | 知呱呱(天津)大数据技术有限公司 | 一种基于对比学习算法的多模态商标检索方法及系统 |
CN117390497A (zh) * | 2023-12-08 | 2024-01-12 | 浙江口碑网络技术有限公司 | 基于大语言模型的类目预测方法、装置和设备 |
CN117390497B (zh) * | 2023-12-08 | 2024-03-22 | 浙江口碑网络技术有限公司 | 基于大语言模型的类目预测方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020100710A4 (en) | A method for sentiment analysis of film reviews based on deep learning and natural language processing | |
Shanthamallu et al. | A brief survey of machine learning methods and their sensor and IoT applications | |
WO2022068196A1 (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN111353076B (zh) | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 | |
Tang et al. | Supervised deep hashing for scalable face image retrieval | |
Guo et al. | Quantization based fast inner product search | |
CN116050394A (zh) | 一种商品识别方法、装置和存储介质 | |
CN106383877B (zh) | 一种社交媒体在线短文本聚类和话题检测方法 | |
CN110516247B (zh) | 基于神经网络的命名实体识别方法及计算机存储介质 | |
WO2022068195A1 (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN108984642B (zh) | 一种基于哈希编码的印花织物图像检索方法 | |
CN112307762B (zh) | 搜索结果的排序方法及装置、存储介质、电子装置 | |
CN113127632B (zh) | 基于异质图的文本摘要方法及装置、存储介质和终端 | |
CN111353033B (zh) | 一种训练文本相似度模型的方法和系统 | |
CN111125469B (zh) | 一种社交网络的用户聚类方法、装置以及计算机设备 | |
Jiang et al. | Variational deep embedding: A generative approach to clustering | |
CN113806580A (zh) | 基于层次语义结构的跨模态哈希检索方法 | |
CN115689672A (zh) | 聊天式商品导购方法及其装置、设备、介质 | |
CN115410199A (zh) | 图像内容检索方法、装置、设备及存储介质 | |
CN112966072A (zh) | 案件的预判方法、装置、电子装置和存储介质 | |
CN113641821B (zh) | 一种社交网络中意见领袖的价值取向识别方法及系统 | |
Xu et al. | Idhashgan: deep hashing with generative adversarial nets for incomplete data retrieval | |
Hong et al. | Image hashing via linear discriminant learning | |
Zhu et al. | Cross-modal retrieval: a systematic review of methods and future directions | |
CN112035689A (zh) | 一种基于视觉转语义网络的零样本图像哈希检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |