CN114510559B - 一种基于深度学习语义蕴含的商品检索方法及存储介质 - Google Patents

一种基于深度学习语义蕴含的商品检索方法及存储介质 Download PDF

Info

Publication number
CN114510559B
CN114510559B CN202210100876.8A CN202210100876A CN114510559B CN 114510559 B CN114510559 B CN 114510559B CN 202210100876 A CN202210100876 A CN 202210100876A CN 114510559 B CN114510559 B CN 114510559B
Authority
CN
China
Prior art keywords
commodity
information
model
data
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210100876.8A
Other languages
English (en)
Other versions
CN114510559A (zh
Inventor
黄新恩
王博立
黄茉
张永霞
翁增仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Boss Software Co ltd
Original Assignee
Fujian Boss Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Boss Software Co ltd filed Critical Fujian Boss Software Co ltd
Priority to CN202210100876.8A priority Critical patent/CN114510559B/zh
Publication of CN114510559A publication Critical patent/CN114510559A/zh
Application granted granted Critical
Publication of CN114510559B publication Critical patent/CN114510559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及一种基于深度学习语义蕴含的商品检索方法及存储介质,包括以下步骤:对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息;根据商品信息中的标题数据进行训练引入文本生成的商品检索模型;根据商品信息的四元组信息进行训练得到商品信息蕴含模型;对待检索商品通过商品检索模型进行商品召回,得到候选商品列表;将候选商品列表中的候选商品通过商品信息蕴含模型进行蕴含度计算,根据候选商品的蕴含度对候选商品进行排序。解决了双塔式模型缺少商品信息间交互的弊端,进一步提升了相似商品排序的精度,同时由于双塔式模型的召回,节省了大量的模型计算时间与设备成本。具有更好的鲁棒性、更快的速度以及更高的精度。

Description

一种基于深度学习语义蕴含的商品检索方法及存储介质
技术领域
本申请涉及文本处理技术领域,具体涉及一种基于深度学习语义蕴含的商品检索方法及存储介质。
背景技术
随着电商行业的发展,线下门店陆续将运营的重心转移到线上,各大电商平台的商品数量每时每刻都在飞速增长。面对海量的商品信息,用户难以从中甄选出心仪的商品进行比价,因此当用户浏览商品时,自动检索商品数据库中的相似商品供用户对比,毫无疑问能够节省用户的购物时间成本,大大提高用户的购物体验。
传统的商品检索主要基于关键词,而电商平台的商家成千上万,命名规则不尽相同,基于关键词的检索鲁棒性较差。近年兴起的深度学习方法克服了这一难点,而常见的交互式的深度神经网络需要将两个待匹配的句子拼接作为网络的输入,这意味着每次检索时需要将待检索商品与库内海量的商品依次组合进行计算,而双塔式的模型则可以离线计算库内所有商品的特征向量,并构建索引,每次检索时仅需要将待检索商品信息进行神经网络的计算,这样一来无疑会节约大量时间,但常见的双塔式模型采用二分类任务进行模型的训练,导致模型更偏向于全局特征的表示,但对于较短的文本子串不够敏感;此外,基于双塔式的商品召回缺少了不同商品间信息的交互,仅依靠双塔式模型的商品检索难以取得良好的效果。
发明内容
鉴于上述问题,本申请提供了一种基于深度学习语义蕴含的商品检索方法及存储介质,解决现有商品检索基于双塔式的商品召回缺少了不同商品间信息的交互,仅依靠双塔式模型的商品检索难以取得良好的效果的问题。
为实现上述目的,发明人提供了一种基于深度学习语义蕴含的商品检索方法,包括以下步骤:
对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息,所述四元组信息包括标题信息、属性信息、品牌信息及型号信息;
根据商品信息中的标题数据进行训练引入文本生成的商品检索模型;
根据商品信息的四元组信息进行训练得到商品信息蕴含模型;
对待检索商品通过商品检索模型进行商品召回,得到候选商品列表;
将候选商品列表中的候选商品通过商品信息蕴含模型进行蕴含度计算,根据候选商品的蕴含度对候选商品进行排序。
进一步优化,所述步骤“对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息”具体包括以下步骤:
抽取已经标注的商品信息中的四元组信息作为训练数据;
删除四元组信息中的无效字符,并将四元组信息的全角符号转换为半角符号,及大写字母转换为小写字符;
按照预设概率删除商品信息中的属性信息中的品牌属性和型号属性;
将不同来源的同一商品的四元组信息形成商品簇,所述商品簇的个数为商品的种类个数。
进一步优化,所述步骤“根据商品信息中的标题数据进行训练引入文本生成的商品检索模型”具体包括以下步骤:
商品检索模型使用第一语义表征模型作为第一主干网络,选取预设个数商品簇,从选取的每个商品簇内随机得到两个标题信息作为商品检索模型的输入;
将选取的每个商品簇内的两个标题信息以不同的顺序送入第一主干网络中,训练seq2seq任务;
提取第一主干网络的整个Batch的所有标识向量,并做L2归一化处理,接着将提取的所有标识向量进行两两做内积,训练分类任务;
将seq2seq任务部分和分类任务部分的交叉熵求和作为总的损失函数,在第一主干网络的每个步骤中更新参数。
进一步优化,所述步骤“根据商品信息的四元组信息进行训练得到商品信息蕴含模型”具体包括以下步骤:
商品信息蕴含模型以第二语义表征模型作为第二主干网络,训练蕴含任务;
在每个商品簇内重复随机选取成对的第一商品和第二商品,将第一商品的四元组信息和第二商品的四元组信息进行组合得到作为训练数据的第一正例数据;
对第一正例数据进行数据增强得到第二正例数据;
从不同的商品簇内随机选择第三商品和第四商品,将第三商品的四元组信息和第四四元组信息进行组合得到作为训练数据的第一负例数据;
对第一正例数据、第二正例数据及第一负例数据进行数据增强得到第二负例数据;
通过将第一正例数据和第二正例数据的标签为1,第一负例数据和第二负例数据的标签为0,通过交叉熵损失训练二分类任务。
进一步优化,所述步骤“对待检索商品通过商品检索模型进行商品召回,得到候选商品列表”具体包括以下步骤:
抽取未标注的数据库内所有商品的标题信息,并对抽取的商标的标题信息进行数据规范化处理;
通过训练的商品检索模型提取所有处理后的标题信息的语义特征,并进行L2范数归一化;
将提取的标题信息的语义特征存储至向量索引库;
提取待检索商品的标题信息,并通过训练的商品检索模型提取待检索商品的标题特征;
将提取的待检索商品的标题特征作为输入,从向量索引库中进行向量召回,得到候选商品列表。
还提供了另一个技术方案:一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器运行时执行以下步骤:
对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息,所述四元组信息包括标题信息、属性信息、品牌信息及型号信息;
根据商品信息中的标题数据进行训练引入文本生成的商品检索模型;
根据商品信息的四元组信息进行训练得到商品信息蕴含模型;
对待检索商品通过商品检索模型进行商品召回,得到候选商品列表;
将候选商品列表中的候选商品通过商品信息蕴含模型进行蕴含度计算,根据候选商品的蕴含度对候选商品进行排序。
进一步优化,所述步骤“对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息”具体包括以下步骤:
抽取已经标注的商品信息中的四元组信息作为训练数据;
删除四元组信息中的无效字符,并将四元组信息的全角符号转换为半角符号,及大写字母转换为小写字符;
按照预设概率删除商品信息中的属性信息中的品牌属性和型号属性;
将不同来源的同一商品的四元组信息形成商品簇,所述商品簇的个数为商品的种类个数。
进一步优化,所述步骤“根据商品信息中的标题数据进行训练引入文本生成的商品检索模型”具体包括以下步骤:
商品检索模型使用第一语义表征模型作为第一主干网络,选取预设个数商品簇,从选取的每个商品簇内随机得到两个标题信息作为商品检索模型的输入;
将选取的每个商品簇内的两个标题信息以不同的顺序送入第一主干网络中,训练seq2seq任务;
提取第一主干网络的整个Batch的所有标识向量,并做L2归一化处理,接着将提取的所有标识向量进行两两做内积,训练分类任务;
将seq2seq任务部分和分类任务部分的交叉熵求和作为总的损失函数,在第一主干网络的每个步骤中更新参数。
进一步优化,所述步骤“根据商品信息的四元组信息进行训练得到商品信息蕴含模型”具体包括以下步骤:
商品信息蕴含模型以第二语义表征模型作为第二主干网络,训练蕴含任务;
在每个商品簇内重复随机选取成对的第一商品和第二商品,将第一商品的四元组信息和第二商品的四元组信息进行组合得到作为训练数据的第一正例数据;
对第一正例数据进行数据增强得到第二正例数据;
从不同的商品簇内随机选择第三商品和第四商品,将第三商品的四元组信息和第四四元组信息进行组合得到作为训练数据的第一负例数据;
对第一正例数据、第二正例数据及第一负例数据进行数据增强得到第二负例数据;
通过将第一正例数据和第二正例数据的标签为1,第一负例数据和第二负例数据的标签为0,通过交叉熵损失训练二分类任务。
进一步优化,所述步骤“对待检索商品通过商品检索模型进行商品召回,得到候选商品列表”具体包括以下步骤:
抽取未标注的数据库内所有商品的标题信息,并对抽取的商标的标题信息进行数据规范化处理;
通过训练的商品检索模型提取所有处理后的标题信息的语义特征,并进行L2范数归一化;
将提取的标题信息的语义特征存储至向量索引库;
提取待检索商品的标题信息,并通过训练的商品检索模型提取待检索商品的标题特征;
将提取的待检索商品的标题特征作为输入,从向量索引库中进行向量召回,得到候选商品列表。
区别于现有技术,上述技术方案,首先通过已有的带标注的商品构建数据集,对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息,并通过得到的商品信息的四元组信息进行训练了一个引入文本生成的商品检索模型和商品信息蕴含模型,当需要对待检索商品检索时,通过商品检索模型实现对商品的召回,同时基于商品信息蕴含模型实现了候选商品相似度排序。在训练商品检索模型时,引入了文本生成分支作为辅助,令模型能够更好学习文本表征;同时采用双塔式模型提取深度特征对商品召回,能够利用单词的特征计算实现商品的召回,并使用商品信息蕴含模型对召回的候选商品的精排,解决了双塔式模型缺少商品信息间交互的弊端,进一步提升了相似商品排序的精度,同时由于双塔式模型的召回,节省了大量的模型计算时间与设备成本。具有更好的鲁棒性、更快的速度以及更高的精度。
上述发明内容相关记载仅是本申请技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本申请的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理解,以下结合本申请的具体实施方式及附图进行说明。
附图说明
附图仅用于示出本申请具体实施方式以及其他相关内容的原理、实现方式、应用、特点以及效果等,并不能认为是对本申请的限制。
在说明书附图中:
图1为具体实施方式所述基于深度学习语义蕴含的商品检索方法的一种流程示意图;
图2为具体实施方式所述步骤S110的一种流程示意图;
图3为具体实施方式所述步骤S120的一种流程示意图;
图4为具体实施方式所述步骤S130的一种流程示意图;
图5为具体实施方式所述步骤S140的一种流程示意图;
图6为具体实施方式所述基于深度学习语义蕴含的商品检索方法的另一种流程示意图
图7为具体实施方式所述存储介质的一种结构示意图
上述各附图中涉及的附图标记说明如下:
610、存储介质。
具体实施方式
为详细说明本申请可能的应用场景,技术原理,可实施的具体方案,能实现目的与效果等,以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例,亦不特别限定其与其它实施例之间的独立性或关联性。原则上,在本申请中,只要不存在技术矛盾或冲突,各实施例中所提到的各项技术特征均可以以任意方式进行组合,以形成相应的可实施的技术方案。
除非另有定义,本文所使用的技术术语的含义与本申请所属技术领域的技术人员通常理解的含义相同;本文中对相关术语的使用只是为了描述具体的实施例,而不是旨在限制本申请。
在本申请的描述中,用语“和/或”是一种用于描述对象之间逻辑关系的表述,表示可以存在三种关系,例如A和/或B,表示:存在A,存在B,以及同时存在A和B这三种情况。另外,本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。
在本申请中,诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。
在没有更多限制的情况下,在本申请中,语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述,意在涵盖非排他性的包含,这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素,从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素,而且还可以包括没有明确列出的其他要素,或者还包括为这种过程、方法或者产品所固有的要素。
与《审查指南》中的理解相同,在本申请中,“大于”、“小于”、“超过”等表述理解为不包括本数;“以上”、“以下”、“以内”等表述理解为包括本数。此外,在本申请实施例的描述中“多个”的含义是两个以上(包括两个),与之类似的与“多”相关的表述亦做此类理解,例如“多组”、“多次”等,除非另有明确具体的限定。
在本申请实施例的描述中,所使用的与空间相关的表述,诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等,所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系,仅是为了便于描述本申请的具体实施例或便于读者理解,而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方位构造或操作,因此不能理解为对本申请实施例的限制。
除非另有明确的规定或限定,在本申请实施例的描述中,所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如,所述“连接”可以是固定连接,也可以是可拆卸连接,或成一体设置;其可以是机械连接,也可以是电连接,也可以是通信连接;其可以是直接相连,也可以通过中间媒介间接相连;其可以是两个元件内部的连通或两个元件的相互作用关系。对于本申请所属技术领域的技术人员而言,可以根据具体情况理解上述用语在本申请实施例中的具体含义。
请参阅图1、图6,本实施例提供了一种基于深度学习语义蕴含的商品检索方法,包括以下步骤:
步骤S110:对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息,所述四元组信息包括标题信息、属性信息、品牌信息及型号信息;
步骤S120:根据商品信息中的标题数据进行训练引入文本生成的商品检索模型;
步骤S130:根据商品信息的四元组信息进行训练得到商品信息蕴含模型;
步骤S140:对待检索商品通过商品检索模型进行商品召回,得到候选商品列表;
步骤S150:将候选商品列表中的候选商品通过商品信息蕴含模型进行蕴含度计算,根据候选商品的蕴含度对候选商品进行排序。
首先通过已有的带标注的商品构建数据集,对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息,并通过得到的商品信息的四元组信息进行训练了一个引入文本生成的商品检索模型和商品信息蕴含模型,当需要对待检索商品检索时,通过商品检索模型实现对商品的召回,同时基于商品信息蕴含模型实现了候选商品相似度排序。在训练商品检索模型时,引入了文本生成分支作为辅助,令模型能够更好学习文本表征;同时采用双塔式模型提取深度特征对商品召回,能够利用单词的特征计算实现商品的召回,并使用商品信息蕴含模型对召回的候选商品的精排,解决了双塔式模型缺少商品信息间交互的弊端,进一步提升了相似商品排序的精度,同时由于双塔式模型的召回,节省了大量的模型计算时间与设备成本。具有更好的鲁棒性、更快的速度以及更高的精度。
请参阅图2,在某些实施例中,所述步骤“对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息”具体包括以下步骤:
步骤S210:抽取已经标注的商品信息中的四元组信息作为训练数据;
步骤S220:删除四元组信息中的无效字符,并将四元组信息的全角符号转换为半角符号,及大写字母转换为小写字符;
步骤S230:按照预设概率删除商品信息中的属性信息中的品牌属性和型号属性;
步骤S240:将不同来源的同一商品的四元组信息形成商品簇,所述商品簇的个数为商品的种类个数。
通过抽取已标注的商标信息中四元组信息:标题信息、属性信息、品牌信息及型号信息,将抽取的四元组信息作为驯良数据,然后删除四元组信息中的无效字符,并将四元组信息中的全角符号同一转换为半角符号,并将大写字母同一转换为小写字母,同时按照预设概率s删除商品的属性信息中的“品牌属性”及“型号属性”,避免过多的信息冗余,其中,预设概率S取值为90%;将不同来源的同一商品归为一个个商品簇cluster,即cluster1、cluster2…clusterN等,N为总的商品种类数量。其中,数据集的规范化操作,包括但不限于删除四元组中的无效字符,将四元组中的全角符号统一转换为半角符号,将大写字母统一转换为小写,此外按照概率s删除商品属性中的“品牌”、“型号”属性,避免过多的信息冗余,本文中s取值为90%。
请参阅图3,在某些实施例中,所述步骤“根据商品信息中的标题数据进行训练引入文本生成的商品检索模型”具体包括以下步骤:
步骤310:商品检索模型使用第一语义表征模型作为第一主干网络,选取预设个数商品簇,从选取的每个商品簇内随机得到两个标题信息作为商品检索模型的输入;
步骤320:将选取的每个商品簇内的两个标题信息以不同的顺序送入第一主干网络中,训练seq2seq任务;
步骤330:提取第一主干网络的整个Batch的所有标识向量,并做L2归一化处理,接着将提取的所有标识向量进行两两做内积,训练分类任务;
步骤340:将seq2seq任务部分和分类任务部分的交叉熵求和作为总的损失函数,在第一主干网络的每个步骤中更新参数。
训练商品检索模型时,通过使用第一语义表征模型(Bert)作为第一主干网络,在训练过程的每个阶段,从若干个商品簇cluster内随机选取两个商品的标题信息:sentence_A、sentence_B;其中选取的商品簇的个数为batchsize,即每个训练阶段选取batchsize*2的标题信息作为模型输入,其中batchsize取值为64,输入文本的最大文本长度maxlen为64,即对选取的标题信息超出maxlen的部分进行截断。从每个商品簇cluster随机选取两个标题信息sentence_A、sentence_B,以[CLS]sentence_A[SEP]sentence_B[SEP]和[CLS]sentence_B[SEP]sentence_A[SEP]格式输入第二主干网络中,即将相似标题信息以不同顺序送入第二主干网络中,训练seq2seq任务,此处[CLS]为Bert中的特殊标识符,用于提取上下文语义信息,[SEP]作为分隔标识符。提取第二主干网络的整个Batch所有的[CLS]向量(标识向量)并做L2归一化,接着两两做内积,训练分类任务,同一商品簇cluster的两个[CLS]向量作为正样本,其他cluster的[CLS]向量作为负样本。将seq2seq任务部分与分类任务部分的交叉熵求和作为总的损失函数,在每个阶段step后更新参数,其中,模型训练使用的优化器为AdamW,设置的学习率为2e-6,权重衰减为0.01。针对结合文本生成的商品检索模型,包括但不限于商品关键信息标识符如[brand],标题属性表连接标识符如[union],符号标识符如空格[space]。商品检索模型的训练中,包括但不限于在每个训练阶段随机在商品簇cluster间挑选正负商品样本代替固定的正负样本,以及结合文本生成分支增强模型对商品标题的特征表示。
请参阅图4,在某些实施例中,所述步骤“根据商品信息的四元组信息进行训练得到商品信息蕴含模型”具体包括以下步骤:
步骤S410:商品信息蕴含模型以第二语义表征模型作为第二主干网络,训练蕴含任务,其中,第二语义表征模型的输入格式为[CLS]title[SEP]spec[SEP]brand[SEP]model[SEP],[CLS]为特殊标识符,[SEP]为分隔标识符,title为商品的标题信息,spec为商品的属性信息,brand为商品的品牌信息,model为商品的型号信息;
步骤S420:在每个商品簇内重复随机选取成对的第一商品和第二商品,将第一商品的四元组信息和第二商品的四元组信息进行组合得到作为训练数据的第一正例数据;
步骤S430:对第一正例数据进行数据增强得到第二正例数据;
步骤S440:从不同的商品簇内随机选择第三商品和第四商品,将第三商品的四元组信息和第四四元组信息进行组合得到作为训练数据的第一负例数据;
步骤S450:对第一正例数据、第二正例数据及第一负例数据进行数据增强得到第二负例数据;
步骤S460:通过将第一正例数据和第二正例数据的标签为1,第一负例数据和第二负例数据的标签为0,通过交叉熵损失训练二分类任务。
在商品信息蕴含模型训练时,使用第二语音表征模型(Bert)作为第二主干网络,训练蕴含任务,模型输入格式为[CLS]title[SEP]spec[SEP]brand[SEP]model[SEP],其中title为商品的标题信息,spec为商品的属性信息,brand为商品的品牌信息,model为商品的型号信息。其中,文本的最大文本长度:maxlen_title=64,maxlen_spec=384,maxlen_brand=32,maxlen_model=32,对商品信息超出最大长度的部分进行截断。在每个商品簇cluster内重复随机选取成对的商品:第一商品item_A及第二商品item_B,将[CLS]title_A[SEP]spec_A[SEP]brand_B[SEP]model_B[SE与[CLS]title_B[SEP]spec_B[SEP]brand_A[SEP]model_A[SEP]作为训练数据的第一正例数据data_1。对生成的第一正例数据data_1,随机对形式如[CLS]title[SEP]spec[SEP]brand[SEP]model[SEP]的第一正例数据进行数据增强,生成难正例的第二正例数据data_2;数据增强的方法如下:
(1)、随机替换brand为品牌的不同称呼,如华为/HUAWEI、美的/Midea/美的(Midea)等;
(2)、随机在model中加入空格或“-“等特殊符号。
随机选取不同商品簇cluster内的商品,即在商品簇cluster_A中随机抽取第三商品item_C,在商品簇cluster_B中随机抽取第四商品item_D,将[CLS]title_C[SEP]spec_C[SEP]brand_D[SEP]model_D[SEP]与[CLS]title_D[SEP]spec_D[SEP]brand_C[SEP]model_C[SEP]作为训练数据的简单负例的第一负例数据data_3。
对于生成的第一正例数据data_1、第二正例数据data_2、第一负例数据data_3,采用随机对形如[CLS]title[SEP]spec[SEP]brand[SEP]model[SEP]的数据进行数据增强,生成难负例的第二负例数据data_4,采用的数据增强的方式如下:
(1)、将[brand]、[model]替换为任意品类商品的品牌名、型号;
(2)、将[brand]、[model]替换为同品类商品的品牌名、型号;
(3)、将[model]中的数字进行随机替换;
(4)、将[model]中的字母进行随机替换。
令第一正例数据data_1、第一正例数据data_2的label(标签)为1,第一负例数据data_3、第二负例数据data_4的label(标签)为0,使用交叉熵损失训练二分类任务。其中,优化器选用Adam,学习率为1e-6。
商品信息蕴含模型的训练,包括但不限于增加分隔标识符[SEP],包括但不限于设定maxlen_title=64,maxlen_spec=384,maxlen_brand=32,maxlen_model=32;以及包括但不限于上述中的两个数据增强方法。
请参阅图5,在某些实施例中,所述步骤“对待检索商品通过商品检索模型进行商品召回,得到候选商品列表”具体包括以下步骤:
步骤S510:抽取未标注的数据库内所有商品的标题信息,并对抽取的商标的标题信息进行数据规范化处理;
步骤S520:通过训练的商品检索模型提取所有处理后的标题信息的语义特征,并进行L2范数归一化;
步骤S530:将提取的标题信息的语义特征存储至向量索引库;
步骤S540:提取待检索商品的标题信息,并通过训练的商品检索模型提取待检索商品的标题特征;
步骤S550:将提取的待检索商品的标题特征作为输入,从向量索引库中进行向量召回,得到候选商品列表。
抽取未标注的数据库内所有商品的标题信息,并进行数据规范化,其中数据规范化为:删除标题信息中的无效字符,并将标题信息的全角符号转换为半角符号,及大写字母转换为小写字符。使用训练的深度学习的商品检索模型计算所有商品的标题信息的语义特征并进行L2范数归一化,具体为网络最后一层的[CLS]标识符对应的向量,向量维度为768。将提取的商品标题信息的语义特征存储至Milvus向量索引库,以内积作为距离计算方式,使用IVF_SQ8作为索引方式构建集合。对于待检索商品(query),提取待检索商品的标题信息(title_query),通过训练的深度学习的商品检索模型执行特征提取操作得到待检索商品的标题特征(vec_query)。将标题特征vec_query作为输入,使用Milvus向量索引库进行向量召回,得到topK个相似向量,并进一步根据向量ID得到候选商品列表(item_list)。
在某些实施例中,步骤“将候选商品列表中的候选商品通过商品信息蕴含模型进行蕴含度计算,根据候选商品的蕴含度对候选商品进行排序”具体包括以下步骤:
提取待检索商品的四元组信息及候选商品列表中商品的四元组信息;
将提取的待检索商品的四元组信息及候选商品列表中商品的四元组信息输入训练的商品信息蕴含模型计算得到候选商品列表中每个商品与待检索商品的蕴含置信度;
根据计算得到的候选商品列表中每个商品与待检索商品的蕴含置置信度对候选商品列表中商品进行排序。
对待检索商品query以及候选商品列表item_list中的每一个候选商品itemx(x∈(1,K))提取对应的四元组信息,根据检索商品query的四元组信息和候选商品itemx(x∈(1,K))的四元组信息构造形如[CLS]title_query[SEP]spec_query[SEP]brandx[SEP]modelx[SEP]的输入数据input_Ax(x∈(1,K))与[CLS]titlex[SEP]specx[SEP]brand_query[SEP]model_query[SEP]的输入数据input_Bx(x∈(1,K))。
将input_Ax(x∈(1,K))与input_Bx(x∈(1,K))分别输入训练的商品信息蕴含模型,获得输入数据input_Ax(x∈(1,K))的蕴含置信度entailment_score_Ax与输入数据input_Bx(x∈(1,K))的蕴含置信度entailment_score_Bx,将max(entailment_score_Ax,entailment_score_Bx)作为query与itemx的最终蕴含置信度entailment_scorex。
将K个候选商品与待检索商品query计算蕴含置信度,得到K个蕴含置信度entailment_scorex(x∈(1,K))。将K个蕴含置信度进行排序,得到相似商品的排名。对query商品与召回的候选商品的蕴含置信度判断上,使用了正反向的蕴含,并将两个蕴含得分取最大值作为商品间最终的蕴含置信度。
请参阅图7,另一实施例中,一种存储介质610,所述存储介质610存储有计算机程序,所述计算机程序被处理器运行时执行以下步骤:
对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息,所述四元组信息包括标题信息、属性信息、品牌信息及型号信息;
根据商品信息中的标题数据进行训练引入文本生成的商品检索模型;
根据商品信息的四元组信息进行训练得到商品信息蕴含模型;
对待检索商品通过商品检索模型进行商品召回,得到候选商品列表;
将候选商品列表中的候选商品通过商品信息蕴含模型进行蕴含度计算,根据候选商品的蕴含度对候选商品进行排序。
首先通过已有的带标注的商品构建数据集,对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息,并通过得到的商品信息的四元组信息进行训练了一个引入文本生成的商品检索模型和商品信息蕴含模型,当需要对待检索商品检索时,通过商品检索模型实现对商品的召回,同时基于商品信息蕴含模型实现了候选商品相似度排序。在训练商品检索模型时,引入了文本生成分支作为辅助,令模型能够更好学习文本表征;同时采用双塔式模型提取深度特征对商品召回,能够利用单词的特征计算实现商品的召回,并使用商品信息蕴含模型对召回的候选商品的精排,解决了双塔式模型缺少商品信息间交互的弊端,进一步提升了相似商品排序的精度,同时由于双塔式模型的召回,节省了大量的模型计算时间与设备成本。具有更好的鲁棒性、更快的速度以及更高的精度。
在某些实施例中,所述步骤“对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息”具体包括以下步骤:
抽取已经标注的商品信息中的四元组信息作为训练数据;
删除四元组信息中的无效字符,并将四元组信息的全角符号转换为半角符号,及大写字母转换为小写字符;
按照预设概率删除商品信息中的属性信息中的品牌属性和型号属性;
将不同来源的同一商品的四元组信息形成商品簇,所述商品簇的个数为商品的种类个数。
通过抽取已标注的商标信息中四元组信息:标题信息、属性信息、品牌信息及型号信息,将抽取的四元组信息作为驯良数据,然后删除四元组信息中的无效字符,并将四元组信息中的全角符号同一转换为半角符号,并将大写字母同一转换为小写字母,同时按照预设概率s删除商品的属性信息中的“品牌属性”及“型号属性”,避免过多的信息冗余,其中,预设概率S取值为90%;将不同来源的同一商品归为一个个商品簇cluster,即cluster1、cluster2…clusterN等,N为总的商品种类数量。其中,数据集的规范化操作,包括但不限于删除四元组中的无效字符,将四元组中的全角符号统一转换为半角符号,将大写字母统一转换为小写,此外按照概率s删除商品属性中的“品牌”、“型号”属性,避免过多的信息冗余,本文中s取值为90%。
在某些实施例中,所述步骤“根据商品信息中的标题数据进行训练引入文本生成的商品检索模型”具体包括以下步骤:
商品检索模型使用第一语义表征模型作为第一主干网络,选取预设个数商品簇,从选取的每个商品簇内随机得到两个标题信息作为商品检索模型的输入;
将选取的每个商品簇内的两个标题信息以不同的顺序送入第一主干网络中,训练seq2seq任务;
提取第一主干网络的整个Batch的所有标识向量,并做L2归一化处理,接着将提取的所有标识向量进行两两做内积,训练分类任务;
将seq2seq任务部分和分类任务部分的交叉熵求和作为总的损失函数,在第一主干网络的每个步骤中更新参数。
训练商品检索模型时,通过使用第一语义表征模型(Bert)作为第一主干网络,在训练过程的每个阶段,从若干个商品簇cluster内随机选取两个商品的标题信息:sentence_A、sentence_B;其中选取的商品簇的个数为batchsize,即每个训练阶段选取batchsize*2的标题信息作为模型输入,其中batchsize取值为64,输入文本的最大文本长度maxlen为64,即对选取的标题信息超出maxlen的部分进行截断。从每个商品簇cluster随机选取两个标题信息sentence_A、sentence_B,以[CLS]sentence_A[SEP]sentence_B[SEP]和[CLS]sentence_B[SEP]sentence_A[SEP]格式输入第二主干网络中,即将相似标题信息以不同顺序送入第二主干网络中,训练seq2seq任务,此处[CLS]为Bert中的特殊标识符,用于提取上下文语义信息,[SEP]作为分隔标识符。提取第二主干网络的整个Batch所有的[CLS]向量(标识向量)并做L2归一化,接着两两做内积,训练分类任务,同一商品簇cluster的两个[CLS]向量作为正样本,其他cluster的[CLS]向量作为负样本。将seq2seq任务部分与分类任务部分的交叉熵求和作为总的损失函数,在每个阶段step后更新参数,其中,模型训练使用的优化器为AdamW,设置的学习率为2e-6,权重衰减为0.01。针对结合文本生成的商品检索模型,包括但不限于商品关键信息标识符如[brand],标题属性表连接标识符如[union],符号标识符如空格[space]。商品检索模型的训练中,包括但不限于在每个训练阶段随机在商品簇cluster间挑选正负商品样本代替固定的正负样本,以及结合文本生成分支增强模型对商品标题的特征表示。
在某些实施例中,所述步骤“根据商品信息的四元组信息进行训练得到商品信息蕴含模型”具体包括以下步骤:
商品信息蕴含模型以第二语义表征模型作为第二主干网络,训练蕴含任务,其中,第二语义表征模型的输入格式为[CLS]title[SEP]spec[SEP]brand[SEP]model[SEP],[CLS]为特殊标识符,[SEP]为分隔标识符,title为商品的标题信息,spec为商品的属性信息,brand为商品的品牌信息,model为商品的型号信息;
在每个商品簇内重复随机选取成对的第一商品和第二商品,将第一商品的四元组信息和第二商品的四元组信息进行组合得到作为训练数据的第一正例数据;
对第一正例数据进行数据增强得到第二正例数据;
从不同的商品簇内随机选择第三商品和第四商品,将第三商品的四元组信息和第四四元组信息进行组合得到作为训练数据的第一负例数据;
对第一正例数据、第二正例数据及第一负例数据进行数据增强得到第二负例数据;
通过将第一正例数据和第二正例数据的标签为1,第一负例数据和第二负例数据的标签为0,通过交叉熵损失训练二分类任务。
在商品信息蕴含模型训练时,使用第二语音表征模型(Bert)作为第二主干网络,训练蕴含任务,模型输入格式为[CLS]title[SEP]spec[SEP]brand[SEP]model[SEP],其中title为商品的标题信息,spec为商品的属性信息,brand为商品的品牌信息,model为商品的型号信息。其中,文本的最大文本长度:maxlen_title=64,maxlen_spec=384,maxlen_brand=32,maxlen_model=32,对商品信息超出最大长度的部分进行截断。在每个商品簇cluster内重复随机选取成对的商品:第一商品item_A及第二商品item_B,将[CLS]title_A[SEP]spec_A[SEP]brand_B[SEP]model_B[SE与[CLS]title_B[SEP]spec_B[SEP]brand_A[SEP]model_A[SEP]作为训练数据的第一正例数据data_1。对生成的第一正例数据data_1,随机对形式如[CLS]title[SEP]spec[SEP]brand[SEP]model[SEP]的第一正例数据进行数据增强,生成难正例的第二正例数据data_2;数据增强的方法如下:
(1)、随机替换brand为品牌的不同称呼,如华为/HUAWEI、美的/Midea/美的(Midea)等;
(2)、随机在model中加入空格或“-“等特殊符号。
随机选取不同商品簇cluster内的商品,即在商品簇cluster_A中随机抽取第三商品item_C,在商品簇cluster_B中随机抽取第四商品item_D,将[CLS]title_C[SEP]spec_C[SEP]brand_D[SEP]model_D[SEP]与[CLS]title_D[SEP]spec_D[SEP]brand_C[SEP]model_C[SEP]作为训练数据的简单负例的第一负例数据data_3。
对于生成的第一正例数据data_1、第二正例数据data_2、第一负例数据data_3,采用随机对形如[CLS]title[SEP]spec[SEP]brand[SEP]model[SEP]的数据进行数据增强,生成难负例的第二负例数据data_4,采用的数据增强的方式如下:
(1)、将[brand]、[model]替换为任意品类商品的品牌名、型号;
(2)、将[brand]、[model]替换为同品类商品的品牌名、型号;
(3)、将[model]中的数字进行随机替换;
(4)、将[model]中的字母进行随机替换。
令第一正例数据data_1、第一正例数据data_2的label(标签)为1,第一负例数据data_3、第二负例数据data_4的label(标签)为0,使用交叉熵损失训练二分类任务。其中,优化器选用Adam,学习率为1e-6。
商品信息蕴含模型的训练,包括但不限于增加分隔标识符[SEP],包括但不限于设定maxlen_title=64,maxlen_spec=384,maxlen_brand=32,maxlen_model=32;以及包括但不限于上述中的两个数据增强方法。
在某些实施例中,所述步骤“对待检索商品通过商品检索模型进行商品召回,得到候选商品列表”具体包括以下步骤:
抽取未标注的数据库内所有商品的标题信息,并对抽取的商标的标题信息进行数据规范化处理;
通过训练的商品检索模型提取所有处理后的标题信息的语义特征,并进行L2范数归一化;
将提取的标题信息的语义特征存储至向量索引库;
提取待检索商品的标题信息,并通过训练的商品检索模型提取待检索商品的标题特征;
将提取的待检索商品的标题特征作为输入,从向量索引库中进行向量召回,得到候选商品列表。
抽取未标注的数据库内所有商品的标题信息,并进行数据规范化,其中数据规范化为:删除标题信息中的无效字符,并将标题信息的全角符号转换为半角符号,及大写字母转换为小写字符。使用训练的深度学习的商品检索模型计算所有商品的标题信息的语义特征并进行L2范数归一化,具体为网络最后一层的[CLS]标识符对应的向量,向量维度为768。将提取的商品标题信息的语义特征存储至Milvus向量索引库,以内积作为距离计算方式,使用IVF_SQ8作为索引方式构建集合。对于待检索商品(query),提取待检索商品的标题信息(title_query),通过训练的深度学习的商品检索模型执行特征提取操作得到待检索商品的标题特征(vec_query)。将标题特征vec_query作为输入,使用Milvus向量索引库进行向量召回,得到topK个相似向量,并进一步根据向量ID得到候选商品列表(item_list)。
在某些实施例中,步骤“将候选商品列表中的候选商品通过商品信息蕴含模型进行蕴含度计算,根据候选商品的蕴含度对候选商品进行排序”具体包括以下步骤:
提取待检索商品的四元组信息及候选商品列表中商品的四元组信息;
将提取的待检索商品的四元组信息及候选商品列表中商品的四元组信息输入训练的商品信息蕴含模型计算得到候选商品列表中每个商品与待检索商品的蕴含置信度;
根据计算得到的候选商品列表中每个商品与待检索商品的蕴含置置信度对候选商品列表中商品进行排序。
对待检索商品query以及候选商品列表item_list中的每一个候选商品itemx(x∈(1,K))提取对应的四元组信息,根据检索商品query的四元组信息和候选商品itemx(x∈(1,K))的四元组信息构造形如[CLS]title_query[SEP]spec_query[SEP]brandx[SEP]modelx[SEP]的输入数据input_Ax(x∈(1,K))与[CLS]titlex[SEP]specx[SEP]brand_query[SEP]model_query[SEP]的输入数据input_Bx(x∈(1,K))。
将input_Ax(x∈(1,K))与input_Bx(x∈(1,K))分别输入训练的商品信息蕴含模型,获得输入数据input_Ax(x∈(1,K))的蕴含置信度entailment_score_Ax与输入数据input_Bx(x∈(1,K))的蕴含置信度entailment_score_Bx,将max(entailment_score_Ax,entailment_score_Bx)作为query与itemx的最终蕴含置信度entailment_scorex。
将K个候选商品与待检索商品query计算蕴含置信度,得到K个蕴含置信度entailment_scorex(x∈(1,K))。将K个蕴含置信度进行排序,得到相似商品的排名。对query商品与召回的候选商品的蕴含置信度判断上,使用了正反向的蕴含,并将两个蕴含得分取最大值作为商品间最终的蕴含置信度。
将K个候选商品与待检索商品query计算蕴含置信度,得到K个蕴含置信度entailment_scorex(x∈(1,K))。将K个蕴含置信度进行排序,得到相似商品的排名。最后需要说明的是,尽管在本申请的说明书文字及附图中已经对上述各实施例进行了描述,但并不能因此限制本申请的专利保护范围。凡是基于本申请的实质理念,利用本申请说明书文字及附图记载的内容所作的等效结构或等效流程替换或修改产生的技术方案,以及直接或间接地将以上实施例的技术方案实施于其他相关的技术领域等,均包括在本申请的专利保护范围之内。

Claims (4)

1.一种基于深度学习语义蕴含的商品检索方法,其特征在于,包括以下步骤:
对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息,所述四元组信息包括标题信息、属性信息、品牌信息及型号信息;
根据商品信息中的标题数据进行训练引入文本生成的商品检索模型;
根据商品信息的四元组信息进行训练得到商品信息蕴含模型;
对待检索商品通过商品检索模型进行商品召回,得到候选商品列表;
将候选商品列表中的候选商品通过商品信息蕴含模型进行蕴含度计算,根据候选商品的蕴含度对候选商品进行排序;
所述步骤“对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息”具体包括以下步骤:
抽取已经标注的商品信息中的四元组信息作为训练数据;
删除四元组信息中的无效字符,并将四元组信息的全角符号转换为半角符号,及大写字母转换为小写字符;
按照预设概率删除商品信息中的属性信息中的品牌属性和型号属性;
将不同来源的同一商品的四元组信息形成商品簇,所述商品簇的个数为商品的种类个数;
所述步骤“根据商品信息中的标题数据进行训练引入文本生成的商品检索模型”具体包括以下步骤:
商品检索模型使用第一语义表征模型作为第一主干网络,选取预设个数商品簇,从选取的每个商品簇内随机得到两个标题信息作为商品检索模型的输入;
将选取的每个商品簇内的两个标题信息以不同的顺序送入第一主干网络中,训练seq2seq任务;
提取第一主干网络的整个Batch的所有标识向量,并做L2归一化处理,接着将提取的所有标识向量进行两两做内积,训练分类任务;
将seq2seq任务部分和分类任务部分的交叉熵求和作为总的损失函数,在第一主干网络的每个步骤中更新参数;
所述步骤“根据商品信息的四元组信息进行训练得到商品信息蕴含模型”具体包括以下步骤:
商品信息蕴含模型以第二语义表征模型作为第二主干网络,训练蕴含任务;
在每个商品簇内重复随机选取成对的第一商品和第二商品,将第一商品的四元组信息和第二商品的四元组信息进行组合得到作为训练数据的第一正例数据;
对第一正例数据进行数据增强得到第二正例数据;
从不同的商品簇内随机选择第三商品和第四商品,将第三商品的四元组信息和第四商品的四元组信息进行组合得到作为训练数据的第一负例数据;
对第一正例数据、第二正例数据及第一负例数据进行数据增强得到第二负例数据;
通过将第一正例数据和第二正例数据的标签为1,第一负例数据和第二负例数据的标签为0,通过交叉熵损失训练二分类任务。
2.根据权利要求1所述的基于深度学习语义蕴含的商品检索方法,其特征在于,所述步骤“对待检索商品通过商品检索模型进行商品召回,得到候选商品列表”具体包括以下步骤:
抽取未标注的数据库内所有商品的标题信息,并对抽取的商标的标题信息进行数据规范化处理;
通过训练的商品检索模型提取所有处理后的标题信息的语义特征,并进行L2范数归一化;
将提取的标题信息的语义特征存储至向量索引库;
提取待检索商品的标题信息,并通过训练的商品检索模型提取待检索商品的标题特征;
将提取的待检索商品的标题特征作为输入,从向量索引库中进行向量召回,得到候选商品列表。
3.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行以下步骤:
对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息,所述四元组信息包括标题信息、属性信息、品牌信息及型号信息;
根据商品信息中的标题数据进行训练引入文本生成的商品检索模型;
根据商品信息的四元组信息进行训练得到商品信息蕴含模型;
对待检索商品通过商品检索模型进行商品召回,得到候选商品列表;
将候选商品列表中的候选商品通过商品信息蕴含模型进行蕴含度计算,根据候选商品的蕴含度对候选商品进行排序;
所述步骤“对已经标注的商品信息进行数据规范化,得到商品信息的四元组信息”具体包括以下步骤:
抽取已经标注的商品信息中的四元组信息作为训练数据;
删除四元组信息中的无效字符,并将四元组信息的全角符号转换为半角符号,及大写字母转换为小写字符;
按照预设概率删除商品信息中的属性信息中的品牌属性和型号属性;
将不同来源的同一商品的四元组信息形成商品簇,所述商品簇的个数为商品的种类个数;
所述步骤“根据商品信息中的标题数据进行训练引入文本生成的商品检索模型”具体包括以下步骤:
商品检索模型使用第一语义表征模型作为第一主干网络,选取预设个数商品簇,从选取的每个商品簇内随机得到两个标题信息作为商品检索模型的输入;
将选取的每个商品簇内的两个标题信息以不同的顺序送入第一主干网络中,训练seq2seq任务;
提取第一主干网络的整个Batch的所有标识向量,并做L2归一化处理,接着将提取的所有标识向量进行两两做内积,训练分类任务;
将seq2seq任务部分和分类任务部分的交叉熵求和作为总的损失函数,在第一主干网络的每个步骤中更新参数;
所述步骤“根据商品信息的四元组信息进行训练得到商品信息蕴含模型”具体包括以下步骤:
商品信息蕴含模型以第二语义表征模型作为第二主干网络,训练蕴含任务;
在每个商品簇内重复随机选取成对的第一商品和第二商品,将第一商品的四元组信息和第二商品的四元组信息进行组合得到作为训练数据的第一正例数据;
对第一正例数据进行数据增强得到第二正例数据;
从不同的商品簇内随机选择第三商品和第四商品,将第三商品的四元组信息和第四商品的四元组信息进行组合得到作为训练数据的第一负例数据;
对第一正例数据、第二正例数据及第一负例数据进行数据增强得到第二负例数据;
通过将第一正例数据和第二正例数据的标签为1,第一负例数据和第二负例数据的标签为0,通过交叉熵损失训练二分类任务。
4.根据权利要求3所述的存储介质,其特征在于,所述步骤“对待检索商品通过商品检索模型进行商品召回,得到候选商品列表”具体包括以下步骤:
抽取未标注的数据库内所有商品的标题信息,并对抽取的商标的标题信息进行数据规范化处理;
通过训练的商品检索模型提取所有处理后的标题信息的语义特征,并进行L2范数归一化;
将提取的标题信息的语义特征存储至向量索引库;
提取待检索商品的标题信息,并通过训练的商品检索模型提取待检索商品的标题特征;
将提取的待检索商品的标题特征作为输入,从向量索引库中进行向量召回,得到候选商品列表。
CN202210100876.8A 2022-01-27 2022-01-27 一种基于深度学习语义蕴含的商品检索方法及存储介质 Active CN114510559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210100876.8A CN114510559B (zh) 2022-01-27 2022-01-27 一种基于深度学习语义蕴含的商品检索方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210100876.8A CN114510559B (zh) 2022-01-27 2022-01-27 一种基于深度学习语义蕴含的商品检索方法及存储介质

Publications (2)

Publication Number Publication Date
CN114510559A CN114510559A (zh) 2022-05-17
CN114510559B true CN114510559B (zh) 2023-08-29

Family

ID=81548874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210100876.8A Active CN114510559B (zh) 2022-01-27 2022-01-27 一种基于深度学习语义蕴含的商品检索方法及存储介质

Country Status (1)

Country Link
CN (1) CN114510559B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116259422B (zh) * 2023-03-13 2024-02-06 暨南大学 基于虚拟数据增强的眼科疾病诊疗意见生成方法、系统、介质和设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279274A (zh) * 2015-10-30 2016-01-27 北京京东尚科信息技术有限公司 基于自然语义问答系统的答案合成与匹配的方法和系统
CN108920565A (zh) * 2018-06-21 2018-11-30 苏州大学 一种图片标题生成方法、装置和计算机可读存储介质
CN110084658A (zh) * 2018-01-26 2019-08-02 北京京东尚科信息技术有限公司 物品匹配的方法和装置
CN110674881A (zh) * 2019-09-27 2020-01-10 长城计算机软件与系统有限公司 商标图像检索模型训练方法、系统、存储介质及计算机设备
CN110969516A (zh) * 2019-12-25 2020-04-07 清华大学 一种商品推荐方法及装置
CN111400345A (zh) * 2020-02-21 2020-07-10 北京九州云动科技有限公司 支持多平台的商品搜索方法和装置
CN111986007A (zh) * 2020-10-26 2020-11-24 北京值得买科技股份有限公司 一种商品聚合并计算相似度的方法
CN112579870A (zh) * 2020-12-22 2021-03-30 北京三快在线科技有限公司 检索匹配模型的训练方法、装置、设备及存储介质
CN113704480A (zh) * 2021-11-01 2021-11-26 成都我行我数科技有限公司 一种智能最小库存量单位匹配方法
CN113869048A (zh) * 2021-09-30 2021-12-31 广州华多网络科技有限公司 商品对象搜索方法及其装置、设备、介质、产品
CN113918804A (zh) * 2020-07-08 2022-01-11 上海会麦信息科技有限公司 商品信息检索系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7133845B1 (en) * 1995-02-13 2006-11-07 Intertrust Technologies Corp. System and methods for secure transaction management and electronic rights protection
US20210406993A1 (en) * 2020-06-29 2021-12-30 Dell Products L.P. Automated generation of titles and descriptions for electronic commerce products

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279274A (zh) * 2015-10-30 2016-01-27 北京京东尚科信息技术有限公司 基于自然语义问答系统的答案合成与匹配的方法和系统
CN110084658A (zh) * 2018-01-26 2019-08-02 北京京东尚科信息技术有限公司 物品匹配的方法和装置
CN108920565A (zh) * 2018-06-21 2018-11-30 苏州大学 一种图片标题生成方法、装置和计算机可读存储介质
CN110674881A (zh) * 2019-09-27 2020-01-10 长城计算机软件与系统有限公司 商标图像检索模型训练方法、系统、存储介质及计算机设备
CN110969516A (zh) * 2019-12-25 2020-04-07 清华大学 一种商品推荐方法及装置
CN111400345A (zh) * 2020-02-21 2020-07-10 北京九州云动科技有限公司 支持多平台的商品搜索方法和装置
CN113918804A (zh) * 2020-07-08 2022-01-11 上海会麦信息科技有限公司 商品信息检索系统及方法
CN111986007A (zh) * 2020-10-26 2020-11-24 北京值得买科技股份有限公司 一种商品聚合并计算相似度的方法
CN112579870A (zh) * 2020-12-22 2021-03-30 北京三快在线科技有限公司 检索匹配模型的训练方法、装置、设备及存储介质
CN113869048A (zh) * 2021-09-30 2021-12-31 广州华多网络科技有限公司 商品对象搜索方法及其装置、设备、介质、产品
CN113704480A (zh) * 2021-11-01 2021-11-26 成都我行我数科技有限公司 一种智能最小库存量单位匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
The effects of the subjective-experiential knowledge gap on consumers’ information search behavior and perceptions of consumption risk;Saeed Tajdini;《Journal of Business Research》;第135卷;66-77 *

Also Published As

Publication number Publication date
CN114510559A (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
US10678816B2 (en) Single-entity-single-relation question answering systems, and methods
CN112214685A (zh) 一种基于知识图谱的个性化推荐方法
CN117033608A (zh) 一种基于大语言模型的知识图谱生成式问答方法及系统
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
Homoceanu et al. Will I like it? Providing product overviews based on opinion excerpts
CN109299357B (zh) 一种老挝语文本主题分类方法
CN112463971A (zh) 一种基于层级组合模型的电商商品分类方法及系统
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
Zul et al. Social media sentiment analysis using K-means and naïve bayes algorithm
Rohman et al. Natural Language Processing on Marketplace Product Review Sentiment Analysis
Korpusik et al. Distributional semantics for understanding spoken meal descriptions
CN114510559B (zh) 一种基于深度学习语义蕴含的商品检索方法及存储介质
CN114860889A (zh) 一种基于钢材知识图谱的钢材潜在知识推理方法及系统
Alam et al. Social media content categorization using supervised based machine learning methods and natural language processing in bangla language
CN114493783A (zh) 一种基于双重检索机制的商品匹配方法
CN116562280A (zh) 一种基于通用信息抽取的文献分析系统及方法
CN114491001B (zh) 一种军事领域下的实体搜索方法
CN115730599A (zh) 基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品
El-Hajj et al. An optimal approach for text feature selection
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
JPH09319767A (ja) 類義語辞書登録方法
Hoiriyah et al. Lexicon-Based and Naive Bayes Sentiment Analysis for Recommending the Best Marketplace Selection as a Marketing Strategy for MSMEs
Maada et al. A comparative study of Sentiment Analysis Machine Learning Approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant