CN113704480B - 一种智能最小库存量单位匹配方法 - Google Patents

一种智能最小库存量单位匹配方法 Download PDF

Info

Publication number
CN113704480B
CN113704480B CN202111280314.8A CN202111280314A CN113704480B CN 113704480 B CN113704480 B CN 113704480B CN 202111280314 A CN202111280314 A CN 202111280314A CN 113704480 B CN113704480 B CN 113704480B
Authority
CN
China
Prior art keywords
data
model
standard commodity
commodity
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111280314.8A
Other languages
English (en)
Other versions
CN113704480A (zh
Inventor
雷思昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Qishu Technology Co ltd
Original Assignee
Chengdu Qishu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Qishu Technology Co ltd filed Critical Chengdu Qishu Technology Co ltd
Priority to CN202111280314.8A priority Critical patent/CN113704480B/zh
Publication of CN113704480A publication Critical patent/CN113704480A/zh
Application granted granted Critical
Publication of CN113704480B publication Critical patent/CN113704480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders

Abstract

本发明提出了一种智能最小库存量单位匹配方法,包括:录入标准商品实体数据构建标准商品实体库,构建召回模型,并对所述召回模型进行预训练;将待匹配商品的标题文本数据以及标准商品实体数据连在一起作为输入数据,从中选取TOP100个标准商品实体数据作为精排序模型的基础数据;构建精排序模型,按照相似度概率由大到小的顺序输出top10的标准商品实体,再次将将待匹配商品的标题文本数据分别与TOP10的标准商品实体数据连在一起作为输入数据,精排序得到top1的标准商品实体。本发明通过增加标准商品的元数据,丰富商品的文本定义,实现了语义级别的匹配;并提供反馈机制实现了模型更新迭代。

Description

一种智能最小库存量单位匹配方法
技术领域
本申请属于物流管理领域,特别涉及一种智能最小库存量单位匹配方法。
背景技术
大型连锁快销品公司通常会在多个渠道,例如淘宝,天猫以及线上或线下多级经销商销售自己的产品。在目前私域用户越来越受到大型连锁快销品公司的重视下,快销品公司期望将尽可能多的渠道终端线上用户及用户行为,尤其是购买行为,收集到自己的大数据平台之中。这一场景中,同一公司在不同渠道的产品打通显得尤为重要。
同一产品在不同渠道中通常体现为产品名、最小库存量单位(SKU)编码不一致,且在不同渠道可能更会存在将多个产品打包组合成新SKU的问题。线下场景中,通常使用商品条形码来识别同一产品,但在线上渠道中产品条形码往往为缺失状态,且各电商平台目前尚无统一的产品编码标准,在快销品公司统一各渠道商品时,主流的方法是采用商品名模糊匹配的方式进行匹配,只能做到关键字匹配,这种方法识别准确率较低。
例如专利文献CN108564295A公开了一种动态进销存核算管理方法,主要通过优化后的分布式服务框架搭建业务管理后台和业务处理系统,在具体场景处理中采用基于控制反转和面向切面的容器框架。但是这样的管理方法在线上渠道中产品条形码往往为缺失状态,导致管理不够细致精准,严重时可能出现货物数量无法满足订单要求的情况,导致订单流向混乱,影响管理效能。
再例如专利文献CN107766348A公开了一种基于移动互联网电商商品信息查询方法,包括:包括:移动终端包括条形码识别装置、控制单元、查询单元和显示单元;条形码识别装置用于获取商品的条形码信息并传输至控制单元;控制单元用于解析条形码信息以得到条形码信息中的商品信息,并将商品信息传输至查询单元;查询单元用于查询数据库中与商品信息相匹配的所有数据信息,并将该些数据信息传输至显示单元;显示单元用于显示该些数据信息。本发明通过将条形码识别装置集成于移动终端中,使得用户可随时获取商品信息,且各大电商的数据库的整合使得用户能同时获得多个数据库中的商品信息。该系统需要处理的数据量过大,传输主要依赖于扩展总线以及各个控制模块之间的协同,容易导致传输积滞或堵塞。该场景中,使用商品条形码来识别同一产品,但在线上渠道中产品条形码往往为缺失状态,且各电商平台目前尚无统一的产品编码标准,这种方法识别准确率较低。
发明内容
为了提升快销品企业线上不同渠道产品归一的准确率,提升此类数据处理效率,本发明提出了一种智能最小库存量单位匹配方法,包括:
步骤1,录入标准商品实体数据构建标准商品实体库,所述标准商品实体数据包括标题文本数据以及内容文本数据;
步骤2、构建召回模型,并对所述召回模型进行预训练;所述召回模型采用三元组网络,损失函数采用 Triplet Margin loss;
步骤3、将待匹配商品的标题文本数据以及标准商品实体数据连在一起作为输入数据,输入到训练好的召回模型中,进行二分类,输出待匹配商品的标题文本数据经过召回模型变换后的向量一和标准商品实体数据经过召回模型变换后的向量二;
计算每个标准商品实体数据与待匹配商品的标题文本数据输入召回模型后输出的向量一和向量二间的欧式距离,并按照欧式距离由小到大的顺序进行排序,从中选取TOP100个标准商品实体数据作为步骤4中精排序模型的基础数据;
步骤4、构建精排序模型,将待匹配商品的标题文本数据分别与TOP100的标准商品实体数据连在一起作为输入数据,输出每个标准商品实体数据与待匹配商品的标题文本数据相似度概率,并按照相似度概率由大到小的顺序输出top10的标准商品实体数据,再次将待匹配商品的标题文本数据分别与TOP10的标准商品实体数据连在一起作为输入数据,并按照相似度概率由大到小的顺序输出top1的标准商品实体数据。
进一步地,所述步骤2中,召回模型共用同一个Triplet BERT层,Triplet Marginloss 输入的样本对是一个三元组
Figure 852047DEST_PATH_IMAGE002
,所述三元组由一个锚点样本
Figure 52085DEST_PATH_IMAGE004
、一个正样本
Figure 311028DEST_PATH_IMAGE006
和一个负样本
Figure 143986DEST_PATH_IMAGE008
组成,则定义损失函数为:
Figure 146577DEST_PATH_IMAGE010
通过模型优化,实现锚点样本和负样本之间的距离
Figure 247126DEST_PATH_IMAGE012
与锚点样本和正样本之间的距离
Figure 208128DEST_PATH_IMAGE014
之差大于阈值
Figure 512071DEST_PATH_IMAGE016
进一步地,对所述召回模型进行预训练时,所述损失函数Triplet Margin Loss的参数Margin=3,输入数据正样本、负样本和锚点样本,其中,三个输入数据共享一个TripletBERT层参数。
进一步地,所述精排序模型;选取待匹配商品的标题文本数据生成向量,对输出的向量按照相似度概率排序。
进一步地,所述精排序模型采用 ernie-1.0、roberta-wwm 和 bert-wwm三个预训练模型,进行训练,实现句子向量化,使得该精排序模型收敛。
进一步地,所述召回模型的预训练采用Sentence-Bert预训练模型。
进一步地,反馈输出top1的标准商品实体数据给用户,用户反馈匹配正确或错误,并将待匹配商品的标题文本数据与top1的标准商品实体数据以及反馈结果存储于数据库中,作为精排序模型的训练数据,帮助精排序模型提升准确度。
进一步地,召回模型与精排序模型每5天根据积累的反馈结果进行一次重新训练,并自动部署,当下次运行该方法时,使用新的迭代模型进行评估匹配。
通过本发明的智能最小库存量单位匹配方法,增加标准商品的元数据,丰富商品的文本定义;实现语义级别的匹配;提供反馈机制,能在使用过程中进行模型更新迭代,使方法能更智能的成长。
附图说明
附图1为本发明的智能最小库存量单位匹配方法的流程图;
附图2为本发明的召回模型示意图;
附图3为本发明的精排序模型示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下通过实施例并参照附图对本发明的内容进一步详细说明,但是本发明的实施方式不仅限于此。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,为本发明的智能最小库存量单位匹配方法的流程图,包括如下步骤:
步骤1,录入标准商品实体数据构建标准商品实体库,所述标准商品实体数据包括标题文本数据以及内容文本数据。
首先构建标准商品实体库,在该步骤中,采用多个已知三方渠道中录入的标准商品实体数据作为标准商品实体库,例如商品实体“新希望(华西)袋装纯鲜牛奶220ml”,将该文字内容作为该商品实体的标题文本数据,获取记录该商品实体的产地、功能、成分、生产企业、规格、价格等数据作为内容文本数据,如产地为“成都”,成分为“鲜牛乳”,生产企业为“新希望华西”,规格为“220ml(袋)”,价格为“2.5元”。按照 ‘标题’、‘产地’、 ‘主要成分’、‘生产企业’、‘规格’、‘价格’的顺序对标准商品的文本数据相连,并与该商品的标题文本数据共同构成标准商品实体库中的标准商品实体数据,即:新希望(华西)袋装纯鲜牛奶220ml,产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋。
步骤2,构建召回模型,并对所述召回模型进行预训练。
预训练模型BERT(Bidirectional Encoder Representation fromTransformers)在文本阅读理解,上下文填空等自然语言领域有非常优秀的表现,并且基于BERT,衍生出了诸如GPT-2,Robert,XLNet,Transformer-XL,Albert,T5等等其他预训练模型。但是大部分预训练模型均不适合语义相似度搜索,也不适合非监督任务,比如聚类。而为了解决聚类和语义相似度搜索,需要将每个句子映射到一个向量空间,使得语义相似的句子聚拢。但这样得到的句向量不具有语义信息,也就是说,两个相似的句子,得到的句向量可能会有很大的差别。此外,不仅句向量表示的语义方面存在很大差别,而且,它要求两个句子都被输入到网络中,从而导致巨大消耗,例如从10000个语句集合中找到最相似的sentence-pair需要进行大约5000万个推理计算(约65小时)。
而基于BERT的预训练模型Sentence-Bert,对预训练的BERT进行修改:使用孪生(Siamese)和三重(Triplet)网络结构来获得语义上有意义的句子embedding,以此获得定长的sentence embedding,使用余弦相似度或Manhatten/Euclidean距离等进行比较找到语义相似的句子。
在此基础上,本发明提出一种召回模型,由于本发明的标题文本数据与内容文本数据的长度差异较大,因此召回模型采用类似Sentence-Bert的预训练模型,即召回模型使用Triplet Network(三元组网络),指定损失函数为 Triplet Margin loss。
Triplet Loss是深度学习中的一种损失函数,用于训练差异性较小的样本,如短文本,人脸等,输入数据包括锚点样本(Anchor)、正样本(Positive)、负样本(Negative),通过优化锚点样本与正样本的距离小于锚点样本与负样本的距离,实现样本间相似性的计算。
具体地,本发明中的召回模型如图2所示,本发明的召回模型共用同一个TripletBERT层参数,经过多次训练进行参数调整,得出损失函数Triplet Margin loss中margin参数设置为3时,召回模型评估效果最好。
因此,训练时,设输入的样本对是一个三元组
Figure 69085DEST_PATH_IMAGE002
,所述三元组由一个锚点样本
Figure 978135DEST_PATH_IMAGE004
、一个正样本
Figure 641198DEST_PATH_IMAGE006
和一个负样本
Figure 905474DEST_PATH_IMAGE008
组成。则我们可以定义损失函数为:
Figure DEST_PATH_IMAGE018A
通过优化锚点样本和负样本之间的距离
Figure 859655DEST_PATH_IMAGE012
与锚点样本和正样本之间的距离
Figure 685528DEST_PATH_IMAGE014
之差大于阈值
Figure 722754DEST_PATH_IMAGE016
,训练该模型,直至该模型收敛。
图2中,Anchor 为商品的标题文本数据,Positive 为正样本的内容文本数据,Negative 为负样本的内容文本数据,其中Anchor、Positive和Negative三个输入数据共享一个Triplet Bert层参数。训练时,将上述三个输入数据输入到Triplet Bert层中,将Triplet Bert层输出的向量Token取平均作为输出,例如将Positive样例输入TripletBert层后,生成文本向量Token,并对该文本向量Token进行两段的向量化,取两段向量的平均作为输出Mean output。将三个输出向量Positive out、Anchor out 和Negative out经过三元损失函数Triplet Margin Loss(Margin=3)得到损失函数优化完成模型的训练。负样本优选地采用动态负采样,在训练中的每个批次中,都对三元组进行动态的采样,样本随后用于训练该召回模型,直至该召回模型收敛。
步骤3、将待匹配商品的标题文本数据以及标准商品实体数据连在一起作为输入数据,输入到训练好的召回模型中,计算Triplet Bert层输出的向量间的欧式距离,根据欧式距离从小到大进行排序。
具体地,在匹配过程中,输入待匹配商品的标题文本数据,并将标准商品实体库中所有标准商品实体数据分别输入召回模型中,进行二分类,输出向量为:
输出1:待匹配商品的标题文本数据经过召回模型变换后的向量一,
输出2:标标准商品实体数据经过召回模型变换后的向量二。
计算所有标准商品实体数据与待匹配商品的标题文本数据的输出1和2中的向量一和向量二间的欧式距离,并按照欧式距离有小到大的顺序进行排序,从中选取TOP100个标准商品实体数据作为步骤4中精排序模型的基础数据。
步骤4 、构建精排序模型,将待匹配商品的标题文本数据分别与TOP100的标准商品实体数据连在一起作为输入数据,输出每个标准商品实体数据与待匹配商品的标题文本数据相似度概率,并按照相似度概率由大到小的顺序输出top10的标准商品实体数据,再次将待匹配商品的标题文本数据分别与TOP10的标准商品实体数据连在一起作为输入数据,并按照相似度概率由大到小的顺序输出top1的标准商品实体数据。
具体地,精排序模型如图3所示。精排序模型将待匹配的商品的标题文本数据和标准商品实体数据连在一起作为输入数据,输入到精排序模型中,即构建例如“[CLS]待匹配的商品的标题文本数据[SEP] 标准商品实体数据[SEP]”的长句,目的即是判断后一个内容文本数据是否和前一个标题文本数据在语义上的相似度,将该长句输入精排序模型中,例如ernie1.0,roberta-wwm等BERT预训练模型,进行生成向量Token;选取 CLS 位置的向量输出,然后对输出的相似度概率排序,将相似度概率由大到小排序,第一阶段的精排序可筛选出TOP10的标准商品实体数据,第二阶段的精排序可筛选出TOP1的标准商品实体数据,TOP1的标准商品实体即为匹配到的目标商品数据。
在优选实施例中,精排序模型采用 ernie-1.0、roberta-wwm 和 bert-wwm三个预训练模型,进行精排序,使得该精排序模型收敛。ernie-1.0、roberta-wwm 和 bert-wwm为基于中文语义的BERT预训练模型,用来实现句子向量化。
在优选实施例中,反馈输出top1的标准商品实体数据给用户,用户反馈匹配正确或错误,并将待匹配商品的标题文本数据与top1的标准商品实体数据以及反馈结果存储于数据库中,作为精排序模型的训练数据,帮助精排序模型提升准确度。
在优选实施例中,召回模型与精排序模型每5天根据5天中积累的反馈结果进行一次重新训练,并自动部署,当下次运行该程序时,使用新的迭代算法进行评估匹配,达到程序与算法自动更新的效果。
下面以具体的例子对本发明的匹配方法进行说明:
待匹配商品的标题文本数据:华西袋装纯鲜牛奶220ml;
而标准商品数据库里存在的一组标准商品数据为(仅以三个标准商品数据为例说明):
标题文本数据1:新希望(华西)袋装纯鲜牛奶220ml;
内容文本数据1:产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋。
标题文本数据2:新希望(华西) 袋装鲜牛奶220ml;
内容文本数据2:产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋。
标题文本数据3:新希望(华西) 纯鲜牛奶220ml;
内容文本数据3:产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋。
将上述待匹配商品的标题文本数据,分别与各个标准商品数据库组成一个二元数组,如:
1.(“华西袋装纯鲜牛奶220ml”,“新希望(华西)袋装纯鲜牛奶220ml,产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋”);
2.(“华西袋装纯鲜牛奶220ml”,“新希望(华西)袋装鲜牛奶220ml,产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋”);
3.(“华西袋装纯鲜牛奶220ml”,“新希望(华西) 纯鲜牛奶220ml,产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋”)。
分别将二元组数据输入到步骤2中训练得到的召回模型中,并计算Triplet Bert层输出的向量间的欧式距离,根据欧式距离从小到大进行排序。例如:
1.(“华西袋装纯鲜牛奶220ml”,“新希望(华西)袋装纯鲜牛奶220ml,产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋”), 1.5;
2.(“华西袋装纯鲜牛奶220ml”,“新希望(华西) 袋装鲜牛奶220ml,产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋”), 4.0;
3.(“华西袋装纯鲜牛奶220ml”,“新希望(华西)纯鲜牛奶220ml,产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋”), 22;
取得排序TOP100并将上述二元组构造成如下的文本数据,即将二元组中两段文本连在一起形成输入数据文本为:[CLS] 华西袋装纯鲜牛奶220ml [SEP] 新希望(华西)袋装纯鲜牛奶220ml,产地为成都,由鲜牛乳经巴氏杀菌制得,生产企业为新希望华西乳业,其规格为220ml每袋,价格为2.5元每袋[SEP]。
将上述文本输入步骤4中构建的精排序模型,输出二元组两者为同一商品最小库存量单位的相似度概率,相似度概率由大到小排序,最终可筛选出TOP10数据。
重复上述操作,将TOP10个二元组再次输入步骤4构建的精排序模型,输出二元组两者为同一商品最小库存量单位的相似度概率,概率由大到小排序,最终可筛选出TOP1数据,该商品即为匹配到的目标商品。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种智能最小库存量单位匹配方法,其特征在于:
步骤1,录入标准商品实体数据构建标准商品实体库,所述标准商品实体数据包括标题文本数据以及内容文本数据;
步骤2、构建召回模型,并对所述召回模型进行预训练;所述召回模型采用三元组网络,损失函数采用 Triplet Margin loss;
步骤3、将待匹配商品的标题文本数据与标准商品实体数据连在一起作为输入数据,输入到训练好的召回模型中,进行二分类,输出待匹配商品的标题文本数据经过召回模型变换后的向量一和标准商品实体数据经过召回模型变换后的向量二;
计算每个标准商品实体数据与待匹配商品的标题文本数据输入召回模型后输出的向量一和向量二间的欧式距离,并按照欧式距离由小到大的顺序进行排序,从中选取TOP100个标准商品实体数据作为步骤4中精排序模型的基础数据;
步骤4、构建精排序模型,将待匹配商品的标题文本数据分别与TOP100的标准商品实体数据连在一起作为输入数据,输出每个标准商品实体数据与待匹配商品的标题文本数据相似度概率,并按照相似度概率由大到小的顺序输出top10的标准商品实体数据,再次将待匹配商品的标题文本数据分别与TOP10的标准商品实体数据连在一起作为输入数据,并按照相似度概率由大到小的顺序输出top1的标准商品实体数据。
2.根据权利要求1所述的智能最小库存量单位匹配方法,其特征在于,所述步骤2中,召回模型共用同一个Triplet BERT层,Triplet Margin loss 输入的样本对是一个三元组
Figure DEST_PATH_IMAGE002
,所述三元组由一个锚点样本
Figure DEST_PATH_IMAGE004
、一个正样本
Figure DEST_PATH_IMAGE006
和一个负样本
Figure DEST_PATH_IMAGE008
组成,则定义损失函数为:
Figure DEST_PATH_IMAGE010
通过模型优化,实现锚点样本和负样本之间的距离
Figure DEST_PATH_IMAGE012
与锚点样本和正样本之间的距离
Figure DEST_PATH_IMAGE014
之差大于阈值
Figure DEST_PATH_IMAGE016
3. 根据权利要求1所述的智能最小库存量单位匹配方法,其特征在于,对所述召回模型进行预训练时,所述损失函数Triplet Margin Loss的参数Margin=3,输入数据正样本、负样本和锚点样本,其中,三个输入数据共享一个Triplet BERT层参数。
4.根据权利要求1所述的智能最小库存量单位匹配方法,其特征在于,所述精排序模型选取待匹配商品的标题文本数据生成向量,对输出的向量按照相似度概率排序。
5. 根据权利要求1所述的智能最小库存量单位匹配方法,其特征在于,所述精排序模型采用 ernie-1.0、roberta-wwm 和 bert-wwm三个预训练模型,进行训练,实现句子向量化,使得该精排序模型收敛。
6.根据权利要求1所述的智能最小库存量单位匹配方法,其特征在于,所述召回模型的预训练采用Sentence-Bert预训练模型。
7.根据权利要求1所述的智能最小库存量单位匹配方法,其特征在于,反馈输出top1的标准商品实体数据给用户,用户反馈匹配正确或错误,并将待匹配商品的标题文本数据与top1的标准商品实体数据以及反馈结果存储于数据库中,作为精排序模型的训练数据,帮助精排序模型提升准确度。
8.根据权利要求1所述的智能最小库存量单位匹配方法,其特征在于,召回模型与精排序模型每5天根据积累的反馈结果进行一次重新训练,并自动部署,当下次运行该方法时,使用新的迭代模型进行评估匹配。
CN202111280314.8A 2021-11-01 2021-11-01 一种智能最小库存量单位匹配方法 Active CN113704480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111280314.8A CN113704480B (zh) 2021-11-01 2021-11-01 一种智能最小库存量单位匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111280314.8A CN113704480B (zh) 2021-11-01 2021-11-01 一种智能最小库存量单位匹配方法

Publications (2)

Publication Number Publication Date
CN113704480A CN113704480A (zh) 2021-11-26
CN113704480B true CN113704480B (zh) 2022-01-25

Family

ID=78647609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111280314.8A Active CN113704480B (zh) 2021-11-01 2021-11-01 一种智能最小库存量单位匹配方法

Country Status (1)

Country Link
CN (1) CN113704480B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510559B (zh) * 2022-01-27 2023-08-29 福建博思软件股份有限公司 一种基于深度学习语义蕴含的商品检索方法及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203910A (zh) * 2017-05-27 2017-09-26 科技谷(厦门)信息技术有限公司 一种大数据智能精准营销系统
CN110096634A (zh) * 2019-04-29 2019-08-06 成都理工大学 一种基于粒子群优化的房产数据向量对齐方法
CN110442718A (zh) * 2019-08-08 2019-11-12 腾讯科技(深圳)有限公司 语句处理方法、装置及服务器和存储介质
WO2019239743A1 (ja) * 2018-06-11 2019-12-19 日本電信電話株式会社 物体検出装置、方法、及びプログラム
CN110851571A (zh) * 2019-11-14 2020-02-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111651477A (zh) * 2020-05-27 2020-09-11 福建博思软件股份有限公司 基于语义相似度的多源异构商品一致性判别方法和装置
CN112417294A (zh) * 2020-12-03 2021-02-26 广州瀚信通信科技股份有限公司 一种基于神经网络挖掘模型的业务智能推荐方法
US11016997B1 (en) * 2019-12-19 2021-05-25 Adobe Inc. Generating query results based on domain-specific dynamic word embeddings
WO2021143022A1 (zh) * 2020-01-14 2021-07-22 平安科技(深圳)有限公司 一种文本生成的方法及装置
CN113177412A (zh) * 2021-04-05 2021-07-27 北京智慧星光信息技术有限公司 基于bert的命名实体识别方法、系统、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814086A (zh) * 2010-02-05 2010-08-25 山东师范大学 一种基于模糊遗传算法的中文web信息过滤方法
CN111435514B (zh) * 2019-01-15 2024-04-09 北京京东尚科信息技术有限公司 特征计算方法和装置、排序方法和设备、存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203910A (zh) * 2017-05-27 2017-09-26 科技谷(厦门)信息技术有限公司 一种大数据智能精准营销系统
WO2019239743A1 (ja) * 2018-06-11 2019-12-19 日本電信電話株式会社 物体検出装置、方法、及びプログラム
CN110096634A (zh) * 2019-04-29 2019-08-06 成都理工大学 一种基于粒子群优化的房产数据向量对齐方法
CN110442718A (zh) * 2019-08-08 2019-11-12 腾讯科技(深圳)有限公司 语句处理方法、装置及服务器和存储介质
CN110851571A (zh) * 2019-11-14 2020-02-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
US11016997B1 (en) * 2019-12-19 2021-05-25 Adobe Inc. Generating query results based on domain-specific dynamic word embeddings
WO2021143022A1 (zh) * 2020-01-14 2021-07-22 平安科技(深圳)有限公司 一种文本生成的方法及装置
CN111651477A (zh) * 2020-05-27 2020-09-11 福建博思软件股份有限公司 基于语义相似度的多源异构商品一致性判别方法和装置
CN112417294A (zh) * 2020-12-03 2021-02-26 广州瀚信通信科技股份有限公司 一种基于神经网络挖掘模型的业务智能推荐方法
CN113177412A (zh) * 2021-04-05 2021-07-27 北京智慧星光信息技术有限公司 基于bert的命名实体识别方法、系统、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FAQ Retrieval using Query-Question Similarity and BERT-Based Query-Answer Relevance;Wataru Sakata;《The 42nd International ACM SIGIR Conference on Research and Development in Information RetrievalJuly》;20190718;第1113–1116页 *
一种文本相似度与BERT模型融合的手术操作术语归一化方法;杨飞洪 等;《中文信息学报》;20210415;第35卷(第4期);第44-50页 *
基于BERT的神经排序模型研究;胡澔;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210115;I138-2600 *

Also Published As

Publication number Publication date
CN113704480A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN108304911B (zh) 基于记忆神经网络的知识抽取方法以及系统和设备
CN109903117B (zh) 一种用于商品推荐的知识图谱处理方法及装置
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
CN110704622A (zh) 文本情感分类方法、装置及电子设备
CN107368614A (zh) 基于深度学习的图像检索方法及装置
CN109598586B (zh) 一种基于注意力模型的推荐方法
CN104424296A (zh) 查询词分类方法和装置
CN107169061B (zh) 一种融合双信息源的文本多标签分类方法
CN111046170A (zh) 用于输出信息的方法和装置
US20210383453A1 (en) Generalized enterprise catalog classification for shorthand item descriptors
CN113704480B (zh) 一种智能最小库存量单位匹配方法
CN111353838A (zh) 自动化校验商品类目的方法和装置
CN110083766B (zh) 一种基于元路径引导嵌入的查询推荐方法及装置
CN114706987A (zh) 文本类目预测方法、装置、设备、存储介质和程序产品
CN113627532B (zh) 食品安全检测方法、装置、设备及存储介质
CN112115384A (zh) 一种基于生成排序的时序推荐算法
CN113781160B (zh) 一种基于人工智能的商品推荐的方法
CN112241490A (zh) 分类处理及数据搜索方法、装置、电子设备、智能音箱
CN114022233A (zh) 一种新型的商品推荐方法
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
CN113033090A (zh) 推送模型训练方法、数据推送方法、装置及存储介质
CN111782802A (zh) 基于机器学习获得商品对应国民经济制造业的方法及系统
CN111339428A (zh) 基于受限玻尔兹曼机驱动的交互式个性化搜索方法
CN117575744B (zh) 一种基于用户关联关系的物品推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant