CN110517077A - 基于属性距离的商品相似度分析方法、装置及存储介质 - Google Patents

基于属性距离的商品相似度分析方法、装置及存储介质 Download PDF

Info

Publication number
CN110517077A
CN110517077A CN201910772621.4A CN201910772621A CN110517077A CN 110517077 A CN110517077 A CN 110517077A CN 201910772621 A CN201910772621 A CN 201910772621A CN 110517077 A CN110517077 A CN 110517077A
Authority
CN
China
Prior art keywords
commodity
distance
data
inherent nature
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910772621.4A
Other languages
English (en)
Inventor
葛忠林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Cargo Price Technology Co Ltd
Original Assignee
Tianjin Cargo Price Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Cargo Price Technology Co Ltd filed Critical Tianjin Cargo Price Technology Co Ltd
Priority to CN201910772621.4A priority Critical patent/CN110517077A/zh
Publication of CN110517077A publication Critical patent/CN110517077A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于属性距离的商品相似度分析方法、装置及存储介质,方法包括:选取任意两个商品数据作为待分析商品数据对;对待分析商品数据对进行属性提取处理,以得到商品潜在属性;基于所述商品潜在属性,对待分析商品数据对进行多层距离算法处理,以得到多个距离值;将多个距离值输入预设的预测模型,以得到待分析商品数据对的相似度值。通过上述技术方案,可快速、准确地识别出混乱数据中的相似商品,无需从业人员根据先验知识进行人工辨识,提高了商品相似度识别的准确性,也提高了工作效率。

Description

基于属性距离的商品相似度分析方法、装置及存储介质
技术领域
本发明涉及数据统计分析技术领域,具体涉及一种基于属性距离的商品相似度分析方法、装置及存储介质。
背景技术
现代社会商品种类繁多,市面上的批发商品因为多方面因素影响,价格有高有低,商品销售从业人员迫切希望获得一种辨别相同商品的能力,从而达到增加从业业绩。现存在的问题是:难以发现商品是否为同一个商品,关于商品相似度数据分析结果不准确,从业工作人员辨识商品需要很多先验知识,分析方法也大多存在缺陷。
具体地,现有辨识方案缺乏,大多基于商品名称相似度计算,该方法准确度不高;从业人员分析商品的方法也由于信息挖掘渠道和关注点往往带有主观性,数据分析人员会朝着预期潜意识判断去收集数据,所以分析结果往往不够准确,最后导致无法发现是同一个商品价格的浮动。
因此,同类商品之间竞争给从业者带来了巨大压力,准确而快速的找到具有竞争关系的一对商品必然能够为行业产品的市场拓展和降低成本带来重要参考依据。
发明内容
本发明实施例的目的在于提供一种基于属性距离的商品相似度分析方法、装置及存储介质,以提高商品相似度识别的准确性,提高工作效率。
为实现上述目的,第一方面,本发明实施例提供了一种基于属性距离的商品相似度分析方法,包括:
选取任意两个商品数据作为待分析商品数据对;
对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性;
基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值;
将多个所述距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值。
作为本申请一种具体的实施方式,对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性,具体包括:
对所述待分析商品数据对的商品名称进行分词处理,以提取所述商品潜在属性。
作为本申请一种具体的实施方式,基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值,具体包括:
对所述商品潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述商品潜在属性进行多层距离计算,以得到多个距离值。
其中,所述商品潜在属性包括商品名称、品牌、单品规格、售卖规格、单品单位、包装内个数、型号或口味,对所述商品潜在属性进行向量化处理具体包括:
采用tf-idf或n-gram算法对商品名称、品牌、售卖规格、型号和口味进行向量化处理;
采用01匹配方式对单品单位和单品规格进行向量化处理。
进一步地,作为本申请一种优选的实施方式,所述商品相似度分析方法还包括训练所述预测模型,具体包括:
获取样本数据,所述样本数据包括两个相似度值超过阈值的商品对;
对所述样本数据进行属性提取处理,以得到样本潜在属性;
采用tf-idf或n-gram算法或01匹配方式对所述样本潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述样本潜在属性进行多层距离计算,以得到多个样本距离值;
根据多个样本距离值,采用机器学习方法对所述样本数据进行逻辑回归训练,以得到所述预测模型。
作为本申请一种具体的实施方式,根据多个样本距离值,采用机器学习方法对所述样本数据进行逻辑回归训练,以得到所述预测模型,具体包括:
根据多个样本距离值建立距离矩阵;
采用机器学习方法进行逻辑回归训练以求解多个属性权重值;
根据多个属性权重值确定所述预测模型。
第二方面,本申请实施例还提供了一种基于属性距离的商品相似度分析装置,包括:
选取模块,用于选取任意两个商品数据作为待分析商品数据对;
提取模块,用于对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性;
计算模块,用于基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值;
预测模块,用于将多个所述距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值。
进一步地,该商品相似度分析装置还包括训练模块,用于训练所述预测模型,具体包括:
获取样本数据,所述样本数据包括两个相似度值超过阈值的商品对;
对所述样本数据进行属性提取处理,以得到样本潜在属性;
采用tf-idf或n-gram算法或01匹配方式对所述样本潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述样本潜在属性进行多层距离计算,以得到多个样本距离值;
根据多个样本距离值,采用机器学习方法对所述样本数据进行逻辑回归训练,以得到所述预测模型。
第三方面,本发明实施例还提供了一种基于属性距离的商品相似度分析装置,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其内存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
实施本发明实施例,先提取待分析商品数据对的商品潜在属性,基于该商品潜在属性进行多层距离算法处理以得到多个距离值,最后将多个距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值;通过上述技术方案,可快速、准确地识别出混乱数据中的相似商品,无需从业人员根据先验知识进行人工辨识,提高了商品相似度识别的准确性,也提高了工作效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明第一实施例提供的基于属性距离的商品相似度分析方法的示意流程图;
图2是图1中步骤S101的子流程图;
图3是本发明一实施例提供的基于属性距离的商品相似度分析装置的结构示意图;
图4是本发明另一实施例提供的基于属性距离的商品相似度分析方法的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
请参考图1,是本发明第一实施例提供的基于属性距离的商品相似度分析方法。如图所示,该方法可以包括以下步骤:
S101,训练预测模型。
具体地,如图2所示,步骤S101包括:
S1011,获取样本数据。
在本实施例中,在已知相似度值的大量商品数据中,选取两个相似度值超过阈值(例如超过98%,即相似度值较高)的商品对作为样本数据。可理解地,样本数据实际上为一个训练样本集,其内包括多个相似度值较高的商品对。
S1012,对样本数据进行属性提取处理,以得到样本潜在属性。
具体地,对样本数据中的商品名称进行分词处理,以提取出样本潜在属性。
S1013,采用tf-idf或n-gram算法或01匹配方式对样本潜在属性进行向量化处理。
样本潜在属性包括但不仅限于商品名称、品牌、单品规格、售卖规格、单品单位、包装内个数、型号或口味等。本实施例中,对商品名称、品牌、售卖规格、型号和口味这几项使用tf-idf或n-gram算法进行向量化处理,而单品单位和单品规格则做完全匹配01向量化,其中,缺失的数据不参与计算。举例来说,若两个商品的单品单位完全一样,则直接匹配为1,不一样则匹配为0。
S1014,采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的样本潜在属性进行多层距离计算,以得到多个样本距离值。
现对关于属性识别的公式说明如下:
从识别商品属性算法:
设定X序列,随机序列Y概率P(Y|X)
X={X1,X2…Xn},Y={Y1,Y2…Yn}
其中,tk(Yi-1,Yi,X,i)表示转移函数tk,表示在序列X下序列Y在位置i-1及i对应的值转移概率,而sl(Yi,X,i)表示状态函数sl,表示在序列X下序列Y在位置i对应的值概率。另外λkl分别为两个函数的权重。tk(Yi-1,Yi,X,i),k=1,2,3…K,K是定义在该节点的局部特征函数的总个数,i是当前节点在序列的位置;sl(Yi,X,i),l=1,2,3…L,L是定义在该节点的节点特征函数的总个数,i是当前节点在序列的位置。
令sl=tk,对特征在各个位置i求和并归一得:
F(Y,X)是函数名。
归泛化因子:
在本实施例中,对于当属性为自然语言时,使用tfidf和ngram做向量化。二值距离公式:
设定商品属性k=1,2,3,4K
属性自定义条件距离:
编辑距离算法表示如下:
其中S1、S2为句子,i、j为句子中的位置
余弦距离算法表示如下:
其中a、b词向量
优化crf条件随机场距离算法如下:
特征评价函数:Φi,j(xi,j,λ)=exp{xi,jλT}
其中X为一对短句句组成二维矩阵词向量,i、j为矩阵位置,λ为权重参数,T为矩阵转置。
例如,商品名称可使用编辑距离算法、余弦距离算法或优化crf条件随机场算法做距离计算,从而为商品相似度的分析提供重要基础参数。
S1015,根据多个样本距离值建立距离矩阵。
S1016,采用机器学习方法进行逻辑回归训练以求解多个属性权重值。
S1017,根据多个属性权重值确定预测模型。
S102,选取任意两个商品数据作为待分析商品数据对。
S103,待分析商品数据对进行属性提取处理,以得到商品潜在属性。
具体地,对分析商品数据对中的商品名称进行分词处理,以提取出商品潜在属性
S104,基于商品潜在属性,待分析商品数据对进行多层距离算法处理,以得到多个距离值。
该步骤中,先对商品潜在属性进行向量化处理,再进行多层算法处理。
其中,商品潜在属性包括但不仅限于商品名称、品牌、单品规格、售卖规格、单品单位、包装内个数、型号或口味等。本实施例中,对商品名称、品牌、售卖规格、型号和口味这几项使用tf-idf或n-gram算法进行向量化处理,而单品单位和单品规格则做完全匹配01向量化,其中,缺失的数据不参与计算。举例来说,若两个商品的单品单位完全一样,则直接匹配为1,不一样则匹配为0。
进一步地,采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的商品潜在属性进行多层距离算法处理,以得到多个距离值。该部分的所采用的具体算法请参考前述样本数据部分,在此不再赘述。
S105,将多个距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值。
实施本发明实施例所提供的基于属性距离的商品相似度分析方法,采用机器学习算法训练预测模型,先提取待分析商品数据对的商品潜在属性,基于该商品潜在属性进行多层距离算法处理以得到多个距离值,最后将多个距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值;通过上述技术方案,可快速、准确地识别出混乱数据中的相似商品,无需从业人员根据先验知识进行人工辨识,提高了商品相似度识别的准确性,也提高了工作效率。
基于相同的发明构思,本发明实施例还提供一种基于属性距离的商品相似度分析装置。如图3所示,该商品相似度分析装置包括:
训练模块10,用于训练预测模型;
选取模块11,用于选取任意两个商品数据作为待分析商品数据对;
提取模块12,用于对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性;
计算模块13,用于基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值;
预测模块14,用于将多个所述距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值。
具体地,在本实施例中,训练模块10具体用于:
获取样本数据,所述样本数据包括两个相似度值超过阈值的商品对;
对所述样本数据进行属性提取处理,以得到样本潜在属性;
采用tf-idf或n-gram算法或01匹配方式对所述样本潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述样本潜在属性进行多层距离计算,以得到多个样本距离值;
根据多个样本距离值,采用机器学习方法对所述样本数据进行逻辑回归训练,以得到所述预测模型。
进一步地,上述商品潜在属性包括但不仅限于商品名称、品牌、单品规格、售卖规格、单品单位、包装内个数、型号或口味等,计算模块13具体用于:
采用tf-idf或n-gram算法对商品名称、品牌、售卖规格、型号和口味进行向量化处理;
采用01匹配方式对单品单位和单品规格进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述商品潜在属性进行多层距离计算,以得到多个距离值。
需要说明的是,本实施例的具体工作流程请参考前述方法实施例部分,在此不再赘述。
进一步地,本发明另一实施例还提供了一种基于属性距离的商品相似度分析装置。如图4所示,该基于属性距离的商品相似度分析装置,可以包括:一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104,上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序,所述计算机程序包括程序指令,所述处理器101被配置用于调用所述程序指令执行上述方法实施例部分的方法。
应当理解,在本发明实施例中,所称处理器101可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备102可以包括键盘等,输出设备103可以包括显示器(LCD等)、扬声器等。
该存储器104可以包括只读存储器和随机存取存储器,并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如,存储器104还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于属性距离的商品相似度分析方法的实施例中所描述的实现方式,在此不再赘述。
实施本发明实施例所提供的基于属性距离的商品相似度分析装置,采用机器学习算法训练预测模型,先提取待分析商品数据对的商品潜在属性,基于该商品潜在属性进行多层距离算法处理以得到多个距离值,最后将多个距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值;通过上述技术方案,可快速、准确地识别出混乱数据中的相似商品,无需从业人员根据先验知识进行人工辨识,提高了商品相似度识别的准确性,也提高了工作效率。
相应地,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:上述基于属性距离的商品相似度分析方法。
所述计算机可读存储介质可以是前述任一实施例所述的系统的内部存储单元,例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备,例如所述系统上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于属性距离的商品相似度分析方法,其特征在于,包括:
选取任意两个商品数据作为待分析商品数据对;
对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性;
基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值;
将多个所述距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值。
2.如权利要求1所述的商品相似度分析方法,其特征在于,对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性,具体包括:
对所述待分析商品数据对的商品名称进行分词处理,以提取所述商品潜在属性。
3.如权利要求1所述的商品相似度分析方法,其特征在于,基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值,具体包括:
对所述商品潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述商品潜在属性进行多层距离计算,以得到多个距离值。
4.如权利要求3所述的商品相似度分析方法,其特征在于,所述商品潜在属性包括商品名称、品牌、单品规格、售卖规格、单品单位、包装内个数、型号或口味,对所述商品潜在属性进行向量化处理具体包括:
采用tf-idf或n-gram算法对商品名称、品牌、售卖规格、型号和口味进行向量化处理;
采用01匹配方式对单品单位和单品规格进行向量化处理。
5.如权利要求1-4任一项所述的商品相似度分析方法,其特征在于,所述商品相似度分析方法还包括训练所述预测模型,具体包括:
获取样本数据,所述样本数据包括两个相似度值超过阈值的商品对;
对所述样本数据进行属性提取处理,以得到样本潜在属性;
采用tf-idf或n-gram算法或01匹配方式对所述样本潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述样本潜在属性进行多层距离计算,以得到多个样本距离值;
根据多个样本距离值,采用机器学习方法对所述样本数据进行逻辑回归训练,以得到所述预测模型。
6.如权利要求5所述的商品相似度分析方法,其特征在于,根据多个样本距离值,采用机器学习方法对所述样本数据进行逻辑回归训练,以得到所述预测模型,具体包括:
根据多个样本距离值建立距离矩阵;
采用机器学习方法进行逻辑回归训练以求解多个属性权重值;
根据多个属性权重值确定所述预测模型。
7.一种基于属性距离的商品相似度分析装置,其特征在于,包括:
选取模块,用于选取任意两个商品数据作为待分析商品数据对;
提取模块,用于对所述待分析商品数据对进行属性提取处理,以得到商品潜在属性;
计算模块,用于基于所述商品潜在属性,对所述待分析商品数据对进行多层距离算法处理,以得到多个距离值;
预测模块,用于将多个所述距离值输入预设的预测模型,以得到所述待分析商品数据对的相似度值。
8.如权利要求7所述的商品相似度分析装置,其特征在于,还包括训练模块,用于训练所述预测模型,具体包括:
获取样本数据,所述样本数据包括两个相似度值超过阈值的商品对;
对所述样本数据进行属性提取处理,以得到样本潜在属性;
采用tf-idf或n-gram算法或01匹配方式对所述样本潜在属性进行向量化处理;
采用编辑距离算法、余弦距离算法或优化crf条件随机场算法对向量化处理后的所述样本潜在属性进行多层距离计算,以得到多个样本距离值;
根据多个样本距离值,采用机器学习方法对所述样本数据进行逻辑回归训练,以得到所述预测模型。
9.一种基于属性距离的商品相似度分析装置,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求6所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求6所述的方法。
CN201910772621.4A 2019-08-21 2019-08-21 基于属性距离的商品相似度分析方法、装置及存储介质 Pending CN110517077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910772621.4A CN110517077A (zh) 2019-08-21 2019-08-21 基于属性距离的商品相似度分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910772621.4A CN110517077A (zh) 2019-08-21 2019-08-21 基于属性距离的商品相似度分析方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110517077A true CN110517077A (zh) 2019-11-29

Family

ID=68625952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910772621.4A Pending CN110517077A (zh) 2019-08-21 2019-08-21 基于属性距离的商品相似度分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110517077A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639970A (zh) * 2020-05-28 2020-09-08 深圳壹账通智能科技有限公司 基于图像识别的物品价格确定方法及相关设备
CN112330037A (zh) * 2020-11-11 2021-02-05 天津汇商共达科技有限责任公司 一种新品库存比例预测的方法、装置及服务器
CN112395501A (zh) * 2020-11-17 2021-02-23 航天信息股份有限公司 企业推荐方法、装置、存储介质及电子设备
CN113298493A (zh) * 2021-05-21 2021-08-24 陕西合友网络科技有限公司 一种用于行政审批智能导航的导航系统及方法
CN113643100A (zh) * 2021-08-30 2021-11-12 北京值得买科技股份有限公司 一种商品相似度判定模块贡献量化方法及系统
CN116188091A (zh) * 2023-05-04 2023-05-30 品茗科技股份有限公司 造价清单自动匹配单价引用的方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018166343A1 (zh) * 2017-03-13 2018-09-20 腾讯科技(深圳)有限公司 一种数据融合方法及装置、存储介质以及电子装置
CN108932647A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测相似物品及训练其模型的方法和装置
CN109670161A (zh) * 2017-10-13 2019-04-23 北京京东尚科信息技术有限公司 商品相似度计算方法及装置、存储介质、电子设备
CN109697641A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 计算商品相似度的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018166343A1 (zh) * 2017-03-13 2018-09-20 腾讯科技(深圳)有限公司 一种数据融合方法及装置、存储介质以及电子装置
CN108932647A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测相似物品及训练其模型的方法和装置
CN109670161A (zh) * 2017-10-13 2019-04-23 北京京东尚科信息技术有限公司 商品相似度计算方法及装置、存储介质、电子设备
CN109697641A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 计算商品相似度的方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639970A (zh) * 2020-05-28 2020-09-08 深圳壹账通智能科技有限公司 基于图像识别的物品价格确定方法及相关设备
CN112330037A (zh) * 2020-11-11 2021-02-05 天津汇商共达科技有限责任公司 一种新品库存比例预测的方法、装置及服务器
CN112395501A (zh) * 2020-11-17 2021-02-23 航天信息股份有限公司 企业推荐方法、装置、存储介质及电子设备
CN113298493A (zh) * 2021-05-21 2021-08-24 陕西合友网络科技有限公司 一种用于行政审批智能导航的导航系统及方法
CN113643100A (zh) * 2021-08-30 2021-11-12 北京值得买科技股份有限公司 一种商品相似度判定模块贡献量化方法及系统
CN116188091A (zh) * 2023-05-04 2023-05-30 品茗科技股份有限公司 造价清单自动匹配单价引用的方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110517077A (zh) 基于属性距离的商品相似度分析方法、装置及存储介质
CN109657238B (zh) 基于知识图谱的上下文识别补全方法、系统、终端及介质
CN108509413A (zh) 文摘自动提取方法、装置、计算机设备及存储介质
AU2020236989B2 (en) Handling categorical field values in machine learning applications
CN110163478A (zh) 一种合同条款的风险审查方法及装置
WO2019194986A1 (en) Automated extraction of product attributes from images
CN112183101A (zh) 文本意图识别方法、装置、电子设备及存储介质
CN108170859A (zh) 语音查询的方法、装置、存储介质及终端设备
CN108920457A (zh) 地址识别方法和装置及存储介质
CN110413319B (zh) 一种基于深度语义的代码函数味道检测方法
CN113822209B (zh) 高光谱图像识别方法、装置、电子设备及可读存储介质
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN111461164B (zh) 样本数据集的扩容方法及模型的训练方法
CN110110652A (zh) 一种目标检测方法、电子设备及存储介质
CN106844413A (zh) 实体关系抽取的方法及装置
CN109598517A (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN112100387A (zh) 用于文本分类的神经网络系统的训练方法及装置
CN110222330A (zh) 语义识别方法及装置、存储介质、计算机设备
CN113611405A (zh) 一种体检项目推荐方法、装置、设备及介质
CN107480196A (zh) 一种基于动态融合机制的多模态词汇表示方法
WO2024060684A1 (zh) 模型训练方法、图像处理方法、设备及存储介质
CN109726391A (zh) 对文本进行情感分类的方法、装置及终端
CN109902157A (zh) 一种训练样本有效性检测方法及装置
CN109241529A (zh) 观点标签的确定方法和装置
CN109471953A (zh) 一种语音数据检索方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129

RJ01 Rejection of invention patent application after publication