CN114049165A - 一种采购系统的商品比价方法、装置、设备和介质 - Google Patents

一种采购系统的商品比价方法、装置、设备和介质 Download PDF

Info

Publication number
CN114049165A
CN114049165A CN202111181875.2A CN202111181875A CN114049165A CN 114049165 A CN114049165 A CN 114049165A CN 202111181875 A CN202111181875 A CN 202111181875A CN 114049165 A CN114049165 A CN 114049165A
Authority
CN
China
Prior art keywords
commodity
matching
similarity
price
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111181875.2A
Other languages
English (en)
Other versions
CN114049165B (zh
Inventor
郑新刚
邱华淞
张意坤
林富钦
林龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shucai Xiaobo Technology Development Co ltd
Original Assignee
Shucai Xiaobo Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shucai Xiaobo Technology Development Co ltd filed Critical Shucai Xiaobo Technology Development Co ltd
Priority to CN202111181875.2A priority Critical patent/CN114049165B/zh
Publication of CN114049165A publication Critical patent/CN114049165A/zh
Application granted granted Critical
Publication of CN114049165B publication Critical patent/CN114049165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0611Request for offers or quotes

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种采购系统的商品比价方法、装置、设备和介质,方法包括:当用户打开任一商品的销售展示页面时,获取该商品的类别码,将采购系统中具有相同类别码的商品进行汇总,并按价格排列;所述类别码是通过如下商品匹配过程得到:S1、对采购系统中的商品数据进行治理;S2、分别利用两种匹配算法对商品的相似度进行匹配,得到两个匹配结果;S3、对两个匹配结果进行交叉验证,提取匹配差别较大的部分,根据人工检测结果判别两种匹配算法中哪种算法更准确;S4、调整不太准确的匹配算法中的参数,回到步骤S2,直到所述两种二匹配算法都达到预期准确度;根据达到预期准确度的任一种匹配算法的匹配结果,将所有匹配相同的商品配上相同的类别码。

Description

一种采购系统的商品比价方法、装置、设备和介质
技术领域
本发明涉及计算机技术领域,特别涉及一种电子采购系统的商品比价方 法、装置、设备和介质。
背景技术
电子采购系统的商品比价是企业采购的必要步骤,商品比价是指对同样 的商品进行比价,同样的商品是指商品名、品牌、型号、数量等都要相同, 否则比价就没有意义,如水笔和铅笔不属于同样的商品,如A品牌的水笔 与B品牌的水笔不属于同样的商品,A品牌的10支装T型号水笔与A品牌 的20支装的T型号水笔也不属于同样的商品,相互之间无法比价,需要加 以区分。然而,对于商家而言,不同的商家对同一种商品的描述不同,因此 比价的关键是要判断两样商品是否为相同商品,这就涉及到商品匹配识别技 术。
商品匹配识别是根据商品的描述,把相同商品进行匹配,以达到精确识 别商品、实现商品比价和价格监测的目的。现有技术中往往有如下方式进行 商品识别:
A、人工梳理法:通过人工梳理商品的特征名和特征值(或属性名和属 性值),并形成商品标准化数据,在此基础上进行商品匹配识别;
B、全文搜索法:以ElasticSearch等搜索引擎为中心,通过输入关键字、 配置字符串相似度和简单规则搜索匹配商品;
C、商品归一法:利用监督学习,代替了“人工梳理法”中商品特征的 人工梳理的环节,是“人工梳理法”的升级版。其过程分为数据预处理和商 品归一两部分,如图1所示为商品归一的整体框架。其中,模式集成、缺 失值填充、错误值修复属于数据预处理部分,定义特征相似度、训练分类器、 聚类则属于商品归一部分。各部分的特点如下:
a)模式集成。把所有商品的属性都纳入到统一的模式下,其主要原理是 通过字符串相似度把本质上相同的特征值先进行合并,再把本质上相同的特 征名合并。这里涉及到相似度的阈值,即字符串相似度不低于指定阈值则认 为是相同的,阈值通过随机挑选部分商品的特征进行人工标记再训练后得 到:
Figure BDA0003297602010000021
Figure BDA0003297602010000022
上面公式中,δ和θ分别为特征名和特征值的相似度阈值。
b)缺失值填充。特征中有两类缺失:特征值缺失和模式缺失,即商品中 缺失一个或多个本该存在的特征名及其值。缺失值填充算法伪代码如下:
Figure BDA0003297602010000023
c)错误值修复。又分为错误值检测、正确值确认。其中,错误值检测的 伪代码如下:
Figure BDA0003297602010000031
经过缺失值填充和错误值检测后会存在冲突属性,需要执行正确值确 认,可以选择下面两个策略中的任一个:
(1)
Figure BDA0003297602010000032
C2)
Figure BDA0003297602010000033
d)定义特征相似度(特征选择)。若两个商品在某个属性上的取值分别 为v1和v2,则他们在该特征上的相似度定义如下:
Figure BDA0003297602010000034
除了商品特征表外,商品名称(标题)和价格也是商品特征的补充。
e)商品名称的相似度计算。需先进行分词,去除停用词,再利用TF-IDF 计算词权重,最后利用Jaccord计算带权重的相似度,公式如下:
Figure BDA0003297602010000035
价格相似度计算公式如下:
Figure BDA0003297602010000036
f)训练分类器。要训练分类器须先对数据进行人工标注。多分类器中所 需要训练的参数个数远远大于二分类器,若使用多分类器,训练数据集就必 须覆盖所有的类别,由于商品种类繁多,数量巨大,不可能对所有商品进行 人工标注。而二分类器不需要训练集覆盖所有的实体,因此选择二分类器。 在二分类器中,设定C0为匹配,C1为不匹配。C0类的后验概率可以利用一个 关于特征向量的带权重和线性的sigmoid函数来建模:
Figure BDA0003297602010000041
在P(C0|s)中,w=[w0,w],其中w0是偏置、W是特征向量的权重,s=[1, s]。P(C1|S)=1-P(C0|s)的作用是:如果两个商品的特征越相似,它们在所有 特征上相似度等于1或者接近1的值就越多,因此特征相似度的带权和(wTs) 就越大,通过sigmoid函数得到的估计概率就越接近于1,反之亦然。利用 训练数据集通过极大似然估计可以对w以及偏置w0进行训练。训练完毕后 w中的第k个值反映了第k个特征在区分商品时的重要程度:w0越大,说明第k个特征的重要性越高,则分类器将k特征上不同的商品进行匹配的 可能性就越低。
g)聚类。用两两商品之间匹配的概率生成商品的相似度矩阵,然后对相 似度矩阵聚类来实现划分。使用聚类进行划分时不但考虑两两商品之间的相 似度,还会考虑到邻域信息,这样会得到更好的结果。聚类算法(如k-means 或HAC)来对商品进行划分。
上述现有技术的缺点及其原因分析:
(A)人工梳理法。人工梳理需要熟悉不同种类的不同商品,且商品种 类繁多,动辄过千万。因此,这种方法注定劳民伤财,效率极其低下,是不 可持续的一种方法。
(B)全文搜索法。这种方法依赖于搜索引擎,需导入指定的词库、字 典,还需进行规则和相似度阈值配置,所能干预的空间有限,且匹配不精准, 仅作为参考。
(C)商品归一法。该方法通过机器学习技术实现一定程度的自动化, 且具有灵活性。但商品的“缺失值填充”、“错误值修复”等环节不仅计算 量巨大,计算效率低下,且依然不能保证较高的准确率,更何况没有交叉验 证机制。
发明内容
本发明要解决的技术问题,在于提供一种采购系统的商品比价方法、装 置、设备和介质,先通过对采购系统中的所有商品进行识别分类,并配以相 应的类别码,当用户打开某一商品页面时,再汇总同一类别的所有商品进行 价格排序显示。其中商品的识别分类是通过两种各自独立匹配算法分别对商 品进行相似度匹配,之后再通过交叉验证工具进行交叉验证,并根据验证结 果再调整匹配算法的参数,经过检验、核查、调整参数、计算多次循环计算, 从而使匹配算法结果更精准,直到得到满意的商品匹配和识别效果。
第一方面,本发明提供了一种采购系统的商品比价方法,当用户打开任 一商品的销售展示页面时,获取该商品的类别码,将采购系统中具有相同类 别码的商品进行汇总,并按价格的升序或降序排列;
其中,所述类别码是通过商品匹配过程得到,所述商品匹配过程包括:
S1、对采购系统中的商品数据进行治理;
S2、分别利用第一匹配算法和第二匹配算法对商品的相似度进行匹配, 得到第一匹配结果和第二匹配结果;
S3、对所述第一匹配结果和所述第二匹配结果进行交叉验证,提取匹配 差别较大的部分,根据人工检测结果判别所述第一匹配算法和所述第二匹配 算法中哪种算法更准确;
S4、当所述第一匹配算法更为准确时,则调整所述第二匹配算法中的参 数,或当所述第二匹配算法更为准确时,则调整所述第一匹配算法中的参数, 回到步骤S2,直到所述第一匹配算法和所述第二匹配算法都达到预期准确 度;
S5、根据达到预期准确度的所述第一匹配结果或所述第二匹配结果,将 所有匹配相同的商品配上相同的类别码。
第二方面,本发明提供了一种采购系统的商品比价装置,包括:比价模 块,用于当用户打开任一商品的销售展示页面时,获取该商品的类别码,将 采购系统中具有相同类别码的商品进行汇总,并按价格的升序或降序排列;
匹配模块,用于对采购系统中的商品进行匹配与识别,并配以类别码, 进一步包括:
数据治理模块,用于对采购系统中的商品数据进行治理;
第一匹配模块,利用第一匹配算法对商品的相似度进行匹配,得到 第一匹配结果;
第二匹配模块,利用第二匹配算法对商品的相似度进行匹配,得到 第二匹配结果;
交叉验证模块,对所述第一匹配结果和所述第二匹配结果进行交叉 验证,提取匹配差别较大的部分,根据人工检测结果判别所述第一匹配 算法和所述第二匹配算法中哪种算法更准确;
调整模块,当所述第一匹配算法更为准确时,则调整所述第二匹配 算法中的参数,或当所述第二匹配算法更为准确时,则调整所述第一匹 配算法中的参数,直到所述第一匹配算法和所述第二匹配算法都达到预 期准确度;
打码模块,根据达到预期准确度的所述第一匹配结果或所述第二匹 配结果,将所有匹配相同的商品配上相同的类别码。
第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在 存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实 现第一方面所述的方法。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机 程序,该程序被处理器执行时实现第一方面所述的方法。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或 优点:本发明商品比价方法是先利用商品匹配过程将商品分类,得到分类码, 相同分类码的商品即可参与比价时,其中商品匹配过程是通过两种各自独立 匹配算法分别对商品进行相似度匹配,之后再通过交叉验证工具进行交叉验 证,并根据验证结果再调整匹配算法的参数,经过检验、核查、调整参数、 计算多次循环计算,从而使匹配算法结果更精准,直到得到满意的商品匹配 和识别效果。实验证明初次识别率约为83%,持续计算后识别率约为95%。一方面大幅缩短了人工梳理的时间、提高了效率、并极大降低了成本;当第 一匹配算法和第二匹配算法都达到预期准确度时,还可将核验结果进行固 化;另一方面更具有普适性,针对不同的商品数据集均可使用,可大大降低 人工重复性工作,极大促进企业采购效率解决多次搜索、比价等采购决策, 例如单一物品采购时间由原来的2小时将为10分钟左右。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它 目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明实施例一中方法中的流程图;
图2为本发明实施例的商品匹配过程的流程图;
图3为本发明实施例的商品匹配过程的详细流程图;
图4为本发明实施例二中装置的结构示意图;
图5为本发明实施例三中电子设备的结构示意图;
图6为本发明实施例四中介质的结构示意图。
具体实施方式
本申请实施例通过提供一种采购系统的商品比价方法、装置、设备和介 质,先通过对采购系统中的所有商品进行识别分类,并配以相应的类别码, 当用户打开某一商品页面时,再汇总同一类别的所有商品进行价格排序显 示。
本申请实施例中的技术方案,总体思路如下:本发明当用户打开任一商 品的销售展示页面时,获取该商品的类别码,将采购系统中具有相同类别码 的商品进行汇总,并按价格的升序或降序排列;其中,类别码是通过商品匹 配过程得到,商品匹配过程是通过两种各自独立相似度匹配算法分别对商品 进行相似度匹配,之后再通过交叉验证工具进行交叉验证,并根据验证结果 再调整匹配算法的参数,经过检验、核查、调整参数、可多次循环计算,从 而使匹配算法结果更精准,直到得到满意的商品匹配和识别效果,而且由于 匹配算法为基于多模态和语义相似度的算法,大幅缩短了人工梳理的时间、 提高了效率、并极大降低了成本,还可将核验结果进行固化。
实施例一
如图1所示,本实施例提供一种采购系统的商品比价方法,当用户打开 任一商品的销售展示页面时,获取该商品的类别码,将采购系统中具有相同 类别码的商品进行汇总,并按价格的升序或降序排列;
其中,所述类别码是通过商品匹配过程得到,如图2所示,所述商品匹 配过程包括:
S1、对采购系统中的商品数据进行治理;
S2、分别利用第一匹配算法和第二匹配算法对商品的相似度进行匹配, 得到第一匹配结果和第二匹配结果;
S3、对所述第一匹配结果和所述第二匹配结果进行交叉验证,提取匹配 差别较大的部分,根据人工检测结果判别所述第一匹配算法和所述第二匹配 算法中哪种算法更准确;
S4、当所述第一匹配算法更为准确时,则调整所述第二匹配算法中的参 数,或当所述第二匹配算法更为准确时,则调整所述第一匹配算法中的参数, 回到步骤S2,直到所述第一匹配算法和所述第二匹配算法都达到预期准确 度;
S5、根据达到预期准确度的所述第一匹配结果或所述第二匹配结果,将 所有匹配相同的商品配上相同的类别码。
其中,作为本实施例的一种更优或更为具体的实现方式,所述步骤S1 包括下述任务:
规范商品的各品牌数据,并建立商品品牌表;
将商品的品名和特征值数据合并为一个字符串;
对合并后的字符串进行分词,并建立商品词汇表以扩展基础词库;
去除停用词,并建立停用词表;
替换近义词,并建立近义词表;如把“CPU”替换成“处理器”;
将字符串中的全角字符与半角字符统一为一种,如把字符串中的全角字 符替换为半角字符;
按规则替换或去除其它词,并建立替换规则表,所述其它词是指商品名 称里面的一些会影响计算结果的分词,替换规则是人工维护的,建立替换规 则表进行相应分词的替换或者去除,这些词往往与商品本身的属性、描述无 关,是为了迎合营销和搜索场景而设置的词,例如“漂亮”、“新款”等;
其中,由于商品词汇非常庞大,通过人工方式维护商品词汇将非常耗时, 本实施例可引入“新词发现”技术,利用FastText算法把海量商品数据作为语 料进行新词发现训练,并找到可能的新词,算法发现的新词需经人工确认方 可成为正式的词汇。“新词发现”技术可在建立扩展词库时使用,因为分词的 词库是基础,需要不定时维护新的词库到扩展词库中,便于分词的时候能准 确的分词。
如图3所示,所述第一匹配算法为基于关键特征加权匹配算法,该算法 基于监督学习,关键特征加权主要有两个重点:提取关键字、权重。通常, 词的权重可以通过TF-IDF计算后换算为权重,本算法的权重除了是关键字 本身的权重,还针对每商品关键字与商品全词的情况建立权重规则,关键字 个数越多权重越大。本算法是以商品的品牌为单位,即按品牌分批执行,每 批获取该品牌下的商品,并遍历每个商品执行相似度进行匹配计算。其中, 利用基于关键特征加权匹配算法对商品的相似度进行匹配具体包括下述步 骤:
S11、关键字抽取:
a)对治理后的商品品名和特征值数据合并后进行分词;在步骤S1中, 其数据治理部分对合并后的字符串进行的是分词,但是并没有提取关键字, 这里的关键字是品名中包含的英文字母和数字的抽取;
b)对所述商品词汇表中的词集合进行过滤和转换,所述过滤是根据所述 停用词表去除停用词,所述转换是根据所述近义词表把近义词统一转换为标 准词;
c)提取经过滤和转换后的词集合longKeys中仅由英文字母和数字组成 的序列存放于规格向量shortKeys中,形成由longKeys和shortKeys两组向 量构成的商品关键字对象;
d)执行附加过滤器(可以是自定义的多个过滤器,通过自定义一些无需 出现在关键字中的词列表,用于过滤掉关键字中的多个词)处理所述商品关 键字对象,得到最终关键字对象;
e)按下述公式计算最终关键字对象中各词的TF-IDF值:
TF-IDF=TF*IDF;
其中,词频TF=某词在所有商品中出现的次数/所有商品的总词数;
逆商品词频IDF=log(语料库的总商品数/(包含该词的商品数+1));
再把TF-IDF值高的词或按配置的规则(这个规则是人为配置的一些规 则,例如使用正则表达式进行匹配longKeys中的词,将匹配的词添加到 shortKeys,例如商品的单位信息,例如:XX个等)得到的词从longKeys 补充到shortKeys;
S12、双余弦相似度计算商品相似性:
a)设定两个相似度比较的商品分别为left和right,计算left和right的shortKeys的包含关系,该包含关系为left包含right、right包含left、相等、 相似或互不包含;
b)计算left和right两个商品品名相似度:shortKeys(关键词相似度*关 键词权重)+longKeys(全词相似度*全词权重),所述关键特征权重Ws 与所述全词特征权重Wl的和为1,在程序会根据实际上进行动态计算调整;
c)用余弦相似度计算left和right两个商品的shortKeys的相似度;
d)用余弦相似度计算left和right两个商品的longKeys的相似度;
e)如商品价格有效,则计算left和right的价格相似度,价差越小越相似;
通过a)至e)5个方面计算left和right两个商品各个维度的相似度值,即 可根据这些相似度值及相应的权重比例进行组合判断,得到left和right两 个商品最终的相似度值。
S13、商品匹配判断,即根据相似度值计算得到的结果,执行如下过程:
使用用户级商品匹配判断器判断left和right是否匹配,当用户级商品 匹配判断都不成立的情况下,使用如下缺省判断规则:
(1)如商品中的词存在于全局关键字集合中,则这些词必须全部匹配, 否则返回“不匹配”;
(2)如商品的shortKeys包含关系为“互不包含”,则返回“不匹配”;
(3)特征权重计算,根据shortKeys的长度动态获取关键特征权重Ws, 该关键特征权重Ws等于所述关键词权重,Ws,该关键特征权重Ws等于所 述关键词权重,采用分级加权策略,即shortKeys向量越长则关键特征权重 Ws越大,其原理与transformers的注意力机制相似,其伪代码如下:
constintminNum=?//最小长度,不小于1;
constdouble step=?//权重增加的步长,大于0;
constdouble minWeight=?//最低权重,不小于0;
constdouble maxWeight=?//最大权重,不大于1;
int lKeySize=length(leftShortKey);
intrKeySize=length(rightShortKey);
IflKeySize==0andrKeySize==0Thenreturn 0.0;
int count=max(lKeySize,rKeySize);
intnum=count–minNum;
double weight=num*step+minWeight;
Ifweight<=minWeight ThenreturnminWeight;
Else Ifweight>=maxWeightThenreturnmaxWeight;
Else returnweight;
其中minWeight通常固定在0.5,maxWeight通常取0.8,step则需要使 用极大似然估计,通常在0.06~0.1之间;
(4)得到shortKeys的关键特征权重Ws后,计算longKeys的全词特 征权重Wl=1–Ws,全词特征权重Wl对应于所述全词权重;
(5)最终商品特征的相似度为:
sim=shortKeys相似度*关键特征权重Ws+longKeys相似度*全词 特征权重Wl;
sim为一个在[0,1]区间的值,越大则越相似;
(6)如价格有效(价格大于0时有效),则还需判断价格相似度,其 公式为:
Figure BDA0003297602010000121
如价格无效(价格为0时无效)则忽略;
(7)当商品特征相似度和价格相似度均大于等于各自的阈值时则判断 为匹配;
S14、匹配结果确认,即在计算出匹配结果后,展示该匹配结果给人工 确认是否正确,并接收人工标准的确认匹配结果;
S15、调整特征参数:
a)利用线性回归进行建模,把人工标准的确认匹配结果作为因变量y, 值为1和0,1表示匹配,0表示不匹配;把“shortKeys相似度*关键特征权 重Ws”作为自变量x,公式为:
y=w*x+b
b)通过拟合找到最佳拟合系数k以反映相似度与真实匹配之间的线性关 系,如果有如下两种情形,说明数据本身质量较差,则检验过程是否正确, 并调整特征权重值或阈值:
第一种,相似度明显低于阈值但是人工标注匹配的;
第二种,相似度明显高于阈值但是人工标注不匹配的。
c)为检验拟合效果,通过欧氏距离作为损失函数进行判断:
Figure BDA0003297602010000122
如果Loss计算的值误差较大,即表示通过线性回归模型计算的相似度 的点与线的距离比较大,相似度的点比较分散,计算相似度的效果不好,则 需要调整特征权重值,并使用极大似然估计方法重新调整特征权重值。
调整特征权重,即上文中的伪代码中的step。极大似然估计就是利用已 知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的 模型参数值。公式P(x∣θ)输入有两个:x表示某一个具体的数据;θ表示模 型的参数。在本发明中,x为确认为匹配的商品相似度,θ为上面伪代码中 的step、minWeight、maxWeight。
如图3所示,所述第二匹配算法为基于语义相似度匹配算法,利用第二 匹配算法对商品的相似度进行匹配具体包括下述步骤:
S21、将分词通过word2vec模型转换为词向量;word2vec模型是自然 语言处理领域的一种算法模型,通过该模型训练后得到模型参数(这里指神 经网络的权重),并将这些参数,作为输入x的某种向量化的表示,即词 向量,使用word2vec模型训练时,应小心调整如下超参数:词向量大小、 最低词频数、迭代次数,它们将影响驯良的效率和正确性;
S22、将所述word2vec模型转换的词向量作为输入的参数,使用局部敏 感哈希(Locality-Sensitive Hashing,LSH)快速近似查找,得到LSH近似查找结 果;LSH主要运用到高维海量数据的快速近似查找,近似查找是比较数据 点之间的距离或者是相似度。
S23、将所述LSH近似查找结果作为输入的参数,计算欧氏距离,欧氏 距离最短的几组商品即为匹配商品。欧氏距离是一个通常采用的距离定义, 指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到 原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 我们输入LSH近似查找的结果,通过欧氏距离计算出两个商品的距离,距 离最短的几组商品即为匹配商品。以下是其n维空间的公式:
Figure BDA0003297602010000131
所述步骤S4交叉验证是通过交叉验证工具自动比对上面两个算法得到 的匹配结果,提取匹配差别较大的部分进行人工检测,以判别哪种算法更准 确,再通过分别调整各自的参数执行两个算法,以取得最近似也是最正确的 匹配结果。
其中,作为本实施例的一种更优或更为具体的实现方式,还包括新商品 上架前的合理价格判断,具体是:
当有新商品上架时,将新商品的数据进行治理,然后跟现有已经具有类 别码的商品进行相似度计算,从而判断新商品是否有同款商品,如果有同款 商品,则根据同款商品的平均价格评估新款商品的价格是否合理,若是,则 允许上架,否则不允许上价;或者是
当有新商品上架时,经人工审核而给出的同款商品合理价,并评估新款 商品的价格是否合理,若是,则允许上架,否则不允许上价。
基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置, 详见实施例二。
实施例二
如图4所示,在本实施例中提供了一种采购系统的商品比价装置,包括:
比价模块,用于当用户打开任一商品的销售展示页面时,获取该商品的 类别码,将采购系统中具有相同类别码的商品进行汇总,并按价格的升序或 降序排列;
匹配模块,用于对采购系统中的商品进行匹配与识别,并配以类别码, 进一步包括:
数据治理模块,用于对采购系统中的商品数据进行治理;
第一匹配模块,利用第一匹配算法对商品的相似度进行匹配,得到 第一匹配结果;
第二匹配模块,利用第二匹配算法对商品的相似度进行匹配,得到 第二匹配结果;
交叉验证模块,对所述第一匹配结果和所述第二匹配结果进行交叉 验证,提取匹配差别较大的部分,根据人工检测结果判别所述第一匹配 算法和所述第二匹配算法中哪种算法更准确;
调整模块,当所述第一匹配算法更为准确时,则调整所述第二匹配 算法中的参数,或当所述第二匹配算法更为准确时,则调整所述第一匹 配算法中的参数,直到所述第一匹配算法和所述第二匹配算法都达到预 期准确度;
打码模块,根据达到预期准确度的所述第一匹配结果或所述第二匹 配结果,将所有匹配相同的商品配上相同的类别码。
其中,作为本实施例的一种更优或更为具体的实现方式,所述数据治理 模块用于完成下述任务:
规范商品的各品牌数据,并建立商品品牌表;
将商品的品名和特征值数据合并为一个字符串;
对合并后的字符串进行分词,并建立商品词汇表以扩展基础词库;
去除停用词,并建立停用词表;
替换近义词,并建立近义词表;如把“CPU”替换成“处理器”;
将字符串中的全角字符与半角字符统一为一种,如把字符串中的全角字 符替换为半角字符;
按规则替换或去除其它词,并建立替换规则表,所述其它词是指商品名 称里面的一些会影响计算结果的分词,替换规则是人工维护的,建立替换规 则表进行相应分词的替换或者去除,这些词往往与商品本身的属性、描述无 关,是为了迎合营销和搜索场景而设置的词,例如“漂亮”、“新款”等;
其中,由于商品词汇非常庞大,通过人工方式维护商品词汇将非常耗时, 本实施例可引入“新词发现”技术,利用FastText算法把海量商品数据作为语 料进行新词发现训练,并找到可能的新词,算法发现的新词需经人工确认方 可成为正式的词汇。
如图3所示,所述第一匹配模块采用的第一匹配算法为基于关键特征加 权匹配算法,该算法基于监督学习,关键特征加权主要有两个重点:提取关 键字、权重。通常,词的权重可以通过TF-IDF计算后换算为权重,本算法 的权重除了是关键字本身的权重,还针对每商品关键字与商品全词的情况建 立权重规则,关键字个数越多权重越大。本算法是以商品的品牌为单位,即 按品牌分批执行,每批获取该品牌下的商品,并遍历每个商品执行相似度进 行匹配计算。其中,利用基于关键特征加权匹配算法对商品的相似度进行匹 配具体包括下述步骤:
S11、关键字抽取:
a)对治理后的商品品名和特征值数据合并后进行分词;
b)对所述商品词汇表中的词集合进行过滤和转换,所述过滤是根据所述 停用词表去除停用词,所述转换是根据所述近义词表把近义词统一转换为标 准词;
c)提取经过滤和转换后的词集合longKeys中仅由英文字母和数字组成 的序列存放于规格向量shortKeys中,形成由longKeys和shortKeys两组向 量构成的商品关键字对象;
d)执行附加过滤器处理所述商品关键字对象,得到最终关键字对象;
e)按下述公式计算最终关键字对象中各词的TF-IDF值:
TF-IDF=TF*IDF;
其中,词频TF=某词在所有商品中出现的次数/所有商品的总词数;
逆商品词频IDF=log(语料库的总商品数/(包含该词的商品数+1));
再把TF-IDF值高的词或按特定规则得到的词从longKeys补充到 shortKeys;
S12、双余弦相似度计算:
a)设定两个相似度比较的商品分别为left和right,计算left和right的shortKeys的包含关系,该包含关系为left包含right、right包含left、相等、 相似或互不包含;
b)shortKeys:(关键词相似度*关键词权重)+longKeys(全词相似度* 全词权重),所述关键特征权重Ws与所述全词特征权重Wl的和为1;
c)用余弦相似度计算left和right两个商品的shortKeys的相似度;
d)用余弦相似度计算left和right两个商品的longKeys的相似度;
e)如商品价格有效,则计算left和right的价格相似度,价差越小越相似;
S13、商品匹配判断,即根据上一步骤计算所得的各个相似度,执行如 下过程:
判断left和right是否匹配(可以使用自定义的判断器进行判断,在处 理特殊商品时,通用的判断器无法进行有效的匹配判断,则可自定义判断器, 根据特殊商品的特征制定专门的规则来进行),当用户级商品匹配判断都不 成立的情况下,使用如下缺省判断规则:
(1)如商品中的词存在于全局关键字集合中,则这些词必须全部匹配, 否则返回“不匹配”;
(2)如商品的shortKeys包含关系为“互不包含”,则返回“不匹配”;
(3)特征权重计算,根据shortKeys的长度动态获取关键特征权重Ws, 该关键特征权重Ws等于所述关键词权重,采用分级加权策略,shortKeys 向量越长则关键特征权重Ws就越大,其原理与transformers的注意力机制 相似,其伪代码如下:
constintminNum=?//最小长度,不小于1;
constdouble step=?//权重增加的步长,大于0;
constdouble minWeight=?//最低权重,不小于0;
constdouble maxWeight=?//最大权重,不大于1;
int lKeySize=length(leftShortKey);
intrKeySize=length(rightShortKey);
IflKeySize==0andrKeySize==0Thenreturn 0.0;
int count=max(lKeySize,rKeySize);
intnum=count–minNum;
double weight=num*step+minWeight;
Ifweight<=minWeight ThenreturnminWeight;
Else Ifweight>=maxWeightThenreturnmaxWeight;
Else returnweight;
其中minWeight通常固定在0.5,maxWeight通常取0.8,step则需要使 用极大似然估计,通常在0.06~0.1之间;
(4)得到shortKeys的权重Ws后,计算longKeys的全词特征权重Wl =1–Ws;
(5)最终商品特征的相似度为:
sim=shortKeys相似度*关键特征权重Ws+longKeys相似度*全词 特征权重Wl;
sim为一个在[0,1]区间的值,越大则越相似;
(6)如价格有效(价格大于0时有效),则还需判断价格相似度,其 公式为:
Figure BDA0003297602010000171
如价格无效(价格为0时无效)则忽略;
(7)当商品特征相似度和价格相似度均大于等于各自的阈值时则判断 为匹配;
S14、匹配结果确认,即在计算出匹配结果后,展示该匹配结果给人工 确认是否正确,并接收人工标准的确认匹配结果;
S15、调整特征参数:
a)利用线性回归进行建模,把人工标准的确认匹配结果作为因变量y, 值为1和0,1表示匹配,0表示不匹配;把“shortKeys相似度*关键特征权 重Ws”作为自变量x,公式为:
y=w*x+b
b)通过拟合找到最佳拟合系数k以反映相似度与真实匹配之间的线性关 系,如果有如下两种情形,说明数据本身质量较差,则检验过程是否正确, 并调整特征权重值或阈值:
第一种,相似度明显低于阈值但是人工标注匹配的;
第二种,相似度明显高于阈值但是人工标注不匹配的。
c)为核验拟合效果,通过欧氏距离作为损失函数进行判断拟合系数b的 值:
Figure BDA0003297602010000181
如果Loss计算的值误差较大,即表示通过线性回归模型计算的相似度 的点与线的距离比较大,相似度的点比较分散,计算相似度的效果不好,则 需要调整特征权重值,并使用极大似然估计方法重新调整特征权重值。
调整特征权重,即上文中的伪代码中的step。并使用极大似然估计,极 大似然估计就是利用已知的样本结果信息,反推最具有可能(最大概率)导 致这些样本结果出现的模型参数值。公式P(x∣θ)输入有两个:x表示某一 个具体的数据;θ表示模型的参数。在本发明中,x为确认为匹配的商品相 似度,θ为上面伪代码中的step、minWeight、maxWeight。
如图3所示,所述第二匹配模块采用的第二匹配算法为基于语义相似度 匹配算法,利用第二匹配算法对商品的相似度进行匹配具体包括下述步骤:
S21、通过word2vec模型转换为词向量;word2vec模型是自然语言处 理领域的一种算法模型,通过该模型训练后得到模型参数(这里指神经网络 的权重),并将这些参数,作为输入x的某种向量化的表示,即词向量, 使用word2vec模型训练时,应小心调整如下超参数:词向量大小、最低词 频数、迭代次数,它们将影响驯良的效率和正确性;
S22、将所述word2vec模型转换的词向量作为输入的参数,使用局部敏 感哈希(Locality-Sensitive Hashing,LSH)快速近似查找,得到LSH近似查找结 果;LSH主要运用到高维海量数据的快速近似查找,近似查找是比较数据 点之间的距离或者是相似度。
S23、将所述LSH近似查找结果作为输入的参数,计算欧氏距离,欧氏 距离最短的几组商品即为匹配商品。欧氏距离是一个通常采用的距离定义, 指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到 原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 我们输入LSH近似查找的结果,通过欧氏距离计算出两个商品的距离,距 离最短的几组商品即为匹配商品。以下是其n维空间的公式:
Figure BDA0003297602010000191
所述交叉验证模块是通过交叉验证工具自动比对上面两个算法得到的 匹配结果,提取匹配差别较大的部分进行人工检测,以判别哪种算法更准确, 再通过分别调整各自的参数执行两个算法,以取得最近似也是最正确的匹配 结果。
其中,作为本实施例的一种更优或更为具体的实现方式,还包括:
新商品上架前的合理价格判断模块,用于当有新商品上架时,将新商品 的数据进行治理,然后跟现有已经具有类别码的商品进行相似度计算,从而 判断新商品是否有同款商品,如果有同款商品,则根据同款商品的平均价格 评估新款商品的价格是否合理,若是,则允许上架,否则不允许上价。
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采 用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了 解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方 法所采用的装置都属于本发明所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的电子设备实施例,详 见实施例三。
实施例三
本实施例提供了一种电子设备,如图5所示,包括存储器、处理器及存 储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序 时,可以实现实施例一中任一实施方式。
由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用 的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能 够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此 对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域 所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲 保护的范围。
基于同一发明构思,本申请提供了实施例一对应的存储介质,详见实施 例四。
实施例四
本实施例提供一种计算机可读存储介质,如图6所示,其上存储有计算 机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:本发 明商品比价方法是先利用商品匹配过程将商品分类,得到分类码,相同分类 码的商品即可参与比价时,其中商品匹配过程是通过两种各自独立匹配算法 分别对商品进行相似度匹配,之后再通过交叉验证工具进行交叉验证,并根 据验证结果再调整匹配算法的参数,经过检验、核查、调整参数、计算多次 循环计算,从而使匹配算法结果更精准,直到得到满意的商品匹配和识别效 果。实验证明初次识别率约为83%,持续计算后识别率约为95%。一方面 大幅缩短了人工梳理的时间、提高了效率、并极大降低了成本;当第一匹配 算法和第二匹配算法都达到预期准确度时,还可将核验结果进行固化;另一 方面更具有普适性,针对不同的商品数据集均可使用,可大大降低人工重复 性工作,极大促进企业采购效率解决多次搜索、比价等采购决策,例如单一 物品采购时间由原来的2小时将为10分钟左右。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或系 统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实 施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个 或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限 于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图 和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌 入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过 计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流 程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的 装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储 器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程 或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现 的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程 图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步 骤。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人 员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发 明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的 修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (10)

1.一种采购系统的商品比价方法,其特征在于:当用户打开任一商品的销售展示页面时,获取该商品的类别码,将采购系统中具有相同类别码的商品进行汇总,并按价格的升序或降序排列;
其中,所述类别码是通过商品匹配过程得到,所述商品匹配过程包括:
S1、对采购系统中的商品数据进行治理;
S2、分别利用第一匹配算法和第二匹配算法对商品的相似度进行匹配,得到第一匹配结果和第二匹配结果;
S3、对所述第一匹配结果和所述第二匹配结果进行交叉验证,提取匹配差别较大的部分,根据人工检测结果判别所述第一匹配算法和所述第二匹配算法中哪种算法更准确;
S4、当所述第一匹配算法更为准确时,则调整所述第二匹配算法中的参数,或当所述第二匹配算法更为准确时,则调整所述第一匹配算法中的参数,回到步骤S2,直到所述第一匹配算法和所述第二匹配算法都达到预期准确度;
S5、根据达到预期准确度的所述第一匹配结果或所述第二匹配结果,将所有匹配相同的商品配上相同的类别码。
2.根据权利要求1所述的一种采购系统的商品比价方法,其特征在于:所述步骤S1包括下述任务:
规范商品的各品牌数据,并建立商品品牌表;
将商品的品名和特征值数据合并为一个字符串;
对合并后的字符串进行分词,并建立商品词汇表以扩展基础词库;
去除停用词,并建立停用词表;
替换近义词,并建立近义词表;
把字符串中的全角字符替换为半角字符;
按规则替换或去除其它词,并建立替换规则表,所述其它词是指商品名称里面的一些会影响计算结果的分词;
其中,利用FastText算法把海量商品数据作为语料进行新词发现训练,并找到可能的新词,再经人工确认后成为正式的词汇。
3.根据权利要求2所述的一种采购系统的商品比价方法,其特征在于:
所述第一匹配算法为基于关键特征加权匹配算法,包括下述步骤:
S11、关键字抽取,即对治理后的商品品名和特征值数据合并后进行分词;对所述商品词汇表中的词集合进行过滤和转换,所述过滤是根据所述停用词表去除停用词,所述转换是根据所述近义词表把近义词统一转换为标准词;提取经过滤和转换后的词集合longKeys中仅由英文字母和数字组成的序列存放于规格向量shortKeys中,形成由longKeys和shortKeys两组向量构成的商品关键字对象;过滤处理所述商品关键字对象,得到最终关键字对象;按下述公式计算最终关键字对象中各词的TF-IDF值:
TF-IDF=TF*IDF;
其中,词频TF=某词在所有商品中出现的次数/所有商品的总词数;
逆商品词频IDF=log(语料库的总商品数/(包含该词的商品数+1));
再把TF-IDF值高的词或按配置的规则得到的词从longKeys补充到shortKeys;
S12、双余弦相似度计算,即设定两个相似度比较的商品分别为left和right,计算left和right的shortKeys的包含关系,该包含关系为left包含right、right包含left、相等、相似或互不包含;
计算商品品名相似度:shortKeys(关键词相似度*关键词权重)+longKeys(全词相似度*全词权重),所述关键特征权重Ws与所述全词特征权重Wl的和为1;
用余弦相似度计算left和right两个商品的shortKeys的相似度;
用余弦相似度计算left和right两个商品的longKeys的相似度;
如商品价格有效,则计算left和right的价格相似度,价差越小越相似;
S13、商品匹配判断,即根据上一步骤计算所得的各个相似度,判断商品left和商品right是否匹配,若判断为不匹配,使用如下缺省判断规则:
(1)如商品中的词存在于全局关键字集合中,则这些词必须全部匹配,否则返回“不匹配”;
(2)如商品的shortKeys包含关系为“互不包含”,则返回“不匹配”;
(3)特征权重计算,根据shortKeys的长度动态获取关键特征权重Ws,该关键特征权重Ws等于所述关键词权重,Ws,该关键特征权重Ws等于所述关键词权重,采用分级加权策略,即shortKeys向量越长则关键特征权重Ws就越大;
(4)得到shortKeys关键特征权重Ws后,计算longKeys的全词特征权重Wl=1–Ws;
(5)最终商品特征的相似度为:
sim=shortKeys相似度*Ws+longKeys相似度*Wl;
sim为一个在[0,1]区间的值,越大则越相似;
(6)如价格有效(价格大于0时有效),则还需判断价格相似度,其公式为:
Figure FDA0003297599000000031
如价格无效(价格为0时无效)则忽略;
(7)当商品特征相似度和价格相似度均大于等于各自的阈值时则判断为匹配;
S14、匹配结果确认,即在计算出匹配结果后,展示该匹配结果给人工确认是否正确,并接收人工标准的确认匹配结果;
S15、调整特征参数,利用线性回归进行建模,把人工标准的确认匹配结果作为因变量y,值为1和0;把“shortKeys相似度*关键特征权重Ws”作为自变量x,b是线性回归中的值,公式为:
y=w*x+b
通过拟合找到最佳拟合系数b以反映相似度与真实匹配之间的线性关系,如果有如下两种情形,则检验过程是否正确,并调整特征权重值或阈值:
第一种,相似度明显低于阈值但是人工标注匹配的;
第二种,相似度明显高于阈值但是人工标注不匹配的;
为核验拟合效果,通过欧氏距离作为损失函数进行判断拟合系数b的值:
Figure FDA0003297599000000041
如果Loss计算的值误差较大,则使用极大似然估计方法重新调整特征权重值;
所述第二匹配算法为基于语义相似度匹配算法,包括下述步骤:
S21、通过word2vec模型转换为词向量;
S22、将所述word2vec模型转换的词向量作为输入的参数,使用局部敏感哈希快速近似查找,得到LSH近似查找结果;
S23、将所述LSH近似查找结果作为输入的参数,计算欧氏距离,欧氏距离最短的几组商品即为匹配商品。
4.根据权利要求1所述的一种采购系统的商品比价方法,其特征在于:还包括新商品上架前的合理价格判断,具体是:
当有新商品上架时,将新商品的数据进行治理,然后跟现有已经具有类别码的商品进行相似度计算,从而判断新商品是否有同款商品,如果有同款商品,则根据同款商品的平均价格评估新款商品的价格是否合理,若是,则允许上架,否则不允许上价;或者是
当有新商品上架时,经人工审核而给出的同款商品合理价,并评估新款商品的价格是否合理,若是,则允许上架,否则不允许上价。
5.一种采购系统的商品比价装置,其特征在于:包括:
比价模块,用于当用户打开任一商品的销售展示页面时,获取该商品的类别码,将采购系统中具有相同类别码的商品进行汇总,并按价格的升序或降序排列;
匹配模块,用于对采购系统中的商品进行匹配与识别,并配以类别码,进一步包括:
数据治理模块,用于对采购系统中的商品数据进行治理;
第一匹配模块,利用第一匹配算法对商品的相似度进行匹配,得到
第一匹配结果;
第二匹配模块,利用第二匹配算法对商品的相似度进行匹配,得到第二匹配结果;
交叉验证模块,对所述第一匹配结果和所述第二匹配结果进行交叉验证,提取匹配差别较大的部分,根据人工检测结果判别所述第一匹配算法和所述第二匹配算法中哪种算法更准确;
调整模块,当所述第一匹配算法更为准确时,则调整所述第二匹配算法中的参数,或当所述第二匹配算法更为准确时,则调整所述第一匹配算法中的参数,直到所述第一匹配算法和所述第二匹配算法都达到预期准确度;
打码模块,根据达到预期准确度的所述第一匹配结果或所述第二匹配结果,将所有匹配相同的商品配上相同的类别码。
6.根据权利要求5所述的一种采购系统的商品比价装置,其特征在于:所述数据治理模块用于完成下述任务:
规范商品的各品牌数据,并建立商品品牌表;
将商品的品名和特征值数据合并为一个字符串;
对合并后的字符串进行分词,并建立商品词汇表以扩展基础词库;
去除停用词,并建立停用词表;
替换近义词,并建立近义词表;
把字符串中的全角字符替换为半角字符;
按规则替换或去除其它词,并建立替换规则表,所述其它词是指商品名称里面的一些会影响计算结果的分词;
其中,利用FastText算法把海量商品数据作为语料进行新词发现训练,并找到可能的新词,算法发现的新词需经人工确认方可成为正式的词汇。
7.根据权利要求5所述的一种采购系统的商品比价装置,其特征在于:所述第一匹配算法为基于关键特征加权匹配算法,所述第一匹配模块用于执行下述步骤:
S11、关键字抽取,即对治理后的商品品名和特征值数据合并后进行分词;对所述商品词汇表中的词集合进行过滤和转换,所述过滤是根据所述停用词表去除停用词,所述转换是根据所述近义词表把近义词统一转换为标准词;提取经过滤和转换后的词集合longKeys中仅由英文字母和数字组成的序列存放于规格向量shortKeys中,形成由longKeys和shortKeys两组向量构成的商品关键字对象;执行附加过滤器处理所述商品关键字对象,得到最终关键字对象;按下述公式计算最终关键字对象中各词的TF-IDF值:
TF-IDF=TF*IDF;
其中,词频TF=某词在所有商品中出现的次数/所有商品的总词数;
逆商品词频IDF=log(语料库的总商品数/(包含该词的商品数+1));
再把TF-IDF值高的词或按特定规则得到的词从longKeys补充到shortKeys;
S12、双余弦相似度计算,即设定两个相似度比较的商品分别为left和right,计算left和right的shortKeys的包含关系,该包含关系为left包含right、right包含left、相等、相似或互不包含;
shortKeys:(关键词相似度*关键词权重)+longKeys(全词相似度*全词权重),所述关键特征权重Ws与所述全词特征权重Wl的和为1;
用余弦相似度计算left和right两个商品的shortKeys的相似度;
用余弦相似度计算left和right两个商品的longKeys的相似度;
如商品价格有效,则计算left和right的价格相似度,价差越小越相似;
S13、商品匹配判断,即根据上一步骤计算所得的各个相似度,使用用户级商品匹配判断器判断left和right是否匹配,若判断为不匹配,使用如下缺省判断规则:
(1)如商品中的词存在于全局关键字集合中,则这些词必须全部匹配,否则返回“不匹配”;
(2)如商品的shortKeys包含关系为“互不包含”,则返回“不匹配”;
(3)特征权重计算,根据shortKeys的长度动态获取关键特征权重Ws,该关键特征权重Ws等于所述关键词权重,采用分级加权策略,shortKeys向量越长则关键特征权重Ws就越大;
(4)得到shortKeys关键特征权重Ws后,计算longKeys的全词特征权重Wl=1–Ws;
(5)最终商品特征的相似度为:
sim=shortKeys相似度*Ws+longKeys相似度*Wl;
sim为一个在[0,1]区间的值,越大则越相似;
(6)如价格有效(价格大于0时有效),则还需判断价格相似度,其公式为:
Figure FDA0003297599000000071
如价格无效(价格为0时无效)则忽略;
(7)当商品特征相似度和价格相似度均大于等于各自的阈值时则判断为匹配;
S14、匹配结果确认,即在计算出匹配结果后,展示该匹配结果给人工确认是否正确,并接收人工标准的确认匹配结果;
S15、调整特征参数,利用线性回归进行建模,把人工标准的确认匹配结果作为因变量y,值为1和0;把“shortKeys相似度*关键特征权重Ws”作为自变量x,公式为:
y=w*x+b
通过拟合找到最佳拟合系数k以反映相似度与真实匹配之间的线性关系,如果有如下两种情形,说明数据本身质量较差,则检验过程是否正确,并调整特征权重值或阈值:
第一种,相似度明显低于阈值但是人工标注匹配的;
第二种,相似度明显高于阈值但是人工标注不匹配的;
为核验拟合效果,通过欧氏距离作为损失函数进行判断拟合系数b的值:
Figure FDA0003297599000000072
如果Loss计算的值误差较大,则使用极大似然估计方法重新调整特征权重值;
所述第二匹配算法为基于语义相似度匹配算法,所述第一匹配模块用于执行下述步骤:
S21、通过word2vec模型转换为词向量;
S22、将所述word2vec模型转换的词向量作为输入的参数,使用局部敏感哈希快速近似查找,得到LSH近似查找结果;
S23、将所述LSH近似查找结果作为输入的参数,计算欧氏距离,欧氏距离最短的几组商品即为匹配商品。
8.根据权利要求5所述的一种采购系统的商品比价装置,其特征在于:还包括:
新商品上架前的合理价格判断模块,用于当有新商品上架时,将新商品的数据进行治理,然后跟现有已经具有类别码的商品进行相似度计算,从而判断新商品是否有同款商品,如果有同款商品,则根据同款商品的平均价格评估新款商品的价格是否合理,若是,则允许上架,否则不允许上价。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4任一项所述的方法。
CN202111181875.2A 2021-10-11 2021-10-11 一种采购系统的商品比价方法、装置、设备和介质 Active CN114049165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111181875.2A CN114049165B (zh) 2021-10-11 2021-10-11 一种采购系统的商品比价方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111181875.2A CN114049165B (zh) 2021-10-11 2021-10-11 一种采购系统的商品比价方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN114049165A true CN114049165A (zh) 2022-02-15
CN114049165B CN114049165B (zh) 2022-08-09

Family

ID=80205260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111181875.2A Active CN114049165B (zh) 2021-10-11 2021-10-11 一种采购系统的商品比价方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN114049165B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757189A (zh) * 2023-08-11 2023-09-15 四川互慧软件有限公司 一种基于汉字特征的患者姓名消歧方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058737A (ja) * 2001-08-21 2003-02-28 Nec Eng Ltd インターネットを利用した商品販売システム
JP2007058820A (ja) * 2005-08-26 2007-03-08 Hiroshi Sato 携帯型情報処理装置、ネットワーク上の情報処理装置、並びにシステム、及びマーケティング方法。
CN104008198A (zh) * 2014-06-16 2014-08-27 陈桂芳 一种套餐比价的实现方法
US20150332298A1 (en) * 2014-05-13 2015-11-19 International Business Machines Corporation Price matching in omni-channel retailing
US20200211111A1 (en) * 2019-01-02 2020-07-02 Chicago Mercantile Exchange Inc. Spread price scaling for implied trade matching

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058737A (ja) * 2001-08-21 2003-02-28 Nec Eng Ltd インターネットを利用した商品販売システム
JP2007058820A (ja) * 2005-08-26 2007-03-08 Hiroshi Sato 携帯型情報処理装置、ネットワーク上の情報処理装置、並びにシステム、及びマーケティング方法。
US20150332298A1 (en) * 2014-05-13 2015-11-19 International Business Machines Corporation Price matching in omni-channel retailing
CN104008198A (zh) * 2014-06-16 2014-08-27 陈桂芳 一种套餐比价的实现方法
US20200211111A1 (en) * 2019-01-02 2020-07-02 Chicago Mercantile Exchange Inc. Spread price scaling for implied trade matching

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张志宏等: "基于关联分析的多目标商品组合选择方法", 《系统工程学报》 *
蒋忠中等: "电子中介中具有数量折扣的多属性商品交易匹配问题研究", 《中国管理科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757189A (zh) * 2023-08-11 2023-09-15 四川互慧软件有限公司 一种基于汉字特征的患者姓名消歧方法
CN116757189B (zh) * 2023-08-11 2023-10-31 四川互慧软件有限公司 一种基于汉字特征的患者姓名消歧方法

Also Published As

Publication number Publication date
CN114049165B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN111914558B (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
Cerda et al. Encoding high-cardinality string categorical variables
US20200279105A1 (en) Deep learning engine and methods for content and context aware data classification
US10089581B2 (en) Data driven classification and data quality checking system
WO2018194812A1 (en) Hybrid approach to approximate string matching using machine learning
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
US10853697B2 (en) System and method for monitoring online retail platform using artificial intelligence and fixing malfunction
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN114049505B (zh) 一种商品的匹配与识别方法、装置、设备和介质
US10083403B2 (en) Data driven classification and data quality checking method
Reyes-Galaviz et al. A supervised gradient-based learning algorithm for optimized entity resolution
CN113435202A (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
Deng et al. Semi-supervised learning based fake review detection
US11537918B2 (en) Systems and methods for document similarity matching
Ekbal et al. A deep learning architecture for protein-protein interaction article identification
Jayady et al. Theme Identification using Machine Learning Techniques
CN114049165B (zh) 一种采购系统的商品比价方法、装置、设备和介质
CN112100202B (zh) 一种产品识别及产品信息补全方法、存储介质及机器人
Luaces et al. Mapping preferences into euclidean space
CN115329207B (zh) 智能销售信息推荐方法及系统
CN107609921A (zh) 一种数据处理方法及服务器
TWI665566B (zh) 產品分類系統與方法
RU2546555C1 (ru) Способ автоматической классификации формализованных документов в системе электронного документооборота
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
Mittal et al. A performance comparisons of machine learning classification techniques for job titles using job descriptions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant