CN111651512A - 基于半监督学习的多源异构商品特征权重求解方法和装置 - Google Patents
基于半监督学习的多源异构商品特征权重求解方法和装置 Download PDFInfo
- Publication number
- CN111651512A CN111651512A CN202010464383.3A CN202010464383A CN111651512A CN 111651512 A CN111651512 A CN 111651512A CN 202010464383 A CN202010464383 A CN 202010464383A CN 111651512 A CN111651512 A CN 111651512A
- Authority
- CN
- China
- Prior art keywords
- commodity
- training set
- weight
- solving
- commodities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0629—Directed, with specific intent or strategy for generating comparisons
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于半监督学习的多源异构商品特征权重求解方法,包括如下步骤:采集网络平台公布的商品数据,将采集到的商品数据放入商品全集中,所述商品数据包括商品特征和商品特征值;工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中;对所述训练集中的商品,求解不同商品特征对应的权重;根据所述训练集中不同商品特征对应的权重,在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充;求解未知权重,根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解剩余未知权重的商品特征。
Description
技术领域
本发明涉及自然语言处理、数据实体识别及电子商务信息处理领域,特别是一种基于半监督学习的多源异构商品特征权重求解方法和装置。
背景技术
从多源异构的电子商务数据中自动识别出描述同一商品实体的所有网页,是进行数据集成和数据分析的基础。但是多源异构的电子商务数据具有数量巨大的商品种类、千差万别的模态、参差不齐的数据质量、杂乱多样的网站结构等特点,且缺乏统一的模式定义规范和理论模型,极大影响了电子商务大数据的分析和应用。
用户在电子商务购物平台进行挑选、比较和消费的过程中,首先需要了解某个商品的详细信息,如图书的出版社、作者、价格、版次,手机的品牌、型号、规格,化妆品的功效、使用方法,玩具的重量、材质、适合年龄等细节情况,然而,不同平台同一商品的描述数据值存在着差异,使得用户难以在商品同一属性的不同描述值中发现最接近事实的值,因而严重影响了用户的商品决策。
而要解决商品同一性问题,首先要解决商品特征权重的求解问题。
目前多是通过人工经验进行赋值,具有强烈的主观倾向性,且存在个体间的经验偏差,会造成极大的非系统误差。且当多源异构环境下数据量极大,人工赋值的方式对人力成本要求极高,且效率低下,耗时漫长。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种基于半监督学习的多源异构商品特征权重求解方法,通过机器学习与数学领域中梯度下降、线性回归、条件松弛等方式,对多源异构商品信息的特征权重给出了严谨有序的求解方法,减少了非系统误差。
本发明的技术方案如下:
技术方案一
基于半监督学习的多源异构商品特征权重求解方法,包括如下步骤:
采集数据,采集网络平台公布的商品数据,将采集到的商品数据放入商品全集中,所述商品数据包括商品特征和商品特征值;
预处理,工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中;
求解权重,对所述训练集中已标注同一性的商品数据,依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重;
扩充训练集,根据所述训练集中不同商品特征对应的权重,在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充;
求解未知权重,根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征。
进一步的,所述工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中的方法具体为:
在所述商品全集范围内随机抽取μ个商品数据放入训练集;
设定一个初始为空的商品等价集合;
遍历所有抽取出的商品数据,对每个商品与已有的商品等价值集合进行比较,若工作人员判断一商品与某一商品等价集合中的某个商品满足同一性,则将该商品合并至这个商品等价集合中;若一商品找不到可放入的商品等价集合,则将该商品单独作为一个商品等价集合,最终实现训练集中所有商品的等价合并,完成同一性标注。
进一步的,所述依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重的方法具体步骤如下:
构造用于计算商品特征值之间相似度的商品特征值相似度函数;
构造通过商品共有特征、商品特征值之间的相似度和不同商品特征对应的权重计算商品之间相似度的商品相似度函数,并设定同一性判定阈值ε1和ε2,ε1和ε2满足0<ε2<ε1<1,若通过商品相似度函数计算出两商品相似度大于ε1,判定两商品为同一商品,若小于ε2,则判定为不同商品,否则,认为无法确定;
转化为最优化问题,构造含有罚函数的最小化目标损失函数,对罚函数的参数以及待求解的不同商品特征对应的权重赋予初始值;
利用梯度下降法对待求解的不同商品特征对应的权重进行优化,直到所述待求解的不同商品特征对应的权重在连续的时域内的值不再发生明显变化。
进一步的,所述在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充的方法具体为:
在商品全集范围内进行条件松弛,若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≥ε1,且两商品共有的未知权重的商品特征值的相似度均≥ε1,则判定两商品为同一商品;若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≤ε2,且两商品共有的未知权重的商品特征值的相似度均≤ε2,则判定两商品非同一商品;
在商品全集范围内进行同一性传递,若商品C1和商品C2为同一商品,且商品C2和商品C3为同一商品,则判定商品C1和商品C3为同一商品;
将全集范围内经过条件松弛和同一性传递后判定与训练集中商品为同一商品的商品补充至训练集中,再求取新加入训练集中的商品的商品特征权重;
循环上述步骤直到训练集无法扩充。
进一步的,所述根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征的方法具体为:
找出与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有q个已知权重的商品特征{k1,k2,……,kq};
统计上述与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征各自出现的次数γ、各自的值域大小δ、两两间共同出现的次数ζ;
对于与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征对ki与kj建立线性回归模型并求解目标参数:
待求解的目标参数为a1,a2,a3,a4,a5;
根据线性回归模型求解的目标参数预测所述未知权重商品特征k'的权重ω':
转到扩充训练集步骤继续推广扩充训练集,直到商品全集中所有的商品之间皆可判断同一性,或每一个未知权重的商品特征和已知权重的商品特征共同出现的次数超过阈值ρ的数量少于σ个,停止迭代过程。
技术方案二
基于半监督学习的多源异构商品特征权重求解装置,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如下步骤:
采集数据,采集网络平台公布的商品数据,将采集到的商品数据放入商品全集中,所述商品数据包括商品特征和商品特征值;
预处理,工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中;
求解权重,对所述训练集中已标注同一性的商品数据,依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重;
扩充训练集,根据所述训练集中不同商品特征对应的权重,在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充;
求解未知权重,根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征。
进一步的,所述工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中的方法具体为:
在所述商品全集范围内随机抽取μ个商品数据放入训练集;
设定一个初始为空的商品等价集合;
遍历所有抽取出的商品数据,对每个商品与已有的商品等价值集合进行比较,若工作人员判断一商品与某一商品等价集合中的某个商品满足同一性,则将该商品合并至这个商品等价集合中;若一商品找不到可放入的商品等价集合,则将该商品单独作为一个商品等价集合,最终实现训练集中所有商品的等价合并,完成同一性标注。
进一步的,所述依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重的方法具体步骤如下:
构造用于计算商品特征值之间相似度的商品特征值相似度函数;
构造通过商品共有特征、商品特征值之间的相似度和不同商品特征对应的权重计算商品之间相似度的商品相似度函数,并设定同一性判定阈值ε1和ε2,ε1和ε2满足0<ε2<ε1<1,若通过商品相似度函数计算出两商品相似度大于ε1,判定两商品为同一商品,若小于ε2,则判定为不同商品,否则,认为无法确定;
转化为最优化问题,构造含有罚函数的最小化目标损失函数,对罚函数的参数以及待求解的不同商品特征对应的权重赋予初始值;
利用梯度下降法对待求解的不同商品特征对应的权重进行优化,直到所述待求解的不同商品特征对应的权重在连续的时域内的值不再发生明显变化。
进一步的,所述在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充的方法具体为:
在商品全集范围内进行条件松弛,若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≥ε1,且两商品共有的未知权重的商品特征值的相似度均≥ε1,则判定两商品为同一商品;若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≤ε2,且两商品共有的未知权重的商品特征值的相似度均≤ε2,则判定两商品非同一商品;
在商品全集范围内进行同一性传递,若商品C1和商品C2为同一商品,且商品C2和商品C3为同一商品,则判定商品C1和商品C3为同一商品;
将全集范围内经过条件松弛和同一性传递后判定与训练集中商品为同一商品的商品补充至训练集中,再求取新加入训练集中的商品的商品特征权重;
循环上述步骤直到训练集无法扩充。
进一步的,所述根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征的方法具体为:
找出与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有q个已知权重的商品特征{k1,k2,……,kq};
统计上述与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征各自出现的次数γ、各自的值域大小δ、两两间共同出现的次数ζ;
对于与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征对ki与kj建立线性回归模型并求解目标参数:
待求解的目标参数为a1,a2,a3,a4,a5;
根据线性回归模型求解的目标参数预测所述未知权重商品特征k'的权重ω':
转到扩充训练集步骤继续推广扩充训练集,直到商品全集中所有的商品之间皆可判断同一性,或每一个未知权重的商品特征和已知权重的商品特征共同出现的次数超过阈值ρ的数量少于σ个,停止迭代过程。
本发明具有如下有益效果:
1、本发明基于半监督学习的多源异构商品特征权重求解方法,针对目前人工经验赋值具有强烈的主观倾向性问题,通过人工监督标注部分商品一致性,再通过机器学习进行训练求解其他商品一致性,解决多源异构环境下人工赋值方式效率低耗时长的问题;
2、本发明基于半监督学习的多源异构商品特征权重求解方法,通过机器学习与数学领域中梯度下降、线性回归、条件松弛等方式,对多源异构商品信息的特征权重给出了严谨有序的求解方法,减少了非系统误差。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
参见图1,基于半监督学习的多源异构商品特征权重求解方法,包括如下步骤:
采集数据,采集网络平台公布的商品数据,将采集到的商品数据放入商品全集中,所述商品数据包括商品特征和商品特征值;
预处理,工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中;在预处理过程中,可以人为的根据经验对部分商品特征先赋予权重;
求解权重,对所述训练集中已标注同一性的商品数据,依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重;
扩充训练集,根据所述训练集中不同商品特征对应的权重,在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充;
求解未知权重,根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征。
本实施例针对目前人工经验赋值具有强烈的主观倾向性问题,通过人工监督标注部分商品一致性,再通过机器学习进行训练求解其他商品一致性,解决多源异构环境下人工赋值方式效率低耗时长的问题。
实施例二
进一步的,所述工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中的方法具体为:
在所述商品全集范围内随机抽取μ个商品数据放入训练集;
设定一个初始为空的商品等价集合;
遍历所有抽取出的商品数据,对每个商品与已有的商品等价值集合进行比较,若工作人员判断一商品与某一商品等价集合中的某个商品满足同一性,则将该商品合并至这个商品等价集合中;若一商品找不到可放入的商品等价集合,则将该商品单独作为一个商品等价集合,最终实现训练集中所有商品的等价合并,完成同一性标注。
进一步的,所述依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重的方法具体步骤如下:
构造用于计算商品特征值之间相似度的商品特征值相似度函数;
对于数值型的商品特征值,可构造如下相似度:
对于非数值型的商品特征值,可采用编辑距离Levenshtein度量文本相似度,构造如下:
以上商品特征值相似度函数仅为本实施例的一种实施方案,也可以构造的更复杂;
构造通过商品共有特征、商品特征值之间的相似度和不同商品特征对应的权重计算商品之间相似度的商品相似度函数,并设定同一性判定阈值ε1和ε2,ε1和ε2满足0<ε2<ε1<1,若通过商品相似度函数计算出两商品相似度大于ε1,判定两商品为同一商品,若小于ε2,则判定为不同商品,否则,认为无法确定;商品相似度函数如下:
该函数仅为本实施例的一种实施方案,也可以构造的更复杂,其中,C1和C2为商品C1和商品C2,n为商品C1和C2之间的共有特征数量,SimV(v1i,v2i)由商品特征值相似度函数得出,ωi为商品特征对应的权重。
转化为最优化问题,构造含有罚函数的最小化目标损失函数LOSS;
其中,Ei表示训练集中标注出的等价商品集,x和y表示等价商品集中的对象,即商品。α,β为引入罚函数的参数。要求求解的目标参数为α,β,ωi。
对罚函数的参数以及待求解的不同商品特征对应的权重赋予初始值;令ωi初始值皆为0.1,α,β在(0,1)间随机赋值。
设定学习速率η,即下降速度(速率可以是常数,也可是函数)。
其中,ωi(t)和ωi(t+1)分别表示商品特征对应的权重ωi在当前时刻与下一时刻的值。
进一步的,所述在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充的方法具体为:
在商品全集范围内进行条件松弛,若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≥ε1,且两商品共有的未知权重的商品特征值的相似度均≥ε1,则判定两商品为同一商品;若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≤ε2,且两商品共有的未知权重的商品特征值的相似度均≤ε2,则判定两商品非同一商品;
在商品全集范围内进行同一性传递,若商品C1和商品C2为同一商品,且商品C2和商品C3为同一商品,则判定商品C1和商品C3为同一商品;
将全集范围内经过条件松弛和同一性传递后判定与训练集中商品为同一商品的商品补充至训练集中,再求取新加入训练集中的商品的商品特征权重;
循环上述步骤直到训练集无法扩充。
进一步的,所述根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征的方法具体为:
找出与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有q个已知权重的商品特征{k1,k2,……,kq};对于未知权重的商品特征k',可以在商品全集范围内得到包含该特征的所有商品列表“商品A、商品B、……、商品K”,进而对商品列表中所有的商品特征构造去重列表并计数,例如:
商品A包括商品特征A、商品特征B、商品特征C;商品B包括商品特征B、商品特征C和商品特征D,则根据商品A和商品B构造出的商品去重列表为{(商品特征A,1),(商品特征B,2),(商品特征C,2),(商品特征D,1)},括号内为商品特征及其对应的计数值;继续将商品列表中的剩余商品放入商品去重列表中,直到列表中所有商品的商品特征都记录在商品去重列表中;
统计上述与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征各自出现的次数γ、各自的值域大小δ、两两间共同出现的次数ζ。
对于与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征对ki与kj建立线性回归模型并求解目标参数:
每个特征商品特征对都需要放入线性回归模型中进行一次回归,例如,已知权重的商品特征包括{k1,k2,k3,k4},则k1和k2,k1和k3,k1和k4,k2和k3,k2和k4,k3和k4中每一组都要放入线性回归模型中进行一次回归;
其中,自变量为两个商品特征各自出现的次数γ、两个商品特征各自的值域大小δ、两两间共同出现的次数ζ;因变量是因为两个商品特征都是已知权重,所以这个比值也可以计算得出;自变量和因变量都是具体已知或者可以计算得出的数值,需要回归求解的是a1,a2,a3,a4,a5。
根据线性回归模型求解的目标参数a1,a2,a3,a4,a5预测所述未知权重商品特征k'的权重ω':
转到扩充训练集步骤继续推广扩充训练集,直到商品全集中所有的商品之间皆可判断同一性,或每一个未知权重的商品特征和已知权重的商品特征共同出现的次数超过阈值ρ的数量少于σ个,停止迭代过程;阈值ρ和σ为人工定义的,可根据经验进行赋值。
本实施例不仅具备实施例一的有益效果,进一步提出了通过机器学习与数学领域中梯度下降、线性回归、条件松弛等方式,对多源异构商品信息的特征权重给出了严谨有序的求解方法,减少了非系统误差。
实施例三
参见图1,基于半监督学习的多源异构商品特征权重求解装置,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如下步骤:
采集数据,采集网络平台公布的商品数据,将采集到的商品数据放入商品全集中,所述商品数据包括商品特征和商品特征值;
预处理,工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中;在预处理过程中,可以人为的根据经验对部分商品特征先赋予权重;
求解权重,对所述训练集中已标注同一性的商品数据,依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重;
扩充训练集,根据所述训练集中不同商品特征对应的权重,在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充;
求解未知权重,根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征。
本实施例针对目前人工经验赋值具有强烈的主观倾向性问题,通过人工监督标注部分商品一致性,再通过机器学习进行训练求解其他商品一致性,解决多源异构环境下人工赋值方式效率低耗时长的问题。
实施例四
进一步的,所述工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中的方法具体为:
在所述商品全集范围内随机抽取μ个商品数据放入训练集;
设定一个初始为空的商品等价集合;
遍历所有抽取出的商品数据,对每个商品与已有的商品等价值集合进行比较,若工作人员判断一商品与某一商品等价集合中的某个商品满足同一性,则将该商品合并至这个商品等价集合中;若一商品找不到可放入的商品等价集合,则将该商品单独作为一个商品等价集合,最终实现训练集中所有商品的等价合并,完成同一性标注。
进一步的,所述依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重的方法具体步骤如下:
构造用于计算商品特征值之间相似度的商品特征值相似度函数;
对于数值型的商品特征值,可构造如下相似度:
对于非数值型的商品特征值,可采用编辑距离Levenshtein度量文本相似度,构造如下:
以上商品特征值相似度函数仅为本实施例的一种实施方案,也可以构造的更复杂;
构造通过商品共有特征、商品特征值之间的相似度和不同商品特征对应的权重计算商品之间相似度的商品相似度函数,并设定同一性判定阈值ε1和ε2,ε1和ε2满足0<ε2<ε1<1,若通过商品相似度函数计算出两商品相似度大于ε1,判定两商品为同一商品,若小于ε2,则判定为不同商品,否则,认为无法确定;商品相似度函数如下:
该函数仅为本实施例的一种实施方案,也可以构造的更复杂,其中,C1和C2为商品C1和商品C2,n为商品C1和C2之间的共有特征数量,SimV(v1i,v2i)由商品特征值相似度函数得出,ωi为商品特征对应的权重。
转化为最优化问题,构造含有罚函数的最小化目标损失函数LOSS;
其中,Ei表示训练集中标注出的等价商品集,x和y表示等价商品集中的对象,即商品。α,β为引入罚函数的参数。要求求解的目标参数为α,β,ωi。
对罚函数的参数以及待求解的不同商品特征对应的权重赋予初始值;令ωi初始值皆为0.1,α,β在(0,1)间随机赋值。
设定学习速率η,即下降速度(速率可以是常数,也可是函数)。
其中,ωi(t)和ωi(t+1)分别表示商品特征对应的权重ωi在当前时刻与下一时刻的值。
进一步的,所述在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充的方法具体为:
在商品全集范围内进行条件松弛,若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≥ε1,且两商品共有的未知权重的商品特征值的相似度均≥ε1,则判定两商品为同一商品;若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≤ε2,且两商品共有的未知权重的商品特征值的相似度均≤ε2,则判定两商品非同一商品;
在商品全集范围内进行同一性传递,若商品C1和商品C2为同一商品,且商品C2和商品C3为同一商品,则判定商品C1和商品C3为同一商品;
将全集范围内经过条件松弛和同一性传递后判定与训练集中商品为同一商品的商品补充至训练集中,再求取新加入训练集中的商品的商品特征权重;
循环上述步骤直到训练集无法扩充。
进一步的,所述根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征的方法具体为:
找出与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有q个已知权重的商品特征{k1,k2,……,kq};对于未知权重的商品特征k',可以在商品全集范围内得到包含该特征的所有商品列表“商品A、商品B、……、商品K”,进而对商品列表中所有的商品特征构造去重列表并计数,例如:
商品A包括商品特征A、商品特征B、商品特征C;商品B包括商品特征B、商品特征C和商品特征D,则根据商品A和商品B构造出的商品去重列表为{(商品特征A,1),(商品特征B,2),(商品特征C,2),(商品特征D,1)},括号内为商品特征及其对应的计数值;继续将商品列表中的剩余商品放入商品去重列表中,直到列表中所有商品的商品特征都记录在商品去重列表中;
统计上述与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征各自出现的次数γ、各自的值域大小δ、两两间共同出现的次数ζ。
对于与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征对ki与kj建立线性回归模型并求解目标参数:
每个特征商品特征对都需要放入线性回归模型中进行一次回归,例如,已知权重的商品特征包括{k1,k2,k3,k4},则k1和k2,k1和k3,k1和k4,k2和k3,k2和k4,k3和k4中每一组都要放入线性回归模型中进行一次回归;
其中,自变量为两个商品特征各自出现的次数γ、两个商品特征各自的值域大小δ、两两间共同出现的次数ζ;因变量是因为两个商品特征都是已知权重,所以这个比值也可以计算得出;自变量和因变量都是具体已知或者可以计算得出的数值,需要回归求解的是a1,a2,a3,a4,a5。
根据线性回归模型求解的目标参数a1,a2,a3,a4,a5预测所述未知权重商品特征k'的权重ω':
转到扩充训练集步骤继续推广扩充训练集,直到商品全集中所有的商品之间皆可判断同一性,或每一个未知权重的商品特征和已知权重的商品特征共同出现的次数超过阈值ρ的数量少于σ个,停止迭代过程;阈值ρ和σ为人工定义的,可根据经验进行赋值。
本实施例不仅具备实施例三的有益效果,进一步提出了通过机器学习与数学领域中梯度下降、线性回归、条件松弛等方式,对多源异构商品信息的特征权重给出了严谨有序的求解方法,减少了非系统误差。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.基于半监督学习的多源异构商品特征权重求解方法,其特征在于,包括如下步骤:
采集数据,采集网络平台公布的商品数据,将采集到的商品数据放入商品全集中,所述商品数据包括商品特征和商品特征值;
预处理,工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中;
求解权重,对所述训练集中已标注同一性的商品数据,依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重;
扩充训练集,根据所述训练集中不同商品特征对应的权重,在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充;
求解未知权重,根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征。
2.根据权利要求1所述的基于半监督学习的多源异构商品特征权重求解方法,其特征在于,所述工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中的方法具体为:
在所述商品全集范围内随机抽取μ个商品数据放入训练集;
设定一个初始为空的商品等价集合;
遍历所有抽取出的商品数据,对每个商品与已有的商品等价值集合进行比较,若工作人员判断一商品与某一商品等价集合中的某个商品满足同一性,则将该商品合并至这个商品等价集合中;若一商品找不到可放入的商品等价集合,则将该商品单独作为一个商品等价集合,最终实现训练集中所有商品的等价合并,完成同一性标注。
3.根据权利要求1所述的基于半监督学习的多源异构商品特征权重求解方法,其特征在于,所述依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重的方法具体步骤如下:
构造用于计算商品特征值之间相似度的商品特征值相似度函数;
构造通过商品共有特征、商品特征值之间的相似度和不同商品特征对应的权重计算商品之间相似度的商品相似度函数,并设定同一性判定阈值ε1和ε2,ε1和ε2满足0<ε2<ε1<1,若通过商品相似度函数计算出两商品相似度大于ε1,判定两商品为同一商品,若小于ε2,则判定为不同商品,否则,认为无法确定;
转化为最优化问题,构造含有罚函数的最小化目标损失函数,对罚函数的参数以及待求解的不同商品特征对应的权重赋予初始值;
利用梯度下降法对待求解的不同商品特征对应的权重进行优化,直到所述待求解的不同商品特征对应的权重在连续的时域内的值不再发生明显变化。
4.根据权利要求3所述的基于半监督学习的多源异构商品特征权重求解方法,其特征在于,所述在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充的方法具体为:
在商品全集范围内进行条件松弛,若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≥ε1,且两商品共有的未知权重的商品特征值的相似度均≥ε1,则判定两商品为同一商品;若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≤ε2,且两商品共有的未知权重的商品特征值的相似度均≤ε2,则判定两商品非同一商品;
在商品全集范围内进行同一性传递,若商品C1和商品C2为同一商品,且商品C2和商品C3为同一商品,则判定商品C1和商品C3为同一商品;
将全集范围内经过条件松弛和同一性传递后判定与训练集中商品为同一商品的商品补充至训练集中,再求取新加入训练集中的商品的商品特征权重;
循环上述步骤直到训练集无法扩充。
5.根据权利要求4所述的基于半监督学习的多源异构商品特征权重求解方法,其特征在于,所述根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征的方法具体为:
找出与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有q个已知权重的商品特征{k1,k2,……,kq};
统计上述与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征各自出现的次数γ、各自的值域大小δ、两两间共同出现的次数ζ;
对于与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征对ki与kj建立线性回归模型并求解目标参数:
待求解的目标参数为a1,a2,a3,a4,a5;
根据线性回归模型求解的目标参数预测所述未知权重商品特征k'的权重ω':
转到扩充训练集步骤继续推广扩充训练集,直到商品全集中所有的商品之间皆可判断同一性,或每一个未知权重的商品特征和已知权重的商品特征共同出现的次数超过阈值ρ的数量少于σ个,停止迭代过程。
6.基于半监督学习的多源异构商品特征权重求解装置,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如下步骤:
采集数据,采集网络平台公布的商品数据,将采集到的商品数据放入商品全集中,所述商品数据包括商品特征和商品特征值;
预处理,工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中;
求解权重,对所述训练集中已标注同一性的商品数据,依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重;
扩充训练集,根据所述训练集中不同商品特征对应的权重,在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充;
求解未知权重,根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征。
7.根据权利要求6所述的基于半监督学习的多源异构商品特征权重求解装置,其特征在于,所述工作人员对所述商品全集中的部分商品数据进行同一性标注,将标注了同一性的商品数据放入训练集中的方法具体为:
在所述商品全集范围内随机抽取μ个商品数据放入训练集;
设定一个初始为空的商品等价集合;
遍历所有抽取出的商品数据,对每个商品与已有的商品等价值集合进行比较,若工作人员判断一商品与某一商品等价集合中的某个商品满足同一性,则将该商品合并至这个商品等价集合中;若一商品找不到可放入的商品等价集合,则将该商品单独作为一个商品等价集合,最终实现训练集中所有商品的等价合并,完成同一性标注。
8.根据权利要求6所述的基于半监督学习的多源异构商品特征权重求解装置,其特征在于,所述依据不同商品特征对商品同一性的影响程度,求解不同商品特征对应的权重的方法具体步骤如下:
构造用于计算商品特征值之间相似度的商品特征值相似度函数;
构造通过商品共有特征、商品特征值之间的相似度和不同商品特征对应的权重计算商品之间相似度的商品相似度函数,并设定同一性判定阈值ε1和ε2,ε1和ε2满足0<ε2<ε1<1,若通过商品相似度函数计算出两商品相似度大于ε1,判定两商品为同一商品,若小于ε2,则判定为不同商品,否则,认为无法确定;
转化为最优化问题,构造含有罚函数的最小化目标损失函数,对罚函数的参数以及待求解的不同商品特征对应的权重赋予初始值;
利用梯度下降法对待求解的不同商品特征对应的权重进行优化,直到所述待求解的不同商品特征对应的权重在连续的时域内的值不再发生明显变化。
9.根据权利要求8所述的基于半监督学习的多源异构商品特征权重求解装置,其特征在于,所述在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广,并重复求解权重的步骤,直到训练集无法扩充的方法具体为:
在商品全集范围内进行条件松弛,若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≥ε1,且两商品共有的未知权重的商品特征值的相似度均≥ε1,则判定两商品为同一商品;若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≤ε2,且两商品共有的未知权重的商品特征值的相似度均≤ε2,则判定两商品非同一商品;
在商品全集范围内进行同一性传递,若商品C1和商品C2为同一商品,且商品C2和商品C3为同一商品,则判定商品C1和商品C3为同一商品;
将全集范围内经过条件松弛和同一性传递后判定与训练集中商品为同一商品的商品补充至训练集中,再求取新加入训练集中的商品的商品特征权重;
循环上述步骤直到训练集无法扩充。
10.根据权利要求9所述的基于半监督学习的多源异构商品特征权重求解装置,其特征在于,所述根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征,并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征的方法具体为:
找出与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有q个已知权重的商品特征{k1,k2,……,kq};
统计上述与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征各自出现的次数γ、各自的值域大小δ、两两间共同出现的次数ζ;
对于与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征对ki与kj建立线性回归模型并求解目标参数:
待求解的目标参数为a1,a2,a3,a4,a5;
根据线性回归模型求解的目标参数预测所述未知权重商品特征k'的权重ω':
转到扩充训练集步骤继续推广扩充训练集,直到商品全集中所有的商品之间皆可判断同一性,或每一个未知权重的商品特征和已知权重的商品特征共同出现的次数超过阈值ρ的数量少于σ个,停止迭代过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010464383.3A CN111651512B (zh) | 2020-05-27 | 2020-05-27 | 基于半监督学习的多源异构商品特征权重求解方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010464383.3A CN111651512B (zh) | 2020-05-27 | 2020-05-27 | 基于半监督学习的多源异构商品特征权重求解方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651512A true CN111651512A (zh) | 2020-09-11 |
CN111651512B CN111651512B (zh) | 2022-06-10 |
Family
ID=72351041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010464383.3A Active CN111651512B (zh) | 2020-05-27 | 2020-05-27 | 基于半监督学习的多源异构商品特征权重求解方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651512B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392176A (zh) * | 2020-09-28 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本相似性的确定方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207913A (zh) * | 2013-04-15 | 2013-07-17 | 武汉理工大学 | 商品细粒度语义关系的获取方法和系统 |
CN107704892A (zh) * | 2017-11-07 | 2018-02-16 | 宁波爱信诺航天信息有限公司 | 一种基于贝叶斯模型的商品编码分类方法以及系统 |
US20190130014A1 (en) * | 2017-10-26 | 2019-05-02 | Sap Se | Systems and methods for categorizing data transactions |
CN110399874A (zh) * | 2019-07-24 | 2019-11-01 | 福建博思软件股份有限公司 | 一种车牌识别训练数据的合成方法 |
CN111178986A (zh) * | 2020-02-18 | 2020-05-19 | 电子科技大学 | 用户-商品偏好的预测方法及系统 |
-
2020
- 2020-05-27 CN CN202010464383.3A patent/CN111651512B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207913A (zh) * | 2013-04-15 | 2013-07-17 | 武汉理工大学 | 商品细粒度语义关系的获取方法和系统 |
US20190130014A1 (en) * | 2017-10-26 | 2019-05-02 | Sap Se | Systems and methods for categorizing data transactions |
CN107704892A (zh) * | 2017-11-07 | 2018-02-16 | 宁波爱信诺航天信息有限公司 | 一种基于贝叶斯模型的商品编码分类方法以及系统 |
CN110399874A (zh) * | 2019-07-24 | 2019-11-01 | 福建博思软件股份有限公司 | 一种车牌识别训练数据的合成方法 |
CN111178986A (zh) * | 2020-02-18 | 2020-05-19 | 电子科技大学 | 用户-商品偏好的预测方法及系统 |
Non-Patent Citations (4)
Title |
---|
NEDA ALEEBRAHIM: "Sentiment classification of online product reviews using product features", 《IEEE THE 3RD INTERNATIONAL CONFERENCE ON DATA MINING AND INTELLIGENT INFORMATION TECHNOLOGY APPLICATIONS》 * |
NEDA ALEEBRAHIM: "Sentiment classification of online product reviews using product features", 《IEEE THE 3RD INTERNATIONAL CONFERENCE ON DATA MINING AND INTELLIGENT INFORMATION TECHNOLOGY APPLICATIONS》, 22 December 2011 (2011-12-22), pages 242 - 245 * |
钱明辉: "基于机器学习的消费者品牌决策偏好动态识别与效果验证研究", 《南开管理评论》 * |
钱明辉: "基于机器学习的消费者品牌决策偏好动态识别与效果验证研究", 《南开管理评论》, no. 3, 30 June 2019 (2019-06-30), pages 66 - 76 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392176A (zh) * | 2020-09-28 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本相似性的确定方法、装置、设备及介质 |
CN113392176B (zh) * | 2020-09-28 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 文本相似性的确定方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111651512B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104077306B (zh) | 一种搜索引擎的结果排序方法及系统 | |
CN108320171B (zh) | 热销商品预测方法、系统及装置 | |
CN109522556B (zh) | 一种意图识别方法及装置 | |
JP7090936B2 (ja) | Esg基盤の企業評価遂行装置及びその作動方法 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN106651574A (zh) | 一种个人信用评估方法及装置 | |
CN110717654B (zh) | 基于用户评论的产品质量评价方法和系统 | |
CN108932648A (zh) | 一种预测商品属性数据及训练其模型的方法和装置 | |
CN103955714A (zh) | 基于水军检测模型构建方法和系统及水军检测方法 | |
CN113706151A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
Angelovska et al. | Siamese neural networks for detecting complementary products | |
CN110110035A (zh) | 数据处理方法和装置以及计算机可读存储介质 | |
CN114254615A (zh) | 组卷方法、装置、电子设备和存储介质 | |
CN115099310A (zh) | 训练模型、对企业进行行业分类的方法和装置 | |
CN111651512B (zh) | 基于半监督学习的多源异构商品特征权重求解方法和装置 | |
WO2018078761A1 (ja) | クラスタリングシステム、方法およびプログラム、並びに、レコメンドシステム | |
CN114840745A (zh) | 一种基于图表征学习和深度语义匹配模型的个性化推荐方法及系统 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
CN113763031A (zh) | 一种商品推荐方法、装置、电子设备及存储介质 | |
CN112925913A (zh) | 用于匹配数据的方法、装置、设备和计算机可读存储介质 | |
CN111382265B (zh) | 搜索方法、装置、设备和介质 | |
CN104809236B (zh) | 一种基于微博的用户年龄分类方法及系统 | |
CN111651477A (zh) | 基于语义相似度的多源异构商品一致性判别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |