CN111651512A

CN111651512A - 基于半监督学习的多源异构商品特征权重求解方法和装置

Info

Publication number: CN111651512A
Application number: CN202010464383.3A
Authority: CN
Inventors: 黄茉; 张永霞; 翁增仁; 叶章明; 胡锦锋
Original assignee: Fujian Boss Software Co ltd
Current assignee: Fujian Boss Software Co ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-11
Anticipated expiration: 2040-05-27
Also published as: CN111651512B

Abstract

本发明涉及一种基于半监督学习的多源异构商品特征权重求解方法，包括如下步骤：采集网络平台公布的商品数据，将采集到的商品数据放入商品全集中，所述商品数据包括商品特征和商品特征值；工作人员对所述商品全集中的部分商品数据进行同一性标注，将标注了同一性的商品数据放入训练集中；对所述训练集中的商品，求解不同商品特征对应的权重；根据所述训练集中不同商品特征对应的权重，在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广，并重复求解权重的步骤，直到训练集无法扩充；求解未知权重，根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征，并重复扩充训练集迭代求解剩余未知权重的商品特征。

Description

基于半监督学习的多源异构商品特征权重求解方法和装置

技术领域

本发明涉及自然语言处理、数据实体识别及电子商务信息处理领域，特别是一种基于半监督学习的多源异构商品特征权重求解方法和装置。

背景技术

从多源异构的电子商务数据中自动识别出描述同一商品实体的所有网页，是进行数据集成和数据分析的基础。但是多源异构的电子商务数据具有数量巨大的商品种类、千差万别的模态、参差不齐的数据质量、杂乱多样的网站结构等特点，且缺乏统一的模式定义规范和理论模型，极大影响了电子商务大数据的分析和应用。

用户在电子商务购物平台进行挑选、比较和消费的过程中，首先需要了解某个商品的详细信息，如图书的出版社、作者、价格、版次，手机的品牌、型号、规格，化妆品的功效、使用方法，玩具的重量、材质、适合年龄等细节情况，然而，不同平台同一商品的描述数据值存在着差异，使得用户难以在商品同一属性的不同描述值中发现最接近事实的值，因而严重影响了用户的商品决策。

而要解决商品同一性问题，首先要解决商品特征权重的求解问题。

目前多是通过人工经验进行赋值，具有强烈的主观倾向性，且存在个体间的经验偏差，会造成极大的非系统误差。且当多源异构环境下数据量极大，人工赋值的方式对人力成本要求极高，且效率低下，耗时漫长。

发明内容

为了解决上述现有技术中存在的问题，本发明提供一种基于半监督学习的多源异构商品特征权重求解方法，通过机器学习与数学领域中梯度下降、线性回归、条件松弛等方式，对多源异构商品信息的特征权重给出了严谨有序的求解方法，减少了非系统误差。

本发明的技术方案如下：

技术方案一

基于半监督学习的多源异构商品特征权重求解方法，包括如下步骤：

采集数据，采集网络平台公布的商品数据，将采集到的商品数据放入商品全集中，所述商品数据包括商品特征和商品特征值；

预处理，工作人员对所述商品全集中的部分商品数据进行同一性标注，将标注了同一性的商品数据放入训练集中；

求解权重，对所述训练集中已标注同一性的商品数据，依据不同商品特征对商品同一性的影响程度，求解不同商品特征对应的权重；

扩充训练集，根据所述训练集中不同商品特征对应的权重，在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广，并重复求解权重的步骤，直到训练集无法扩充；

求解未知权重，根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征，并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征。

进一步的，所述工作人员对所述商品全集中的部分商品数据进行同一性标注，将标注了同一性的商品数据放入训练集中的方法具体为：

在所述商品全集范围内随机抽取μ个商品数据放入训练集；

设定一个初始为空的商品等价集合；

遍历所有抽取出的商品数据，对每个商品与已有的商品等价值集合进行比较，若工作人员判断一商品与某一商品等价集合中的某个商品满足同一性，则将该商品合并至这个商品等价集合中；若一商品找不到可放入的商品等价集合，则将该商品单独作为一个商品等价集合，最终实现训练集中所有商品的等价合并，完成同一性标注。

进一步的，所述依据不同商品特征对商品同一性的影响程度，求解不同商品特征对应的权重的方法具体步骤如下：

构造用于计算商品特征值之间相似度的商品特征值相似度函数；

构造通过商品共有特征、商品特征值之间的相似度和不同商品特征对应的权重计算商品之间相似度的商品相似度函数，并设定同一性判定阈值ε1和ε2，ε₁和ε₂满足0<ε2<ε₁<1，若通过商品相似度函数计算出两商品相似度大于ε₁，判定两商品为同一商品，若小于ε₂，则判定为不同商品，否则，认为无法确定；

转化为最优化问题，构造含有罚函数的最小化目标损失函数，对罚函数的参数以及待求解的不同商品特征对应的权重赋予初始值；

利用梯度下降法对待求解的不同商品特征对应的权重进行优化，直到所述待求解的不同商品特征对应的权重在连续的时域内的值不再发生明显变化。

进一步的，所述在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广，并重复求解权重的步骤，直到训练集无法扩充的方法具体为：

在商品全集范围内进行条件松弛，若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≥ε₁，且两商品共有的未知权重的商品特征值的相似度均≥ε₁，则判定两商品为同一商品；若两商品根据己知权重的商品特征及其对应的商品特征值所求解的商品相似度≤ε₂，且两商品共有的未知权重的商品特征值的相似度均≤ε₂，则判定两商品非同一商品；

在商品全集范围内进行同一性传递，若商品C1和商品C2为同一商品，且商品C2和商品C3为同一商品，则判定商品C1和商品C3为同一商品；

将全集范围内经过条件松弛和同一性传递后判定与训练集中商品为同一商品的商品补充至训练集中，再求取新加入训练集中的商品的商品特征权重；

循环上述步骤直到训练集无法扩充。

进一步的，所述根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征，并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征的方法具体为：

找出与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有q个已知权重的商品特征{k₁,k₂,……，k_q}；

统计上述与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征各自出现的次数γ、各自的值域大小δ、两两间共同出现的次数ζ；

对于与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征对k_i与k_j建立线性回归模型并求解目标参数：

待求解的目标参数为a₁，a₂，a₃，a₄，a₅；

根据线性回归模型求解的目标参数预测所述未知权重商品特征k'的权重ω':

转到扩充训练集步骤继续推广扩充训练集，直到商品全集中所有的商品之间皆可判断同一性，或每一个未知权重的商品特征和已知权重的商品特征共同出现的次数超过阈值ρ的数量少于σ个，停止迭代过程。

技术方案二

基于半监督学习的多源异构商品特征权重求解装置，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行如下步骤：

在所述商品全集范围内随机抽取μ个商品数据放入训练集；

设定一个初始为空的商品等价集合；

构造通过商品共有特征、商品特征值之间的相似度和不同商品特征对应的权重计算商品之间相似度的商品相似度函数，并设定同一性判定阈值ε₁和ε₂，ε₁和ε₂满足0<ε₂<ε₁<1，若通过商品相似度函数计算出两商品相似度大于ε₁，判定两商品为同一商品，若小于ε₂，则判定为不同商品，否则，认为无法确定；

循环上述步骤直到训练集无法扩充。

待求解的目标参数为a₁，a₂，a₃，a₄，a₅；

本发明具有如下有益效果：

1、本发明基于半监督学习的多源异构商品特征权重求解方法，针对目前人工经验赋值具有强烈的主观倾向性问题，通过人工监督标注部分商品一致性，再通过机器学习进行训练求解其他商品一致性，解决多源异构环境下人工赋值方式效率低耗时长的问题；

2、本发明基于半监督学习的多源异构商品特征权重求解方法，通过机器学习与数学领域中梯度下降、线性回归、条件松弛等方式，对多源异构商品信息的特征权重给出了严谨有序的求解方法，减少了非系统误差。

附图说明

图1为本发明实施例的流程图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

参见图1，基于半监督学习的多源异构商品特征权重求解方法，包括如下步骤：

预处理，工作人员对所述商品全集中的部分商品数据进行同一性标注，将标注了同一性的商品数据放入训练集中；在预处理过程中，可以人为的根据经验对部分商品特征先赋予权重；

本实施例针对目前人工经验赋值具有强烈的主观倾向性问题，通过人工监督标注部分商品一致性，再通过机器学习进行训练求解其他商品一致性，解决多源异构环境下人工赋值方式效率低耗时长的问题。

实施例二

在所述商品全集范围内随机抽取μ个商品数据放入训练集；

设定一个初始为空的商品等价集合；

对于数值型的商品特征值，可构造如下相似度:

对于非数值型的商品特征值，可采用编辑距离Levenshtein度量文本相似度，构造如下：

以上商品特征值相似度函数仅为本实施例的一种实施方案，也可以构造的更复杂；

构造通过商品共有特征、商品特征值之间的相似度和不同商品特征对应的权重计算商品之间相似度的商品相似度函数，并设定同一性判定阈值ε₁和ε₂，ε₁和ε₂满足0<ε₂<ε₁<1，若通过商品相似度函数计算出两商品相似度大于ε₁，判定两商品为同一商品，若小于ε₂，则判定为不同商品，否则，认为无法确定；商品相似度函数如下：

该函数仅为本实施例的一种实施方案，也可以构造的更复杂，其中，C1和C2为商品C1和商品C2，n为商品C1和C2之间的共有特征数量，Sim_V(v_1i，v_2i)由商品特征值相似度函数得出，ω_i为商品特征对应的权重。

转化为最优化问题，构造含有罚函数的最小化目标损失函数LOSS；

其中，Ei表示训练集中标注出的等价商品集，x和y表示等价商品集中的对象，即商品。α，β为引入罚函数的参数。要求求解的目标参数为α，β，ω_i。

对罚函数的参数以及待求解的不同商品特征对应的权重赋予初始值；令ω_i初始值皆为0.1，α，β在(0，1)间随机赋值。

确定梯度下降方式。本实施例使用随机梯度下降法来优化特征的权值，对各参数求偏导

得到梯度下降方向。

设定学习速率η，即下降速度(速率可以是常数，也可是函数)。

对目标参数沿着目标函数梯度下降的方向进行如下迭代求解，直到LOSS小于设定的阈值或

接近0。

其中，ω_i(t)和ω_i(t+1)分别表示商品特征对应的权重ω_i在当前时刻与下一时刻的值。

循环上述步骤直到训练集无法扩充。

找出与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有q个已知权重的商品特征{k₁,k₂,……，k_q}；对于未知权重的商品特征k'，可以在商品全集范围内得到包含该特征的所有商品列表“商品A、商品B、……、商品K”，进而对商品列表中所有的商品特征构造去重列表并计数，例如：

商品A包括商品特征A、商品特征B、商品特征C；商品B包括商品特征B、商品特征C和商品特征D，则根据商品A和商品B构造出的商品去重列表为{(商品特征A，1)，(商品特征B，2)，(商品特征C，2)，(商品特征D，1)}，括号内为商品特征及其对应的计数值；继续将商品列表中的剩余商品放入商品去重列表中，直到列表中所有商品的商品特征都记录在商品去重列表中；

统计上述与未知权重商品特征k'共同出现在商品中次数超过ρ次的所有已知权重的商品特征各自出现的次数γ、各自的值域大小δ、两两间共同出现的次数ζ。

每个特征商品特征对都需要放入线性回归模型中进行一次回归，例如，已知权重的商品特征包括{k₁，k₂，k₃，k₄}，则k₁和k₂，k₁和k₃，k₁和k₄，k₂和k₃，k₂和k₄，k₃和k₄中每一组都要放入线性回归模型中进行一次回归；

其中，自变量为两个商品特征各自出现的次数γ、两个商品特征各自的值域大小δ、两两间共同出现的次数ζ；因变量是

因为两个商品特征都是已知权重，所以这个比值也可以计算得出；自变量和因变量都是具体已知或者可以计算得出的数值，需要回归求解的是a₁，a₂，a₃，a₄，a₅。

根据线性回归模型求解的目标参数a₁，a₂，a₃，a₄，a₅预测所述未知权重商品特征k'的权重ω':

转到扩充训练集步骤继续推广扩充训练集，直到商品全集中所有的商品之间皆可判断同一性，或每一个未知权重的商品特征和已知权重的商品特征共同出现的次数超过阈值ρ的数量少于σ个，停止迭代过程；阈值ρ和σ为人工定义的，可根据经验进行赋值。

本实施例不仅具备实施例一的有益效果，进一步提出了通过机器学习与数学领域中梯度下降、线性回归、条件松弛等方式，对多源异构商品信息的特征权重给出了严谨有序的求解方法，减少了非系统误差。

实施例三

参见图1，基于半监督学习的多源异构商品特征权重求解装置，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行如下步骤：

实施例四

在所述商品全集范围内随机抽取μ个商品数据放入训练集；

设定一个初始为空的商品等价集合；

对于数值型的商品特征值，可构造如下相似度:

得到梯度下降方向。

接近0。

循环上述步骤直到训练集无法扩充。

本实施例不仅具备实施例三的有益效果，进一步提出了通过机器学习与数学领域中梯度下降、线性回归、条件松弛等方式，对多源异构商品信息的特征权重给出了严谨有序的求解方法，减少了非系统误差。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.基于半监督学习的多源异构商品特征权重求解方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于半监督学习的多源异构商品特征权重求解方法，其特征在于，所述工作人员对所述商品全集中的部分商品数据进行同一性标注，将标注了同一性的商品数据放入训练集中的方法具体为：

在所述商品全集范围内随机抽取μ个商品数据放入训练集；

设定一个初始为空的商品等价集合；

3.根据权利要求1所述的基于半监督学习的多源异构商品特征权重求解方法，其特征在于，所述依据不同商品特征对商品同一性的影响程度，求解不同商品特征对应的权重的方法具体步骤如下：

4.根据权利要求3所述的基于半监督学习的多源异构商品特征权重求解方法，其特征在于，所述在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广，并重复求解权重的步骤，直到训练集无法扩充的方法具体为：

循环上述步骤直到训练集无法扩充。

5.根据权利要求4所述的基于半监督学习的多源异构商品特征权重求解方法，其特征在于，所述根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征，并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征的方法具体为：

待求解的目标参数为a₁，a₂，a₃，a₄，a₅；

6.基于半监督学习的多源异构商品特征权重求解装置，其特征在于，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行如下步骤：

7.根据权利要求6所述的基于半监督学习的多源异构商品特征权重求解装置，其特征在于，所述工作人员对所述商品全集中的部分商品数据进行同一性标注，将标注了同一性的商品数据放入训练集中的方法具体为：

在所述商品全集范围内随机抽取μ个商品数据放入训练集；

设定一个初始为空的商品等价集合；

8.根据权利要求6所述的基于半监督学习的多源异构商品特征权重求解装置，其特征在于，所述依据不同商品特征对商品同一性的影响程度，求解不同商品特征对应的权重的方法具体步骤如下：

9.根据权利要求8所述的基于半监督学习的多源异构商品特征权重求解装置，其特征在于，所述在所述商品全集范围内通过条件松弛和同一性传递进行训练集的推广，并重复求解权重的步骤，直到训练集无法扩充的方法具体为：

循环上述步骤直到训练集无法扩充。

10.根据权利要求9所述的基于半监督学习的多源异构商品特征权重求解装置，其特征在于，所述根据已知权重的商品特征推导求解训练集中剩余未知权重的商品特征，并重复扩充训练集迭代求解全集范围内的剩余未知权重的商品特征的方法具体为：

待求解的目标参数为a₁，a₂，a₃，a₄，a₅；