CN113850287A

CN113850287A - 动态分析的工业品相似度计算方法和系统

Info

Publication number: CN113850287A
Application number: CN202110892807.0A
Authority: CN
Inventors: 朱俊; 肖成祥; 杨丽萍; 戴智鑫
Original assignee: Ouye Industrial Products Co ltd
Current assignee: Ouye Industrial Products Co ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-12-28

Abstract

本发明提供了一种动态分析的工业品相似度计算方法和系统，包括：步骤S1：在Bert模型中添加输入层，对输入到Bert模型的行业数据先进行预处理再进行输入；步骤S2：对Bert模型进行参数优化，先使用通用参数进行模型训练，得到实际模型训练类别，再结合训练参数特点，预设指标后对损失函数进行收敛，得到实际模型训练结果；步骤S3：对实际模型训练结果进行相似度计算，得到符合预设条件的工业品。本发明从业务方面解决了因买卖双方对工业品的定义存在差异而导致商业关系匹配困难的痛点问题，并且适用于多种业务场景。

Description

动态分析的工业品相似度计算方法和系统

技术领域

本发明涉及数据处理技术领域，具体地，涉及一种动态分析的工业品相似度计算方法和系统。

背景技术

在传统的工业品行业，不同工业品公司对同一物料或商品可能会根据公司自身的原因对本质上一样的工业品赋予不同的名字，这样就给双方在进行工业品交易的时候，带来了极大的困难，为此，就需要对工业品行业有很深理解的行业专家来人工的进行识别。这样不仅增加了公司的成本，而且极大地降低了商品消歧的速度。

为此，本发明旨在解决因买卖双方对工业品的定义存在差异，而导致商业关系匹配困难的痛点问题。所以，本发明实现了不同描述下商品匹配的通用核心技术组件，不同数字化场景均会使用本发明。

专利文献CN107436864B(申请号：CN201710661607.8)公开了一种基于Word2Vec的中文问答语义相似度计算方法，包括文本预处理、向量表示和相似度计算。然而该专利所用到的Word2Vec存在缺陷：如果新的商品通过分词后，出现的词在训练好的模型中不存在时，那么这个词的数学向量模型全为0，因此Word2Vec模型对新的词的表现不够良好。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种动态分析的工业品相似度计算方法和系统。

根据本发明提供的动态分析的工业品相似度计算方法，包括：

步骤S1：在Bert模型中添加输入层，对输入到Bert模型的行业数据先进行预处理再进行输入；

步骤S2：对Bert模型进行参数优化，先使用通用参数进行模型训练，得到实际模型训练类别，再结合训练参数特点，预设指标后对损失函数进行收敛，得到实际模型训练结果；

步骤S3：对实际模型训练结果进行相似度计算，得到符合预设条件的工业品。

优选的，将行业数据按照8：2的比例分成训练集和测试集，分别用于训练和测试，并将训练和测试的数据作为输入层的输入带入到Bert模型中。

优选的，在输入通用参数后，通过Bert模型预测模型训练类别；

对预测模型训练类别和实际模型训练类别进行正确率计算，正确率越高则表明模型分类的正确性越高，若正确率低于预设阈值则继续进行模型训练。

优选的，对实际模型训练结果进行损失值计算，计算模型预测结果与实际模型训练结果的差值，若差值越小，则表明模型训练的效果越好；若差值高于预设阈值，则继续进行模型训练。

优选的，采用余弦相似度进行相似度计算，公式为：

其中，similarity(A,B)表示余弦相似度；A表示目标用户的行为向量；B表示除目标用户的行为向量；A·B表示向量A和向量B的内积；||A||表示向量A的模；||B||表示向量B的模；n表示向量的分量数；i表示向量的第i个分量；A_i表示向量A的第i个分量；B_i表示向量B的第i个分量；

根据相似度计算结果，对相似度最高的工业品数据进行工业品推荐。

根据本发明提供的动态分析的工业品相似度计算系统，包括：

模块M1：在Bert模型中添加输入层，对输入到Bert模型的行业数据先进行预处理再进行输入；

模块M2：对Bert模型进行参数优化，先使用通用参数进行模型训练，得到实际模型训练类别，再结合训练参数特点，预设指标后对损失函数进行收敛，得到实际模型训练结果；

模块M3：对实际模型训练结果进行相似度计算，得到符合预设条件的工业品。

优选的，采用余弦相似度进行相似度计算，公式为：

与现有技术相比，本发明具有如下的有益效果：

(1)本发明从业务方面可以解决因买卖双方对工业品的定义存在差异，而导致商业关系匹配困难的痛点问题，并且适用于多种业务场景；

(2)本发明从公司成本方面可以提高相关工作人员的效率，大幅度降低人力成本；

(3)本发明从系统方面来讲，一方面只需修改数据源就可适用与相应的业务场景，另一方面进行一条商品的匹配花费时间为1s左右，其时效性还可接受。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为Bert模型架构图；

图2为用通用参数进行模型训练的结果图；

图3为结合行业数据用通用参数进行模型训练的结果图；

图4为结合实际业务数据特点进行参数优化后的模型训练的结果图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

Bert作为一种预训练模型，其最大的特点就是以单个字为单位，从海量的语言中学习到一定程度的语义信息，并将其以合适的数学向量表达出来。Bert的核心在于Transformer模型、掩码语言模型MLM和双向语言模型，具体的模型架构如图1所示，其中：Inputs、Outputs为数据输入、输出值；Input Embedding、Output Embedding为输入值、输出值的向量化；Positianal Emcoding为正电子编码；Multi-HeadAttemtion为多头注意力层；Add&Norm为添加规范；Feed Forward为前馈网络；Linear为线性函数；Softmax为归一化指数函数；Output Probabilities为输出概率。

根据本发明提供的动态分析的工业品相似度计算方法，包括如下步骤：

步骤S1：在Bert模型中添加一个输入层，在对模型进行输入之前对行业数据进行预处理，将行业数据按照8：2的比例分成训练集和测试集，分别用于训练和测试，并将训练和测试的数据作为输入层的输入带入到模型中；

步骤S2：对模型参数进行优化，首先用通用参数进行模型的训练，观察其效果；之后根据训练数据特点，预设指标后对损失函数进行收敛，训练出新的参数。

步骤S2.1：用通用参数在Bert模型上进行训练和测试，结果如图2所示，最终评判结果以eval_accuracy为主；

其中，eval_accuracy为正确率，及预测的类别与实际类别相一致的比例；正确率越高，分类模型越好。

eval_loss为损失值，用来衡量模型的预测值与实际值的差值，越小越好。

步骤S2.2：结合行业数据用通用参数进行模型训练，用同样的测试集进行测试，结果如图3所示，可以看到eval_accuracy和eval_accuracy都得到了大幅度的提高，表明了优化方向的正确性。

步骤S2.3：在步骤S2.2的基础上，结合实际的业务数据特点继续进行参数优化，用同样的测试集进行测试，结果如图4所示，可以看到eval_accuracy和eval_accuracy继续得到提高。

具体地，以“梭阀”为例，当用户要查找“梭阀”相关的商品的时候，主要通过以下几个步骤输出落实为具体的工业品：

步骤1：系统读取“梭阀”，并进行数据预处理；

步骤2：加载训练好的Word2Vec模型，并利用其将预处理后的数据进行数学向量的编码，用A_Vec表示；

步骤3：加载上述训练好的Bert模型，将A_Vec带入到Bert模型中，利用Bert模型做类别预测，得到类别结果A_Type；

步骤4：在匹配源中，筛选出类别为A_Type的数据；

步骤5：利用余弦相似度，在筛选出来的数据中进行相似度计算；

步骤6：输出相似度最高的5个工业品。

余弦相似度计算的公式为：

根据本发明提供的动态分析的工业品相似度计算系统，包括：模块M1：在Bert模型中添加输入层，对输入到Bert模型的行业数据先进行预处理再进行输入；模块M2：对Bert模型进行参数优化，先使用通用参数进行模型训练，得到实际模型训练类别，再结合训练参数特点，预设指标后对损失函数进行收敛，得到实际模型训练结果；模块M3：对实际模型训练结果进行相似度计算，得到符合预设条件的工业品。

将行业数据按照8：2的比例分成训练集和测试集，分别用于训练和测试，并将训练和测试的数据作为输入层的输入带入到Bert模型中。在输入通用参数后，通过Bert模型预测模型训练类别；对预测模型训练类别和实际模型训练类别进行正确率计算，正确率越高则表明模型分类的正确性越高，若正确率低于预设阈值则继续进行模型训练。对实际模型训练结果进行损失值计算，计算模型预测结果与实际模型训练结果的差值，若差值越小，则表明模型训练的效果越好；若差值高于预设阈值，则继续进行模型训练。

采用余弦相似度进行相似度计算，公式为：

其中，similarity(A,B)表示余弦相似度；A表示目标用户的行为向量；B表示除目标用户的行为向量；A·B表示向量A和向量B的内积；||A||表示向量A的模；||B||表示向量B的模；n表示向量的分量数；i表示向量的第i个分量；A_i表示向量A的第i个分量；B_i表示向量B的第i个分量；根据相似度计算结果，对相似度最高的工业品数据进行工业品推荐。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种动态分析的工业品相似度计算方法，其特征在于，包括：

2.根据权利要求1所述的动态分析的工业品相似度计算方法，其特征在于，将行业数据按照8：2的比例分成训练集和测试集，分别用于训练和测试，并将训练和测试的数据作为输入层的输入带入到Bert模型中。

3.根据权利要求1所述的动态分析的工业品相似度计算方法，其特征在于，在输入通用参数后，通过Bert模型预测模型训练类别；

4.根据权利要求1所述的动态分析的工业品相似度计算方法，其特征在于，对实际模型训练结果进行损失值计算，计算模型预测结果与实际模型训练结果的差值，若差值越小，则表明模型训练的效果越好；若差值高于预设阈值，则继续进行模型训练。

5.根据权利要求1所述的动态分析的工业品相似度计算方法，其特征在于，采用余弦相似度进行相似度计算，公式为：

6.一种动态分析的工业品相似度计算系统，其特征在于，包括：

7.根据权利要求6所述的动态分析的工业品相似度计算系统，其特征在于，将行业数据按照8：2的比例分成训练集和测试集，分别用于训练和测试，并将训练和测试的数据作为输入层的输入带入到Bert模型中。

8.根据权利要求6所述的动态分析的工业品相似度计算系统，其特征在于，在输入通用参数后，通过Bert模型预测模型训练类别；

9.根据权利要求6所述的动态分析的工业品相似度计算系统，其特征在于，对实际模型训练结果进行损失值计算，计算模型预测结果与实际模型训练结果的差值，若差值越小，则表明模型训练的效果越好；若差值高于预设阈值，则继续进行模型训练。

10.根据权利要求6所述的动态分析的工业品相似度计算系统，其特征在于，采用余弦相似度进行相似度计算，公式为：