CN113850287A - 动态分析的工业品相似度计算方法和系统 - Google Patents

动态分析的工业品相似度计算方法和系统 Download PDF

Info

Publication number
CN113850287A
CN113850287A CN202110892807.0A CN202110892807A CN113850287A CN 113850287 A CN113850287 A CN 113850287A CN 202110892807 A CN202110892807 A CN 202110892807A CN 113850287 A CN113850287 A CN 113850287A
Authority
CN
China
Prior art keywords
vector
model
model training
training
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110892807.0A
Other languages
English (en)
Inventor
朱俊
肖成祥
杨丽萍
戴智鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ouye Industrial Products Co ltd
Original Assignee
Ouye Industrial Products Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ouye Industrial Products Co ltd filed Critical Ouye Industrial Products Co ltd
Priority to CN202110892807.0A priority Critical patent/CN113850287A/zh
Publication of CN113850287A publication Critical patent/CN113850287A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种动态分析的工业品相似度计算方法和系统,包括:步骤S1:在Bert模型中添加输入层,对输入到Bert模型的行业数据先进行预处理再进行输入;步骤S2:对Bert模型进行参数优化,先使用通用参数进行模型训练,得到实际模型训练类别,再结合训练参数特点,预设指标后对损失函数进行收敛,得到实际模型训练结果;步骤S3:对实际模型训练结果进行相似度计算,得到符合预设条件的工业品。本发明从业务方面解决了因买卖双方对工业品的定义存在差异而导致商业关系匹配困难的痛点问题,并且适用于多种业务场景。

Description

动态分析的工业品相似度计算方法和系统
技术领域
本发明涉及数据处理技术领域,具体地,涉及一种动态分析的工业品相似度计算方法和系统。
背景技术
在传统的工业品行业,不同工业品公司对同一物料或商品可能会根据公司自身的原因对本质上一样的工业品赋予不同的名字,这样就给双方在进行工业品交易的时候,带来了极大的困难,为此,就需要对工业品行业有很深理解的行业专家来人工的进行识别。这样不仅增加了公司的成本,而且极大地降低了商品消歧的速度。
为此,本发明旨在解决因买卖双方对工业品的定义存在差异,而导致商业关系匹配困难的痛点问题。所以,本发明实现了不同描述下商品匹配的通用核心技术组件,不同数字化场景均会使用本发明。
专利文献CN107436864B(申请号:CN201710661607.8)公开了一种基于Word2Vec的中文问答语义相似度计算方法,包括文本预处理、向量表示和相似度计算。然而该专利所用到的Word2Vec存在缺陷:如果新的商品通过分词后,出现的词在训练好的模型中不存在时,那么这个词的数学向量模型全为0,因此Word2Vec模型对新的词的表现不够良好。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种动态分析的工业品相似度计算方法和系统。
根据本发明提供的动态分析的工业品相似度计算方法,包括:
步骤S1:在Bert模型中添加输入层,对输入到Bert模型的行业数据先进行预处理再进行输入;
步骤S2:对Bert模型进行参数优化,先使用通用参数进行模型训练,得到实际模型训练类别,再结合训练参数特点,预设指标后对损失函数进行收敛,得到实际模型训练结果;
步骤S3:对实际模型训练结果进行相似度计算,得到符合预设条件的工业品。
优选的,将行业数据按照8:2的比例分成训练集和测试集,分别用于训练和测试,并将训练和测试的数据作为输入层的输入带入到Bert模型中。
优选的,在输入通用参数后,通过Bert模型预测模型训练类别;
对预测模型训练类别和实际模型训练类别进行正确率计算,正确率越高则表明模型分类的正确性越高,若正确率低于预设阈值则继续进行模型训练。
优选的,对实际模型训练结果进行损失值计算,计算模型预测结果与实际模型训练结果的差值,若差值越小,则表明模型训练的效果越好;若差值高于预设阈值,则继续进行模型训练。
优选的,采用余弦相似度进行相似度计算,公式为:
Figure BDA0003196635570000021
其中,similarity(A,B)表示余弦相似度;A表示目标用户的行为向量;B表示除目标用户的行为向量;A·B表示向量A和向量B的内积;||A||表示向量A的模;||B||表示向量B的模;n表示向量的分量数;i表示向量的第i个分量;Ai表示向量A的第i个分量;Bi表示向量B的第i个分量;
根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
根据本发明提供的动态分析的工业品相似度计算系统,包括:
模块M1:在Bert模型中添加输入层,对输入到Bert模型的行业数据先进行预处理再进行输入;
模块M2:对Bert模型进行参数优化,先使用通用参数进行模型训练,得到实际模型训练类别,再结合训练参数特点,预设指标后对损失函数进行收敛,得到实际模型训练结果;
模块M3:对实际模型训练结果进行相似度计算,得到符合预设条件的工业品。
优选的,将行业数据按照8:2的比例分成训练集和测试集,分别用于训练和测试,并将训练和测试的数据作为输入层的输入带入到Bert模型中。
优选的,在输入通用参数后,通过Bert模型预测模型训练类别;
对预测模型训练类别和实际模型训练类别进行正确率计算,正确率越高则表明模型分类的正确性越高,若正确率低于预设阈值则继续进行模型训练。
优选的,对实际模型训练结果进行损失值计算,计算模型预测结果与实际模型训练结果的差值,若差值越小,则表明模型训练的效果越好;若差值高于预设阈值,则继续进行模型训练。
优选的,采用余弦相似度进行相似度计算,公式为:
Figure BDA0003196635570000031
其中,similarity(A,B)表示余弦相似度;A表示目标用户的行为向量;B表示除目标用户的行为向量;A·B表示向量A和向量B的内积;||A||表示向量A的模;||B||表示向量B的模;n表示向量的分量数;i表示向量的第i个分量;Ai表示向量A的第i个分量;Bi表示向量B的第i个分量;
根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明从业务方面可以解决因买卖双方对工业品的定义存在差异,而导致商业关系匹配困难的痛点问题,并且适用于多种业务场景;
(2)本发明从公司成本方面可以提高相关工作人员的效率,大幅度降低人力成本;
(3)本发明从系统方面来讲,一方面只需修改数据源就可适用与相应的业务场景,另一方面进行一条商品的匹配花费时间为1s左右,其时效性还可接受。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为Bert模型架构图;
图2为用通用参数进行模型训练的结果图;
图3为结合行业数据用通用参数进行模型训练的结果图;
图4为结合实际业务数据特点进行参数优化后的模型训练的结果图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
Bert作为一种预训练模型,其最大的特点就是以单个字为单位,从海量的语言中学习到一定程度的语义信息,并将其以合适的数学向量表达出来。Bert的核心在于Transformer模型、掩码语言模型MLM和双向语言模型,具体的模型架构如图1所示,其中:Inputs、Outputs为数据输入、输出值;Input Embedding、Output Embedding为输入值、输出值的向量化;Positianal Emcoding为正电子编码;Multi-HeadAttemtion为多头注意力层;Add&Norm为添加规范;Feed Forward为前馈网络;Linear为线性函数;Softmax为归一化指数函数;Output Probabilities为输出概率。
根据本发明提供的动态分析的工业品相似度计算方法,包括如下步骤:
步骤S1:在Bert模型中添加一个输入层,在对模型进行输入之前对行业数据进行预处理,将行业数据按照8:2的比例分成训练集和测试集,分别用于训练和测试,并将训练和测试的数据作为输入层的输入带入到模型中;
步骤S2:对模型参数进行优化,首先用通用参数进行模型的训练,观察其效果;之后根据训练数据特点,预设指标后对损失函数进行收敛,训练出新的参数。
步骤S2.1:用通用参数在Bert模型上进行训练和测试,结果如图2所示,最终评判结果以eval_accuracy为主;
其中,eval_accuracy为正确率,及预测的类别与实际类别相一致的比例;正确率越高,分类模型越好。
eval_loss为损失值,用来衡量模型的预测值与实际值的差值,越小越好。
步骤S2.2:结合行业数据用通用参数进行模型训练,用同样的测试集进行测试,结果如图3所示,可以看到eval_accuracy和eval_accuracy都得到了大幅度的提高,表明了优化方向的正确性。
步骤S2.3:在步骤S2.2的基础上,结合实际的业务数据特点继续进行参数优化,用同样的测试集进行测试,结果如图4所示,可以看到eval_accuracy和eval_accuracy继续得到提高。
具体地,以“梭阀”为例,当用户要查找“梭阀”相关的商品的时候,主要通过以下几个步骤输出落实为具体的工业品:
步骤1:系统读取“梭阀”,并进行数据预处理;
步骤2:加载训练好的Word2Vec模型,并利用其将预处理后的数据进行数学向量的编码,用A_Vec表示;
步骤3:加载上述训练好的Bert模型,将A_Vec带入到Bert模型中,利用Bert模型做类别预测,得到类别结果A_Type;
步骤4:在匹配源中,筛选出类别为A_Type的数据;
步骤5:利用余弦相似度,在筛选出来的数据中进行相似度计算;
步骤6:输出相似度最高的5个工业品。
余弦相似度计算的公式为:
Figure BDA0003196635570000051
其中,similarity(A,B)表示余弦相似度;A表示目标用户的行为向量;B表示除目标用户的行为向量;A·B表示向量A和向量B的内积;||A||表示向量A的模;||B||表示向量B的模;n表示向量的分量数;i表示向量的第i个分量;Ai表示向量A的第i个分量;Bi表示向量B的第i个分量;
根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
根据本发明提供的动态分析的工业品相似度计算系统,包括:模块M1:在Bert模型中添加输入层,对输入到Bert模型的行业数据先进行预处理再进行输入;模块M2:对Bert模型进行参数优化,先使用通用参数进行模型训练,得到实际模型训练类别,再结合训练参数特点,预设指标后对损失函数进行收敛,得到实际模型训练结果;模块M3:对实际模型训练结果进行相似度计算,得到符合预设条件的工业品。
将行业数据按照8:2的比例分成训练集和测试集,分别用于训练和测试,并将训练和测试的数据作为输入层的输入带入到Bert模型中。在输入通用参数后,通过Bert模型预测模型训练类别;对预测模型训练类别和实际模型训练类别进行正确率计算,正确率越高则表明模型分类的正确性越高,若正确率低于预设阈值则继续进行模型训练。对实际模型训练结果进行损失值计算,计算模型预测结果与实际模型训练结果的差值,若差值越小,则表明模型训练的效果越好;若差值高于预设阈值,则继续进行模型训练。
采用余弦相似度进行相似度计算,公式为:
Figure BDA0003196635570000061
其中,similarity(A,B)表示余弦相似度;A表示目标用户的行为向量;B表示除目标用户的行为向量;A·B表示向量A和向量B的内积;||A||表示向量A的模;||B||表示向量B的模;n表示向量的分量数;i表示向量的第i个分量;Ai表示向量A的第i个分量;Bi表示向量B的第i个分量;根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种动态分析的工业品相似度计算方法,其特征在于,包括:
步骤S1:在Bert模型中添加输入层,对输入到Bert模型的行业数据先进行预处理再进行输入;
步骤S2:对Bert模型进行参数优化,先使用通用参数进行模型训练,得到实际模型训练类别,再结合训练参数特点,预设指标后对损失函数进行收敛,得到实际模型训练结果;
步骤S3:对实际模型训练结果进行相似度计算,得到符合预设条件的工业品。
2.根据权利要求1所述的动态分析的工业品相似度计算方法,其特征在于,将行业数据按照8:2的比例分成训练集和测试集,分别用于训练和测试,并将训练和测试的数据作为输入层的输入带入到Bert模型中。
3.根据权利要求1所述的动态分析的工业品相似度计算方法,其特征在于,在输入通用参数后,通过Bert模型预测模型训练类别;
对预测模型训练类别和实际模型训练类别进行正确率计算,正确率越高则表明模型分类的正确性越高,若正确率低于预设阈值则继续进行模型训练。
4.根据权利要求1所述的动态分析的工业品相似度计算方法,其特征在于,对实际模型训练结果进行损失值计算,计算模型预测结果与实际模型训练结果的差值,若差值越小,则表明模型训练的效果越好;若差值高于预设阈值,则继续进行模型训练。
5.根据权利要求1所述的动态分析的工业品相似度计算方法,其特征在于,采用余弦相似度进行相似度计算,公式为:
Figure FDA0003196635560000011
其中,similarity(A,B)表示余弦相似度;A表示目标用户的行为向量;B表示除目标用户的行为向量;A·B表示向量A和向量B的内积;||A||表示向量A的模;||B||表示向量B的模;n表示向量的分量数;i表示向量的第i个分量;Ai表示向量A的第i个分量;Bi表示向量B的第i个分量;
根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
6.一种动态分析的工业品相似度计算系统,其特征在于,包括:
模块M1:在Bert模型中添加输入层,对输入到Bert模型的行业数据先进行预处理再进行输入;
模块M2:对Bert模型进行参数优化,先使用通用参数进行模型训练,得到实际模型训练类别,再结合训练参数特点,预设指标后对损失函数进行收敛,得到实际模型训练结果;
模块M3:对实际模型训练结果进行相似度计算,得到符合预设条件的工业品。
7.根据权利要求6所述的动态分析的工业品相似度计算系统,其特征在于,将行业数据按照8:2的比例分成训练集和测试集,分别用于训练和测试,并将训练和测试的数据作为输入层的输入带入到Bert模型中。
8.根据权利要求6所述的动态分析的工业品相似度计算系统,其特征在于,在输入通用参数后,通过Bert模型预测模型训练类别;
对预测模型训练类别和实际模型训练类别进行正确率计算,正确率越高则表明模型分类的正确性越高,若正确率低于预设阈值则继续进行模型训练。
9.根据权利要求6所述的动态分析的工业品相似度计算系统,其特征在于,对实际模型训练结果进行损失值计算,计算模型预测结果与实际模型训练结果的差值,若差值越小,则表明模型训练的效果越好;若差值高于预设阈值,则继续进行模型训练。
10.根据权利要求6所述的动态分析的工业品相似度计算系统,其特征在于,采用余弦相似度进行相似度计算,公式为:
Figure FDA0003196635560000021
其中,similarity(A,B)表示余弦相似度;A表示目标用户的行为向量;B表示除目标用户的行为向量;A·B表示向量A和向量B的内积;||A||表示向量A的模;||B||表示向量B的模;n表示向量的分量数;i表示向量的第i个分量;Ai表示向量A的第i个分量;Bi表示向量B的第i个分量;
根据相似度计算结果,对相似度最高的工业品数据进行工业品推荐。
CN202110892807.0A 2021-08-04 2021-08-04 动态分析的工业品相似度计算方法和系统 Pending CN113850287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110892807.0A CN113850287A (zh) 2021-08-04 2021-08-04 动态分析的工业品相似度计算方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110892807.0A CN113850287A (zh) 2021-08-04 2021-08-04 动态分析的工业品相似度计算方法和系统

Publications (1)

Publication Number Publication Date
CN113850287A true CN113850287A (zh) 2021-12-28

Family

ID=78975417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110892807.0A Pending CN113850287A (zh) 2021-08-04 2021-08-04 动态分析的工业品相似度计算方法和系统

Country Status (1)

Country Link
CN (1) CN113850287A (zh)

Similar Documents

Publication Publication Date Title
CN109034368B (zh) 一种基于dnn的复杂设备多重故障诊断方法
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
Galli Python feature engineering cookbook: over 70 recipes for creating, engineering, and transforming features to build machine learning models
CN110490304B (zh) 一种数据处理方法及设备
US11620453B2 (en) System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations
CN116821318A (zh) 基于大语言模型的业务知识推荐方法、装置及存储介质
Pfeiffer et al. Multivariate business process representation learning utilizing gramian angular fields and convolutional neural networks
Ayyadevara Neural Networks with Keras Cookbook: Over 70 recipes leveraging deep learning techniques across image, text, audio, and game bots
CN116150367A (zh) 一种基于方面的情感分析方法及系统
CN111523301B (zh) 合同文档合规性检查方法及装置
CN112685374B (zh) 日志分类方法、装置及电子设备
US20220164705A1 (en) Method and apparatus for providing information based on machine learning
CN115718889A (zh) 针对公司简介的行业分类方法及装置
CN113850287A (zh) 动态分析的工业品相似度计算方法和系统
CN114970467A (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
CN114254622A (zh) 一种意图识别方法和装置
CN113076421A (zh) 一种社交噪音文本实体关系抽取优化方法及系统
CN113850286A (zh) 新上架工业品的描述方法和系统
CN112434889A (zh) 一种专家行业分析方法、装置、设备及存储介质
CN113836309A (zh) 工业品实体数字化描述方法和系统
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法
CN116882398B (zh) 基于短语交互的隐式篇章关系识别方法和系统
CN112507126B (zh) 一种基于循环神经网络的实体链接装置和方法
CN113850638A (zh) 基于工业品数字化匹配的采购策略方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination