CN115034837A

CN115034837A - 一种基于知识图谱的产品销量预测方法、设备和介质

Info

Publication number: CN115034837A
Application number: CN202210975174.4A
Authority: CN
Inventors: 涂宏斌; 胡剑文; 罗会源; 徐任玉; 刘雨芃; 胡昕岳; 高晨; 王昊天; 章翔; 刘超; 熊海波
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-09-09

Abstract

本发明公开了一种基于知识图谱的产品销量预测方法、设备和介质，方法：根据产品文本信息构建销量知识图谱；对图谱的实体与关系构建对应的二分图；采用Node2vec算法学习二分图各节点向量作为初始向量；采用CrossE方法对初始向量进行交互嵌入；利用已知销量区间的历史产品文本信息，获得给定“销量区间”的再表示向量；利用未知销量区间的产品文本信息，获得三元组“产品‑销量区间”中头实体和关系的再表示向量，计算对应的组合表示向量，即为对应尾实体“销量区间”的预测向量；根据预测向量和组合表示向量计算相似度，取其中相似度最大值对应的“销量区间”，即为产品预测的销量区间。本发明对产品销售的预测准确性高。

Description

一种基于知识图谱的产品销量预测方法、设备和介质

技术领域

本发明属于数据预测技术领域，尤其涉及一种基于知识图谱的产品销量预测方法、设备和介质。

背景技术

目前销售环节作为企业管理的重要组成部分，关乎企业的生存发展，给行业带来前景命脉，而销量预测是销售环节的重中之重。产品种类丰富多样，品牌质量参差不齐，产品销量受到众多影响因素的干扰，传统的销量预测尽管有考虑到产品销量的影响因素，但无法兼顾虚拟变量的额外信息引起的特征差异的扰动，每种方法也有其自身的局限性，很难达到我们想要的结果。大多数方法本质上都是用公式表示现在的走势，同时认为未来的走势也符合这个公式的规律。拟合当前和过去的线性和非线性关系。当预测销量远大于企业的库存量，该企业大量缺货，无法将产品利益效益最大化，同时客户的需求的得不到满足，会损失信誉；当销量远小于企业产品的库存量时，导致库房积压库存，企业资金回收耗时耗力，再加上一些不可抗拒的因素，想要准确的预测下一段时间精确的销量值不太可能，因此一个准确的销量预测方法对一个有足够统计数据的企业未来日常经营策略的参考价值非常大，为企业良性的库存备货提高周转率，制定成本预算项目，审时度势因地制宜地制定有效策略，为合理的产品销量策略提供理论依据。

发明内容

针对上述问题，本发明提供一种基于知识图谱的产品销量预测方法、设备和介质，使用知识图谱嵌入技术，从产品因素构成二分图中学习因素的初始表示，然后融合知识图谱的结构化特征对产品因素进行增强表示，实现基于知识图谱链路的销量预测，提高对产品销量预测的准确性。

为实现上述技术目的，本发明采用如下技术方案：

一种基于知识图谱的产品销量预测方法，包括：

步骤1，根据产品文本信息构建有关产品销量的知识图谱；

步骤2，对步骤1构建的知识图谱中的实体与关系，构建对应的产品因素二分图G；

步骤3，采用

算法学习产品因素二分图中各节点的向量，作为步骤1中构建的知识图谱中各实体和关系的初始向量；

步骤4，采用CrossE方法对步骤3得到的初始向量进行交互嵌入，得到知识图谱中各实体和关系的再表示向量；

步骤5，利用已知销量区间的历史产品文本信息，按步骤1-步骤4获得每个给定“销量区间”的再表示向量；

步骤6，利用未知销量区间的产品文本信息，按步骤1-步骤4获得头实体“产品”的再表示向量、头实体“产品”与尾实体“销量区间”之间关系的再表示向量，然后计算对应的组合表示向量，即为对应尾实体“销量区间”的预测向量；

步骤7，对步骤6所得尾实体“销量区间”的预测向量，计算其与步骤5所得每个给定“销量区间”再表示向量之间的相似度；然后选择其中相似度最大值所对应的“销量区间”，即为产品预测的销量区间。

进一步地，所述采用

算法学习产品因素二分图中各节点的向量，具体为：对产品因素二分图中所有节点所表示的产品因素进行采样，构建当前产品因素

的邻域信息

，并按目标函数式（1）最大化

与

产生连边的条件概率，以获得对产品因素

进行向量表示的映射函数

：

（1）

式中，

是一种采样策略，

表示产品因素二分图中的节点集，

表示

与

产生连边的条件概率。

进一步地，通过简化目标函数式（1）以求解映射函数

的方法为：根据式（2）的条件独立假设和式（3）的特征空间的对称性假设，并去掉常数项，可得式（4）所示的目标函数：

（2）

（3）

（4）

式中，

表示邻域信息

中的任意节点，

表示

与

产生连边的条件概率，

泛指节点集

中的任意节点，

为当前产品因素

的归一化因子，

。

进一步地，采用CrossE方法对初始向量进行向量再表示的方法为：

步骤4.1，从步骤1构建的知识图谱中提取所有的产品因素三元组，记为正例三元组；针对每个正例三元组构建若干个负例三元组；

步骤4.2，根据评分函数计算每个正例三元组和负例三元组的评分值，通过最大化正例三元组的评分值、最小化负例三元组的评分值，来学习获得用于模拟实体和关系之间的交叉交互的交互矩阵C；

步骤4.3，根据知识图谱中各实体和关系的初始向量，以及学习得到的交互矩阵，得到各实体和关系的再表示向量。

进一步地，评分函数具体计算方法为：

步骤a1，对三元组中的头实体进行交互嵌入：

式中，

为Hadamard乘积，是一种元素智能算子；

是一个关系特定变量，由 CrossE模型中内置的交互矩阵C得到；

为CrossE模型的索引向量；

是三元组中头实体的初始向量；

表示头实体经交互嵌入得到的再表示向量；

步骤a2，对三元组中的关系进行交互嵌入：

式中，r是三元组中关系的初始向量，

表示关系经交互嵌入得到的再表示向量；

步骤a3，对三元组中的头实体和关系进行组合表示：

式中，

为头实体 h和关系r的组合表示；

为全局偏置向量，d为实体和关系的向量维度；

为激活函数，

的输出范围为 [-1，1]，用于确保组合表示与实体表示共享相同的分布区间；

为激活函数的变量；

步骤a4，将三元组中头实体与关系的组合表示

，与三元组中的尾实体

进行相似度量，作为三元组的评分函数值：

式中，

为三元组

的相似度量，

是约束输出值分布在区间[0，1]内的非线性函数。

进一步地，步骤6计算组合表示向量的方法为：

进一步地，步骤7计算相似度的方法为：将各给定的预测区间设为产品-销量三元组中的尾实体，按三元组的评分函数计算相似度。

一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现上述任一项技术方案所述的基于知识图谱的产品销量预测方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项技术方案所述的基于知识图谱的产品销量预测方法。

有益效果

本发明针对产品销量预测模型问题，首先设计了一种知识图谱的产品销量预测模型，该模型能够对产品信息进行关键因素的提取；然后为提供产品因素的全局关系，构建了一个产品因素二分图，并根据相应的算法来突出产品因素之间的依存关系；还考虑到产品信息三元组中实体和关系的交互作用，使用了一种双线性模型，对每个实体和关系的多重交互嵌入提供了更丰富的表征和泛化能力。本发明基于知识图谱对产品销量的预测准确性好。

附图说明

图1是现有技术的销量预测模型示意图；

图2是本实施例的销量预测模型示意图；

图3是产品销量的知识图谱；

图4是本申请实施例所述方法的数据流向图；

图5是本申请实施例所述方法的流程图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

大多数现有的销量预测模型都是基于端到端的分类模型，技术手段主要以文本分类模型为主。这一类分类模型以产品信息的自然文本为输入端，以对应产品的销量区间为输出端。给定产品信息文本描述的集合

和销量标签集合

，

n为产品数量，k为标签数量。分类模型经过卷积操作学习产品信息文本特征f(T)，此特征经softmax函数计算后可得到产品

的销量

的概率。

本发明则根据分类模型的预测模式，将销量预测重定义为知识图谱的链路预测。输入端是从产品信息中提取的全部三元组集合

，

输出端为三元组

的销量尾实体。给定销量三元组

，遮盖销量实体

，得到测试三元组

。知识图谱销量模型通过对头实体向量和关系向量进行二元运算操作，计算当前预测的销量属于目标实体

的概率。

图1和图2分别是现有技术和本发明实施例两种方式的销量预测模型展示，图中

表示实体向量，

表示关系向量，并且由图可以看出：

（1）两者都是以销量区间代替具体的销量结果，这样可以平衡数据的分布，从而降低数据质量问题对模型产生的影响。

（2）在输入端，知识图谱的销量预测是分类模型的延展，它从产品信息的文本描述中抽取结构化的三元组，把产品的销量结果作为尾实体参与训练。模型对文本特征的表示方式不同是两者的主要区别，即知识图谱的销量预测采用文本中实体和关系的结构化特征，而分类模型的销量预测使用产品文本的语义特征。

（3）在输出端，它们都采用概率容错的方式预测销量标签。知识图谱的销量预测通过实体向量和关系向量的二元运算操作预测销量，分类模型的销量预测通过

函数计算每个类别的概率来选择销量标签。

本实施例提供的一种基于知识图谱的产品销量预测方法，参考图4、5所示，包括以下步骤：

步骤1，根据产品文本信息构建有关产品销量的知识图谱。

产品信息知识图谱的构建过程主要包括知识的抽取、融合以及加工等步骤，从半结构化的数据中提取结构化三元组信息，通过知识融合将三元组中实体间的歧义消除，得到一系列基本的表达，再通过知识加工初步构建出销量预测的知识图谱。

知识图谱的基本元素用于描述产品信息中两个实体之间关系的三重事实表示，即（头实体

，关系

，尾实体

），并将其存储到产品描述框架数据库中。产品信息知识图谱如图3所示，该图是对于产品信息知识图谱模式层和数据层的构建。知识图谱分为模式层和数据层两部分，其中模式层主要展现产品信息中概念实体与实体之间的所属关系以及实体与属性的类型定义，而数据层则是模式层中实体和关系的实例化，如图3所示，数据层的产品A是模式层中产品的一个实例化实体，数据层中实体产品A的属性类型由模式层产品及其属性来定义。数据层中的大部分概念由模式层来定义，将相应已经抽取、融合、加工的数据进行规约映射入数据层得到相应的三元组，再将产品信息描述使用相应的若干三元组表示，最后通过产品信息的自然文本转化成图谱表示。

本实施例步骤1中，首先需要按照预先构建的知识图谱模式层，从产品文本信息中抽取产品因素，通常包括企业名、客户、产品、类似产品等实体，以及各实体的属性值，然后将其转化为结构化数据并存入到知识图谱中。可以包括以下几个步骤：

（1）产品信息实体因素抽取

产品信息实体因素抽取是指抽取自然文本中的产品信息元素，通常包含企业名、客户、产品等标签。产品信息实体因素抽取可视为对一段自然文本中的产品信息进行序列标注，其包括两个步骤：实体边界识别和实体分类。实体边界识别的目的是判断产品信息中某一字符串是否是一个完整实体，实体分类则对实体打上预先设定的标签，并将其划分到此标签所代表的类别中。

（2）产品信息实体因素链接

产品信息实体因素链接是指将经过产品信息实体因素抽取后的实体链接到已有知识图谱的某一个实体上。由于刚抽取出的产品信息实体可能是知识图谱中已有实体的部分表示或另类表示，因此需通过实体统一和指代消解的方式进行实体消岐。实体统一是利用表层名字扩展或搜索引擎技术来生成多个候选产品信息实体，再使用基于图的方法、基于概率生成模型或基于深度学习的方法对生成的多个候选项进行唯一化处理。指代消解可视作为一个分类问题，即将代表同一实体的不同指称划分到一个等价集合，通过此集合实现指称项与已有实体的匹配；也可将视作为一个聚类问题，即以每一个实体指称项为中心，通过实体聚类实现指称项与已有实体的匹配。经过实体消岐得到的唯一候选产品信息实体后即可将其与知识图谱中的已有实体进行链接。

（3）产品信息关系因素抽取

产品信息关系因素抽取是指从自然文本中抽取出两个或多个产品实体之间的语义关系。由于语言表达中存在多种句法结构，根据不同语法结构可以分析出多个词之间的依存关系，因此此步骤可利用基于依存句法分析的模板分析技术来完成，其具体实现流程如下：

步骤2，对步骤1构建的知识图谱中的实体与关系，构建对应的产品因素二分图G。

三元组是产品因素间的一种关系型结构表示，反映产品因素在知识图谱中的局部信息。为了提供产品因素的全局依存关系，将所有产品因素按照实体和关系两种类型，构造成二分图G = (V, E)，其中，V为产品因素的集合，E为产品因素之间的连边。在二分图中，三元组的头实体和尾实体之间不是直接连边，而是通过关系来建立联系。

步骤3，采用Node2vec算法学习产品因素二分图中各节点的向量，作为步骤1中构建的知识图谱中各实体和关系的初始向量。

本实施例中的产品因素二分图G，使用 Node2vec算法学习G中的节点嵌入，来作为产品因素的初始向量。对比使用随机初始化的实体向量和关系向量，采用图嵌入方式学习实体和关系的初始向量，可以更准确地表现产品因素在全局空间中的特征分布，进而为基于知识图谱的产品因素再表示提供具有拓扑结构的预训练向量。

Node2vec算法是网络的拓扑表示方法，目标是学习映射函数

，将产品因素从网络空间映射到向量空间。通过对产品因素进行采样，构建当前产品因素

的邻域信息

，并最大化

与

产生连边的条件概率，实现对

的向量表示：

其中s是一种采样策略，

表示产品因素二分图中的节点集，

表示

与

产生连边的条件概率。

在Node2vec算法中，产品因素

的邻域信息

由采样策略s从其直接邻域和结构相似的产品要素中得到。根据条件独立假设

和特征空间的对称性假设

去掉常数项约束，Node2vec算法的目标函数为

式中，

表示邻域信息

中的任意节点，

泛指节点集

中的任意节点，

为当前产品因素

的归一化因子，

。

通过目标函数，Node2vec算法将二分图中的产品因素V表示成低维稠密的向量

（d表示向量的维度），将其表示为产品因素预训练向量ProE。

步骤4，在初始向量的基础上，采用CrossE方法对步骤3得到的初始向量进行交互嵌入，得到知识图谱中各实体和关系的再表示向量。

因为Node2vec算法是一个无差别的节点嵌入算法，使得在产品因素的向量空间中没有区分实体和关系，因此需对产品因素进行再表示，得到产品信息图谱中实体和关系向量的最终表示。

本实施例中，为图谱嵌入设计了一个“匹配池”，用来划分产品因素中的实体向量和关系向量。“匹配池”中的实体编码从零开始，而关系编码从实体编码的结束位置开始。采用“等待池”接收构造好的负例三元组和知识图谱本体中的产品因素三元组（都为正例三元组），并为其设置候选队列。

“匹配池”的尺寸为V × d，包含V个d维向量的产品因素，V由实体和关系组成。在 “匹配池”中，产品因素的实体和关系进行初步划分，向量表示为

和

。用查表的方式将“匹配池”中的实体向量和关系向量映射到“等待池”中的正例三元组内，获得三元组中实体和关系的初始化向量：

其中，

为头实体，

为尾实体，

为关系。

CrossE是一种双线性模型，该模型通过学习一个交互矩阵来模拟实体和关系之间的交叉交互，以产生多个特定的交互嵌入。因此，采用CrossE方法对初始向量进行交互嵌入的核心，即是学习CrossE模型中内置的交互矩阵C，因此除了需要知识图谱中有效的正例三元组，还需要负例三元组进行训练（如果只有正例三元组，会导致训练得到的知识图谱嵌入模型的嵌入性能差，即交互矩阵不准确，导致输出的实体向量或关系向量难以准确表示知识图谱中的实体或关系）。

其中负例三元组的构建方法为：对每个正例三元组，替换尾部实体

为一个新的实体

，产生新的三元组

，并且该三元组未在产品因素三元组中出现，则该三元组

为一个负例三元组。

将初始向量定义为：

式中

为头实体向量矩阵，

为尾实体向量矩阵，

为关系向量矩阵，

在CrossE中，每个三元组定义一个评分函数，使有效三元组得到高分，无效三元组得到低分，评分函数将分为下面四个部分。

（1）对三元组中的头实体进行交互嵌入：

式中，

为Hadamard乘积，是一种元素智能算子；

是一个关系特定变量，由 CrossE模型中内置的交互矩阵C得到，

为CrossE模型的索引向量；h是三元组中头实体的初始向量；

表示头实体经交互嵌入得到的再表示向量；

（2）对三元组中的关系进行交互嵌入：

式中，

是三元组中关系的初始向量，

表示关系经交互嵌入得到的再表示向量；

（3）对三元组中的头实体和关系进行组合表示：

式中，

为头实体

和关系

的组合表示；

为全局偏置向量，d为各实体和关系的向量维度；

为激活函数，

为激活函数的变量；

（4）将三元组中头实体与关系的组合表示

，与三元组中的尾实体

进行相似度量，作为三元组的评分函数值：

式中，

为三元组

的相似度量，

是约束输出值分布在区间[0，1]内的非线性函数。

步骤5，利用已知销量区间的历史产品文本信息，按步骤1-4获得每个给定“销量区间”的再表示向量。

该步骤即是根据包括“销量区间”的历史产品文本信息，构建分别包括不同“销量区间”的多个知识图谱，从而得到每个给定“销量区间”的再表示向量，以用于后续相似度计算与对比。

步骤6，利用未知销量区间的产品文本信息，按步骤1-4获得头实体“产品”的再表示向量、头实体“产品”与尾实体“销量区间”之间“关系”的再表示向量，然后计算对应的组合表示向量，即为对应尾实体“销量区间”的预测向量。

该步骤是根据未知销量区间的产品文本信息，构建包括所有“销售区间”的知识图谱，得到与尾实体“销售区间”构成三元组的头实体“产品”的再表示向量以及头实体“产品”与尾实体“销量区间”之间“关系”的再表示向量，进而计算对应的组合表示向量。

本步骤中计算组合表示向量的方法，与步骤4中评分函数的计算方法相同，即为：

。

其中本步骤计算相似度的方法为：将各给定的预测区间设为产品-销量三元组中的尾实体，按步骤4中三元组的评分函数计算相似度。

本发明还提供一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现上述实施例中所述的基于知识图谱的产品销量预测方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中所述的基于知识图谱的产品销量预测方法。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种基于知识图谱的产品销量预测方法，其特征在于，包括：

步骤1，根据产品文本信息构建有关产品销量的知识图谱；

步骤3，采用

2.根据权利要求1所述的产品销量预测方法，其特征在于，所述采用

的邻域信息

，并按目标函数式（1）最大化

与

产生连边的条件概率，以获得对产品因素

进行向量表示的映射函数

：

（1）

式中，s是一种采样策略，V表示产品因素二分图中的节点集，

表示u与

产生连边的条件概率。

3.根据权利要求2所述的产品销量预测方法，其特征在于，通过简化目标函数式（1）以求解映射函数f的方法为：根据式（2）的条件独立假设和式（3）的特征空间的对称性假设，并去掉常数项，可得式（4）所示的目标函数：

（2）

（3）

（4）

式中，

表示邻域信息

中的任意节点，

表示

与

产生连边的条件概率，

泛指节点集

中的任意节点，

为当前产品因素

的归一化因子，

。

4.根据权利要求1所述的产品销量预测方法，其特征在于，采用CrossE方法对初始向量进行向量再表示的方法为：

5.根据权利要求4所述的产品销量预测方法，其特征在于，评分函数具体计算方法为：

步骤a1，对三元组中的头实体进行交互嵌入：

式中，

为Hadamard乘积，是一种元素智能算子；

是一个关系特定变量，由CrossE 模型中内置的交互矩阵C得到；

为CrossE模型的索引向量；

是三元组中头实体的初始向量；

表示头实体经交互嵌入得到的再表示向量；

步骤a2，对三元组中的关系进行交互嵌入：

式中，r是三元组中关系的初始向量，

表示关系经交互嵌入得到的再表示向量；

步骤a3，对三元组中的头实体和关系进行组合表示：

式中，

为头实体h和关系r的组合表示；

为全局偏置向量，d为各实体和关系的向量维度，R表示实数；

为激活函数，

的输出范围为[-1，1]，用于确保组合表示与实体表示共享相同的分布区间；

为激活函数的变量；

步骤a4，将三元组中头实体与关系的组合表示

，与三元组中的尾实体

进行相似度量，作为三元组的评分函数值：

式中，

为三元组

的相似度量，

是约束输出值分布在区间[0，1]内的非线性函数。

6.根据权利要求5所述的产品销量预测方法，其特征在于，步骤6计算组合表示向量的方法为：

。

7.根据权利要求5所述的产品销量预测方法，其特征在于，步骤7计算相似度的方法为：将各给定的预测区间设为产品-销量区间三元组中的尾实体，按三元组的评分函数计算相似度。

8.一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1～7中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～7中任一项所述的方法。