CN115034837A - 一种基于知识图谱的产品销量预测方法、设备和介质 - Google Patents

一种基于知识图谱的产品销量预测方法、设备和介质 Download PDF

Info

Publication number
CN115034837A
CN115034837A CN202210975174.4A CN202210975174A CN115034837A CN 115034837 A CN115034837 A CN 115034837A CN 202210975174 A CN202210975174 A CN 202210975174A CN 115034837 A CN115034837 A CN 115034837A
Authority
CN
China
Prior art keywords
product
vector
sales
entity
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210975174.4A
Other languages
English (en)
Inventor
涂宏斌
胡剑文
罗会源
徐任玉
刘雨芃
胡昕岳
高晨
王昊天
章翔
刘超
熊海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202210975174.4A priority Critical patent/CN115034837A/zh
Publication of CN115034837A publication Critical patent/CN115034837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的产品销量预测方法、设备和介质,方法:根据产品文本信息构建销量知识图谱;对图谱的实体与关系构建对应的二分图;采用Node2vec算法学习二分图各节点向量作为初始向量;采用CrossE方法对初始向量进行交互嵌入;利用已知销量区间的历史产品文本信息,获得给定“销量区间”的再表示向量;利用未知销量区间的产品文本信息,获得三元组“产品‑销量区间”中头实体和关系的再表示向量,计算对应的组合表示向量,即为对应尾实体“销量区间”的预测向量;根据预测向量和组合表示向量计算相似度,取其中相似度最大值对应的“销量区间”,即为产品预测的销量区间。本发明对产品销售的预测准确性高。

Description

一种基于知识图谱的产品销量预测方法、设备和介质
技术领域
本发明属于数据预测技术领域,尤其涉及一种基于知识图谱的产品销量预测方法、设备和介质。
背景技术
目前销售环节作为企业管理的重要组成部分,关乎企业的生存发展,给行业带来前景命脉,而销量预测是销售环节的重中之重。产品种类丰富多样,品牌质量参差不齐,产品销量受到众多影响因素的干扰,传统的销量预测尽管有考虑到产品销量的影响因素,但无法兼顾虚拟变量的额外信息引起的特征差异的扰动,每种方法也有其自身的局限性,很难达到我们想要的结果。大多数方法本质上都是用公式表示现在的走势,同时认为未来的走势也符合这个公式的规律。拟合当前和过去的线性和非线性关系。当预测销量远大于企业的库存量,该企业大量缺货,无法将产品利益效益最大化,同时客户的需求的得不到满足,会损失信誉;当销量远小于企业产品的库存量时,导致库房积压库存,企业资金回收耗时耗力,再加上一些不可抗拒的因素,想要准确的预测下一段时间精确的销量值不太可能,因此一个准确的销量预测方法对一个有足够统计数据的企业未来日常经营策略的参考价值非常大,为企业良性的库存备货提高周转率,制定成本预算项目,审时度势因地制宜地制定有效策略,为合理的产品销量策略提供理论依据。
发明内容
针对上述问题,本发明提供一种基于知识图谱的产品销量预测方法、设备和介质,使用知识图谱嵌入技术,从产品因素构成二分图中学习因素的初始表示,然后融合知识图谱的结构化特征对产品因素进行增强表示,实现基于知识图谱链路的销量预测,提高对产品销量预测的准确性。
为实现上述技术目的,本发明采用如下技术方案:
一种基于知识图谱的产品销量预测方法,包括:
步骤1,根据产品文本信息构建有关产品销量的知识图谱;
步骤2,对步骤1构建的知识图谱中的实体与关系,构建对应的产品因素二分图G;
步骤3,采用
Figure 571980DEST_PATH_IMAGE001
算法学习产品因素二分图中各节点的向量,作为步骤1中构建 的知识图谱中各实体和关系的初始向量;
步骤4,采用CrossE方法对步骤3得到的初始向量进行交互嵌入,得到知识图谱中各实体和关系的再表示向量;
步骤5,利用已知销量区间的历史产品文本信息,按步骤1-步骤4获得每个给定“销量区间”的再表示向量;
步骤6,利用未知销量区间的产品文本信息,按步骤1-步骤4获得头实体“产品”的再表示向量、头实体“产品”与尾实体“销量区间”之间关系的再表示向量,然后计算对应的组合表示向量,即为对应尾实体“销量区间”的预测向量;
步骤7,对步骤6所得尾实体“销量区间”的预测向量,计算其与步骤5所得每个给定“销量区间”再表示向量之间的相似度;然后选择其中相似度最大值所对应的“销量区间”,即为产品预测的销量区间。
进一步地,所述采用
Figure 489120DEST_PATH_IMAGE001
算法学习产品因素二分图中各节点的向量,具体为:对 产品因素二分图中所有节点所表示的产品因素进行采样,构建当前产品因素
Figure 534437DEST_PATH_IMAGE002
的邻域信息
Figure 132908DEST_PATH_IMAGE003
,并按目标函数式(1)最大化
Figure 947280DEST_PATH_IMAGE002
Figure 35322DEST_PATH_IMAGE003
产生连边的条件概率,以获得对产品因素
Figure 505618DEST_PATH_IMAGE002
进行向 量表示的映射函数
Figure 438939DEST_PATH_IMAGE004
Figure 373397DEST_PATH_IMAGE005
(1)
式中,
Figure 632340DEST_PATH_IMAGE006
是一种采样策略,
Figure 324352DEST_PATH_IMAGE007
表示产品因素二分图中的节点集,
Figure 326943DEST_PATH_IMAGE008
表示
Figure 115908DEST_PATH_IMAGE002
Figure 483435DEST_PATH_IMAGE003
产生连边的条件概率。
进一步地,通过简化目标函数式(1)以求解映射函数
Figure 725061DEST_PATH_IMAGE004
的方法为:根据式(2)的条件 独立假设和式(3)的特征空间的对称性假设,并去掉常数项,可得式(4)所示的目标函数:
Figure 531343DEST_PATH_IMAGE009
(2)
Figure 909234DEST_PATH_IMAGE010
(3)
Figure 713242DEST_PATH_IMAGE011
(4)
式中,
Figure 176585DEST_PATH_IMAGE012
表示邻域信息
Figure 786557DEST_PATH_IMAGE013
中的任意节点,
Figure 487797DEST_PATH_IMAGE014
表示
Figure 993865DEST_PATH_IMAGE015
Figure 475662DEST_PATH_IMAGE012
产生连 边的条件概率,
Figure 358167DEST_PATH_IMAGE016
泛指节点集
Figure 913913DEST_PATH_IMAGE017
中的任意节点,
Figure 856462DEST_PATH_IMAGE018
为当前产品因素
Figure 294396DEST_PATH_IMAGE015
的归一化因子,
Figure 183855DEST_PATH_IMAGE019
进一步地,采用CrossE方法对初始向量进行向量再表示的方法为:
步骤4.1,从步骤1构建的知识图谱中提取所有的产品因素三元组,记为正例三元组;针对每个正例三元组构建若干个负例三元组;
步骤4.2,根据评分函数计算每个正例三元组和负例三元组的评分值,通过最大化正例三元组的评分值、最小化负例三元组的评分值,来学习获得用于模拟实体和关系之间的交叉交互的交互矩阵C
步骤4.3,根据知识图谱中各实体和关系的初始向量,以及学习得到的交互矩阵,得到各实体和关系的再表示向量。
进一步地,评分函数具体计算方法为:
步骤a1,对三元组中的头实体进行交互嵌入:
Figure 390845DEST_PATH_IMAGE020
式中,
Figure 769874DEST_PATH_IMAGE021
为Hadamard乘积,是一种元素智能算子;
Figure 895437DEST_PATH_IMAGE022
是一个关系特定变量,由 CrossE模型中内置的交互矩阵C得到;
Figure 119745DEST_PATH_IMAGE023
为CrossE模型的索引向量;
Figure 712401DEST_PATH_IMAGE024
是三元组中头实体 的初始向量;
Figure 996751DEST_PATH_IMAGE025
表示头实体经交互嵌入得到的再表示向量;
步骤a2,对三元组中的关系进行交互嵌入:
Figure 346961DEST_PATH_IMAGE026
式中,r是三元组中关系的初始向量,
Figure 374960DEST_PATH_IMAGE027
表示关系经交互嵌入得到的再表示向量;
步骤a3,对三元组中的头实体和关系进行组合表示:
Figure 822122DEST_PATH_IMAGE028
式中,
Figure 480636DEST_PATH_IMAGE029
为头实体 h和关系r的组合表示;
Figure 380459DEST_PATH_IMAGE030
为全局偏置向量,d为 实体和关系的向量维度;
Figure 212149DEST_PATH_IMAGE031
为激活函数,
Figure 248238DEST_PATH_IMAGE032
的输出范围为 [-1,1],用于确保组合表示与实体表示共享相同的分布区间;
Figure 77654DEST_PATH_IMAGE033
为激活函数的变量;
步骤a4,将三元组中头实体与关系的组合表示
Figure 199194DEST_PATH_IMAGE029
,与三元组中的尾实体
Figure 834574DEST_PATH_IMAGE034
进 行相似度量,作为三元组的评分函数值:
Figure 990749DEST_PATH_IMAGE035
Figure 991066DEST_PATH_IMAGE036
式中,
Figure 599902DEST_PATH_IMAGE037
为三元组
Figure 773395DEST_PATH_IMAGE038
的相似度量,
Figure 784076DEST_PATH_IMAGE039
是约束输出值分布在区间[0,1]内的非线性函数。
进一步地,步骤6计算组合表示向量的方法为:
Figure 955294DEST_PATH_IMAGE028
进一步地,步骤7计算相似度的方法为:将各给定的预测区间设为产品-销量三元组中的尾实体,按三元组的评分函数计算相似度。
一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一项技术方案所述的基于知识图谱的产品销量预测方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项技术方案所述的基于知识图谱的产品销量预测方法。
有益效果
本发明针对产品销量预测模型问题,首先设计了一种知识图谱的产品销量预测模型,该模型能够对产品信息进行关键因素的提取;然后为提供产品因素的全局关系,构建了一个产品因素二分图,并根据相应的算法来突出产品因素之间的依存关系;还考虑到产品信息三元组中实体和关系的交互作用,使用了一种双线性模型,对每个实体和关系的多重交互嵌入提供了更丰富的表征和泛化能力。本发明基于知识图谱对产品销量的预测准确性好。
附图说明
图1是现有技术的销量预测模型示意图;
图2是本实施例的销量预测模型示意图;
图3是产品销量的知识图谱;
图4是本申请实施例所述方法的数据流向图;
图5是本申请实施例所述方法的流程图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
大多数现有的销量预测模型都是基于端到端的分类模型,技术手段主要以文本分类模型为主。这一类分类模型以产品信息的自然文本为输入端,以对应产品的销量区间为输出端。给定产品信息文本描述的集合
Figure 51426DEST_PATH_IMAGE040
和销量标签集合
Figure 28610DEST_PATH_IMAGE041
n为产品数量,k为标签数量。分类模型经过卷积操作学习产品信息文本特征f(T), 此特征经softmax函数计算后可得到产品
Figure 159377DEST_PATH_IMAGE042
的销量
Figure 501496DEST_PATH_IMAGE043
的概率。
本发明则根据分类模型的预测模式,将销量预测重定义为知识图谱的链路预测。输入端是从产品信息中提取的全部三元组集合
Figure 819345DEST_PATH_IMAGE044
输出端为三元组
Figure 600219DEST_PATH_IMAGE045
的销量尾实体。给定销量三元组
Figure 585493DEST_PATH_IMAGE046
, 遮盖销量实体
Figure 98514DEST_PATH_IMAGE047
,得到测试三元组
Figure 169238DEST_PATH_IMAGE048
。知识图 谱销量模型通过对头实体向量和关系向量进行二元运算操作,计算当前预测的销量属于目 标实体
Figure 222645DEST_PATH_IMAGE049
的概率。
图1和图2分别是现有技术和本发明实施例两种方式的销量预测模型展示,图中
Figure 265687DEST_PATH_IMAGE050
表示实体向量,
Figure 746347DEST_PATH_IMAGE051
表示关系向量,并且由图可以看出:
(1)两者都是以销量区间代替具体的销量结果,这样可以平衡数据的分布,从而降低数据质量问题对模型产生的影响。
(2)在输入端,知识图谱的销量预测是分类模型的延展,它从产品信息的文本描述中抽取结构化的三元组,把产品的销量结果作为尾实体参与训练。模型对文本特征的表示方式不同是两者的主要区别,即知识图谱的销量预测采用文本中实体和关系的结构化特征,而分类模型的销量预测使用产品文本的语义特征。
(3)在输出端,它们都采用概率容错的方式预测销量标签。知识图谱的销量预测通 过实体向量和关系向量的二元运算操作预测销量,分类模型的销量预测通过
Figure 569946DEST_PATH_IMAGE052
函数计 算每个类别的概率来选择销量标签。
本实施例提供的一种基于知识图谱的产品销量预测方法,参考图4、5所示,包括以下步骤:
步骤1,根据产品文本信息构建有关产品销量的知识图谱。
产品信息知识图谱的构建过程主要包括知识的抽取、融合以及加工等步骤,从半结构化的数据中提取结构化三元组信息,通过知识融合将三元组中实体间的歧义消除,得到一系列基本的表达,再通过知识加工初步构建出销量预测的知识图谱。
知识图谱的基本元素用于描述产品信息中两个实体之间关系的三重事实表示,即 (头实体
Figure 161465DEST_PATH_IMAGE024
,关系
Figure 324593DEST_PATH_IMAGE053
,尾实体
Figure 976154DEST_PATH_IMAGE054
),并将其存储到产品描述框架数据库中。产品信息知识图谱 如图3所示,该图是对于产品信息知识图谱模式层和数据层的构建。知识图谱分为模式层和 数据层两部分,其中模式层主要展现产品信息中概念实体与实体之间的所属关系以及实体 与属性的类型定义,而数据层则是模式层中实体和关系的实例化,如图3所示,数据层的产 品A是模式层中产品的一个实例化实体,数据层中实体产品A的属性类型由模式层产品及其 属性来定义。数据层中的大部分概念由模式层来定义,将相应已经抽取、融合、加工的数据 进行规约映射入数据层得到相应的三元组,再将产品信息描述使用相应的若干三元组表 示,最后通过产品信息的自然文本转化成图谱表示。
本实施例步骤1中,首先需要按照预先构建的知识图谱模式层,从产品文本信息中抽取产品因素,通常包括企业名、客户、产品、类似产品等实体,以及各实体的属性值,然后将其转化为结构化数据并存入到知识图谱中。可以包括以下几个步骤:
(1)产品信息实体因素抽取
产品信息实体因素抽取是指抽取自然文本中的产品信息元素,通常包含企业名、客户、产品等标签。产品信息实体因素抽取可视为对一段自然文本中的产品信息进行序列标注,其包括两个步骤:实体边界识别和实体分类。实体边界识别的目的是判断产品信息中某一字符串是否是一个完整实体,实体分类则对实体打上预先设定的标签,并将其划分到此标签所代表的类别中。
(2)产品信息实体因素链接
产品信息实体因素链接是指将经过产品信息实体因素抽取后的实体链接到已有知识图谱的某一个实体上。由于刚抽取出的产品信息实体可能是知识图谱中已有实体的部分表示或另类表示,因此需通过实体统一和指代消解的方式进行实体消岐。实体统一是利用表层名字扩展或搜索引擎技术来生成多个候选产品信息实体,再使用基于图的方法、基于概率生成模型或基于深度学习的方法对生成的多个候选项进行唯一化处理。指代消解可视作为一个分类问题,即将代表同一实体的不同指称划分到一个等价集合,通过此集合实现指称项与已有实体的匹配;也可将视作为一个聚类问题,即以每一个实体指称项为中心,通过实体聚类实现指称项与已有实体的匹配。经过实体消岐得到的唯一候选产品信息实体后即可将其与知识图谱中的已有实体进行链接。
(3)产品信息关系因素抽取
产品信息关系因素抽取是指从自然文本中抽取出两个或多个产品实体之间的语义关系。由于语言表达中存在多种句法结构,根据不同语法结构可以分析出多个词之间的依存关系,因此此步骤可利用基于依存句法分析的模板分析技术来完成,其具体实现流程如下:
步骤2,对步骤1构建的知识图谱中的实体与关系,构建对应的产品因素二分图G。
三元组是产品因素间的一种关系型结构表示,反映产品因素在知识图谱中的局部信息。为了提供产品因素的全局依存关系,将所有产品因素按照实体和关系两种类型,构造成二分图G = (V, E),其中,V为产品因素的集合,E为产品因素之间的连边。在二分图中,三元组的头实体和尾实体之间不是直接连边,而是通过关系来建立联系。
步骤3,采用Node2vec算法学习产品因素二分图中各节点的向量,作为步骤1中构建的知识图谱中各实体和关系的初始向量。
本实施例中的产品因素二分图G,使用 Node2vec算法学习G中的节点嵌入,来作为产品因素的初始向量。对比使用随机初始化的实体向量和关系向量,采用图嵌入方式学习实体和关系的初始向量,可以更准确地表现产品因素在全局空间中的特征分布,进而为基于知识图谱的产品因素再表示提供具有拓扑结构的预训练向量。
Node2vec算法是网络的拓扑表示方法,目标是学习映射函数
Figure 21470DEST_PATH_IMAGE055
,将产品因素从网 络空间映射到向量空间。通过对产品因素进行采样,构建当前产品因素
Figure 416680DEST_PATH_IMAGE015
的邻域信息
Figure 434314DEST_PATH_IMAGE056
,并最大化
Figure 256777DEST_PATH_IMAGE015
Figure 789389DEST_PATH_IMAGE056
产生连边的条件概率,实现对
Figure 988289DEST_PATH_IMAGE015
的向量表示:
Figure 860430DEST_PATH_IMAGE057
其中s是一种采样策略,
Figure 853794DEST_PATH_IMAGE058
表示产品因素二分图中的节点集,
Figure 873703DEST_PATH_IMAGE059
表 示
Figure 876294DEST_PATH_IMAGE015
Figure 602941DEST_PATH_IMAGE056
产生连边的条件概率。
在Node2vec算法中,产品因素
Figure 32786DEST_PATH_IMAGE015
的邻域信息
Figure 274411DEST_PATH_IMAGE056
由采样策略s从其直接邻域 和结构相似的产品要素中得到。根据条件独立假设
Figure 18376DEST_PATH_IMAGE060
和特征空间的对称性假设
Figure 396268DEST_PATH_IMAGE061
去掉常数项约束,Node2vec算法的目标函数为
Figure 262593DEST_PATH_IMAGE062
式中,
Figure 725935DEST_PATH_IMAGE063
表示邻域信息
Figure 273591DEST_PATH_IMAGE064
中的任意节点,
Figure 505989DEST_PATH_IMAGE016
泛指节点集
Figure 543216DEST_PATH_IMAGE065
中的任意节点,
Figure 493854DEST_PATH_IMAGE066
为当前产品因素
Figure 579622DEST_PATH_IMAGE015
的归一化因子,
Figure 932106DEST_PATH_IMAGE067
通过目标函数,Node2vec算法将二分图中的产品因素V表示成低维稠密的向量
Figure 140233DEST_PATH_IMAGE068
(d表示向量的维度),将其表示为产品因素预训练向量ProE。
步骤4,在初始向量的基础上,采用CrossE方法对步骤3得到的初始向量进行交互嵌入,得到知识图谱中各实体和关系的再表示向量。
因为Node2vec算法是一个无差别的节点嵌入算法,使得在产品因素的向量空间中没有区分实体和关系,因此需对产品因素进行再表示,得到产品信息图谱中实体和关系向量的最终表示。
本实施例中,为图谱嵌入设计了一个“匹配池”,用来划分产品因素中的实体向量和关系向量。“匹配池”中的实体编码从零开始,而关系编码从实体编码的结束位置开始。采用“等待池”接收构造好的负例三元组和知识图谱本体中的产品因素三元组(都为正例三元组),并为其设置候选队列。
“匹配池”的尺寸为V × d,包含V个d维向量的产品因素,V由实体和关系组成。在 “匹配池”中,产品因素的实体和关系进行初步划分,向量表示为
Figure 578168DEST_PATH_IMAGE069
Figure 458837DEST_PATH_IMAGE070
。 用查表的方式将“匹配池”中的实体向量和关系向量映射到“等待池”中的正例三元组内,获 得三元组中实体和关系的初始化向量:
Figure 931407DEST_PATH_IMAGE071
其中,
Figure 44856DEST_PATH_IMAGE072
为头实体,
Figure 173349DEST_PATH_IMAGE073
为尾实体,
Figure 397657DEST_PATH_IMAGE074
为关系。
CrossE是一种双线性模型,该模型通过学习一个交互矩阵来模拟实体和关系之间的交叉交互,以产生多个特定的交互嵌入。因此,采用CrossE方法对初始向量进行交互嵌入的核心,即是学习CrossE模型中内置的交互矩阵C,因此除了需要知识图谱中有效的正例三元组,还需要负例三元组进行训练(如果只有正例三元组,会导致训练得到的知识图谱嵌入模型的嵌入性能差,即交互矩阵不准确,导致输出的实体向量或关系向量难以准确表示知识图谱中的实体或关系)。
其中负例三元组的构建方法为:对每个正例三元组,替换尾部实体
Figure 990313DEST_PATH_IMAGE054
为一个新的实 体
Figure 212347DEST_PATH_IMAGE076
,产生新的三元组
Figure 624873DEST_PATH_IMAGE075
,并且该三元组未在产品因素三元组中出现,则该三元 组
Figure 918452DEST_PATH_IMAGE075
为一个负例三元组。
将初始向量定义为:
Figure 100034DEST_PATH_IMAGE077
式中
Figure 758549DEST_PATH_IMAGE078
为头实体向量矩阵,
Figure 392792DEST_PATH_IMAGE079
为尾实体向量矩阵,
Figure 224482DEST_PATH_IMAGE080
为关系向量矩 阵,
在CrossE中,每个三元组定义一个评分函数,使有效三元组得到高分,无效三元组得到低分,评分函数将分为下面四个部分。
(1)对三元组中的头实体进行交互嵌入:
Figure 526150DEST_PATH_IMAGE081
式中,
Figure 355566DEST_PATH_IMAGE021
为Hadamard乘积,是一种元素智能算子;
Figure 477106DEST_PATH_IMAGE022
是一个关系特定变量,由 CrossE模型中内置的交互矩阵C得到,
Figure 112487DEST_PATH_IMAGE023
为CrossE模型的索引向量;h是三元组中头实体 的初始向量;
Figure 268661DEST_PATH_IMAGE025
表示头实体经交互嵌入得到的再表示向量;
(2)对三元组中的关系进行交互嵌入:
Figure 268978DEST_PATH_IMAGE026
式中,
Figure 877814DEST_PATH_IMAGE053
是三元组中关系的初始向量,
Figure 51307DEST_PATH_IMAGE027
表示关系经交互嵌入得到的再表示向 量;
(3)对三元组中的头实体和关系进行组合表示:
Figure 265250DEST_PATH_IMAGE028
式中,
Figure 233206DEST_PATH_IMAGE029
为头实体
Figure 594918DEST_PATH_IMAGE024
和关系
Figure 306522DEST_PATH_IMAGE053
的组合表示;
Figure 374972DEST_PATH_IMAGE082
为全局偏置向量,d为 各实体和关系的向量维度;
Figure 513829DEST_PATH_IMAGE031
为激活函数,
Figure 362836DEST_PATH_IMAGE083
的输出范围为 [-1,1],用于确保组合表示与实体表示共享相同的分布区间;
Figure 878131DEST_PATH_IMAGE033
为激活函数的变量;
(4)将三元组中头实体与关系的组合表示
Figure 801088DEST_PATH_IMAGE029
,与三元组中的尾实体
Figure 110847DEST_PATH_IMAGE034
进行相 似度量,作为三元组的评分函数值:
Figure 447150DEST_PATH_IMAGE084
Figure 703819DEST_PATH_IMAGE085
式中,
Figure 543599DEST_PATH_IMAGE086
为三元组
Figure 289838DEST_PATH_IMAGE087
的相似度量,
Figure 847858DEST_PATH_IMAGE088
是约束 输出值分布在区间[0,1]内的非线性函数。
步骤5,利用已知销量区间的历史产品文本信息,按步骤1-4获得每个给定“销量区间”的再表示向量。
该步骤即是根据包括“销量区间”的历史产品文本信息,构建分别包括不同“销量区间”的多个知识图谱,从而得到每个给定“销量区间”的再表示向量,以用于后续相似度计算与对比。
步骤6,利用未知销量区间的产品文本信息,按步骤1-4获得头实体“产品”的再表示向量、头实体“产品”与尾实体“销量区间”之间“关系”的再表示向量,然后计算对应的组合表示向量,即为对应尾实体“销量区间”的预测向量。
该步骤是根据未知销量区间的产品文本信息,构建包括所有“销售区间”的知识图谱,得到与尾实体“销售区间”构成三元组的头实体“产品”的再表示向量以及头实体“产品”与尾实体“销量区间”之间“关系”的再表示向量,进而计算对应的组合表示向量。
本步骤中计算组合表示向量的方法,与步骤4中评分函数的计算方法相同,即为:
Figure 642639DEST_PATH_IMAGE089
步骤7,对步骤6所得尾实体“销量区间”的预测向量,计算其与步骤5所得每个给定“销量区间”再表示向量之间的相似度;然后选择其中相似度最大值所对应的“销量区间”,即为产品预测的销量区间。
其中本步骤计算相似度的方法为:将各给定的预测区间设为产品-销量三元组中的尾实体,按步骤4中三元组的评分函数计算相似度。
本发明还提供一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述实施例中所述的基于知识图谱的产品销量预测方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中所述的基于知识图谱的产品销量预测方法。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

Claims (9)

1.一种基于知识图谱的产品销量预测方法,其特征在于,包括:
步骤1,根据产品文本信息构建有关产品销量的知识图谱;
步骤2,对步骤1构建的知识图谱中的实体与关系,构建对应的产品因素二分图G;
步骤3,采用
Figure 154826DEST_PATH_IMAGE001
算法学习产品因素二分图中各节点的向量,作为步骤1中构建的知 识图谱中各实体和关系的初始向量;
步骤4,采用CrossE方法对步骤3得到的初始向量进行交互嵌入,得到知识图谱中各实体和关系的再表示向量;
步骤5,利用已知销量区间的历史产品文本信息,按步骤1-步骤4获得每个给定“销量区间”的再表示向量;
步骤6,利用未知销量区间的产品文本信息,按步骤1-步骤4获得头实体“产品”的再表示向量、头实体“产品”与尾实体“销量区间”之间关系的再表示向量,然后计算对应的组合表示向量,即为对应尾实体“销量区间”的预测向量;
步骤7,对步骤6所得尾实体“销量区间”的预测向量,计算其与步骤5所得每个给定“销量区间”再表示向量之间的相似度;然后选择其中相似度最大值所对应的“销量区间”,即为产品预测的销量区间。
2.根据权利要求1所述的产品销量预测方法,其特征在于,所述采用
Figure 688838DEST_PATH_IMAGE001
算法学习产 品因素二分图中各节点的向量,具体为:对产品因素二分图中所有节点所表示的产品因素 进行采样,构建当前产品因素
Figure 433940DEST_PATH_IMAGE002
的邻域信息
Figure 136317DEST_PATH_IMAGE003
,并按目标函数式(1)最大化
Figure 232449DEST_PATH_IMAGE002
Figure 678474DEST_PATH_IMAGE003
产生连 边的条件概率,以获得对产品因素
Figure 543662DEST_PATH_IMAGE002
进行向量表示的映射函数
Figure 541573DEST_PATH_IMAGE004
Figure 125001DEST_PATH_IMAGE005
(1)
式中,s是一种采样策略,V表示产品因素二分图中的节点集,
Figure 109138DEST_PATH_IMAGE006
表示u
Figure 828832DEST_PATH_IMAGE007
产生连边的条件概率。
3.根据权利要求2所述的产品销量预测方法,其特征在于,通过简化目标函数式(1)以求解映射函数f的方法为:根据式(2)的条件独立假设和式(3)的特征空间的对称性假设,并去掉常数项,可得式(4)所示的目标函数:
Figure 873012DEST_PATH_IMAGE008
(2)
Figure 943736DEST_PATH_IMAGE009
(3)
Figure 856197DEST_PATH_IMAGE010
(4)
式中,
Figure 695977DEST_PATH_IMAGE011
表示邻域信息
Figure 911058DEST_PATH_IMAGE012
中的任意节点,
Figure 203499DEST_PATH_IMAGE013
表示
Figure 795017DEST_PATH_IMAGE014
Figure 223725DEST_PATH_IMAGE011
产生连边的 条件概率,
Figure 875286DEST_PATH_IMAGE015
泛指节点集
Figure 779657DEST_PATH_IMAGE016
中的任意节点,
Figure 174866DEST_PATH_IMAGE017
为当前产品因素
Figure 458080DEST_PATH_IMAGE014
的归一化因子,
Figure 280542DEST_PATH_IMAGE018
4.根据权利要求1所述的产品销量预测方法,其特征在于,采用CrossE方法对初始向量进行向量再表示的方法为:
步骤4.1,从步骤1构建的知识图谱中提取所有的产品因素三元组,记为正例三元组;针对每个正例三元组构建若干个负例三元组;
步骤4.2,根据评分函数计算每个正例三元组和负例三元组的评分值,通过最大化正例三元组的评分值、最小化负例三元组的评分值,来学习获得用于模拟实体和关系之间的交叉交互的交互矩阵C
步骤4.3,根据知识图谱中各实体和关系的初始向量,以及学习得到的交互矩阵,得到各实体和关系的再表示向量。
5.根据权利要求4所述的产品销量预测方法,其特征在于,评分函数具体计算方法为:
步骤a1,对三元组中的头实体进行交互嵌入:
Figure 547576DEST_PATH_IMAGE019
式中,
Figure 480896DEST_PATH_IMAGE020
为Hadamard乘积,是一种元素智能算子;
Figure 884196DEST_PATH_IMAGE021
是一个关系特定变量,由CrossE 模型中内置的交互矩阵C得到;
Figure 500729DEST_PATH_IMAGE022
为CrossE模型的索引向量;
Figure 989479DEST_PATH_IMAGE023
是三元组中头实体的初始 向量;
Figure 460912DEST_PATH_IMAGE024
表示头实体经交互嵌入得到的再表示向量;
步骤a2,对三元组中的关系进行交互嵌入:
Figure 984297DEST_PATH_IMAGE025
式中,r是三元组中关系的初始向量,
Figure 148562DEST_PATH_IMAGE026
表示关系经交互嵌入得到的再表示向量;
步骤a3,对三元组中的头实体和关系进行组合表示:
Figure 124608DEST_PATH_IMAGE027
式中,
Figure 524365DEST_PATH_IMAGE028
为头实体h和关系r的组合表示;
Figure 902257DEST_PATH_IMAGE029
为全局偏置向量,d为各实体 和关系的向量维度,R表示实数;
Figure 237424DEST_PATH_IMAGE030
为激活函数,
Figure 700766DEST_PATH_IMAGE031
的输出 范围为[-1,1],用于确保组合表示与实体表示共享相同的分布区间;
Figure 779580DEST_PATH_IMAGE032
为激活函数的变量;
步骤a4,将三元组中头实体与关系的组合表示
Figure 11979DEST_PATH_IMAGE028
,与三元组中的尾实体
Figure 518046DEST_PATH_IMAGE033
进行相似 度量,作为三元组的评分函数值:
Figure 593319DEST_PATH_IMAGE034
Figure 210245DEST_PATH_IMAGE035
式中,
Figure 562729DEST_PATH_IMAGE036
为三元组
Figure 239698DEST_PATH_IMAGE037
的相似度量,
Figure 677632DEST_PATH_IMAGE038
是约束输出值 分布在区间[0,1]内的非线性函数。
6.根据权利要求5所述的产品销量预测方法,其特征在于,步骤6计算组合表示向量的方法为:
Figure 832670DEST_PATH_IMAGE027
7.根据权利要求5所述的产品销量预测方法,其特征在于,步骤7计算相似度的方法为:将各给定的预测区间设为产品-销量区间三元组中的尾实体,按三元组的评分函数计算相似度。
8.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~7中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
CN202210975174.4A 2022-08-15 2022-08-15 一种基于知识图谱的产品销量预测方法、设备和介质 Pending CN115034837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210975174.4A CN115034837A (zh) 2022-08-15 2022-08-15 一种基于知识图谱的产品销量预测方法、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210975174.4A CN115034837A (zh) 2022-08-15 2022-08-15 一种基于知识图谱的产品销量预测方法、设备和介质

Publications (1)

Publication Number Publication Date
CN115034837A true CN115034837A (zh) 2022-09-09

Family

ID=83131221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210975174.4A Pending CN115034837A (zh) 2022-08-15 2022-08-15 一种基于知识图谱的产品销量预测方法、设备和介质

Country Status (1)

Country Link
CN (1) CN115034837A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117933883A (zh) * 2024-03-21 2024-04-26 释普信息科技(上海)有限公司 基于库存智能锁的智能分类管理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117933883A (zh) * 2024-03-21 2024-04-26 释普信息科技(上海)有限公司 基于库存智能锁的智能分类管理方法及装置

Similar Documents

Publication Publication Date Title
Xu et al. Survey on multi-output learning
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
Xia et al. Graph learning: A survey
Xu Understanding graph embedding methods and their applications
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
US10402379B2 (en) Predictive search and navigation for functional information systems
US11657026B2 (en) Predictive search and navigation for functional information systems
US11151096B2 (en) Dynamic syntactic affinity group formation in a high-dimensional functional information system
CN111666406B (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
CN106447066A (zh) 一种大数据的特征提取方法和装置
TW202203212A (zh) 關鍵點檢測方法、電子設備及電腦可讀儲存介質
CN114911945A (zh) 基于知识图谱的多价值链数据管理辅助决策模型构建方法
CN113779264A (zh) 基于专利供需知识图谱的交易推荐方法
CN114881742A (zh) 基于商品知识图谱的图神经网络推荐方法和系统
CN117173702A (zh) 基于深度特征图融合的多视图多标记学习方法
CN114723535A (zh) 一种基于供应链与知识图谱的物品推荐方法、设备及介质
CN115034837A (zh) 一种基于知识图谱的产品销量预测方法、设备和介质
ElAlami Unsupervised image retrieval framework based on rule base system
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN117648984A (zh) 一种基于领域知识图谱的智能问答方法及系统
CN117149974A (zh) 一种子图检索优化的知识图谱问答方法
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统
CN115840853A (zh) 一种基于知识图谱和图注意力网络的课程推荐系统
Cai et al. Semantic and correlation disentangled graph convolutions for multilabel image recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220909