CN114443783B - 一种供应链数据分析和增强处理方法及装置 - Google Patents
一种供应链数据分析和增强处理方法及装置 Download PDFInfo
- Publication number
- CN114443783B CN114443783B CN202210374815.0A CN202210374815A CN114443783B CN 114443783 B CN114443783 B CN 114443783B CN 202210374815 A CN202210374815 A CN 202210374815A CN 114443783 B CN114443783 B CN 114443783B
- Authority
- CN
- China
- Prior art keywords
- node
- data
- target
- nodes
- network graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种供应链数据分析和增强处理方法及装置,获取初始关系网络图,其中包括分别归属于三个分类的多个节点,其中,第一类节点与数据集相对应,第二类节点与数据文件相对应,第三类节点与数据列相对应,在具有隶属关系的两个分类的节点之间通过第一连接边连接。对于每个节点,根据对应数据对象的名称包含的各词对应的词向量,确定对应的名称向量。对于归属于同一个分类的各节点,分别基于对应的名称向量和内容向量,计算两两节点之间的模式相似度以及内容相似度,并基于模式相似度和内容相似度,在初始关系网络图中添加第二连接边和第三连接边,得到目标关系网络图。基于目标关系网络图针对供应链数据进行分析和增强处理。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种供应链数据分析和增强处理方法及装置。
背景技术
大型供应链集成服务集团公司的超大规模供应链数据主要涉及主数据、行为数据、业务数据、财务数据及第三方数据等诸多方面,普遍存在数据冗余、数据缺失、数据格式不一致及数据分布不平衡等问题,迫切需要研究一种新型数据分析和增强的技术解决方案,以便更高效、准确地改善数据质量,为大型供应链集成服务集团公司数字化转型奠定基础。数据分析和增强是数据处理过程中的一项基本任务,用于确定并优化与数据处理及数据应用项目相关的超大规模数据集。大宗商品供应链集成服务集团公司汇聚了超大规模的机器可读和结构化数据集。这些数据一般收集在一个被称为数据湖或者数据仓库的数据存储中。数据所有者一般通过一个数据中台系统提供这些数据集或构建新的数据集,如,国内的阿里云MaxCompute系统、网易有数系统、袋鼠云数栈系统、数澜科技数栖系统和国外的Talend系统等,这些大数据平台一般是通过数据资产目录或数据标签的形式支持检索目标数据,使得用于寻找、下载、准备和整合相关数据的时间和精力都比较多。随着数据应用的大量增加和数据分类、分级的管制,相似数据集大量存在,目标数据检索难度增大,数据处理效率大大降低。因此,迫切需要提供一种解决方案,用于数据模型相似度评估、分析、处理、优化,以及基于数据安全相关法律法规要求下进行数据服务和应用的数据处理工作,提高数据处理工作效率和数据使用合规性,以实现高效和可扩展的数据分析和增强。
发明内容
本说明书一个或多个实施例描述了一种供应链数据分析和增强处理方法及装置,可以更高效更准确地对供应链数据进行分析和增强。
第一方面,提供了一种供应链数据分析和增强处理方法,包括:
获取初始关系网络图;所述初始关系网络图包括分别归属于三个分类的多个节点,其中,归属于第一个分类的节点为第一类节点,该第一类节点与数据仓库中的数据集相对应;归属于第二个分类的节点为第二类节点,该第二类节点与数据集中的数据文件相对应;归属于第三个分类的节点为第三类节点,该第三类节点与从数据文件中抽取的数据列相对应;在具有隶属关系的两个分类的节点之间通过第一连接边连接;
对于所述多个节点中的每个节点,根据对应数据集、数据文件或者数据列的名称包含的各词对应的词向量,确定该节点的名称向量;
对于所述多个节点中归属于同一个分类的各节点,基于对应的名称向量,计算两两节点之间的模式相似度,以及基于对应的内容向量,计算两两节点之间的内容相似度;其中,任一节点的内容向量,根据对应数据集、数据文件或者数据列的内容包含的各词对应的词向量而确定;
基于所述模式相似度,在所述初始关系网络图中添加第二连接边,以及基于所述内容相似度,在所述初始关系网络图中添加第三连接边,得到目标关系网络图,所述目标关系网络图用于对供应链数据进行分析和增强处理。
第二方面,提供了一种供应链数据分析和增强处理装置,包括:
获取单元,用于获取初始关系网络图;所述初始关系网络图包括分别归属于三个分类的多个节点,其中,归属于第一个分类的节点为第一类节点,该第一类节点与数据仓库中的数据集相对应;归属于第二个分类的节点为第二类节点,该第二类节点与数据集中的数据文件相对应;归属于第三个分类的节点为第三类节点,该第三类节点与从数据文件中抽取的数据列相对应;在具有隶属关系的两个分类的节点之间通过第一连接边连接;
确定单元,用于对于所述多个节点中的每个节点,根据对应数据集、数据文件或者数据列的名称包含的各词对应的词向量,确定该节点的名称向量;
计算单元,用于对于所述多个节点中归属于同一个分类的各节点,基于对应的名称向量,计算两两节点之间的模式相似度,以及基于对应的内容向量,计算两两节点之间的内容相似度;其中,任一节点的内容向量,根据对应数据集、数据文件或者数据列的内容包含的各词对应的词向量而确定;a
添加单元,用于基于所述模式相似度,在所述初始关系网络图中添加第二连接边,以及基于所述内容相似度,在所述初始关系网络图中添加第三连接边,得到目标关系网络图,所述目标关系网络图用于对供应链数据进行分析和增强处理。
本说明书一个或多个实施例提供的供应链数据分析和增强处理方法及装置,从不同类节点之间的隶属关系、同类节点之间的内容相似性和模式相似性等方面来构建目标关系网络图,由此使得所构建的目标关系网络图可以用于多维度的数据分析和增强,进而可以提升数据分析和增强效率。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的供应链数据分析和增强处理系统示意图;
图2示出根据一个实施例的关系网络图的构建方法流程图;
图3示出根据一个实施例的目标关系网络图的示意图;
图4示出根据一个实施例的供应链数据分析方法流程图;
图5示出根据一个实施例的供应链数据分析和增强处理装置示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1示出根据一个实施例的供应链数据分析和增强处理系统示意图。图1中,该系统可以包括剖析装置、构建装置和链接器。
具体地,在将数据湖或数据仓库中的供应链数据(以下简称数据)通过数据接口的方式汇聚到系统之后,在剖析装置,可以梳理出数据湖或者数据仓库中数据列、数据文件和数据集之间的关系,同时计算出数据列、数据文件和数据集各自的内容向量并保存,以便于在后续计算内容相似度时使用。在构建装置,可以构建出若干种核心关系,形成一张完整的关系网络图。这里的若干种核心关系包括但不限于模式相似性关系、内容相似性关系以及主外键关系等等。针对关系网络图,还可以基于业务人员核心知识进行整合和构建。在链接器,基于已有核心关系,对图神经网络进行训练,得到每个节点的节点向量。之后,基于每个节点的节点向量,可以计算任意两个节点之间的打分,从而对关系网络图进行补全。同时对新增的数据集,可以推断出新增的数据集对应的子图中的节点与已有的关系网络图中的节点的关系,完成对新增数据集关系的推断,增强数据发现和增强已有的关系网络图。
需要说明,上述系统可以对外提供服务接口。应理解,通过该服务接口,可以额外提供多种数据分析方法,从而相比于传统的大数据平台,能够增强数据中的语义、模式等信息,提升数据挖掘分析的效率和准确率,帮助准确发现和补全新的数据,提升企业的数据赋能价值创新能力。
以下对上述关系网络图的构建方法进行说明。
图2示出根据一个实施例的关系网络图的构建方法流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,该构建方法至少可以包括如下步骤。
步骤202,获取初始关系网络图。
该初始关系网络图包括分别归属于三个分类的多个节点,其中,归属于第一个分类的各节点统称为第一类节点,该第一类节点与数据仓库(或者数据湖)中的数据集(dataset)相对应(即每个第一类节点对应于一个数据集)。归属于第二个分类的各节点统称为第二类节点,该第二类节点与数据集中的数据文件相对应(即每个第二类节点对应于一个数据文件)。归属于第三个分类的各节点统称为第三类节点,该第三类节点与从数据文件中抽取的数据列(column)相对应(即每个第三类节点对应于一个数据列)。
上述多个节点中,在具有隶属关系(即isPartof关系)的两个分类的节点之间通过第一连接边连接。从而基于该第一连接边,可以查找具有隶属关系的数据列与数据文件,以及数据文件与数据集,进而执行数据去重处理。比如,对于同属于一个数据集的两个数据文件,可以进一步分析该两个数据文件的内容是否一致,并在相一致的情况下,去除一个数据文件等等。
以下对上述数据集、数据文件和数据列等概念一一进行说明。
首先,一个数据集通常由若干数据文件构成(也即一个数据文件可以为一个数据集的一部分)。这里的数据文件可以为以下中的任一种:表格文件、CSV文件、JSON文件以及分布在大数据环境中的各种分布式数据(比如,以HDFS存储的大数据文件(big table))。本说明书中,数据文件所存储的数据可以为多模态数据,比如,既可以为文本数据,也可以为图像数据,以下描述中以文本数据为例进行说明。此外,一个数据文件可以包含若干数据列(也即一个数据列可以为一个数据文件的一部分)。这里的数据列可以由字段以及对应的字段值构成,这里的字段即为数据列的名称,字段值即为数据列的内容。
需要说明,对于初始关系网络图中的每个节点,可以确定对应的内容向量。具体地,对于每个第三类节点,可以基于word2vec网络,确定该节点对应数据列的内容(即字段值)包含的各词对应的词向量。之后,可以对各词对应的词向量进行求平均,得到第三类节点的固定长度的内容向量,也即得到第三类节点对应数据列的内容向量。
对于每个第二类节点,可以对对应数据文件包含的各数据列的内容向量进行求平均,得到该第二类节点的内容向量,也即得到第二类节点对应数据文件的内容向量。
对于每个第一类节点,可以对对应数据集包含的各数据文件的内容向量进行求平均,得到该第一类节点的内容向量,也即得到第一类节点对应数据集的内容向量。
在得到目标关系网络图中多个节点各自的内容向量之后可以对其进行保存,以便后续使用。需要说明,由于这里只存储了每个节点的内容向量,而并没有存储原始数据,从而可以减少隐私风险。此外,由于在本说明书实施例中,针对数据集、数据文件以及数据列均确定了对应的内容向量,从而为后续从不同粒度进行内容相似性分析奠定了基础。
步骤204,对于多个节点中的每个节点,根据对应数据集、数据文件或者数据列的名称包含的各词对应的词向量,确定该节点的名称向量。
上述确定该节点的名称向量具体可以包括:基于word2vec网络,确定该节点对应的数据集、数据文件或者数据列的名称包含的各词对应的第一词向量,以及基于WordNet(由普林斯顿大学认识科学实验室建立和维护的英语字典),确定该节点对应的数据集、数据文件或者数据列的名称包含的各词对应的第二词向量。对各词对应的第一词向量和第二词向量求平均,得到各词的向量表示。对各词的向量表示进行融合(比如,求平均),得到该节点的名称向量。如此,就可以得到目标关系网络图中多个节点各自的名称向量。针对该名称向量也可以保存,以便后续使用。
步骤206,对于多个节点中归属于同一个分类的各节点,基于对应的名称向量,计算两两节点之间的模式相似度,以及基于对应的内容向量,计算两两节点之间的内容相似度。
这里的模式相似度或内容相似度可以包括但不限于余弦相似度或者Ochiai系数等。当然,在实际应用中,也可以基于欧氏距离、曼哈顿距离或者皮尔逊相关系数等,确定上述模式相似度或者内容相似度。
步骤206具体可以为:基于各第一类节点的名称向量,计算两两第一类节点之间的模式相似度;基于各第二类节点的名称向量,计算两两第二类节点之间的模式相似度;以及基于各第三类节点的名称向量,计算两两第三类节点之间的模式相似度。同理,基于预先存储的各第一类节点的内容向量,计算两两第一类节点之间的内容相似度;基于预先存储的各第二类节点的内容向量,计算两两第二类节点之间的内容相似度;以及基于预先存储的各第三类节点的内容向量,计算两两第三类节点之间的内容相似度。
需要说明,上述可以是针对每一类节点中的所有节点计算两两节点之间的模式相似度和内容相似度,也可以只针对部分节点计算模式相似度和内容相似度,以减少计算量。比如,只针对可能存在关联关系的节点计算模式相似度和内容相似度。这里的可能存在关联关系的节点例如可以为对应数据对象(包括数据集、数据文件或者数据列)选自同一个部门等等。
步骤208,基于模式相似度,在初始关系网络图中添加第二连接边,以及基于内容相似度,在初始关系网络图中添加第三连接边,得到目标关系网络图,该目标关系网络图用于对供应链数据进行分析和增强处理。
以上述多个分类中任一分类为例来说,假设归属于该分类的两个节点分别为第一节点和第二节点,那么上述在初始关系网络图中添加第二连接边可以包括:判断第一节点与第二节点之间的模式相似度是否大于第一阈值,若是,则在第一节点与第二节点之间构建第二连接边,且将该两者的模式相似度作为第二连接边的权重。类似地,可以在归属于每个分类的节点之间构建出第二连接边。
在一个示例中,上述第二连接边可以表示为:<第一节点,第二节点,模式相似度:xx>。
需要说明,上述模式相似度大于第一阈值,也可以理解为是第一节点和第二节点之间具有模式相似性(schemaSimilarity)关系。从而,基于该第二连接边,可以查找具有模式相似性关系的数据集、数据文件或者数据列。
还以上述第一节点和第二节点为例来说,上述在初始关系网络图中添加第三连接边可以包括:判断第一节点与第二节点之间的内容相似度是否大于第二阈值,若是,则在第一节点与第二节点之间构建第三连接边,且将内容相似度作为第三连接边的权重。
在一个示例中,上述第三连接边可以表示为:<第一节点,第二节点,内容相似度:yy>。
需要说明,上述内容相似度大于第二阈值,也可以理解为是第一节点和第二节点之间具有内容相似性(contentSimilarity)关系。从而,基于该第三连接边,可以查找具有内容相似性关系的数据集、数据文件或者数据列。
当然,在实际应用中,还可以在上述目标关系网络图中添加新连接边,以指示新的关系类型。
在一个示例中,上述添加新连接边可以包括:对于目标关系网络图,判断第三类节点对应的数据列是否为第二类节点对应的数据文件的主键(PrimaryKey)或者外键(ForeignKey),若是,则在目标关系网络图中添加第四连接边。
也就是说,基于该第四连接边,可以查找具有主外键(prikeyForkey)关系的数据列和数据文件。
图3示出根据一个实施例的目标关系网络图的示意图。图3中,目标关系网络图包括归属于三个分类的多个节点,其中,第一类节点通过点虚线框示出,其代表数据集;第二类节点通过横线虚线框示出,其代表数据文件;第三类节点通过实线框示出,其代表数据列。此外,目标关系图还包括四种类型的连接边。其中,第一连接边连接具有隶属关系的节点,第二连接边连接具有模型相似性关系的节点,第三连接边连接具有内容相似性关系的节点,第四连接边连接具有主外键关系的节点。最后,对应于每个连接边的数字,代表对应的权重。比如:“主外键关系:0.95”代表节点“数据列1”与节点“数据列2”之间的第四连接边的权重为0.95。
当然,在实际应用中,业务人员也可以对上述目标关系网络图进行标注或者编辑,加入领域知识。比如图3中的“数据集3”和“数据集4”两个节点之间,可能不具有上述四种关系,但业务人员基于领域知识会发现,这两个数据集实际上存在contentSimilarity关系,那么可以对该目标关系网络图的连接边进行完善,以加入更多领域知识,由此可以形成更加全面的关系网络图,为后续数据的丰富和增强做好准备。
在另一个示例中,上述添加新连接边可以包括:利用目标关系网络图对图神经网络(Graph Neural Network,GNN)进行训练,得到目标关系网络图中每个节点的节点向量。基于各节点的节点向量,计算两两节点之间的打分(比如,余弦相似度)。该打分指示两个节点之间存在连接边的概率。输出打分大于阈值分数的节点对。之后,由业务人员确定是否在该节点对之间构建新连接边。
同上所述,这里可以是针对所有节点计算两两打分,也可以只针对部分节点计算打分,本说明书对此不作限定。
需要说明,在对GNN进行训练之前,可以先基于目标关系网络图中节点之间的连接边的类型,确定节点的若干关系标签。这里的若干关系标签可以包括isPartof关系标签、schemaSimilarity关系标签、contentSimilarity关系标签以及prikeyForkey关系标签中的至少一项。举例来说,假设归属于第二个分类的节点1通过第一连接边与归属于第二个分类的节点2连接,且节点1与其它节点不存在任何的连接边,那么节点1的isPartof关系标签为1,其它关系标签均为0。类似地,可以确定出每个节点的若干关系标签。
之后,可以将目标关系网络图输入GNN,得到预测结果。这里的预测结果可以包括两两节点之间的若干相似度。该若干相似度与上述若干关系标签相对应。以及根据预测结果与若干关系标签,确定GNN中参数的训练梯度,基于训练梯度,更新GNN中的参数,得到训练后的GNN。
需要说明,在完成针对GNN的训练后,可以同时获得目标关系网络图中每个节点的节点向量。
应理解,上述目标关系网络图是基于数据湖或数据仓库中的已有数据集而建立的。当数据湖或数据仓库中新增数据集时,还可以对目标关系网络图执行如下的图更新操作。
该图更新操作具体可以包括:获取目标数据集,并针对该目标数据集构建对应的目标子图。这里的目标子图的构建方法可以参见上述步骤202-步骤208。利用预先训练的图神经网络对目标子图进行图嵌入处理,得到目标子图中每个节点的节点向量。将目标子图整合到目标关系网络图,得到更新的目标关系网络图。
上述将目标子图整合到目标关系网络图至少可以包括:基于目标子图以及目标关系网络图中各个节点的节点向量,依次计算目标子图中各个节点与目标关系网络图中各个节点之间的链接相似度,并基于该链接相似度,在目标关系网络图中添加新连接边。这里的链接相似度例如可以为余弦相似度等。
具体地,如果任意的两个节点之间的链接相似度大于预定阈值,那么在该两个节点之间构建第五连接边。并将该链接相似度作为第五连接边的权重。
当然,在实际应用中,为提升整合效率,可以只针对目标子图和目标关系网络图中对应于数据集和数据文件的节点计算链接相似度,本说明书对此不作限定。
总之,本说明书实施例提供的方案,可以利用图神经网络,逐步加强图中不同数据之间的关系。
图4示出根据一个实施例的供应链数据分析方法流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图4所示,该构建方法至少可以包括如下步骤。
步骤402,获取目标关系网络图。
该目标关系网络图可以是基于图2示出的各方法步骤构建得到。
在一个示例中,该目标关系网络图可以如图3所示。
步骤404,基于目标关系网络图进行数据分析。
在一个示例中,上述基于目标关系网络图进行数据分析可以包括:对于目标关系网络图中的任一节点,在目标关系网络图中,确定出经过预定数量K1以内的第二连接边到达的、与该任一节点归属于同一个分类的第一目标节点。将该第一目标节点对应的数据集、数据文件或者数据列,作为针对该任一节点进行模式相似性分析的分析结果;和/或,
对于目标关系网络图中的任一节点,在目标关系网络图中,确定出经过预定数量K2以内的第三连接边到达的、与该任一节点归属于同一个分类的第二目标节点。将第二目标节点对应的数据集、数据文件或者数据列,作为针对该任一节点进行内容相似性分析的分析结果。
也就是说,基于本说明书实施例构建的目标关系网络图,可以查找具有模式相似性(或内容相似性)的数据集、数据文件或者数据列。
在另一个示例中,上述基于目标关系网络图进行数据分析还可以包括:对于目标关系网络图中的任一节点,基于该节点的内容向量以及其它节点的内容向量,查找该任一节点的相似节点。比如,将其它节点中与该任一节点的内容相似度大于阈值相似度的节点作为相似节点。
类似地,也可以基于名称向量,查找相似节点。
在又一个示例中,上述基于目标关系网络图进行数据分析还可以包括:对于目标关系网络图中归属于同一个分类的两个节点,基于该两个节点各自的内容向量,计算内容相似度;或者,基于该两个节点各自的名称向量,计算模式相似度;或者,基于该两个节点各自的节点向量,计算综合相似度。
在还一个示例中,上述基于目标关系网络图进行数据分析还可以包括:对于目标关系网络图中归属于同一个分类的两个节点,基于目标关系网络图,确定分别以该两个节点为起始节点和终止节点的目标路径。基于目标路径包含的各连接边,确定该两个节点所对应的数据集、数据文件或者数据列之间的关系类型。
应理解,通过上述数据分析方法,能够便于数据工程师更有效发现数据,并对现有的数据找到相似性(包括内容相似性、模式相似性以及综合相似性等),来实现数据丰富和增强,提升数据分析的效果和效率。
综上,本说明书实施例提供的方案,可以对大型供应链集成服务集团公司在数据湖或数据仓库中拥有的超大规模数据集,进行归档并创建一个关系网络图来进行数据整合。基于该关系网络图,可以让不同的团队在不接触原始数据的情况下,根据嵌入向量等检查不同部门的数据。基于嵌入向量的相似性的数据发现,允许企业在不牺牲隐私的情况下挖掘数据价值和创新潜力,且可容易地集成到现有的大数据平台中。此外,通过该方案,可以支持进行高效的数据发现、数据整合、数据探索和数据增强。
最后,通过本说明书实施例提供的方案,可以帮助进行数据发现和增强,并丰富现有数据湖或者数据仓库中的数据信息。通过这些可扩展的有效发现操作,支持大型供应链集成服务集团公司超大规模数据集中找到相关的数据,以便更好地利用它们,最大限度地发挥挖掘大数据平台的价值和潜力。
本说明书一个实施例还提供的一种供应链数据分析和增强处理装置,如图5所示,该装置可以包括:
获取单元502,用于获取初始关系网络图,该初始关系网络图包括分别归属于三个分类的多个节点,其中,归属于第一个分类的节点为第一类节点,该第一类节点与数据仓库中的数据集相对应。归属于第二个分类的节点为第二类节点,该第二类节点与数据集中的数据文件相对应。归属于第三个分类的节点为第三类节点,该第三类节点与从数据文件中抽取的数据列相对应,在具有隶属关系的两个分类的节点之间通过第一连接边连接。
确定单元504,用于对于多个节点中的每个节点,根据对应数据集、数据文件或者数据列的名称包含的各词对应的词向量,确定该节点的名称向量。
确定单元504具体用于:
基于word2vec网络,确定该节点对应的数据集、数据文件或者数据列的名称包含的各词对应的第一词向量,以及基于WordNet,确定该节点对应的数据集、数据文件或者数据列的名称包含的各词对应的第二词向量;
对各词对应的第一词向量和第二词向量求平均,得到各词的向量表示;
对各词的向量表示进行融合,得到该节点的名称向量。
计算单元506,用于对于多个节点中归属于同一个分类的各节点,基于对应的名称向量,计算两两节点之间的模式相似度,以及基于对应的内容向量,计算两两节点之间的内容相似度。其中,任一节点的内容向量,根据对应数据集、数据文件或者数据列的内容包含的各词对应的词向量而确定。
添加单元508,用于基于模式相似度,在初始关系网络图中添加第二连接边,以及基于内容相似度,在初始关系网络图中添加第三连接边,得到目标关系网络图,该目标关系网络图用于对供应链数据进行分析和增强处理。
其中,归属于同一个分类的各节点包括第一节点和第二节点;
添加单元508具体用于:判断第一节点与第二节点之间的模式相似度是否大于第一阈值,若是,则在第一节点与第二节点之间构建第二连接边,且将模式相似度作为第二连接边的权重;
添加单元508具体还用于:判断第一节点与第二节点之间的内容相似度是否大于第二阈值,若是,则在第一节点与第二节点之间构建第三连接边,且将内容相似度作为第三连接边的权重。
可选地,该装置还可以包括:
判断单元510,用于对于目标关系网络图,判断第三类节点对应的数据列是否为第二类节点对应的数据文件的主键或者外键,若是,则在目标关系网络图中添加第四连接边。
可选地,该装置还可以包括:
训练单元512,用于利用目标关系网络图对图神经网络进行训练,得到目标关系网络图中每个节点的节点向量;
计算单元506,还用于基于节点向量,计算两两节点之间的打分,该打分指示两个节点之间存在连接边的概率,该打分用于在目标关系网络图中添加新连接边。
可选地,该装置还可以包括:
构建单元514,用于获取目标数据集,并针对所述目标数据集构建对应的目标子图;
处理单元516,用于利用图神经网络对目标子图进行图嵌入处理,得到目标子图中每个节点的节点向量;
整合单元518,用于将目标子图整合到目标关系网络图,将目标子图整合到目标关系网络图至少包括:基于目标子图以及目标关系网络图中各个节点的节点向量,依次计算目标子图中各个节点与目标关系网络图中各个节点之间的链接相似度,并基于该链接相似度,在目标关系网络图中添加新连接边。
可选地,该装置还可以包括:
分析单元520,用于基于目标关系网络图进行数据分析。
分析单元520具体用于:
对于目标关系网络图中的任一节点,在目标关系网络图中,确定出经过预定数量K1以内的第二连接边到达的、与任一节点归属于同一个分类的第一目标节点;将第一目标节点对应的数据集、数据文件或者数据列,作为针对任一节点进行模式相似性分析的分析结果;和/或,
对于目标关系网络图中的任一节点,在目标关系网络图中,确定出经过预定数量K2以内的第三连接边到达的、与所述任一节点归属于同一个分类的第二目标节点;将第二目标节点对应的数据集、数据文件或者数据列,作为针对任一节点进行内容相似性分析的分析结果。
分析单元520还具体用于:
对于目标关系网络图中归属于同一个分类的两个节点,基于目标关系网络图,确定分别以该两个节点为起始节点和终止节点的目标路径;
基于目标路径包含的各连接边,确定该两个节点所对应的数据集、数据文件或者数据列之间的关系类型。
本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的供应链数据分析和增强处理装置,可以提升数据分析和增强效率。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的具体实施方式而已,并不用于限定本说明书的保护范围,凡在本说明书的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的保护范围之内。
Claims (8)
1.一种供应链数据分析处理方法,包括:
获取初始关系网络图;所述初始关系网络图包括分别归属于三个分类的多个节点,其中,归属于第一个分类的节点为第一类节点,该第一类节点与数据仓库中的数据集相对应;归属于第二个分类的节点为第二类节点,该第二类节点与数据集中的数据文件相对应;归属于第三个分类的节点为第三类节点,该第三类节点与从数据文件中抽取的数据列相对应;在具有隶属关系的两个分类的节点之间通过第一连接边连接;
对于所述多个节点中的每个节点,根据对应数据集、数据文件或者数据列的名称包含的各词对应的词向量,确定该节点的名称向量;
对于所述多个节点中归属于同一个分类的各节点,基于对应的名称向量,计算两两节点之间的模式相似度,以及基于对应的内容向量,计算两两节点之间的内容相似度;其中,任一节点的内容向量,根据对应数据集、数据文件或者数据列的内容包含的各词对应的词向量而确定;
基于所述模式相似度,在所述初始关系网络图中添加第二连接边,以及基于所述内容相似度,在所述初始关系网络图中添加第三连接边,得到目标关系网络图,所述目标关系网络图用于对供应链数据进行分析处理;
对于所述目标关系网络图中的任一节点,在所述目标关系网络图中,确定出经过预定数量K1以内的第二连接边到达的、与所述任一节点归属于同一个分类的第一目标节点;将所述第一目标节点对应的数据集、数据文件或者数据列,作为针对所述任一节点进行模式相似性分析的分析结果;和/或,
对于所述目标关系网络图中的任一节点,在所述目标关系网络图中,确定出经过预定数量K2以内的第三连接边到达的、与所述任一节点归属于同一个分类的第二目标节点;将所述第二目标节点对应的数据集、数据文件或者数据列,作为针对所述任一节点进行内容相似性分析的分析结果。
2.根据权利要求1所述的方法,还包括:
对于所述目标关系网络图,判断所述第三类节点对应的数据列是否为所述第二类节点对应的数据文件的主键或者外键,若是,则在所述目标关系网络图中添加第四连接边。
3.根据权利要求1所述的方法,其中,所述确定该节点的名称向量,包括:
基于word2vec网络,确定该节点对应的数据集、数据文件或者数据列的名称包含的各词对应的第一词向量,以及基于WordNet,确定该节点对应的数据集、数据文件或者数据列的名称包含的各词对应的第二词向量;
对所述各词对应的第一词向量和第二词向量求平均,得到所述各词的向量表示;
对所述各词的向量表示进行融合,得到该节点的名称向量。
4.根据权利要求1所述的方法,其中,所述归属于同一个分类的各节点包括第一节点和第二节点;
所述基于所述模式相似度,在所述初始关系网络图中添加第二连接边,包括:判断所述第一节点与第二节点之间的模式相似度是否大于第一阈值,若是,则在所述第一节点与第二节点之间构建第二连接边,且将所述模式相似度作为所述第二连接边的权重;
所述基于所述内容相似度,在所述初始关系网络图中添加第三连接边,包括:判断所述第一节点与第二节点之间的内容相似度是否大于第二阈值,若是,则在所述第一节点与第二节点之间构建第三连接边,且将所述内容相似度作为所述第三连接边的权重。
5.根据权利要求1所述的方法,还包括:
利用所述目标关系网络图对图神经网络进行训练,得到所述目标关系网络图中每个节点的节点向量;
基于所述节点向量,计算两两节点之间的打分,所述打分指示两个节点之间存在连接边的概率;所述打分用于在所述目标关系网络图中添加新连接边。
6.根据权利要求5所述的方法,还包括:
获取目标数据集,并针对所述目标数据集构建对应的目标子图;
利用所述图神经网络对所述目标子图进行图嵌入处理,得到所述目标子图中每个节点的节点向量;
将所述目标子图整合到所述目标关系网络图;所述将所述目标子图整合到所述目标关系网络图至少包括:基于所述目标子图以及目标关系网络图中各个节点的节点向量,依次计算所述目标子图中各个节点与所述目标关系网络图中各个节点之间的链接相似度,并基于该链接相似度,在所述目标关系网络图中添加新连接边。
7.根据权利要求1所述的方法,还包括:
对于所述目标关系网络图中归属于同一个分类的两个节点,基于所述目标关系网络图,确定分别以该两个节点为起始节点和终止节点的目标路径;
基于所述目标路径包含的各连接边,确定该两个节点对应的数据集、数据文件或者数据列之间的关系类型。
8.一种供应链数据分析处理装置,包括:
获取单元,用于获取初始关系网络图;所述初始关系网络图包括分别归属于三个分类的多个节点,其中,归属于第一个分类的节点为第一类节点,该第一类节点与数据仓库中的数据集相对应;归属于第二个分类的节点为第二类节点,该第二类节点与数据集中的数据文件相对应;归属于第三个分类的节点为第三类节点,该第三类节点与从数据文件中抽取的数据列相对应;在具有隶属关系的两个分类的节点之间通过第一连接边连接;
确定单元,用于对于所述多个节点中的每个节点,根据对应数据集、数据文件或者数据列的名称包含的各词对应的词向量,确定该节点的名称向量;
计算单元,用于对于所述多个节点中归属于同一个分类的各节点,基于对应的名称向量,计算两两节点之间的模式相似度,以及基于对应的内容向量,计算两两节点之间的内容相似度;其中,任一节点的内容向量,根据对应数据集、数据文件或者数据列的内容包含的各词对应的词向量而确定;
添加单元,用于基于所述模式相似度,在所述初始关系网络图中添加第二连接边,以及基于所述内容相似度,在所述初始关系网络图中添加第三连接边,得到目标关系网络图,所述目标关系网络图用于对供应链数据进行分析处理;
分析单元,用于对于所述目标关系网络图中的任一节点,在所述目标关系网络图中,确定出经过预定数量K1以内的第二连接边到达的、与所述任一节点归属于同一个分类的第一目标节点;将所述第一目标节点对应的数据集、数据文件或者数据列,作为针对所述任一节点进行模式相似性分析的分析结果;和/或,
对于所述目标关系网络图中的任一节点,在所述目标关系网络图中,确定出经过预定数量K2以内的第三连接边到达的、与所述任一节点归属于同一个分类的第二目标节点;将所述第二目标节点对应的数据集、数据文件或者数据列,作为针对所述任一节点进行内容相似性分析的分析结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210374815.0A CN114443783B (zh) | 2022-04-11 | 2022-04-11 | 一种供应链数据分析和增强处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210374815.0A CN114443783B (zh) | 2022-04-11 | 2022-04-11 | 一种供应链数据分析和增强处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114443783A CN114443783A (zh) | 2022-05-06 |
CN114443783B true CN114443783B (zh) | 2022-06-24 |
Family
ID=81360418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210374815.0A Active CN114443783B (zh) | 2022-04-11 | 2022-04-11 | 一种供应链数据分析和增强处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114443783B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187524B (zh) * | 2022-12-19 | 2023-08-25 | 物产中大数字科技有限公司 | 一种基于机器学习的供应链分析模型对比方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521386A (zh) * | 2011-12-22 | 2012-06-27 | 清华大学 | 基于集群存储的空间元数据分组方法 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN111723292A (zh) * | 2020-06-24 | 2020-09-29 | 携程计算机技术(上海)有限公司 | 基于图神经网络的推荐方法、系统、电子设备及存储介质 |
CN112434188A (zh) * | 2020-10-23 | 2021-03-02 | 杭州未名信科科技有限公司 | 一种异构数据库的数据集成方法、装置及存储介质 |
CN113536155A (zh) * | 2021-07-23 | 2021-10-22 | 四川大学 | 一种基于多源数据的旅游路线可视分析与规划方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160328406A1 (en) * | 2015-05-08 | 2016-11-10 | Informatica Llc | Interactive recommendation of data sets for data analysis |
CN108427956B (zh) * | 2017-02-14 | 2019-08-06 | 腾讯科技(深圳)有限公司 | 一种对象聚类方法和装置 |
US11354587B2 (en) * | 2019-02-01 | 2022-06-07 | System Inc. | Systems and methods for organizing and finding data |
CN112988698A (zh) * | 2019-12-02 | 2021-06-18 | 阿里巴巴集团控股有限公司 | 一种数据处理方法以及装置 |
CN113609345B (zh) * | 2021-09-30 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 目标对象关联方法和装置、计算设备以及存储介质 |
-
2022
- 2022-04-11 CN CN202210374815.0A patent/CN114443783B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521386A (zh) * | 2011-12-22 | 2012-06-27 | 清华大学 | 基于集群存储的空间元数据分组方法 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN111723292A (zh) * | 2020-06-24 | 2020-09-29 | 携程计算机技术(上海)有限公司 | 基于图神经网络的推荐方法、系统、电子设备及存储介质 |
CN112434188A (zh) * | 2020-10-23 | 2021-03-02 | 杭州未名信科科技有限公司 | 一种异构数据库的数据集成方法、装置及存储介质 |
CN113536155A (zh) * | 2021-07-23 | 2021-10-22 | 四川大学 | 一种基于多源数据的旅游路线可视分析与规划方法 |
Non-Patent Citations (2)
Title |
---|
An effective statistical evaluation of ChIPseq dataset similarity;Maria D.Chikina等;《Bioinformatics》;20120119;第607-613页 * |
基于影响度的标签传播算法;蔡威林等;《佳木斯大学学报》;20220131;第40卷(第1期);第38-40页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114443783A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609902B (zh) | 一种基于融合知识图谱的文本处理方法及装置 | |
US10430255B2 (en) | Application program interface mashup generation | |
US7593927B2 (en) | Unstructured data in a mining model language | |
CN111768285A (zh) | 信贷风控模型构建系统、方法、风控系统及存储介质 | |
CN112463774B (zh) | 文本数据的去重方法、设备及存储介质 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN108710662B (zh) | 语言转换方法和装置、存储介质、数据查询系统和方法 | |
CN113254507B (zh) | 一种数据资产目录智能构建盘点方法 | |
Pita et al. | A Spark-based Workflow for Probabilistic Record Linkage of Healthcare Data. | |
JP2022073981A (ja) | ソースコード取得 | |
US11620453B2 (en) | System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations | |
US20230030086A1 (en) | System and method for generating ontologies and retrieving information using the same | |
CN116431837B (zh) | 基于大型语言模型和图网络模型的文档检索方法和装置 | |
US10706030B2 (en) | Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure | |
KR20180129001A (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
CN114443783B (zh) | 一种供应链数据分析和增强处理方法及装置 | |
CN113971210B (zh) | 一种数据字典生成方法、装置、电子设备及存储介质 | |
Zhu et al. | A data cleaning method for heterogeneous attribute fusion and record linkage | |
CN113721889B (zh) | 需求追踪关系构建方法、装置及计算机可读存储介质 | |
Giannopoulos et al. | Learning Advanced Similarities and Training Features for Toponym Interlinking | |
US20240152565A1 (en) | Information processing system, information processing method and information processing program | |
US20230153647A1 (en) | Recommendations using graph machine learning-based regression | |
CN113505600B (zh) | 一种基于语义概念空间的工业产业链的分布式索引方法 | |
EP3944127A1 (en) | Dependency graph based natural language processing | |
Sreedevi et al. | Frequent subgraph mining on bigdata |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |