CN116450653A - 一种针对供应链数据缺失的补全方法及装置 - Google Patents

一种针对供应链数据缺失的补全方法及装置 Download PDF

Info

Publication number
CN116450653A
CN116450653A CN202310678546.1A CN202310678546A CN116450653A CN 116450653 A CN116450653 A CN 116450653A CN 202310678546 A CN202310678546 A CN 202310678546A CN 116450653 A CN116450653 A CN 116450653A
Authority
CN
China
Prior art keywords
data
column
matrix
similarity
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310678546.1A
Other languages
English (en)
Other versions
CN116450653B (zh
Inventor
朱海洋
陈为
潘嘉铖
韩东明
魏雅婷
翁罗轩
封颖超杰
柏宏武
毛科添
闾建树
邢远凯
万邱成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Products Zhongda Digital Technology Co ltd
Zhejiang University ZJU
Original Assignee
Products Zhongda Digital Technology Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Products Zhongda Digital Technology Co ltd, Zhejiang University ZJU filed Critical Products Zhongda Digital Technology Co ltd
Priority to CN202310678546.1A priority Critical patent/CN116450653B/zh
Publication of CN116450653A publication Critical patent/CN116450653A/zh
Application granted granted Critical
Publication of CN116450653B publication Critical patent/CN116450653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种针对供应链数据缺失的补全方法,针对多个数据表中的各数据列,通过两两计算列值相似度和列名相似度,得到列值相似度矩阵和列名相似度矩阵。之后通过对列值相似度矩阵和列名相似度矩阵进行融合,得到整体相似度矩阵,以及基于该整体相似度矩阵,针对该多个数据表确定出各关联列集合。最后,对于任一包含缺失值的数据表,基于各关联列集合,构建对应的目标数据表,该目标数据表包含与缺失值所在的行和列相似的数据行和数据列,并基于该目标数据表中的内容,对该缺失值进行补全,由此可以大大提升供应链数据补全的准确性及工作效率。

Description

一种针对供应链数据缺失的补全方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种针对供应链数据缺失的补全方法及装置。
背景技术
数据补全(data imputation)是一种重要的数据治理技术,其目的是利用已有的多源多维度数据来填补数据集中的缺失值或缺失数据点,为数据分析建模、价值挖掘奠定基础。在企业数字化转型过程中,数据缺失一直是一个不可忽视的重要问题。数据缺失会降低数据整体质量,进而影响智能算法和模型分析结果的可靠性,有时甚至会导致完全相反的观点和结论。因此,数据补全对于保障企业业务经营及管理决策分析的准确性和科学性非常重要。例如,大型供应链集成服务企业集团(以下简称大型供应链企业)的上下游客商、大宗商品价格等关键信息缺失会影响对市场发展趋势的研判,导致出现经营亏损和商业风险增加的情况。而在企业投资并购过程中,关键商业信息的缺失和错误会在资产评估中引入极端值,从而产生极大的投资风险。另外,在医疗实验中,关键变量信息的缺失或错误可能导致分析结论产生偏差,误导科研人员和医护人员评估治疗手段的有效性和安全性。因此,在当今大数据分析与应用迅猛发展的时代,数据治理过程中关于缺失数据的补全研究获得了企业界及学术界的广泛关注。
在大型供应链企业的实际数据应用场景中,数据往往并非独立存在,而以系列的形式构成由多个数据表组成的大规模数据集,且不同数据表之间存在一定的互补关系。因此,针对某一数据表的数据缺失问题,可以通过引入其它数据表的相同或相似字段,从而一定程度地解决该问题。然而,引入其它数据表来最大程度地解决数据缺失问题面临着巨大的挑战。大型供应链企业数字化转型过程中,由于缺乏前瞻性的规划和统一的数据标准,常常会出现系统“烟囱”和数据“孤岛”问题,导致数据的表单、字段、时间、部门等方面存在差异,数据之间往往缺少有效的关联。因此,引入其它数据表来补全缺失数据时,首先需要建立数据之间的关联关系。例如,由于不同的数据表中都包含企业识别码,因此数据表A缺失的企业地址可能可以在数据表B中通过同一企业识别码找到。具体来说,面临的挑战如下:
(1)大规模数据集中每张数据表都包含大量的数据列(属性)和数据行(条目),庞大的数据空间导致了数据治理过程中数据检索工作的低效和冗长。数据检索工作的复杂度随着数据表以及数据列、数据行的数量增加而呈现指数级上升趋势,使得数据治理专业人员难以从中检索到用于补全当前数据表缺失的数据信息。
(2)由于不同数据表中存在数据分布、类型、格式及结构等方面的数据异质性问题,因此代表相同属性的数据列可能在不同数据表中以不同的列名或数据分布等形式出现。同样,代表相同条目的数据行在其他数据表中也可能以不同的数据属性存在。采用简单的统计和模糊匹配方法容易忽略大量正确的关联关系,因此,需要采用科学方法来有效解决关联数据的同质性问题,从而使不同数据表中该企业名称的缺失数据能够相互补全。
(3)在建设供应链大数据中心、推进多维度数据归集的过程中,由于存在较多数据质量问题,构建准确的数据关联关系非常困难,需要用户结合背景知识来验证关联关系和数据补全结果。由于复杂的数据关联关系导致数据验证工作量庞大且充满挑战,因此需要设计一种新型高效的交互式可视化解决方案,引导用户验证数据补全过程、提升补全效率。
发明内容
本说明书一个或多个实施例描述了一种针对供应链数据缺失的补全方法及装置,能够提升供应链数据补全的准确性。
第一方面,提供了一种针对供应链数据缺失的补全方法,包括:
获取用于记录供应链数据的多个数据表,其中的每个数据表包含多个数据列;
针对所述多个数据表所包含的各数据列,两两计算列值相似度,得到列值相似度矩阵;以及两两计算列名相似度,得到列名相似度矩阵;所述列值/列名相似度矩阵中的各矩阵行分别对应于所述各数据列,且其中的各矩阵列分别对应于所述各数据列;
对所述列值相似度矩阵和所述列名相似度矩阵进行融合,得到整体相似度矩阵;
基于所述整体相似度矩阵,针对所述多个数据表确定各关联列集合;
对于所述多个数据表中包含缺失值的第一数据表,从中确定出包含所述缺失值的第一数据行,并从所述多个数据表中除所述第一数据表外的其它各数据表中,查找与所述第一数据行具有共同主键值的各匹配数据行;所述第一数据行和所述各匹配数据行形成各目标数据行;
依次针对所述各目标数据行,从中抽取包含在所述各关联列集合中的数据列,得到各候选数据行;根据所述各候选数据行以及其中包含的各数据列,构建候选数据表;
对于所述候选数据表,根据所述各关联列集合,从中识别出存在关联关系的各组数据列,并将识别出的每组数据列中的各数据列堆叠在一列中,得到目标数据表;
根据所述目标数据表,对所述第一数据表中的缺失值进行补全。
第二方面,提供可一种可视化分析系统,包括:
数据概览视图,用于展示多个数据表所包含的各数据列中内容的缺失情况;所述多个数据表包括第一数据表,所述第一数据表包含缺失值;
控制面板视图,用于配置数据列关联过程中的列值相似度、列名相似度的计算方法;
列关系视图,用于展示所述多个数据表中数据列之间的关联关系;
矩阵视图,用于展示目标数据表;
所述矩阵视图,还用于接收用户的选择指令,并根据所述选择指令,从所述目标数据表中选取对应的内容对所述第一数据表中的缺失值进行补全;
其中,所述目标数据表通过以下步骤确定:
基于配置的所述计算方法,针对所述多个数据表所包含的各数据列,两两计算列值相似度,得到列值相似度矩阵;以及两两计算列名相似度,得到列名相似度矩阵;所述列值/列名相似度矩阵中的各矩阵行分别对应于所述各数据列,且其中的各矩阵列分别对应于所述各数据列;
对所述列值相似度矩阵和所述列名相似度矩阵进行融合,得到整体相似度矩阵;
基于所述整体相似度矩阵,针对所述多个数据表确定各关联列集合;
对于所述第一数据表,从中确定出包含所述缺失值的第一数据行,并从所述多个数据表中除所述第一数据表外的其它各数据表中,查找与所述第一数据行具有共同主键值的各匹配数据行;所述第一数据行和所述各匹配数据行形成各目标数据行;
依次针对所述各目标数据行,从中抽取包含在所述各关联列集合中的数据列,得到各候选数据行;根据所述各候选数据行以及其中包含的各数据列,构建候选数据表;
对于所述候选数据表,根据所述各关联列集合,从中识别出存在关联关系的各组数据列,并将识别出的每组数据列中的各数据列堆叠在一列中,得到所述目标数据表。
第三方面,提供了一种针对供应链数据缺失的补全装置,包括:
获取单元,用于获取用于记录供应链数据的多个数据表,其中的每个数据表包含多个数据列;
计算单元,用于针对所述多个数据表所包含的各数据列,两两计算列值相似度,得到列值相似度矩阵;以及两两计算列名相似度,得到列名相似度矩阵;所述列值/列名相似度矩阵中的各矩阵行分别对应于所述各数据列,且其中的各矩阵列分别对应于所述各数据列;
融合单元,用于对所述列值相似度矩阵和所述列名相似度矩阵进行融合,得到整体相似度矩阵;
确定单元,用于基于所述整体相似度矩阵,针对所述多个数据表确定各关联列集合;
查找单元,用于对于所述多个数据表中包含缺失值的第一数据表,从中确定出包含所述缺失值的第一数据行,并从所述多个数据表中除所述第一数据表外的其它各数据表中,查找与所述第一数据行具有共同主键值的各匹配数据行;所述第一数据行和所述各匹配数据行形成各目标数据行;
抽取单元,用于依次针对所述各目标数据行,从中抽取包含在所述各关联列集合中的数据列,得到各候选数据行;根据所述各候选数据行以及其中包含的各数据列,构建候选数据表;
堆叠单元,用于对于所述候选数据表,根据所述各关联列集合,从中识别出存在关联关系的各组数据列,并将识别出的每组数据列中的各数据列堆叠在一列中,得到目标数据表;
补全单元,用于根据所述目标数据表,对所述第一数据表中的缺失值进行补全。
本说明书一个或多个实施例提供的一种针对供应链数据缺失的补全方法,针对多个数据表中的各数据列,通过两两计算列值相似度和列名相似度,得到列值相似度矩阵和列名相似度矩阵。之后通过对列值相似度矩阵和列名相似度矩阵进行融合,得到整体相似度矩阵,以及基于该整体相似度矩阵,针对该多个数据表确定出各关联列集合。最后,对于任一包含缺失值的数据表,基于各关联列集合,构建对应的目标数据表,该目标数据表包含与缺失值所在的行和列相似的数据行和数据列,并基于该目标数据表中的内容,对该缺失值进行补全,由此可以大大提升供应链数据补全的准确性。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的一种针对供应链数据缺失的补全方法示意图;
图2示出根据一个实施例的一种针对供应链数据缺失的补全方法流程图;
图3a示出在一个例子中的数据表示意图;
图3b示出在一个例子中的候选数据表示意图;
图3c示出在一个例子中的目标数据表示意图;
图3d示出在一个例子中的补全结果示意图;
图4a示出可视化分析系统中的数据概览视图示意图;
图4b示出可视化分析系统中的控制面板视图示意图;
图4c示出可视化分析系统中的列关系视图示意图;
图4d示出详细的列关联关系示意图;
图4e示出可视化分析系统中的矩阵视图示意图;
图5示出根据一个实施例的一种针对供应链数据缺失的补全装置示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
目前,针对缺失数据的处理策略包括充填(fill)、预测(prediction)和删除(delete)。传统的数据补全方法主要有:统计(statistical)方法、机器学习(machinelearning)方法和深度学习(deep learning)方法。然而,这些传统方法通常假设数据是单一的、孤立的,并且使用数据表的其它行或其它数据实体,通过统计方法或者机器学习方法来推测(inference)缺失的数据值。虽然这些方法可以在一定程度上缓解数据缺失问题,也能产生一定的应用实效,但是并不能真正找到正确的缺失值。因此,在许多数字治理及数字化应用场景中,这些方法是不被广泛接受及允许。例如,针对患者病例的缺失信息进行数据补全时,使用预测的数据值可能会增加误诊风险,甚至带来相关的法律和责任问题。特别是在使用机器学习相关方法时,预测得到的数据值是难以溯源且不被用户信任的。相关研究表明,机器学习在预测缺失值方面的表现通常不太理想。
许多文献总结了用于替换或插补缺失值的数据插补(data imputation)方法,这些方法目的是尽可能利用其它数据信息来对当前数据进行插补。例如,热点插补(hot-deckimputation)通过寻找当前数据信息中的替代值进行插补,而代码插补(code-deckimputation)则利用其它数据源或者领域经验(domain heuristics)来寻找替代值。插值(interpolation)方法通过数据的加权组合去推测缺失值,包括线性插值(linearinterpolation)、回归插值(regression interpolation)和自适应插值(adaptiveinterpolation)等方法。缺失数据补全是数据质量提升的关键要素,特别是在某些特定问题中,如时序数据(time-series data)中的非均匀采样(non-uniform sampling),可能需要强制插值计算。然而,当连接(join)两个具有不同粒度的时间源时,可能会出现不能对齐的现象,这时插值可能会导致冲突。此外,使用复杂的相关方法,可以将数据治理各个环节中的数据整合到一个数据集中,并进行针对性的计算,甚至可以利用机器学习等相关技术来更全面地预测缺失值。
为此,本方案提出,从多个数据源中提取有效数据信息进行数据补全,即从其他多维数据表中寻找与缺失值相似的内容来进行补全。具体来说,对于一个缺失值所属的行和列,通过在已有的数据表中搜索相似的行和列,并利用搜索到的内容进行缺失补全,而不是推测新的值进行插入。
图1示出根据一个实施例的一种针对供应链数据缺失的补全方法示意图。图1中,该补全方法主要包括:数据列关联、目标数据表构建和缺失值补全三个步骤。
其中,数据列关联是指从多维数据表中找到相似的列进行关联,该步骤主要包括:列值类型判断、列值相似度计算、列名相似度计算和关联列集合确定。目标数据表构建是指从其它数据表中寻找与当前缺失值相似的部分,以构建目标数据表。该步骤主要包括:主键值识别、候选行选取、候选列抽取和目标数据表构建。缺失值补全包括自动补全和交互式补全。其中,在针对缺失值补全后,可以重新进行数据列关联进而进行迭代计算。
图2示出根据一个实施例的一种针对供应链数据缺失的补全方法流程图,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,该方法可以包括如下步骤。
步骤S202,获取用于记录供应链数据的多个数据表,其中的每个数据表包含多个数据列。
上述的供应链数据可以包括样本特征和样本标签。其中样本特征可以包括,库存特征、生产特征和销售特征等,样本标签可以用于指示对应供应链数据的销量(回归值),或者用于指示对应供应链数据是否具有风险(分类值)。
具体地,上述库存特征包括以下中的至少一项:仓库所在省市区、仓储运输资源、库房、库位、物料类别、物料名称、规格型号、计量单位、当前库存数、历史最高库存数、历史最低库存数、平均库存时间、库存同比以及库存环比等。
上述生产特征包括以下中的至少一项:生产厂商、生产厂商所在省市区、物料类别、物料名称、规格型号、计量单位、产能、日产量、生产周期、本月累计产量、本年累计产量、产量同比以及产量环比等。
所述销售特征包括以下中的至少一项:合同编号、合同数量、合同时间、客户名称、客户所在省市区、客户信用等级、客户授信额度、订单编号、订单数量、订单时间、提货单编号、提货单数量、提货单时间、物料类别、物料名称、规格型号、计量单位、本月累计出库数、本年累计出库数、本月累计开票数、本年累计开票数、本月资金回笼数、本年资金回笼数、本月应收账款、本年应收账款、销售同比以及销售环比等。
这里的数据列可以包括数据列的名称和内容。
在一个实施例中,对于上述多个数据列中的每个数据列,可以确定其数据类型。
具体地,对于任一数据表中的某个数据列,如果该数据列中的唯一值数目与内容总数目(即数据行数目)相等,则可以将该数据列的数据类型确定为标识符型。比如,银行编号、用户编号等均属于标识符型的数据列。
对于上述数据列,如果基于该数据列中的唯一值数目和内容总数目确定的唯一值占比小于预定阈值,则可以将该数据列的数据类型确定为类别型。比如,国籍、产业领域等均属于类别型的数据列。
对于上述数据列,如果该数据列中的各个内容均为数字,则可以将该数据列的数据类型确定为数值型。比如,仓库面积、员工数量以及时间等均属于数值型的数据列。
对于上述数据列,如果该数据列中的内容均为文字,且其中的唯一值数目与内容总数目相接近,则可以将该数据列的数据类型确定为文本型。例如,企业名称、仓库地址等均属于文本型的数据列。
当然,在实际应用中,也可能会存在不属于上述任一种情况的数据列(比如,包含“10002”类似列值的数据列),从而难以判别其数据类型,此时可以依靠用户的先验知识来对其进行判断和设定。
步骤S204,针对多个数据表所包含的各数据列,两两计算列值相似度,得到列值相似度矩阵;以及两两计算列名相似度,得到列名相似度矩阵。
上述列值相似度矩阵(列名相似度矩阵)中的各矩阵行分别对应于多个数据表所包含的各数据列,且其中的各矩阵列分别对应于多个数据表所包含的各数据列。
举例来说,假设多个数据表总共包含N个数据列,那么上述列值/列名相似度矩阵是一个N×N的方阵,其中第a行第b列的矩阵元素表示,该矩阵元素所属矩阵行对应的数据列(假设为Ci j,表示数据表Ti中的第j列)与其所属矩阵列对应的数据列(假设为Cp q,表示数据表Tp中的第q列)的列值/列名相似度。其中,a和b均为正整数,且1≤a≤N,1≤b≤N。此外,i,j,p和q均为正整数,且1≤i,p≤t,t为数据表的数目。
在一个实施例中,N个数据列包括第一数据列和第二数据列,上述两两计算列值相似度可以包括:判断第一数据列和第二数据列的数据类型是否相同,在第一数据列和第二数据列的数据类型相同的情况下,计算第一数据列和第二数据列的列值相似度,否则将第一数据列和第二数据列的列值相似度置空。
在一个实施例中,针对不同的数据类型,上述列值相似度的计算方法可不同。
比如,在第一数据列和第二数据列的数据类型均为标识符型或者类别型的情况下,对应的列值相似度等于该两个数据列的交集内容数目(即两个数据列的重合内容数目)除以并集内容数目(两个数据列的总内容数目)。
再比如,在第一数据列和第二数据列的数据类型均为数值型的情况下,可以将第一数据列中各项内容的分布与第二数据列中各项内容的分布之间的分布差异,确定为对应的列值相似度。其中,这里的分布差异可以包括以下中的任一项:KL散度(kullback-leibler divergence)、JS散度(jensen-shannon divergence)以及推土机距离(earthmover distance, EMD)等。
还比如,在第一数据列和第二数据列的数据类型均为文本型的情况下,可以将第一数据列与第二数据列各自的各项内容的拼接结果的词移距离,确定为对应的列值相似度。
在一个例子中,为计算上述词移距离,对于上述第一/第二数据列,在得到对应的第一/第二拼接结果后,可以先对其进行分词处理,之后将得到的各个分词输入词嵌入模型,从而得到对应的第一/第二向量表征。最后,基于第二和第二向量表征,计算上述词移距离。
此外,上述两两计算列名相似度可以包括:判断第一数据列和第二数据列的数据类型是否相同,在第一数据列和第二数据列的数据类型相同的情况下,计算第一数据列和第二数据列的列名相似度,否则将第一数据列和第二数据列的列名相似度置空。
在一个实施例中,可以根据对应于文本型的列值相似度的确定方法,计算上述列名相似度。即将第一数据列与第二数据列的名称的词移距离,确定为对应的列名相似度。
步骤S206,对列值相似度矩阵和列名相似度矩阵进行融合,得到整体相似度矩阵。
在一个实施例中,将列值相似度矩阵和列名相似度矩阵中相同位置的矩阵元素求和,并将求和结果作为整体相似度矩阵中该位置的矩阵元素。
比如,将列值相似度矩阵表示为:Mcv,将列名相似度矩阵表示为:Mcn,以及将整体相似度矩阵表示为:Mc,那么Mc[a][b]= Mcv[a][b]+ Mcn[a][b]。其中,a和b均为正整数,且1≤a≤N,1≤b≤N。
当然,在实际应用中,上述求和运算也可以替换为求平均运算或者求加权平均运算等等,本说明书对此不作限定。
步骤S208,基于整体相似度矩阵,针对多个数据表确定各关联列集合。
在一个实施例中,上述针对多个数据表确定各关联列集合,包括:依次将整体相似度矩阵中的每个矩阵元素作为当前矩阵元素,并判断当前矩阵元素是否满足第一条件,该第一条件包括,该当前矩阵元素所属矩阵行对应的第一数据列与其所属矩阵列对应的第二数据列不是同一数据列,且该矩阵元素大于预定阈值;在当前矩阵元素满足第一条件的情况下,基于第一数据列和第二数据列形成一个相似列集合。
应理解,在针对整体相似度矩阵中的每个矩阵元素进行上述是否满足第一条件的判断后,可以得到若干相似列集合。应理解,这里的每个相似列集合包括两个数据列。之后,可以根据各相似列集合,确定上述各关联列集合。
本说明书实施例中通过以下三种方法(策略),确定上述各关联列集合。
第一种,采用已知的并查集(disjoint-set)算法,对各相似列集合进行合并处理,得到各合并集合作为各关联列集合。
需要说明,在该策略下,某数据表的一个数据列可能与另一数据表中的多个数据列相关联。举例来说,采用该第一种策略,可能得到关联列集合CR=(Ci 1,Cp 7,Cp 8)。其中,Ci 1为数据表Ti中的第1列,Cp 7和Cp 8分别为数据表Tp中的第7列和第8列。
第二种,迭代地执行以下步骤多次:在各相似列集合中选定当前的第一集合,假设该第一集合包括数据表i中的数据列j和数据表p中的数据列q,也即第一集合为:(Ci j,Cp q)。然后判断剩余的各相似列集合中是否存在第二集合,该第二集合包括上述数据列j和数据表p中的数据列m,或者,该第二集合包括数据表i中的数据列n和上述数据列q,也即第二集合为:(Ci j,Cp m)或者(Ci n,Cp q)。若存在该第二集合,则删除第一集合和第二集合中对应相似度较小的集合。应理解,这里的相似度是指第一/第二集合中的两个数据列在整体相似度矩阵中的对应矩阵元素。其中,n和m均为正整数。
在上述迭代过程结束后,就可以得到过滤后的各相似列集合。之后可以将过滤后的各相似列集合确定为各关联列集合。
由上述内容可知,第二种策略的核心思想是将两个数据表中相似度最大的两个数据列相关联,加入并查集,使得对于任意的关联列集合中的两个数据列(比如,Ci j和Cp q),在各自对应的数据表(Ti和Tp)中只有彼此是唯一相关联的。
此外,在该第二种策略下,某数据表的一个数据列只与另一数据表中的1个数据列相关联。举例来说,采用该第二种策略,可能得到关联列集合CR=(Ci 1,Cp 7),即数据表Ti中的第1列与数据表Tp中的第7列的相似度,大于数据表Ti中的第1列与数据表Tp中的其它各数据列的相似度。
第三种,迭代地执行以下步骤多次:对于各相似列集合中的当前选定集合,计算该当前选定集合中的各个数据列与各相似列集合中的待合并集合中每个数据列的相似度,并对计算的相似度求和,得到待合并集合中每个数据列对应的求和结果。将待合并集合中对应求和结果最大的目标数据列添加到当前选定集合中,并从待合并集合中删除目标数据列。
在上述迭代过程结束后,就可以得到更新的各相似列集合。之后,可以将更新的各相似列集合,确定为各关联列集合。
有上述内容可知,第三种策略的核心思想是每次寻找和当前选定集合所有数据列的相似度求和结果最高的数据列,加入当前选定集合。比如,当前选定集合是:(C1 1,Ci 3),其中,i≠1,待合并集合是:(Cp 1,Cp 3),则比较相似度求和结果:(sim(C1 1,Cp 1)+ sim(Ci 3,Cp 1))和(sim(C1 1,Cp 3)+ sim(Ci 3,Cp 3)),如果前者大,则将Cp 1加入当前选定集合,而如果后者大,则将Cp 3加入当前选定集合。其中,sim( )代表相似度,其可以基于整体相似度矩阵中对应的矩阵元素而确定。
至此,针对上述多个数据表,就得到了各关联列集合。
本方案中,基于不同的策略,所得到的关联列集合不同,进而可以构建得到不同的目标数据表(后续说明)。
步骤S210,对于多个数据表中包含缺失值的第一数据表,从中确定出包含缺失值的第一数据行,并从多个数据表中除第一数据表外的其它各数据表中,查找与第一数据行具有共同主键值的各匹配数据行,该第一数据行和各匹配数据行形成各目标数据行。
本说明书实施例中,假设每个数据表中存在唯一主键,且主键值不属于缺失数据,不同数据表中主键值相同表示的实体是唯一的。在一个例子中,主键值例如为人名、地址、编号等。
图3a示出在一个例子中的数据表示意图。图3a中,数据表1包含11个数据列,分别表示为:C1 1、C1 2、…、C1 11。数据表2包含9个数据列,分别表示为:C2 1、C2 2、…、C2 9。数据表3包含10个数据列,分别表示为:C3 1、C3 2、…、C3 10。图3a中,通过网格线标出的方格即为缺失值,即数据表1包含两个缺失值,数据表3包含1个缺失值。此外,将数据表1中包含缺失值的数据行1(即第一数据行)通过横线标出,将数据表2中与数据行1具有共同主键值(v)的数据行2(即匹配数据行)通过竖线标出,以及将数据表3中与数据行1具有共同主键值(v)的数据行3(即匹配数据行)通过斜线标出。
步骤S212,依次针对各目标数据行,从中抽取包含在各关联列集合中的数据列,得到各候选数据行,根据各候选数据行以及其中包含的各数据列(也称候选数据列,简称候选列),构建候选数据表。
在前述例子中,假设存在如下的各关联列集合:(C1 1,C2 5,C3 1)、(C1 2,C3 8)、(C1 4,C2 3)、(C1 6,C2 2,C3 10) 和(C1 10,C2 7)。那么对于数据行1,在对其进行上述抽取处理后,得到的候选数据行1包含如下数据列:C1 1、C1 2、C1 4、C1 6和C1 10。同理,对于数据行2,在对其进行上述抽取处理后,得到的候选数据行2包含如下数据列:C2 5、C2 3、C2 2和C2 7。以及对于数据行3,在对其进行上述抽取处理后,得到的候选数据行3包含如下数据列:C3 1、C3 8和C3 10
之后,可以将各候选数据行中包含的所有数据列作为候选数据表中的各数据列,并且对于各候选数据行,将未包含在其中的数据列,通过空值进行填充,如此得到候选数据表。
在前述例子中,可以将C1 1、C1 2、C1 4、C1 6、C1 10、C2 5、C2 3、C2 2、C2 7、C3 1、C3 8和C3 10作为候选数据表中的各数据列,并且对于候选数据行1,可以将其对应于C2 5、C2 3、C2 2、C2 7、C3 1、C3 8和C3 10的内容均置空,以及将候选数据行2对应于C1 1、C1 2、C1 4、C1 6、C1 10、C3 1、C3 8和C3 10的内容均置空,以及将候选数据行3对应于C1 1、C1 2、C1 4、C1 6、C1 10、C2 5、C2 3、C2 2和C2 7的内容均置空,从而可以得到如图3b所示的候选数据表。
步骤S214,对于候选数据表,根据各关联列集合,从中识别出存在关联关系的各组数据列,并将识别出的每组数据列中的各数据列堆叠在一列中,得到目标数据表。
在一个实施例中,上述各数据列的堆叠也可以理解为是以某一数据列为基准,平移其它数据列的过程。
在前述例子中,在对图3b中的每组数据列进行堆叠之后,得到的目标数据表可以如图3c所示。图3c中,第1个数据列由C1 1、C2 5和C3 1堆叠而成,第2个数据列由C1 2和C3 8堆叠而成,第3个数据列由C1 4和C2 3堆叠而成,第4个数据列由C1 6、C2 2和C3 10堆叠而成,第5个数据列由C1 10和C2 7堆叠而成。
步骤S216,根据目标数据表,对第一数据表中的缺失值进行补全。
本说明书实施例得到的目标数据表可以看作是补全内容的推荐结果。目标数据表中的每一列是由几个关联列(即存在关联关系的数据列)的内容堆叠而成,也就是说每一列中的内容存在高相似度,可以互相填充缺失信息。
具体地,可以从目标数据表中确定出包含第一数据表中的缺失值的目标数据列,基于目标数据列中的各个内容,对第一数据表中的缺失值进行补全。
图3d示出在一个例子中的补全结果示意图。图3d中,可以根据第1行第2列的内容,对第3行第2列的缺失值进行补全,由此实现了对数据表3中的缺失值的补全。以及可以根据第2行第3列的内容,对第1行第3列的缺失值进行补全,由此实现了对数据表1中的一个缺失值的补全。此外,可以根据第2行第4列或者第3行第4列的内容,对第1行第4列的内容进行补全,由此实现了对数据表1的另一个缺失值的补全。至此,完成了针对所有数据表的缺失值的补全。
本方案中,还可以向用户展示上述目标数据表,以支持用户交互式地选择推荐内容补全缺失值。
需要说明,理想情况下,构建的目标数据表应该是唯一的,即每个缺失值都可以通过其他数据表中行列对应的值进行补全。然而,智能算法存在两个弊端。首先,如果同时存在多个相似度很高的关联列,算法只会选择一个最相似的数据列,从而会忽略其他相似度同样很高的数据列,这与从多维数据表中寻找缺失数据的初衷相悖。因此,应该将所有相似度很高的数据列都作为备选,并通过用户的知识经验进行理解和选取。其次,对于相似度不高的数据列,算法并没有进行关联,导致某些缺失值没有可以补全的选项。此外,在数据列的关联步骤中有许多的策略和参数需要进行人为调节和把控,而这就需要用户对于结果有初步的认知和理解。因此,本方案向用户展示多个不同的目标数据表(基于上述不同的策略获得)。
在一个实施例中,可以通过可视化分析系统展示上述目标数据表。该可视化分析系统可以包括四个视图:数据概览视图、控制面板视图、列关系视图和矩阵视图。其中,数据概览视图用于探索(investgation)数据质量和信息。控制面板视图用于调整数据列关联的方法和参数。列关系视图可展示数据列关联信息,并支持用户交互式地修改和重建数据列关联。矩阵视图则展示数据补全结果及其对应的目标数据表、推荐补全内容的来源,并支持用户交互式地选择推荐内容补全缺失值。
以下对上述四个视图进行详细说明。
图4a示出可视化分析系统中的数据概览视图示意图。该视图的设计目的是帮助用户快速了解多数据表中的数据特征和缺失情况,以便在进一步探索之前对数据有初步的了解。具体分为三个部分:数据选择、数据表信息和列信息概览。其中,在“数据选择”部分中,用户可以选择需要进行分析或关联的数据表。也可以通过点击右上角的“⊕”按钮导入数据库中的或者本地的数据。在“数据表信息”部分,采用折线图的形式展示每个数据表中不同数据列的缺失率和非缺失的条目数量,以帮助用户了解数据集的规模和缺失情况。在“列信息概览”部分,使用堆叠直方图展示所有数据表中每个数据列的缺失率和当前的补全完成比例。随着数据的补全,对应数据列的补全直方图对应条将实时增长。
需要说明,在上述的“数据表信息”部分,用户可以点击折线图中的点来查看当前数据列的具体信息,同时对应数据列将会在其它视图中高亮显示。
图4b示出可视化分析系统中的控制面板视图示意图。该视图的设计的目的是用于帮助用户配置关联环节中的数据列的数据类型判断、列值相似度计算、列名相似度计算,以及数据列关联中涉及到的方法(比如距离计算方法 EMD、词嵌入方法Word2vec等)、策略(前文中描述的三种策略)和相关参数(比如覆盖率、相似度)等。
图4b中,用户可以通过下拉框选择多种算法和参数,也可以通过点击右上角的“⊕”按钮导入其他文件、模型或者自定义的算法。点击右上角的“运行”按钮后,当前方案(scheme)下的结果将会在列关系视图中展示。用户可以设定参数来制定不同的方案,并在列关系视图中进行结果间的切换和对比。
图4c示出可视化分析系统中的列关系视图示意图,该视图可以帮助用户了解不同数据表中数据列之间的关联关系,其中可以呈现用户指定的不同方案对应的结果,并支持用户切换查看。具体地,该视图的顶部展示了不同方案的选项卡,并且呈现了具体方案信息,为用户在控制面板中调整方案参数提供参考。其具体可以分为两个部分:多数据表列关联概览和列关联详情。在“列关联详情”部分,列关系采用节点链接图进行可视化,其中的内嵌不同图形的实体圆代表了不同的数据表,比如,内嵌三角形的实体圆代表了数据表T1,内嵌圆形的实体圆代表了数据表T2中,未内嵌图形的实体圆代表了数据表T3,内嵌正方形的实体圆代表了数据表T4中。不同实体圆之间的边(也称链接)表示两端的实体圆代表的数据表中的数据列是相互关联的,链接颜色的深浅编码了两端的实体圆代表的数据表中的数据列的相似程度。“多数据表列关联概览”部分中实体圆的大小编码了包含数据列的数量,链接的宽度代表了数据表间数据列关联的数量。
图4c中,用户可以点击顶部的方案“选项卡”,对不同方案(scheme)的结果进行观察和比较,也可删除选中方案的结果。此外,在图4c中,在用户点击“列关联详情”部分中的实体圆后,对应数据表中的数据列将高亮显示在图4a中,以查看具体列信息。以及,在图4c中,在用户点击“多数据表列关联概览”部分中的实体圆后,可以观察到详细的不同数据表间的列关联关系,具体可参见图4d。图4d中,当鼠标悬停(hover)在实体圆上时,相关的边会进行高亮展示。用户可以点击编辑模式的按钮,鼠标将会变成“剪刀”样式,从而可以对其中的数据列的关联信息进行修订。修订后,点击“重新计算”按钮,系统将会重新运行当前方案,并在各个视图中对结果进行更新。
图4e示出可视化分析系统中的矩阵视图示意图,该视图的目的是展示数据补全结果及其对应的目标数据表、推荐补全内容的来源,并支持用户交互式地选择推荐内容补全缺失值。具体分为两个部分:补全结果和关联列。在“补全结果”部分,带有灰色背景的单元格代表缺失值,其中有的缺失值得到了补全,有的则没有。点击“补全结果”部分中带有灰色背景的单元格,可以查看对应当前缺失值的目标数据表,推荐结果前面的单选框形状用于指示来源数据表,用户可以根据经验选择结果。与此同时,在“关联列”部分展示了关联列的前10行数据,列头的内嵌不同形状的实体圆代表不同的数据表,用来供用户查看并根据经验判断关联列的相似程度,以此作为选择推荐结果的依据。
比如,在图4e中,当用户点击“补全结果”部分中第一行中“客户推荐”时,会展示“客户来源”和“客户推荐”两个推荐结果。其中,“客户来源”前面的单选框形状为内嵌圆形的实体圆,用于指示其来自数据表T2,以及“客户来源”前面的单选框形状为内嵌正方形的实体圆,用于指示其来自数据表T4。此外,右侧“关联列”部分会显示“客户来源”和“客户推荐”的来源数据表:“来源”(数据表T1)和“产品来源”(数据表T2),以及当前缺失值所在数据表的列信息,且该两个来源数据表可以通过内嵌不同形状的实体圆进行标记。其中,针对来源数据表:“来源”,还可以显示其中的各行数据:“客户推荐”“其它”和“自行开发”等。类似地,针对“产品来源”也可以显示其中的各行数据。
图4e中,用户在“补全结果”部分点击带有灰色背景的单元格(cell),对应的关联列信息将会显示在“关联列”部分,同时,图4a和图4d中也会高亮显示对应的数据列。如果用户在“关联列”部分查看关联列的信息发现有的列关联关系不成立,可以点击列头,对应数据列会在图4d的“列关联详情”部分高亮显示,用户可以进一步进入关联信息编辑模式,对列关联关系进行修正,并重新运行当前方案。
综合以上,本说明书实施例提供的一种针对供应链数据缺失的补全方法,通过相似度匹配对多数据表中的数据列进行关联,并利用相似度的方法对多个数据表中相似的数据行进行初步的缺失信息补全。此外,还设计了一个可视化分析系统,实现对补全数据的来源可视化,并支持用户利用背景知识对关联列和相似行进行审查及判断,从而高效地完成数据补全任务。
与上述一种针对供应链数据缺失的补全方法对应地,本说明书一个实施例还提供的一种针对供应链数据缺失的补全装置,如图5所示,该装置可以包括:
获取单元502,用于获取用于记录供应链数据的多个数据表,其中的每个数据表包含多个数据列。
计算单元504,用于针对多个数据表所包含的各数据列,两两计算列值相似度,得到列值相似度矩阵;以及两两计算列名相似度,得到列名相似度矩阵。该列值/列名相似度矩阵中的各矩阵行分别对应于多个数据表中的各数据列,且其中的各矩阵列分别对应于多个数据表中的各数据列。
融合单元506,用于对列值相似度矩阵和列名相似度矩阵进行融合,得到整体相似度矩阵。
确定单元508,用于基于整体相似度矩阵,针对多个数据表确定各关联列集合。
查找单元510,用于对于多个数据表中包含缺失值的第一数据表,从中确定出包含缺失值的第一数据行,并从多个数据表中除第一数据表外的其它各数据表中,查找与第一数据行具有共同主键值的各匹配数据行,第一数据行和各匹配数据行形成各目标数据行。
抽取单元512,用于依次针对各目标数据行,从中抽取包含在各关联列集合中的数据列,得到各候选数据行,根据各候选数据行以及其中包含的各数据列,构建候选数据表。
堆叠单元514,用于对于候选数据表,根据各关联列集合,从中识别出存在关联关系的各组数据列,并将识别出的每组数据列中的各数据列堆叠在一列中,得到目标数据表。
补全单元516,用于根据目标数据表,对第一数据表中的缺失值进行补全。
在一个实施例中,上述各数据列包括第一数据列和第二数据列;计算单元504具体用于:
判断第一数据列和第二数据列的数据类型是否相同,在第一数据列和第二数据列的数据类型相同的情况下,计算第一数据列和第二数据列的列值相似度,否则将第一数据列和第二数据列的列值相似度置空。
此外,计算单元504还具体用于:
判断第一数据列和第二数据列的数据类型是否相同,在第一数据列和第二数据列的数据类型相同的情况下,计算第一数据列和第二数据列的列名相似度,否则将第一数据列和第二数据列的列名相似度置空。
在一个实施例中,融合单元506具体用于:
将列值相似度矩阵和列名相似度矩阵中相同位置的矩阵元素求和,并将求和结果作为整体相似度矩阵中该位置的矩阵元素。
在一个实施例中,确定单元508具体用于:
依次将整体相似度矩阵中的每个矩阵元素作为当前矩阵元素,并判断当前矩阵元素是否满足第一条件,该第一条件包括,当前矩阵元素所属矩阵行对应的第一数据列与其所属矩阵列对应的第二数据列不是同一数据列,且该矩阵元素大于预定阈值。在当前矩阵元素满足第一条件的情况下,基于第一数据列和第二数据列形成一个相似列集合;如此得到若干相似列集合;
根据各相似列集合,确定各关联列集合。
在一个实施例中,确定单元508具体用于:
采用并查集算法,对各相似列集合进行合并处理,得到各合并集合作为各关联列集合。
在另一个实施例中,确定单元508具体用于:
对于各相似列集合中当前的第一集合,该第一集合包括数据表i中的数据列j和数据表p中的数据列q,判断剩余的各相似列集合中是否存在第二集合,该第二集合包括上述数据列j和数据表p中的数据列m,或者,该第二集合包括数据表i中的数据列n和数据列q;
若存在第二集合,则删除第一集合和所述第二集合中对应相似度较小的集合;如此得到过滤后的各相似列集合;
将过滤后的各相似列集合确定为各关联列集合。
在还一个实施例中,确定单元508具体用于:
对于各相似列集合中的当前选定集合,计算该当前选定集合中的各个数据列与各相似列集合中的待合并集合中每个数据列的相似度,并对计算的相似度求和,得到待合并集合中每个数据列对应的求和结果。将待合并集合中对应求和结果最大的目标数据列添加到当前选定集合中,并从待合并集合中删除目标数据列;如此得到更新的各相似列集合;
将更新的各相似列集合确定为各关联列集合。
在一个实施例中,补全单元516具体用于:
从目标数据表中确定出包含第一数据表中的缺失值的目标数据列,基于目标数据列中的各个内容,对第一数据表中的缺失值进行补全。
本说明书上述实施例装置的各功能单元的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的一种针对供应链数据缺失的补全装置,能够提升供应链数据补全的准确性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的具体实施方式而已,并不用于限定本说明书的保护范围,凡在本说明书的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的保护范围之内。

Claims (10)

1.一种针对供应链数据缺失的补全方法,包括:
获取用于记录供应链数据的多个数据表,其中的每个数据表包含多个数据列;
针对所述多个数据表所包含的各数据列,两两计算列值相似度,得到列值相似度矩阵;以及两两计算列名相似度,得到列名相似度矩阵;所述列值/列名相似度矩阵中的各矩阵行分别对应于所述各数据列,且其中的各矩阵列分别对应于所述各数据列;
对所述列值相似度矩阵和所述列名相似度矩阵进行融合,得到整体相似度矩阵;
基于所述整体相似度矩阵,针对所述多个数据表确定各关联列集合;
对于所述多个数据表中包含缺失值的第一数据表,从中确定出包含所述缺失值的第一数据行,并从所述多个数据表中除所述第一数据表外的其它各数据表中,查找与所述第一数据行具有共同主键值的各匹配数据行;所述第一数据行和所述各匹配数据行形成各目标数据行;
依次针对所述各目标数据行,从中抽取包含在所述各关联列集合中的数据列,得到各候选数据行;根据所述各候选数据行以及其中包含的各数据列,构建候选数据表;
对于所述候选数据表,根据所述各关联列集合,从中识别出存在关联关系的各组数据列,并将识别出的每组数据列中的各数据列堆叠在一列中,得到目标数据表;
根据所述目标数据表,对所述第一数据表中的缺失值进行补全。
2.根据权利要求1所述的方法,其中,所述各数据列包括第一数据列和第二数据列;
所述两两计算列值相似度,包括:
判断所述第一数据列和第二数据列的数据类型是否相同;在所述第一数据列和第二数据列的数据类型相同的情况下,计算所述第一数据列和第二数据列的列值相似度,否则将所述第一数据列和第二数据列的列值相似度置空;
所述两两计算列名相似度,包括:
判断所述第一数据列和第二数据列的数据类型是否相同;在所述第一数据列和第二数据列的数据类型相同的情况下,计算所述第一数据列和第二数据列的列名相似度,否则将所述第一数据列和第二数据列的列名相似度置空。
3.根据权利要求1所述的方法,其中,所述对所述列值相似度矩阵和所述列名相似度矩阵进行融合,包括:
将所述列值相似度矩阵和所述列名相似度矩阵中相同位置的矩阵元素求和,并将求和结果作为所述整体相似度矩阵中该位置的矩阵元素。
4.根据权利要求1所述的方法,其中,所述针对所述多个数据表确定各关联列集合,包括:
依次将所述整体相似度矩阵中的每个矩阵元素作为当前矩阵元素,并判断所述当前矩阵元素是否满足第一条件,该第一条件包括,所述当前矩阵元素所属矩阵行对应的第一数据列与其所属矩阵列对应的第二数据列不是同一数据列,且该矩阵元素大于预定阈值;在所述当前矩阵元素满足第一条件的情况下,基于所述第一数据列和所述第二数据列形成一个相似列集合;如此得到若干相似列集合;
根据各相似列集合,确定所述各关联列集合。
5.根据权利要求4所述的方法,其中,所述根据各相似列集合,确定所述各关联列集合,包括:
采用并查集算法,对所述各相似列集合进行合并处理,得到各合并集合作为所述各关联列集合。
6.根据权利要求4所述的方法,其中,所述根据各相似列集合,确定所述各关联列集合,包括:
对于所述各相似列集合中当前的第一集合,所述第一集合包括数据表i中的数据列j和数据表p中的数据列q,判断剩余的各相似列集合中是否存在第二集合,该第二集合包括所述数据列j和所述数据表p中的数据列m,或者,该第二集合包括数据表i中的数据列n和所述数据列q;
若存在所述第二集合,则删除所述第一集合和所述第二集合中对应相似度较小的集合;如此得到过滤后的各相似列集合;
将过滤后的各相似列集合确定为所述各关联列集合。
7.根据权利要求4所述的方法,其中,所述根据各相似列集合,确定所述各关联列集合,包括:
对于所述各相似列集合中的当前选定集合,计算该当前选定集合中的各个数据列与所述各相似列集合中的待合并集合中每个数据列的相似度,并对计算的相似度求和,得到所述待合并集合中每个数据列对应的求和结果;将所述待合并集合中对应求和结果最大的目标数据列添加到所述当前选定集合中,并从所述待合并集合中删除所述目标数据列;如此得到更新的各相似列集合;
将更新的各相似列集合确定为所述各关联列集合。
8.根据权利要求1所述的方法,其中,所述对所述第一数据表中的缺失值进行补全,包括:
从所述目标数据表中确定出包含所述第一数据表中的缺失值的目标数据列,基于所述目标数据列中的各个内容,对所述第一数据表中的缺失值进行补全。
9.一种可视化分析系统,包括:
数据概览视图,用于展示多个数据表所包含的各数据列中内容的缺失情况;所述多个数据表包括第一数据表,所述第一数据表包含缺失值;
控制面板视图,用于配置数据列关联过程中的列值相似度、列名相似度的计算方法;
列关系视图,用于展示所述多个数据表中数据列之间的关联关系;
矩阵视图,用于展示目标数据表;
所述矩阵视图,还用于接收用户的选择指令,并根据所述选择指令,从所述目标数据表中选取对应的内容对所述第一数据表中的缺失值进行补全;
其中,所述目标数据表通过以下步骤确定:
基于配置的所述计算方法,针对所述多个数据表所包含的各数据列,两两计算列值相似度,得到列值相似度矩阵;以及两两计算列名相似度,得到列名相似度矩阵;所述列值/列名相似度矩阵中的各矩阵行分别对应于所述各数据列,且其中的各矩阵列分别对应于所述各数据列;
对所述列值相似度矩阵和所述列名相似度矩阵进行融合,得到整体相似度矩阵;
基于所述整体相似度矩阵,针对所述多个数据表确定各关联列集合;
对于所述第一数据表,从中确定出包含所述缺失值的第一数据行,并从所述多个数据表中除所述第一数据表外的其它各数据表中,查找与所述第一数据行具有共同主键值的各匹配数据行;所述第一数据行和所述各匹配数据行形成各目标数据行;
依次针对所述各目标数据行,从中抽取包含在所述各关联列集合中的数据列,得到各候选数据行;根据所述各候选数据行以及其中包含的各数据列,构建候选数据表;
对于所述候选数据表,根据所述各关联列集合,从中识别出存在关联关系的各组数据列,并将识别出的每组数据列中的各数据列堆叠在一列中,得到所述目标数据表。
10.一种针对供应链数据缺失的补全装置,包括:
获取单元,用于获取用于记录供应链数据的多个数据表,其中的每个数据表包含多个数据列;
计算单元,用于针对所述多个数据表所包含的各数据列,两两计算列值相似度,得到列值相似度矩阵;以及两两计算列名相似度,得到列名相似度矩阵;所述列值/列名相似度矩阵中的各矩阵行分别对应于所述各数据列,且其中的各矩阵列分别对应于所述各数据列;
融合单元,用于对所述列值相似度矩阵和所述列名相似度矩阵进行融合,得到整体相似度矩阵;
确定单元,用于基于所述整体相似度矩阵,针对所述多个数据表确定各关联列集合;
查找单元,用于对于所述多个数据表中包含缺失值的第一数据表,从中确定出包含所述缺失值的第一数据行,并从所述多个数据表中除所述第一数据表外的其它各数据表中,查找与所述第一数据行具有共同主键值的各匹配数据行;所述第一数据行和所述各匹配数据行形成各目标数据行;
抽取单元,用于依次针对所述各目标数据行,从中抽取包含在所述各关联列集合中的数据列,得到各候选数据行;根据所述各候选数据行以及其中包含的各数据列,构建候选数据表;
堆叠单元,用于对于所述候选数据表,根据所述各关联列集合,从中识别出存在关联关系的各组数据列,并将识别出的每组数据列中的各数据列堆叠在一列中,得到目标数据表;
补全单元,用于根据所述目标数据表,对所述第一数据表中的缺失值进行补全。
CN202310678546.1A 2023-06-09 2023-06-09 一种针对供应链数据缺失的补全方法及装置 Active CN116450653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310678546.1A CN116450653B (zh) 2023-06-09 2023-06-09 一种针对供应链数据缺失的补全方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310678546.1A CN116450653B (zh) 2023-06-09 2023-06-09 一种针对供应链数据缺失的补全方法及装置

Publications (2)

Publication Number Publication Date
CN116450653A true CN116450653A (zh) 2023-07-18
CN116450653B CN116450653B (zh) 2023-08-25

Family

ID=87127642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310678546.1A Active CN116450653B (zh) 2023-06-09 2023-06-09 一种针对供应链数据缺失的补全方法及装置

Country Status (1)

Country Link
CN (1) CN116450653B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117539861A (zh) * 2023-10-20 2024-02-09 国家开放大学 面向数据治理的关系数据表关联重建方法和装置
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092841A (ja) * 1999-09-24 2001-04-06 Nippon Telegr & Teleph Corp <Ntt> クラスター分析処理方法およびクラスター分析プログラムを記録した記録媒体
US20050262121A1 (en) * 1999-09-21 2005-11-24 International Business Machines Corporation Method, system, program, and data structure for cleaning a database table
US20190095472A1 (en) * 2017-03-09 2019-03-28 data.world, Inc Determining a degree of similarity of a subset of tabular data arrangements to subsets of graph data arrangements at ingestion into a data-driven collaborative dataset platform
CN110727676A (zh) * 2019-07-23 2020-01-24 杭州城市大数据运营有限公司 数据表主键、外键识别方法、装置、设备和存储介质
CN112434188A (zh) * 2020-10-23 2021-03-02 杭州未名信科科技有限公司 一种异构数据库的数据集成方法、装置及存储介质
CN113268485A (zh) * 2021-06-02 2021-08-17 电信科学技术第十研究所有限公司 数据表关联分析方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050262121A1 (en) * 1999-09-21 2005-11-24 International Business Machines Corporation Method, system, program, and data structure for cleaning a database table
JP2001092841A (ja) * 1999-09-24 2001-04-06 Nippon Telegr & Teleph Corp <Ntt> クラスター分析処理方法およびクラスター分析プログラムを記録した記録媒体
US20190095472A1 (en) * 2017-03-09 2019-03-28 data.world, Inc Determining a degree of similarity of a subset of tabular data arrangements to subsets of graph data arrangements at ingestion into a data-driven collaborative dataset platform
CN110727676A (zh) * 2019-07-23 2020-01-24 杭州城市大数据运营有限公司 数据表主键、外键识别方法、装置、设备和存储介质
CN112434188A (zh) * 2020-10-23 2021-03-02 杭州未名信科科技有限公司 一种异构数据库的数据集成方法、装置及存储介质
CN113268485A (zh) * 2021-06-02 2021-08-17 电信科学技术第十研究所有限公司 数据表关联分析方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
梁刚健, 许国利: "基于DataGrid控件的CRM系统数据显示", 黑龙江工程学院学报, no. 03 *
马茜;谷峪;李芳芳;于戈;: "顺序敏感的多源感知数据填补技术", 软件学报, no. 09 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117539861A (zh) * 2023-10-20 2024-02-09 国家开放大学 面向数据治理的关系数据表关联重建方法和装置
CN117828373A (zh) * 2024-03-05 2024-04-05 四川省医学科学院·四川省人民医院 基于集合划分和自监督学习的缺失数据填充方法及系统

Also Published As

Publication number Publication date
CN116450653B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
Almeida-Filho et al. Financial modelling with multiple criteria decision making: A systematic literature review
CN116450653B (zh) 一种针对供应链数据缺失的补全方法及装置
Ko et al. A survey on visual analysis approaches for financial data
Wheeler et al. Combining multi-attribute decision-making methods with multi-objective optimization in the design of biomass supply chains
CN112463980A (zh) 一种基于知识图谱的预案智能推荐方法
US7818286B2 (en) Computer-implemented dimension engine
Davila Delgado et al. Big data analytics system for costing power transmission projects
CN104346698A (zh) 基于云计算和数据挖掘的餐饮会员大数据分析和考核系统
Ji et al. Complexity analysis approach for prefabricated construction products using uncertain data clustering
CN112148760B (zh) 大数据的筛选方法及装置
CN110704413A (zh) 一种基于深度学习的知识图谱构建方法
Li et al. A novel financial risk assessment model for companies based on heterogeneous information and aggregated historical data
JP2007257223A (ja) 金融関連情報統合表示プログラム、装置、及び方法。
CN116595418A (zh) 一种科技成果多维画像构建方法
Rokaha et al. Enhancement of supermarket business and market plan by using hierarchical clustering and association mining technique
Kim et al. Visualization support for multi-criteria decision making in software issue propagation
Hendalianpour et al. Applying decision tree models to SMEs: A statistics-based model for customer relationship management
Belarbi et al. Predictive analysis of Big Data in Retail industry
Li et al. Exceptional events classification in warehousing based on an integrated clustering method for a dataset with mixed-valued attributes
Fan et al. Spatially enabled customer segmentation using a data classification method with uncertain predicates
Liu et al. Inspecting the process of bank credit rating via visual analytics
Badyal et al. Insightful Business Analytics Using Artificial Intelligence-A Decision Support System for E-Businesses
Wang et al. Supplier Selection Fuzzy Model in Supply Chain Management: Vietnamese Cafe Industry Case.
CN113947423A (zh) 一种基于大数据的市场分析方法
Tiple et al. Ramex‐Forum: a tool for displaying and analysing complex sequential patterns of financial products

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant