CN115062008A - 一种物资数据清洗方法、装置、电子设备及存储介质 - Google Patents

一种物资数据清洗方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115062008A
CN115062008A CN202210958323.6A CN202210958323A CN115062008A CN 115062008 A CN115062008 A CN 115062008A CN 202210958323 A CN202210958323 A CN 202210958323A CN 115062008 A CN115062008 A CN 115062008A
Authority
CN
China
Prior art keywords
same
data
attribute value
processing data
attribute values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210958323.6A
Other languages
English (en)
Other versions
CN115062008B (zh
Inventor
马晓燕
王强
陈竞翔
朱亮
徐磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaneng Energy Transportation Industry Holding Co ltd
Original Assignee
Huaneng Energy Transportation Industry Holding Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaneng Energy Transportation Industry Holding Co ltd filed Critical Huaneng Energy Transportation Industry Holding Co ltd
Priority to CN202210958323.6A priority Critical patent/CN115062008B/zh
Publication of CN115062008A publication Critical patent/CN115062008A/zh
Application granted granted Critical
Publication of CN115062008B publication Critical patent/CN115062008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及物资数据技术领域,具体而言,涉及一种物资数据清洗方法、装置、电子设备及存储介质。物资数据清洗方法包括:获取多条物资原始数据;将物资原始数据进行筛选处理,获得含有物资原始数据的多个第一处理数据组;基于匹配规则,将第一处理数据组内的多个物资的已记录属性值设置成同一属性值,获得多个第二处理数据组;基于匹配规则,将多个第二处理数据组之间的多个物资的已记录属性值设置成同一属性值,获得第三处理数据组;将第三处理数据组进行归一处理并设置物料编码。这样就解决了现有物资管理系统中物资编码一物多码的问题。本发明还提供一种物资数据清洗装置、一种电子设备和一种计算机可读存储介质。

Description

一种物资数据清洗方法、装置、电子设备及存储介质
技术领域
本发明涉及物资数据技术领域,具体而言,涉及一种物资数据清洗方法、物资数据清洗装置、电子设备、计算机可读存储介质。
背景技术
目前对于集团公司内部的各个子公司或部门,存在对于物资的管理独立运作,造成物资数据管理的标准各不相同的问题。为了整个集团内部物资的综合管理,支撑闲置物资与存储物资信息共享,辅助平衡利库工作开展,实现物资的历史采购价格、库存结构、库存总量统计分析目标,为物资管理决策提供强大的信息支撑,从而推出物资集中供应模式。
由于物资编码的特征模板的要求不一致和定义不完善,导致表达不一致、类型未填写造成的一物多码,致使物资管理过程中,存在因一物多码产生的重复采购、库存积压,阻碍平衡利库等业务应用。
发明内容
为解决现有物资管理系统中物资编码一物多码的问题,本发明提供了一种物资数据清洗方法及装置。
第一方面,本发明提供了一种物资数据清洗方法,包括:
步骤S11,获取多条物资原始数据,其中,每条所述物资原始数据包括一种物资的已记录属性值;
步骤S12,将所述物资原始数据进行筛选处理,获得含有所述物资原始数据的多个第一处理数据组;其中,每一个所述第一处理数据组含有所述已记录属性值属于同一范围或相同的多个所述物资的所述物资原始数据;
步骤S13,基于匹配规则,将所述第一处理数据组内的多个所述物资的所述已记录属性值设置成同一属性值,获得多个第二处理数据组;
步骤S14,基于所述匹配规则,将多个所述第二处理数据组之间的多个所述物资的所述已记录属性值设置成所述同一属性值,获得第三处理数据组;
步骤S15,将所述第三处理数据组中所述属性值数量和内容均相同的所述物资设置同一物资编码,并将所述属性值设置为所述物资编码的所述物资的特征;或,将所述第三处理数据组中一种所述物资的全部所述属性值内容与另一所述物资部分所述属性值内容相同的所述物资设置同一所述物资编码,并将所述属性值数量最多的所述物资的所述属性值设置为所述物资编码的所述物资的所述特征。
在一些实施例中,
所述步骤S12,将所述物资原始数据进行所述筛选处理包括:
步骤S121,调取所述物资原始数据中的单个所述已记录属性值;
步骤S122,基于不同所述物资的单个所述已记录属性值属于同一范围或相同,将所述物资原始数据分配在同一所述第一处理数据组。
在一些实施例中,
所述已记录属性值包括以下一种或多种的组合:所述物资的名称、所述物资的型号、所述物资的存储仓库、所述物资的入库时间、所述物资的供给地;其中,所述物资的所述供给地包括国内供给地和国外供给地。
在一些实施例中,
所述基于匹配规则,将所述第一处理数据组内的多个所述物资的所述已记录属性值设置成同一属性值,获得多个第二处理数据组,包括以下一种或多种的组合:
将所述已记录属性值进行大写字母和小写字母之间进行转换设置成同一属性值,获得多个第二处理数据组;
将所述已记录属性值中不同计量单位的数值进行转换设置成同一属性值,获得多个第二处理数据组;
将同一所述已记录属性值在国内不同地域的不同表达形式转换为同一表达形式,获得多个第二处理数据组;
将同一所述已记录属性值在不同时间的不同表达形式转换为同一表达形式,获得多个第二处理数据组;
将同一所述已记录属性值国外语言翻译的不同表达形式转换为同一表达形式,获得多个第二处理数据组。
在一些实施例中,
所述基于所述匹配规则,将多个所述第二处理数据组之间的多个所述物资的所述已记录属性值设置成所述同一属性值,获得第三处理数据组,包括以下一种或多种的组合:
将所述已记录属性值进行大写字母和小写字母之间进行转换设置成同一属性值,获得第三处理数据组;
将所述已记录属性值中不同计量单位的数值进行转换设置成同一属性值,获得第三处理数据组;
将同一所述已记录属性值在国内不同地域的不同表达形式转换为同一表达形式,获得第三处理数据组;
将同一所述已记录属性值在不同时间的不同表达形式转换为同一表达形式,获得第三处理数据组;
将同一所述已记录属性值不同语言翻译的不同表达形式转换为同一表达形式,获得第三处理数据组。
在一些实施例中,
所述物资数据清洗方法还包括:
步骤S16,将设置了所述物资编码的所述物资的所述属性值的类别与物资模型中所述物资的属性项进行匹配,获得全属性值的所述物资编码和缺属性值的所述物资编码;其中,所述物资模型包括多种类别所述物资的全部所述属性项。
在一些实施例中,
所述物资数据清洗方法还包括:
步骤S17,将所述缺属性值的所述物资编码的所述物资数据设置成所述物资原始数据。
第二方面,本发明提供一种物资数据清洗装置,包括:
采集模块,用于获取多条物资原始数据,其中,每条所述物资原始数据包括一种物资的已记录属性值;
筛选处理模块,用于将所述物资原始数据进行筛选处理,获得含有所述物资原始数据的多个第一处理数据组;其中,每一个所述第一处理数据组含有所述已记录属性值属于同一范围或相同的多个所述物资的所述物资原始数据;
第一匹配模块,基于匹配规则,用于将所述第一处理数据组内的多个所述物资的所述已记录属性值设置成同一属性值,获得多个第二处理数据组;
第二匹配模块,基于所述匹配规则,用于将多个所述第二处理数据组之间的多个所述物资的所述已记录属性值设置成所述同一属性值,获得第三处理数据组;
数据归一模块,用于将所述第三处理数据组中所述属性值数量和内容均相同的所述物资设置同一物资编码,并将所述属性值设置为所述物资编码的所述物资的特征;或,用于将所述第三处理数据组中一种所述物资的全部所述属性值内容与另一所述物资部分所述属性值内容相同的所述物资设置同一所述物资编码,并将所述属性值数量最多的所述物资的所述属性值设置为所述物资编码的所述物资的所述特征。
第三方面,本发明提供一种电子设备包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行如第一方面中任一项所述物资数据清洗方法。
第四方面,本发明提供一种计算机可读存储介质,存储有指令,所述指令被处理器执行时,执行如第一方面中任一项所述物资数据清洗方法。
为解决现有物资管理系统中物资编码一物多码的问题,本发明有以下优点:
从集团公司内部的各个子公司或部门获取物资原始数据,每条物资原始数据包括一种物资的属性值。然后对这些物资原始数据进行筛选处理,获得多个第一处理数据组。基于匹配规则,对每一个第一处理数据组内的多个物资的已记录属性值进行匹配,满足匹配规则的已记录属性值设置成同一属性值,获得多个第二处理数据组。基于相同的匹配规则,将多个第二处理数据组之间的多个物资的已记录属性值进行匹配,再次将满足匹配规则的已记录属性值设置成同一属性值,获得第三处理数据组。最后第三处理数据组中属性值数量和内容均相同的物资设置同一物资编码,并将属性值设置为物资编码的物资的特征。或者将第三处理数据组中一种物资的全部属性值内容与另一物资部分属性值内容相同的物资设置同一物资编码,并将属性值数量最多的物资的属性值设置为物资编码的物资的特征。这样完成物资编码和物资一一对应。
附图说明
图1示出了一种实施例的物资数据清洗方法示意图;
图2示出了另一种实施例的物资数据清洗方法示意图;
图3示出了一种实施例的物资数据清洗装置示意图;
图4示出了另一种实施例的物资数据清洗装置示意图;
图5示出了一种电子设备示意图。
具体实施方式
现在将参照若干示例性实施例来论述本公开的内容。应当理解,论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开的内容,而不是暗示对本公开的范围的任何限制。
如本文中所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。
本实施例公开了一种物资数据清洗方法100,如图1所示,可以包括:步骤S11~步骤S15,以下对各个步骤进行详细说明。
步骤S11,获取多条物资原始数据,其中,每条物资原始数据包括一种物资的已记录属性值。在本实施例中,如图1所示,可以从集团公司内部的各个子公司或部门获取物资原始数据,每条物资原始数据包括一种物资的属性值。这些物资的属性值是各个子公司或部门根据自身业务需求而设置的。这样会导致物资原始数据中已记录属性值虽然表达同一含义,但有多种表达方式。这样容易造成同一种物资由于表达方式的不同,而具有多个物资编码。但是在物资管理系统中希望是一种物资对应一个物资编码,从而减少同种物资的存储量和存储空间。
步骤S12,将物资原始数据进行筛选处理,获得含有物资原始数据的多个第一处理数据组;其中,每一个第一处理数据组含有已记录属性值属于同一范围或相同的多个物资的物资原始数据。在本实施例中,如图1所示,可以按物资原始数据中含有相同内容或属于同一范围的已记录属性值,将物资原始数据进行筛选分组,获得多个第二处理数据组。比如,对于物资原始数据的物资品名属性值中都含有“电缆”内容的归在一组。还可以是将属于“电缆”这一范围,但物资品名属性值为“电线”或“供电线”也归在同一组。这样有利于后续对“电缆”这一类物资的物资原始数据进行快速匹配。
步骤S13,基于匹配规则,将第一处理数据组内的多个物资的已记录属性值设置成同一属性值,获得多个第二处理数据组。在本实施例中,如图1所示,基于匹配规则,可以对每一个第一处理数据组内的多个物资的已记录属性值进行匹配,满足匹配规则的已记录属性值设置成同一属性值,获得多个第二处理数据组。这样可以快速地将每一个第一处理数据组表达同一含义的已记录属性值设置成相同。
步骤S14,基于匹配规则,将多个第二处理数据组之间的多个物资的已记录属性值设置成同一属性值,获得第三处理数据组。在本实施例中,如图1所示,基于相同的匹配规则,可以将多个第二处理数据组之间的多个物资的已记录属性值进行匹配,再次将满足匹配规则的已记录属性值设置成同一属性值,获得第三处理数据组。这样将各个第二处理数据组之间合并已记录属性值中的重复项、相似项或因表达方式不同而表达含义相同的项。通过先数据组内匹配,然后在数据组与数据组之间进行匹配,这样可以大大减少数据匹配工作量,从而加快数据匹配工作的完成。
步骤S15,将第三处理数据组中属性值数量和内容均相同的物资设置同一物资编码,并将属性值设置为物资编码的物资的特征;或,将第三处理数据组中一种物资的全部属性值内容与另一物资部分属性值内容相同的物资设置同一物资编码,并将属性值数量最多的物资的属性值设置为物资编码的物资的特征。在本实施例中,如图1所示,可以将第三处理数据组中属性值数量和内容均相同的物资设置同一物资编码,并将属性值设置为物资编码的物资的特征。或者可以将第三处理数据组中一种物资的全部属性值内容与另一物资部分属性值内容相同的物资设置同一物资编码,并将属性值数量最多的物资的属性值设置为物资编码的物资的特征。这样完成一物多码的数据清洗,实现物资编码和物资一一对应。
由于集团公司的各个分公司或部门,可能分布在物理距离较为遥远的多个地方,而且物资原始数据存储的形式和方式不同,这样造成了采集物资原始数据时无法同步完成,最终数据的采集可能是分阶段性和分区域性的。对每次采集的物资原始数据可以先进行筛选处理得到多个第一处理数据组,然后先进行组内数据的匹配并将表达含义相同表达形式不同项进行统一设置。由于采集的物资原始数据的量过于庞大,还可以按分公司或部门的不同来对数据分成大组,然后对大组内的物资原始数据可以先进行筛选处理得到多个第一处理数据组,然后先进行组内数据的匹配并将表达含义相同表达形式不同项进行统一设置。这样可以加快整个数据匹配的进程。在这种组内匹配结束后,再在组之间进行匹配并将表达含义相同表达形式不同项进行统一设置,最后将属性值中的相同内容合并,从而生成一种含有最多不同属性值的物资数据。将最终获得物资数据设置物资编码,从而完成一物多码的数据清洗,实现物资编码和物资一一对应。
在一些实施例中,如图2所示,
步骤S12,将物资原始数据进行筛选处理可以包括:
步骤S121,调取物资原始数据中的单个已记录属性值;
步骤S122,基于不同物资的单个已记录属性值属于同一范围或相同,将物资原始数据分配在同一第一处理数据组。
在本实施例中,步骤S12,将物资原始数据进行筛选处理可以包括步骤S121和步骤S122,其中,步骤S121,在获取的物资原始数据中,会出现多个已记录属性值之间使用特定符号连接起来,组成一个整体来表达物资的属性。这样的方式对于用户识别不存在困难,但是对于使用处理器来识别是不友好的。因此可以对单个已记录属性值进行识别和调取,从而便于准确表达物资的单一属性。
步骤S122,可以基于不同物资的单个已记录属性值属于同一范围或相同,将物资原始数据分配在同一第一处理数据组。这样通过单个已记录属性值进行分组,使得分组后每组内的组成更加全面和准确。
在获取的物资原始数据中包含“阀门-DN100-1.6MPa”这样的数据。它是由多个属性值通过连接符“-”连接在一起。如果不对这一串数据进行识别和调取,处理器识别是不友好的。因此,可以把连接符“-”作为界限,分别调取“阀门”、“DN100”、“1.6MPa”。然后将这三个属性值分别与其他物资原始数据的单个属性值进行比较,当这三个属性值分别都能与另一个物资原始数据的单个属性值属于同一范围或相同,这样可以将这两种物资原始数据设置成一组。当然如果含有其他的物资原始数据的单个属性值也能分别与这三个属性值属于同一范围或相同,那么这样的物资原始数据也可以设置在这一组。在这里提到的三个属性值只是示意性的描述,在实际情况中的属性值往往会多于三个,但也有可能少于三个。通过这样调取单个属性值比对,然后分组,这样可以大大提升同一组内的物资原始数据为同一种物资的可能性。从而加快物资数据清洗的成功率和效率。在一些实施例中,已记录属性值包括以下一种或多种的组合:物资的名称、物资的型号、物资的存储仓库、物资的入库时间、物资的供给地;其中,物资的供给地包括国内供给地和国外供给地。
在本实施例中,已记录属性值可以包括以下一种或多种的组合:物资的名称、物资的型号、物资的存储仓库、物资的入库时间、物资的供给地。在步骤S12中的筛选处理,可以基于已记录属性值可以包括以下一种或多种的组合来进行分组。可以基于物资的名称和\或型号中包括相同内容进行分组。在中国范围内,存在同一种物资的属性值,不同地域的用户表达方式不同的情形,可以基于物资存储仓库来进行分组。在这里可以理解为不同的物资存储仓库的地理位置是不同的。由于集团公司内部的各个子公司或部门存在的时间不同,这样还会出现同一种物资的需求持续了很长时间。比如需求持续了十年至二十年,甚至更长,从而导致不同时期对同一种物资的表达是不同的。这样可以基于物资的入库时间来进行分组。由于存在同一种物资的物资供给地既有国内供给地也有国外供给地的情况。这样会出现国外供给物资的属性值经过翻译后获得,但是翻译后的表达形式和国内的表达形式不同,但表达含义相同。这样可以基于物资的供给地来进行分组。通过以上一种或多种的组合的方式来进行筛选处理,获得多个第一处理数据组,使得分组后第一处理数据组内的组成更加趋于同一种物资,更便于后续属性值之间的匹配。
在一些实施例中,
基于匹配规则,可以将第一处理数据组内的多个物资的已记录属性值设置成同一属性值,获得多个第二处理数据组,包括以下一种或多种的组合:
可以将已记录属性值进行大写字母和小写字母之间进行转换设置成同一属性值,获得多个第二处理数据组;
可以将已记录属性值中不同计量单位的数值进行转换设置成同一属性值,获得多个第二处理数据组;
可以将同一已记录属性值在国内不同地域的不同表达形式转换为同一表达形式,获得多个第二处理数据组;
可以将同一已记录属性值在不同时间的不同表达形式转换为同一表达形式,获得多个第二处理数据组;
可以将同一已记录属性值国外语言翻译的不同表达形式转换为同一表达形式,获得多个第二处理数据组。
在本实施例中,基于匹配规则,可以将第一处理数据组内的多个物资的已记录属性值设置成同一属性值,获得多个第二处理数据组,可以包括以下一种或多种的组合。其中,可以将已记录属性值中不同计量单位的数值进行转换设置成同一属性值,获得多个第二处理数据组。比如将表达压强的属性值记录成“1.6MPa”和“1.6mpa”,这样可以将“1.6mpa”转换成“1.6MPa”,设置成同一属性值。还可以将已记录属性值中不同计量单位的数值进行转换设置成同一属性值,获得多个第二处理数据组。比如将表达长度的属性值记录成“1m”和“100cm”,这样可以将“100cm”转换成“1m”,设置成同一属性值。还可以将同一已记录属性值在国内不同地域的不同表达形式转换为同一表达形式,获得多个第二处理数据组。比如将表达开口固定的扳手的名称属性值记录成“开口扳手”和“呆扳手”,这样可以将其转换成“开口呆扳手”,设置成同一属性值。还可以将同一已记录属性值在不同年代的不同表达形式转换为同一表达形式,获得多个第二处理数据组。比如将使用的台式机电脑的名称属性值记录成“微机”和“电脑”,这样可以将其转换成“电脑”,设置成同一属性值。还可以将同一已记录属性值不同语言翻译的不同表达形式转换为同一表达形式,获得多个第二处理数据组。比如将英文中的“sensor”翻译成“感应器”和“传感器”两种不同表达形式,可以将“感应器”转换成“传感器”,设置成同一属性值。当然还可以是同一物资的多种不同的国外语言翻译成不同表达形式转换为同一表达形式。通过以上一种或多种的组合可以极大程度的减少同一物资同一属性值表达方式不一样的情况发生,从而减少一物多码情况的发生。
在一些实施例中,
基于匹配规则,可以将多个第二处理数据组之间的多个物资的已记录属性值设置成同一属性值,获得第三处理数据组,包括以下一种或多种的组合:
可以将已记录属性值进行大写字母和小写字母之间进行转换设置成同一属性值,获得第三处理数据组;
可以将已记录属性值中不同计量单位的数值进行转换设置成同一属性值,获得第三处理数据组;
可以将同一已记录属性值在国内不同地域的不同表达形式转换为同一表达形式,获得第三处理数据组;
可以将同一已记录属性值在不同时间的不同表达形式转换为同一表达形式,获得第三处理数据组;
可以将同一已记录属性值不同语言翻译的不同表达形式转换为同一表达形式,获得第三处理数据组。
在本实施例中,基于匹配规则,还可以将多个第二处理数据组之间的多个物资的已记录属性值设置成同一属性值,获得第三处理数据组,包括以下一种或多种的组合。其中这里的一种或多种的组合与将第一处理数据组处理成第二处理数据组的包括的内容相同,因此在此不详细说明。通过一种或多种的组合可以极大程度的减少同一物资同一属性值表达方式不一样的情况发生,从而减少一物多码情况的发生。
在一些实施例中,
物资数据清洗方法100还可以包括:
步骤S16,将设置了物资编码的物资的属性值的类别与物资模型中物资的属性项进行匹配,获得全属性值的物资编码和缺属性值的物资编码;其中,物资模型包括多种类别物资的全部属性项。
在本实施例中,如图2所示,物资数据清洗方法100还可以包括:步骤S16,将设置了物资编码的物资的属性值的类别与物资模型中物资的属性项进行匹配。由于物资模型设置成含有该类物资的全部属性项,通过两者的匹配,可以判断设置了物资编码的物资的属性值是否完整,有无缺少属性值的情况。获得的全属性值的物资编码数据可以作为整个集团公司内统一数据,供所有应用场景使用。由于物资设置了全部的属性值,物资或物资数据使用人员可以从多个维度去判断物资或物资数据是否满足自身需求,为需求物资的使用和物资的管理做出及时正确的判断。所以缺少属性值的物资编码还需要进一步完善才能使用。
在一些实施例中,如图2所示,
物资数据清洗方法100还可以包括:
步骤S17,将缺属性值的物资编码的物资数据设置成物资原始数据。
在本实施例中,物资数据清洗方法100还可以包括:步骤S17,将缺属性值的物资编码的物资数据设置成物资原始数据。通过将缺少属性值的物资编码作为物资原始数据进一步完善,这样可以丰富数据库中物资数据的种类,便于需求者的使用。
基于同一发明构思,本实施例公开了一种物资数据清洗装置200,如图3所示,可以包括:
采集模块10,用于获取多条物资原始数据,其中,每条物资原始数据包括一种物资的已记录属性值。在本实施例中,如图3所示,采集模块10可以通过自身设置的数据传输接口或数据传输模块用于获取多条物资原始数据。采集模块10可以是通过有线或无线网络信号连接的数据采集,还可以是通过物理存储介质传递的数据采集。这样可以用于获取多条物资原始数据,其中,每条物资原始数据包括一种物资的已记录属性值。便于后续装置对物资原始数据进行处理。
筛选处理模块20,用于将物资原始数据进行筛选处理,获得含有物资原始数据的多个第一处理数据组;其中,每一个第一处理数据组含有已记录属性值属于同一范围或相同的多个物资的物资原始数据。在本实施例中,如图3所示,筛选处理模块20可以是具有数据处理功能的智能手机、电脑、服务器的一种或多种组合。这样可以用于将物资原始数据进行筛选处理,获得含有物资原始数据的多个第一处理数据组;其中,每一个第一处理数据组含有已记录属性值属于同一范围或相同的多个物资的物资原始数据。这样有利于后续对物资的物资原始数据进行快速匹配。在另一些实施例中,如图4所示,筛选处理模块20可以包括调取单元21和分配单元22。其中调取模块用于调取物资的单个已记录属性值。从而便于单个已记录属性值用于匹配分组。分配单元22用于基于不同物资的单个已记录属性值属于同一范围或相同,将物资原始数据分配在同一第一处理数据组。从而有利于数据的匹配归一。
第一匹配模块30,基于匹配规则,用于将第一处理数据组内的多个物资的已记录属性值设置成同一属性值,获得多个第二处理数据组。在本实施例中,如图3所示,第一匹配模块30可以是具有数据处理功能的智能手机、电脑、服务器的一种或多种组合。基于匹配规则,这样可以用于将第一处理数据组内的多个物资的已记录属性值设置成同一属性值,获得多个第二处理数据组。这样可以快速地将每一个第一处理数据组表达同一含义的已记录属性值设置成相同。
第二匹配模块40,基于匹配规则,用于将多个第二处理数据组之间的多个物资的已记录属性值设置成同一属性值,获得第三处理数据组。在本实施例中,如图3所示,第二匹配模块40可以是具有数据处理功能的智能手机、电脑、服务器的一种或多种组合。基于匹配规则,这样可以用于将多个第二处理数据组之间的多个物资的已记录属性值设置成同一属性值,获得第三处理数据组。这样将各个第二处理数据组之间合并已记录属性值中的重复项、相似项或因表达方式不同而表达含义相同的项。
数据归一模块50,用于将第三处理数据组中属性值数量和内容均相同的物资设置同一物资编码,并将属性值设置为物资编码的物资的特征;或,用于将第三处理数据组中一种物资的全部属性值内容与另一物资部分属性值内容相同的物资设置同一物资编码,并将属性值数量最多的物资的属性值设置为物资编码的物资的特征。在本实施例中,如图3所示,数据归一模块50可以是具有数据处理功能的智能手机、电脑、服务器的一种或多种组合。这样可以用于将第三处理数据组中属性值数量和内容均相同的物资设置同一物资编码,并将属性值设置为物资编码的物资的特征;或,用于将第三处理数据组中一种物资的全部属性值内容与另一物资部分属性值内容相同的物资设置同一物资编码,并将属性值数量最多的物资的属性值设置为物资编码的物资的特征。这样完成一物多码的数据清洗,实现物资编码和物资一一对应。
在还有一些实施例中,如图4所示,物资数据清洗装置200还可以包括第三匹配模块60和重置模块70。第三匹配模块60可以是具有数据处理功能的智能手机、电脑、服务器的一种或多种组合。第三匹配模块60可以用于将设置了物资编码的物资的属性值的类别与物资模型中物资的属性项进行匹配,获得全属性值的物资编码和缺属性值的物资编码;其中,物资模型包括多种类别物资的全部属性项。获得的全属性值的物资编码数据可以作为整个集团公司内统一数据,供所有应用场景使用。缺少属性值的物资编码还需要进一步完善才能使用。重置模块70可以是具有数据处理功能的智能手机、电脑、服务器的一种或多种组合。重置模块70可以用于将缺属性值的物资编码的物资数据设置成物资原始数据。通过将缺少属性值的物资编码作为物资原始数据进一步完善,这样可以丰富数据库中物资数据的种类,便于需求者的使用。
如图5所示,本公开的一个实施方式提供了一种电子设备400。其中,该电子设备400包括存储器401、处理器402、输入/输出(Input/Output,I/O)接口403。其中,存储器401,用于存储指令。处理器402,用于调用存储器401存储的指令执行本公开实施例的物资数据清洗方法100。其中,处理器402分别与存储器401、I/O接口403连接,例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器401可用于存储程序和数据,包括本公开实施例中涉及的物资数据清洗方法100的程序,处理器402通过运行存储在存储器401的程序从而执行电子设备400的各种功能应用以及数据处理。
本公开实施例中处理器402可以采用数字信号处理器(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现,处理器402可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。
本公开实施例中的存储器401可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等。
本公开实施例中,I/O接口403可用于接收输入的指令(例如数字或字符信息,以及产生与电子设备400的用户设置以及功能控制有关的键信号输入等),也可向外部输出各种信息(例如,图像或声音等)。本公开实施例中I/O接口403可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。
可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本公开实施例涉及的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

Claims (10)

1.一种物资数据清洗方法,其特征在于,所述物资数据清洗方法包括:
步骤S11,获取多条物资原始数据,其中,每条所述物资原始数据包括一种物资的已记录属性值;
步骤S12,将所述物资原始数据进行筛选处理,获得含有所述物资原始数据的多个第一处理数据组;其中,每一个所述第一处理数据组含有所述已记录属性值属于同一范围或相同的多个所述物资的所述物资原始数据;
步骤S13,基于匹配规则,将所述第一处理数据组内的多个所述物资的所述已记录属性值设置成同一属性值,获得多个第二处理数据组;
步骤S14,基于所述匹配规则,将多个所述第二处理数据组之间的多个所述物资的所述已记录属性值设置成所述同一属性值,获得第三处理数据组;
步骤S15,将所述第三处理数据组中所述属性值数量和内容均相同的所述物资设置同一物资编码,并将所述属性值设置为所述物资编码的所述物资的特征;或,将所述第三处理数据组中一种所述物资的全部所述属性值内容与另一所述物资部分所述属性值内容相同的所述物资设置同一所述物资编码,并将所述属性值数量最多的所述物资的所述属性值设置为所述物资编码的所述物资的所述特征。
2.根据权利要求1所述的一种物资数据清洗方法,其特征在于,
所述步骤S12,将所述物资原始数据进行所述筛选处理包括:
步骤S121,调取所述物资原始数据中的单个所述已记录属性值;
步骤S122,基于不同所述物资的单个所述已记录属性值属于同一范围或相同,将所述物资原始数据分配在同一所述第一处理数据组。
3.根据权利要求2所述的一种物资数据清洗方法,其特征在于,
所述已记录属性值包括以下一种或多种的组合:所述物资的名称、所述物资的型号、所述物资的存储仓库、所述物资的入库时间、所述物资的供给地;其中,所述物资的所述供给地包括国内供给地和国外供给地。
4.根据权利要求1所述的一种物资数据清洗方法,其特征在于,
所述基于匹配规则,将所述第一处理数据组内的多个所述物资的所述已记录属性值设置成同一属性值,获得多个第二处理数据组,包括以下一种或多种的组合:
将所述已记录属性值进行大写字母和小写字母之间进行转换设置成同一属性值,获得多个第二处理数据组;
将所述已记录属性值中不同计量单位的数值进行转换设置成同一属性值,获得多个第二处理数据组;
将同一所述已记录属性值在国内不同地域的不同表达形式转换为同一表达形式,获得多个第二处理数据组;
将同一所述已记录属性值在不同时间的不同表达形式转换为同一表达形式,获得多个第二处理数据组;
将同一所述已记录属性值国外语言翻译的不同表达形式转换为同一表达形式,获得多个第二处理数据组。
5.根据权利要求4所述的一种物资数据清洗方法,其特征在于,
所述基于所述匹配规则,将多个所述第二处理数据组之间的多个所述物资的所述已记录属性值设置成所述同一属性值,获得第三处理数据组,包括以下一种或多种的组合:
将所述已记录属性值进行大写字母和小写字母之间进行转换设置成同一属性值,获得第三处理数据组;
将所述已记录属性值中不同计量单位的数值进行转换设置成同一属性值,获得第三处理数据组;
将同一所述已记录属性值在国内不同地域的不同表达形式转换为同一表达形式,获得第三处理数据组;
将同一所述已记录属性值在不同时间的不同表达形式转换为同一表达形式,获得第三处理数据组;
将同一所述已记录属性值不同语言翻译的不同表达形式转换为同一表达形式,获得第三处理数据组。
6.根据权利要求1~5中任一所述的一种物资数据清洗方法,其特征在于,
所述物资数据清洗方法还包括:
步骤S16,将设置了所述物资编码的所述物资的所述属性值的类别与物资模型中所述物资的属性项进行匹配,获得全属性值的所述物资编码和缺属性值的所述物资编码;其中,所述物资模型包括多种类别所述物资的全部所述属性项。
7.根据权利要求6所述的一种物资数据清洗方法,其特征在于,
所述物资数据清洗方法还包括:
步骤S17,将所述缺属性值的所述物资编码的所述物资数据设置成所述物资原始数据。
8.一种物资数据清洗装置,其特征在于,所述物资数据清洗装置包括:
采集模块,用于获取多条物资原始数据,其中,每条所述物资原始数据包括一种物资的已记录属性值;
筛选处理模块,用于将所述物资原始数据进行筛选处理,获得含有所述物资原始数据的多个第一处理数据组;其中,每一个所述第一处理数据组含有所述已记录属性值属于同一范围或相同的多个所述物资的所述物资原始数据;
第一匹配模块,基于匹配规则,用于将所述第一处理数据组内的多个所述物资的所述已记录属性值设置成同一属性值,获得多个第二处理数据组;
第二匹配模块,基于所述匹配规则,用于将多个所述第二处理数据组之间的多个所述物资的所述已记录属性值设置成所述同一属性值,获得第三处理数据组;
数据归一模块,用于将所述第三处理数据组中所述属性值数量和内容均相同的所述物资设置同一物资编码,并将所述属性值设置为所述物资编码的所述物资的特征;或,用于将所述第三处理数据组中一种所述物资的全部所述属性值内容与另一所述物资部分所述属性值内容相同的所述物资设置同一所述物资编码,并将所述属性值数量最多的所述物资的所述属性值设置为所述物资编码的所述物资的所述特征。
9.一种电子设备,其特征在于,包括:存储器,用于存储指令;以及处理器,用于调用所述存储器存储的指令执行如权利要求1~7中任一项所述物资数据清洗方法。
10.一种计算机可读存储介质,其特征在于,存储有指令,所述指令被处理器执行时,执行如权利要求1~7中任一项所述物资数据清洗方法。
CN202210958323.6A 2022-08-11 2022-08-11 一种物资数据清洗方法、装置、电子设备及存储介质 Active CN115062008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210958323.6A CN115062008B (zh) 2022-08-11 2022-08-11 一种物资数据清洗方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210958323.6A CN115062008B (zh) 2022-08-11 2022-08-11 一种物资数据清洗方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115062008A true CN115062008A (zh) 2022-09-16
CN115062008B CN115062008B (zh) 2022-11-22

Family

ID=83207962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210958323.6A Active CN115062008B (zh) 2022-08-11 2022-08-11 一种物资数据清洗方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115062008B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279287A (zh) * 2015-12-02 2016-01-27 中国电子科技集团公司第十五研究所 一种物资编目检索方法
CN106202240A (zh) * 2016-06-29 2016-12-07 华能国际电力股份有限公司 物资编码数据处理方法及装置
US20180089233A1 (en) * 2016-09-26 2018-03-29 International Business Machines Corporation Method and System for Deduplicating Data
CN108476168A (zh) * 2016-05-18 2018-08-31 苹果公司 在图形消息传送用户界面中应用确认选项

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279287A (zh) * 2015-12-02 2016-01-27 中国电子科技集团公司第十五研究所 一种物资编目检索方法
CN108476168A (zh) * 2016-05-18 2018-08-31 苹果公司 在图形消息传送用户界面中应用确认选项
CN106202240A (zh) * 2016-06-29 2016-12-07 华能国际电力股份有限公司 物资编码数据处理方法及装置
US20180089233A1 (en) * 2016-09-26 2018-03-29 International Business Machines Corporation Method and System for Deduplicating Data

Also Published As

Publication number Publication date
CN115062008B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及系统
CN111489180A (zh) 参考信息生成方法、系统及装置
CN110489749B (zh) 一种智能办公自动化系统的业务流程优化方法
CN111833018A (zh) 一种科技项目的专利分析方法及系统
CN113761334A (zh) 一种可视化推荐方法、装置、设备和存储介质
CN111199409A (zh) 用于特定产品的成本管控方法、成本管控系统和电子设备
CN110249312A (zh) 数据集成作业转换
CN110490333A (zh) 基于ai撰写的专业性内容智能化生成方法
CN115269667A (zh) 一种建筑工程项目模板的推荐方法
CN110765110A (zh) 泛化能力处理方法、装置、设备及存储介质
CN112784212A (zh) 一种优化库存的方法和装置
CN117669514A (zh) 分析报表的生成方法、装置、电子设备及存储介质
CN115062008B (zh) 一种物资数据清洗方法、装置、电子设备及存储介质
CN111428927B (zh) 一种基于定界算法的武器装备采购供应商选择方法及装置
CN112579629A (zh) 一种帮助电子元器件企业的采购员准确找到产品的方法
CN111324594A (zh) 用于粮食加工业的数据融合方法、装置、设备及存储介质
JP4241816B2 (ja) 生産管理装置及び生産管理方法
KR102495607B1 (ko) Ai 기반의 우시장 정보 제공 장치 및 방법
Li et al. Exceptional events classification in warehousing based on an integrated clustering method for a dataset with mixed-valued attributes
CN107315807A (zh) 人才推荐方法和装置
JP2001282346A (ja) 生産管理システム、生産管理方法および生産管理プログラムを格納したコンピュータ読取り可能な記録媒体
JP2020166443A (ja) データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム
CN114092265B (zh) 提高保单新业务价值确定效率的方法、装置及存储介质
KR101447526B1 (ko) 개인정보 데이터베이스의 주소에 기반한 정렬과 그 정렬된 데이터베이스를 이용한 정보 그룹핑 방법 및 장치
CN117786094B (zh) 一种基于知识图谱的企业技术服务推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant