CN113627893A - 一种bom文件的解析识别方法以及电子设备 - Google Patents
一种bom文件的解析识别方法以及电子设备 Download PDFInfo
- Publication number
- CN113627893A CN113627893A CN202110938489.7A CN202110938489A CN113627893A CN 113627893 A CN113627893 A CN 113627893A CN 202110938489 A CN202110938489 A CN 202110938489A CN 113627893 A CN113627893 A CN 113627893A
- Authority
- CN
- China
- Prior art keywords
- data
- bom
- initial
- file
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本申请提供的一种BOM文件的解析识别方法以及电子设备,包括获取初始BOM文件后,对初始BOM文件进行解析,获取该初始BOM文件的目标BOM数据;获取目标BOM数据中的列头数据以及每种电子元件的初始电子元件数据;根据目标BOM数据,获取目标BOM数据中的列头数据以及每种电子元件的初始电子元件数据;根据列头数据,对初始电子元件数据进行清洗以及转换,生成解析电子元件数据;以及根据列头数据以及解析电子元件数据,封装成BOM解析数据。通过对初始数据进行初步格式上的统一,基于此统一的数据格式,使得基础数据更加清晰明了,降低后续报价过程中出现错误的概率,提高报价的准确性,同时无需人工耗时处理数据,节省成本的同时提高数据处理效率。
Description
技术领域
本申请涉及电子器件技术领域,具体涉及一种BOM文件的解析识别方法以及电子设备。
背景技术
当今全球的电子元器件交易市场,每日都有数亿美元金额的订单依赖物料清单文件(即BOM文件)来实现交易,因此也孕育了无数以此为生的公司。而与每日海量资金的流动形成鲜明对比的是,目前BOM清单的处理依然主要依赖于人工,平均需要耗费几日甚至更久的时间才能完成采购报价,不仅人工成本较高,而且大大降低了交易效率。
造成这种现象的原因是,BOM文件类型多种多样,语种复杂多变,数据格式也不尽相同,不同公司的BOM文件差异很大,甚至同一公司的不同系统、不同人员输出的BOM文件也无法统一,这也是目前BOM文件处理起来的最大难点,甚至一些公司的BOM文件依赖于人工撰写,这就难以避免由于个人习惯不同,导致输出的BOM文件内容不够规范,出现遗漏或错填一些物料的关键参数的情况,造成后期报价不准确,只能通过人工校核错误,增加人工成本。
发明内容
有鉴于此,本申请提供了一种BOM文件的解析识别方法以及电子设备,解决了现有技术中由于BOM文件复杂多样,数据格式不一,错漏数据较多,导致报价不准确,需要人工校核,校核的过程人工成本高且效率低的技术问题。
根据本申请的一个方面,本申请实施例提供了一种BOM文件的解析识别方法,此BOM文件的解析识别方法包括:获取初始BOM文件;对所述初始BOM文件进行解析,获取所述初始BOM文件的目标BOM数据;根据所述目标BOM数据,获取所述目标BOM数据中的列头数据以及每种电子元件的初始电子元件数据;根据所述列头数据,对所述初始电子元件数据进行清洗以及转换,生成解析电子元件数据;以及根据所述列头数据以及所述解析电子元件数据,封装成BOM解析数据。
在一实施例中,所述对所述初始BOM文件进行解析,获取所述初始BOM文件的目标BOM数据,包括:获取所述初始BOM文件的文件后缀识别名;根据所述文件后缀识别名,获取所述初始BOM文件的文件类型;其中,所述文件类型包括CSV文件、TSV文件以及Excel文件;根据所述初始BOM文件的文件类型,对所述初始BOM文件进行解析,获取所述初始BOM文件的初始BOM数据;以及对所述初始BOM数据进行清洗,获取所述目标BOM数据。
在一实施例中,所述根据所述初始BOM文件的文件类型,对所述初始BOM文件进行解析,获取所述初始BOM文件的初始BOM数据,当所述初始BOM文件的文件类型为CSV文件或TSV文件时,包括:获取所述初始BOM文件的数据分隔符;其中,所述数据分隔符包括逗号、空白符以及Tab制表符;以及根据所述数据分隔符,对所述初始BOM文件文本进行切分,获取所述初始BOM文件的初始BOM数据;其中,所述初始BOM文件中双引号引用的数据不进行切分。
在一实施例中,所述根据所述初始BOM文件的文件类型,对所述初始BOM文件进行解析,获取所述初始BOM文件的初始BOM数据,当所述初始BOM文件的文件类型为Excel文件时,包括:遍历所述初始BOM文件的每个工作表;对每个所述工作表的每个单元格数据进行格式处理,获取文本格式的单元格数据;以及根据所述文本格式的单元格数据,获取所述初始BOM文件的初始BOM数据。
在一实施例中,所述对所述每个工作表的每个单元格数据进行格式处理,获取文本格式的单元格数据,包括:当所述单元格内没有数据时,获取所述没有数据的单元格是否为合并单元格,当所述没有数据的单元格为合并单元格时,将所述合并单元格拆分,获取拆分单元格;将所述合并单元格中的数据填入所述拆分单元格,获取文本格式的单元格数据。
在一实施例中,所述对所述初始BOM数据进行清洗,获取所述目标BOM数据,包括:获取所述初始BOM数据中的空白符、连续空格以及全角符号;其中,所述空白符包括换行符以及制表符;将所述空白符替换为空格、将所述连续空格替换为单个空格以及将所述全角符号替换为半角符号,生成所述目标BOM数据。
在一实施例中,根据所述列头数据,对所述初始电子元件数据进行清洗以及转换,生成解析电子元件数据,包括:获取所述列头数据的物料参数类型;获取所述初始电子元件数据中的外部链接数据;根据所述列头数据的物料参数类型以及所述外部链接数据,对所述初始电子元件数据进行转换并去除所述外部链接数据,生成所述解析电子元件数据。
在一实施例中,所述根据所述列头数据的物料参数类型,对所述初始电子元件数据进行转换,生成所述解析电子元件数据,当所述列头数据的物料参数类型为位号时,包括:获取位号列的位号数据;判断所述位号数据中是否有逗号,当所述位号数据中有所述逗号时,以所述逗号作为分隔符,生成目标位号数据;当所述位号数据中没有所述逗号时,获取所述位号数据中的其他符号,将所述其他符号替换为所述逗号,生成所述目标位号数据;根据所述目标位号数据,生成所述解析电子元件数据。
在一实施例中,所述根据所述列头数据的物料参数类型,对所述初始电子元件数据进行转换,生成所述解析电子元件数据,当所述列头数据的物料参数类型为分销商或分销商编码时,包括:获取分销商列的分销商数据;获取分销商数据库内的数据;根据所述分销商数据以及所述分销商数据库内的数据,获取目标分销商数据;根据所述目标分销商数据以及所述分销商数据库内的数据等级,对所述目标分销商数据按等级排序,生成所述解析电子元件数据。
根据本申请的另一个方面,本申请实施例提供了一种电子设备,此电子设备包括:处理器,所述处理器用于执行上述实施例中所述的BOM文件的解析识别方法;用于存储所述处理器可执行信息的存储器。
本申请提供的一种BOM文件的解析识别方法以及电子设备,该方法包括获取初始BOM文件后,对初始BOM文件进行解析,获取该初始BOM文件的目标BOM数据;获取目标BOM数据中的列头数据以及每种电子元件的初始电子元件数据;根据列头数据,对初始电子元件数据进行清洗以及转换,生成解析电子元件数据;以及根据列头数据以及解析电子元件数据,封装成BOM解析数据。通过解析过程对初始BOM文件内的初始数据进行了初步的格式上的统一,便于后续获取所需数据信息,基于此统一的数据格式,使得基础数据更加清晰明了,降低后续报价过程中出现错误的概率,提高报价的准确性,同时无需人工耗时处理数据,节省成本的同时提高数据处理效率。
附图说明
图1所示为本申请一实施例提供的一种BOM文件的解析识别方法的流程示意图。
图2所示为本申请另一实施例提供的一种BOM文件的解析识别方法中获取目标BOM数据的方法的流程示意图。
图3所示为本申请另一实施例提供的一种BOM文件的解析识别方法中获取初始BOM数据的方法的流程示意图。
图4所示为本申请另一实施例提供的一种BOM文件的解析识别方法中获取初始BOM数据的方法的流程示意图。
图5所示为本申请另一实施例提供的一种BOM文件的解析识别方法中获取目标BOM数据的方法的流程示意图。
图6所示为本申请另一实施例提供的一种BOM文件的解析识别方法的流程示意图。
图7所示为本申请另一实施例提供的一种BOM文件的解析识别方法中根据列头数据清洗初始电子元件数据以生成解析电子元件数据的方法的流程示意图。
图8所示为本申请另一实施例提供的一种BOM文件的解析识别方法中根据列头数据清洗初始电子元件数据以生成解析电子元件数据的方法的流程示意图。
图9所示为本申请一实施例提供的一种BOM文件的解析识别方法中根据列头数据清洗初始电子元件数据以生成解析电子元件数据的方法的流程示意图。
图10所示为本申请一实施例提供的一种BOM文件的解析识别方法中清洗初始电子元件数据以生成解析电子元件数据的方法的流程示意图。
图11所示为本申请一实施例提供的一种处理器的结构示意图。
图12所示为本申请另一实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后、顶、底……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1所示本申请提供的一种BOM文件的解析识别方法的流程示意图。
如图1所示,这种BOM文件的解析识别方法包括如下步骤:
步骤110:获取初始BOM文件。
BOM文件,即BOM(Bill of Material)物料清单,也就是以数据格式来描述产品结构的文件,是计算机可以识别的数据文件,也是电子制造供应链企业联系与沟通主要业务的纽带。BOM使系统识别产品结构,也是联系与沟通企业各项业务的纽带。初始BOM文件为系统所识别到的客户上传的原始BOM文件,其数据内容、格式等不尽相同,系统只有在获取得到初始BOM文件后,才能进行后续的解析识别过程,便于将各种各样的BOM文件进行格式的统一以及错漏的纠正。
步骤120:对初始BOM文件进行解析,获取初始BOM文件的目标BOM数据。
BOM数据指的是BOM文件中用于表示电子元器件参数信息的数据,目标BOM数据为进行了格式的统一以及错误的纠正后得到的BOM数据。在BOM数据进行了格式统一以及错误纠正后,系统得以更加准确地识别出电子元器件的参数信息,进而对所需电子元器件进行更加准确的报价,降低出现错误报价的概率。
步骤130:根据目标BOM数据,获取目标BOM数据中的列头数据以及每种电子元件的初始电子元件数据。
列头数据指的是每列BOM数据的开头数据;电子元件即电子元器件的简称,其初始电子元件数据指的是未经清洗转换,只是进行了格式的统一以及初步纠错后的用以表示电子元件信息的初始数据。由于列头数据包含了其所在列的信息的种类,先识别列头数据,更加有利于对整列数据进行归类以及清洗。
步骤140:根据列头数据,对初始电子元件数据进行清洗以及转换,生成解析电子元件数据。
解析电子元件数据为对初始电子元件数据进行清洗转换后的电子元件数据。由于不同公司的BOM表格式不一,人工输入又难以避免会出现错漏,因此,预先清洗数据并进行格式的转化统一,便于系统更加准确地识别物料信息,进而准确报价。而整个解析识别过程由系统进行,无需人力,节省人力成本的同时,再次避免了因工作人员疲劳或经验不足等原因出现的二次错误情况,且识别效率更高。
步骤150:根据列头数据以及解析电子元件数据,封装成BOM解析数据。
解析BOM数据即为经过了数据的清洗以及转换后的物料清单数据。在获取到列头数据和解析后的电子元件数据后,输出为解析后的BOM数据,并封装成自定义的JSON数据进行传递,便于后续系统对其进行报价操作。需要说明的是,此处的解析BOM数据可以为文件、字符串、数据等多种形式,在日常操作本申请不对解析BOM数据的具体格式作出限定。
上述解析识别方法通过解析过程对初始BOM文件内的初始数据进行了初步格式上的统一以及部分明显错误的纠正,便于后续获取所需数据信息,基于此统一的数据格式,使得基础数据更加清晰明了,降低后续报价过程中出现错误的概率,提高报价的准确性,同时无需人工耗时处理数据,节省成本的同时提高数据处理效率。
具体的,图2所示为本申请另一实施例提供的一种BOM文件的解析识别方法中获取目标BOM数据的方法的流程示意图。如图2所示,步骤120具体可以包括如下步骤:
步骤121:获取初始BOM文件的文件后缀识别名。
文件后缀识别名也叫文件扩展名,是用来表示某种文件格式所采用的机制。文件后缀识别名是加在主文件名后面的,用“.”分隔。不同的软件要求不同的文件格式,文件后缀识别名可以帮助用户了解该文件应该使用哪种软件打开。因此,在获取到文件后缀识别名后,即可得知每个初始BOM文件的文件类型,从而使得系统得以根据该初始BOM文件的文件类型进行对应的清洗操作。
步骤122:根据文件后缀识别名,获取初始BOM文件的文件类型。
通常,BOM文件的类型包括CSV文件、TSV文件以及Excel文件。在获取到BOM文件的文件后缀识别名后,其文件类型即可获取到,便于系统根据文件的类型进行后续的初步清洗工作。
步骤123:根据初始BOM文件的文件类型,对初始BOM文件进行解析,获取初始BOM文件的初始BOM数据。
初始BOM数据为仅进行了格式的统一的BOM数据。在获取到初始BOM文件的类型后,可以初步判断出该BOM文件内的数据分隔符,并利用判断出的数据分隔符尝试对文件按照数据分隔符进行切分,可操作性以及解析效率较高。
步骤124:对初始BOM数据进行清洗,获取目标BOM数据。
清洗即为数据清洗过程,指的是发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。此步骤的清洗过程为初步清洗,方便后续进行列头识别以及数据识别时对数据的使用。
在一种可能的实现方式中,图3所示为本申请另一实施例提供的一种BOM文件的解析识别方法中获取初始BOM数据的方法的流程示意图。如图3所示,当初始BOM文件的文件类型为CSV文件或TSV文件时,步骤123进一步可以包括如下步骤:
步骤1230:获取初始BOM文件的数据分隔符。
数据分隔符指的是将表格转换为文本时,用分隔符标识文字分隔的位置,或在将文本转换为表格时,用其标识新行或新列的起始位置。其中,CSV文件以及TSV文件的数据分隔符通常包括逗号、空白符以及Tab制表符。通过获取文件的数据分隔符,可以对文件进行后续的列切分以及数据的识别。
步骤1231:根据数据分隔符,对初始BOM文件进行切分,获取初始BOM文件的初始BOM数据。
对初始BOM文件进行切分,去除掉数据分隔符,使数据格式一致化,便于进行后续列头数据识别以及数据内容的识别,提高转换效率。其中,初始BOM文件中双引号引用的数据不进行切分。由于双引号内的内容通常为一体内容,如切分会使数据信息发生变化,造成报价错误,因此,双引号内的内容不进行切分。
可选的,图4所示为本申请另一实施例提供的一种BOM文件的解析识别方法中获取初始BOM数据的方法的流程示意图。如图4所示,当初始BOM文件的文件类型为Excel文件时,步骤123具体可以包括如下步骤:
步骤1232:遍历初始BOM文件的每个工作表。
工作表(sheet)是显示在workbook窗口中的表格。一个sheet可以由1048576行和2464列构成。行的编号从1到65536,列的编号依次用字母A、B……IV表示。sheet是Excel存储和处理数据的最重要的部分,其中包含排列成行和列的单元格。遍历初始BOM文件中的每个工作表,以获取到包含BOM数据的工作表,以进行后续的格式处理,防止出现遗漏。
步骤1233:对每个工作表的每个单元格数据进行格式处理,获取文本格式的单元格数据。
由于Excel表格可以有常规、数字、货币、文本等多种格式,将不同格式的表格内容统一成本文格式进行处理,可以避免因格式的不兼容或转换造成数据错误或难以识别的问题。
步骤1234:根据文本格式的单元格数据,获取初始BOM文件的初始BOM数据。
在获取到文本格式的单元格数据后,将所有单元格数据按照原Excel的行列样式整理,作为初始BOM数据,便于进行后续的数据初步清洗。
具体的,如图4所示,当单个单元格内没有数据时,步骤123还可以包括如下步骤:
步骤1235:获取没有数据的单元是否为合并单元格,当没有数据的单元格为合并单元格时,将合并单元格拆分,并将合并单元格中的数据填入拆分单元格,获取文本格式的单元格数据;当不是合并单元格时,将该单元格置空处理。
单元格无数据时存在两种情况,第一是该单元格为合并单元格的一部分,因此,其合并后的单元格数据即为拆分后每个单元格内的数据,当没有数据的单元格为合并单元格时,拆分后将单元格数据依次填入拆分单元格即可;第二是该没有数据的单元格仅为空白单元格,将其进行置空即可符合表格的原始数据信息。
在一种可能的实现方式中,图5所示为本申请另一实施例提供的一种BOM文件的解析识别方法中获取目标BOM数据的方法的流程示意图。如图5所示,步骤124具体可以包括如下步骤:
步骤1241:获取初始BOM数据中的空白符、连续空格以及全角符号。
空白符指的是每个单元数据中出现的换行符以及制表符等,连续空格指的是每个单元格中的连续多个空格,全角符号是相对于输入法和占用字符来说的,主要是在输入中文的时候,逗号、句号等标点符号使用全角模式时是占用汉字字符,占用2个字符,使用半角模式时是占用英文字符,占用1个字符。因此,上述中的空白符、连续空格以及全角符号均为需要清洗的无效符号,将其进行识别获取,才能获取到目标BOM数据。
步骤1242:将空白符替换为空格、将连续空格替换为单个空格以及将全角符号替换为半角符号,生成目标BOM数据。
通过上述替换清洗,可以获取到格式一致,数据清晰的目标BOM数据,便于进行后续的列头数据识别以及数据进一步清洗。
具体的,图6所示为本申请另一实施例提供的一种BOM文件的解析识别方法的流程示意图。如图6所示,步骤140进一步可以包括如下步骤:
步骤1401:识别列头数据。
列头数据即为包含其所在列的所有数据的具体内容或具体含义的单元格数据。通过获取列头对照数据库中的常用列头,并遍历目标BOM数据的每行数据,逐行对所有单元格数据进行列头对照,比较每行命中个数,其中命中常用列头数据最多的行作为列头数据行使用。
步骤141:获取列头数据的物料参数类型。
列头数据中包含了该列头数据所在列数据的具体信息,如数量、位号等物料参数信息,只有首先获取列头数据的具体信息,才能根据其含义对整列数据进行转换以及清洗,使得清洗效率更高,所得数据更加清晰准确。
步骤142:获取初始电子元件数据中的外部链接数据。
外部链接数据指的是非内部链接,通常为客户人员在制作初始BOM文件时,误粘贴至表格中的链接,对系统进行后续报价没有价值,因此属于无效内容,需要获取后进行清理,以确保清洗的有效性以及数据的准确性。
步骤143:根据列头数据的数据类型以及外部链接数据,对初始电子元件数据进行转换并去除外部链接数据,生成解析电子元件数据。
在获取到列头数据和外部链接数据后,对外部链接数据进行去除并对初始电子元件数据进行清理,以得到格式一致,数据清晰的解析电子元件数据,使得后续的报价更加准确,交易效率更高。
进一步的,外部链接数据包括网络地址形式的初始电子元件数据,可以为以http或https或www字符组合为前缀或含.com或.cn或.com或.html字符组合的初始电子元件数据。以上字符组合基本涵盖了可能的外部链接,当识别到上述字符组合时,可以理解为即是外部链接,对其进行去除可有效去除外部链接数据,确保报价的准确性不被影响,但本申请不对外部链接数据的具体形式作出限定。
可选的,图7所示为本申请另一实施例提供的一种BOM文件的解析识别方法中根据列头数据清洗初始电子元件数据以生成解析电子元件数据的方法的流程示意图。如图7所示,步骤143中,当列头数据的物料参数类型为“数量”时,步骤143具体可以包括如下步骤:
步骤14301:获取数量列的初始数量数据。
当列头数据为“数量”时,其所在列可以理解为数量列,该列所包含的数据即为初始数量数据,表示每种电子元件的所需数量。获取初始数量数据信息后,才能对其进行清洗,以确保数量信息的准确性。
步骤14302:根据初始数量数据,去除初始数量数据中的无效符号。
无效符号指的是前期工作人员在制作初始BOM文件时,在数量列的数据中,因个人习惯或错误填写等原因,有时会将如“个”、“只”、“pcs”等单位填入单元格中,这些单位对于后续报价没有作用,因此将其去除,可以得到更加简洁的有效数量数据,便于后续报价。
步骤14303:判断初始数量数据是否为整数,获取目标数量数据。
由于电子元件在制作过程中,只存在整数个,即使出现非整数数据,也难以判断该进位还是退位,因此可以判断当数量列出现非整数数据,即为无效数据。当初始数量数据为整数时,对该数据进行保留作为目标数量数据即可;当初始数量数据为非整数时,为避免理解错误,直接将该单元格置空最为保险可靠,降低后续报价出错的可能性。
步骤14304:根据目标数量数据,生成解析电子元件数据。
通过上述解析清洗,可以得到较为清晰可靠的用以表述电子元件数量的数据,作为解析电子元件数据,以提高后续报价过程的准确性。
在一种可能的实现方式中,图8所示为本申请另一实施例提供的一种BOM文件的解析识别方法中根据列头数据清洗初始电子元件数据以生成解析电子元件数据的方法的流程示意图。如图8所示,当列头数据的物料参数类型为“位号”时,步骤143具体可以包括如下步骤:
步骤14311:获取位号列的位号数据。
位号指的是元器件的安放位置,设计该电子元器件时需要将一个特定参数的元件放在线路的指定位置,需要对这个位置编号,如R1即表示电阻元件所需放置的位置1。当列头数据为“位号”时,其所在列可以理解为位号列,该列所包含的数据即为初始位号数据,表示该电子元件的位号。获取初始位号数据信息后,才能对其进行清洗,以确保位号信息的准确性。
步骤14312:判断位号数据中是否有逗号,当位号数据中有逗号时,以逗号作为分隔符,生成目标位号数据;当位号数据中没有逗号时,获取位号数据中的其他符号,将其他符号替换为逗号,生成目标位号数据。
通常,本领域内将位号用逗号隔开,表示不同位号,因此,识别出初始位号数据中的逗号,即可对其进行位号的切分。但由于工作人员的书写习惯问题,会出现采用其他符号进行位号分隔的情况,因此即时将其他符号替换为逗号,可以使得位号数据更加规范清晰。
步骤14313:根据目标位号数据,生成解析电子元件数据。
在获取到清晰规范的目标位号数据后,将其作为解析电子元件数据,可以使得后续对电子元件位号的识别更加准确,从而进行更为准确的报价。
具体的,图9所示为本申请一实施例提供的一种BOM文件的解析识别方法中根据列头数据清洗初始电子元件数据以生成解析电子元件数据的方法的流程示意图。如图9所示,当列头数据的物料参数类型为“分销商”或“分销商编码”(视原始BOM文件中的列头形式为准)时,步骤143具体可以包括如下步骤:
步骤14321:获取分销商列的分销商数据。
当列头数据为“分销商”或“分销商编码”时,可以判断出该列即为代表着客户指定分销商信息的数据。系统需要将此类数据进行获取并整理清洗,方便后续报价使用。
步骤14322:获取分销商数据库内的数据。
分销商数据库为根据分销商的规模以及口碑等形成等级划分的数据库。根据此分销商数据库内的内容,可以初步判断该分销商的情况,因此,需要获取该分销商数据库的内容,以便于与客户指定分销商进行匹配对比。
步骤14323:根据分销商数据以及分销商数据库内的数据,获取目标分销商数据。
遍历分销商列的初始分销商数据,如某种电子元件有分销商数据,则该数据作为目标分销商数据,如果没有指定的分销商数据,则将匹配到的分销商数据库中的分销商作为目标分销商数据,便于后续报价。
步骤14324:根据目标分销商数据以及分销商数据库内的数据等级,对目标分销商数据按等级排序,生成解析电子元件数据。
由于分销商数据库内的分销商已经根据经验、分销商规模以及分销商口碑等进行了等级的划分,因此按照该等级对目标分销商数据进行排序,并作为解析电子元件数据,可以提高后续报价效率。
可选的,图10所示为本申请一实施例提供的一种BOM文件的解析识别方法中清洗初始电子元件数据以生成解析电子元件数据的方法的流程示意图。如图10所示,在步骤142与步骤143之间,还可以包括如下步骤:
步骤1420:获取初始电子元件数据中的不安装或不购买字符。
在BOM报价的场景中,有些物料会标注如“不安装”“不购买”等字样,而且有时客户会根据使用习惯将其添加在如“型号”“描述”等列头数据中。这种物料数据是无需进行报价的,需要标注出来,方便后续报价使用,因此,需要对其进行识别获取。
步骤1421:获取“是否安装”数据库。
“是否安装”数据库是根据以往经验编写的部分不常用电子元件数据库,提前获取“是否安装”数据库,便于与被标记的电子元件进行匹配比对。
步骤1422:对初始电子元件数据中的不安装或不购买字符以及“是否安装”数据库进行匹配,根据匹配结果,生成解析电子元件数据。
当匹配结果为是时,解析电子元件数据输出无需报价;当匹配结果为否时,解析电子元件数据置空。如此,可以获取到更加准确的报价信息。
另外,图11所示为本申请一实施例提供的一种处理器601的结构示意图。如图11所示,这种处理器601包括:文件载入模块、文件解析模块、数据纠错模块、数据转换模块以及数据输出模块。其中,文件载入模块用于对Excel格式或CSV格式或TXT格式的初始BOM文件进行解析处理;文件解析模块用于通过算法规则,对数据格式进行识别;数据纠错模块用于对识别到的数据进行自动纠错;数据转换模块用于对识别到的数据进行清洗、转换;数据输出模块用于对目标BOM数据进行输出。
下面,参考图12来描述根据本申请实施例的电子设备。图12所示为本申请一实施例提供的电子设备的结构示意图。
如图12所示,电子设备600包括一个或多个处理器601和存储器602。
处理器601可以是中央处理单元(CPU)或者具有数据处理能力和/或信息执行能力的其他形式的处理单元,并且可以控制电子设备600中的其他组件以执行期望的功能。
存储器601可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序信息,处理器601可以运行程序信息,以实现上文的本申请的各个实施例的BOM文件的解析识别方法或者其他期望的功能。
在一个示例中,电子设备600还可以包括:输入装置603和输出装置604,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置603可以包括例如键盘、鼠标等等。
该输出装置604可以向外部输出各种信息。该输出装置604可以包括例如显示器、通信网络及其所连接的远程输出设备等等。
当然,为了简化,图12中仅示出了该电子设备600中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备600还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序信息,所述计算机程序信息在被处理器运行时使得所述处理器执行本说明书中描述的根据本申请各种实施例的BOM文件的解析识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序信息,所述计算机程序信息在被处理器运行时使得所述处理器执行本说明书根据本申请各种实施例的BOM文件的解析识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此发明的原理和新颖的特征一致的最宽范围。
以上所述仅为本申请创造的较佳实施例而已,并不用以限制本申请创造,凡在本申请创造的精神和原则之内,所作的任何修改、等同替换等,均应包含在本申请创造的保护范围之内。
Claims (10)
1.一种BOM文件的解析识别方法,其特征在于,包括:
获取初始BOM文件;
对所述初始BOM文件进行解析,获取所述初始BOM文件的目标BOM数据;
根据所述目标BOM数据,获取所述目标BOM数据中的列头数据以及每种电子元件的初始电子元件数据;
根据所述列头数据,对所述初始电子元件数据进行清洗以及转换,生成解析电子元件数据;以及
根据所述列头数据以及所述解析电子元件数据,封装成BOM解析数据。
2.根据权利要求1所述的BOM文件的解析识别方法,其特征在于,所述对所述初始BOM文件进行解析,获取所述初始BOM文件的目标BOM数据,包括:
获取所述初始BOM文件的文件后缀识别名;
根据所述文件后缀识别名,获取所述初始BOM文件的文件类型;其中,所述文件类型包括CSV文件、TSV文件以及Excel文件;
根据所述初始BOM文件的文件类型,对所述初始BOM文件进行解析,获取所述初始BOM文件的初始BOM数据;以及
对所述初始BOM数据进行清洗,获取所述目标BOM数据。
3.根据权利要求2所述的BOM文件的解析识别方法,其特征在于,所述根据所述初始BOM文件的文件类型,对所述初始BOM文件进行解析,获取所述初始BOM文件的初始BOM数据,当所述初始BOM文件的文件类型为CSV文件或TSV文件时,包括:
获取所述初始BOM文件的数据分隔符;其中,所述数据分隔符包括逗号、空白符以及Tab制表符;以及
根据所述数据分隔符,对所述初始BOM文件进行切分,获取所述初始BOM文件的初始BOM数据;其中,所述初始BOM文件中双引号引用的数据不进行切分。
4.根据权利要求2所述的BOM文件的解析识别方法,其特征在于,所述根据所述初始BOM文件的文件类型,对所述初始BOM文件进行解析,获取所述初始BOM文件的初始BOM数据,当所述初始BOM文件的文件类型为Excel文件时,包括:
遍历所述初始BOM文件的每个工作表;
对每个所述工作表的每个单元格数据进行格式处理,获取文本格式的单元格数据;以及
根据所述文本格式的单元格数据,获取所述初始BOM文件的初始BOM数据。
5.根据权利要求4所述的BOM文件的解析识别方法,其特征在于,所述对所述每个工作表的每个单元格数据进行格式处理,获取文本格式的单元格数据,包括:
当所述单元格内没有数据时,
获取所述没有数据的单元格是否为合并单元格,当所述没有数据的单元格为合并单元格时,将所述合并单元格拆分,获取拆分单元格;
将所述合并单元格中的数据填入所述拆分单元格,获取文本格式的单元格数据。
6.根据权利要求2所述的BOM文件的解析识别方法,其特征在于,所述对所述初始BOM数据进行清洗,获取所述目标BOM数据,包括:
获取所述初始BOM数据中的空白符、连续空格以及全角符号;其中,所述空白符包括换行符以及制表符;
将所述空白符替换为空格、将所述连续空格替换为单个空格以及将所述全角符号替换为半角符号,生成所述目标BOM数据。
7.根据权利要求1所述的BOM文件的解析识别方法,其特征在于,根据所述列头数据,对所述初始电子元件数据进行清洗以及转换,生成解析电子元件数据,包括:
获取所述列头数据的物料参数类型;
获取所述初始电子元件数据中的外部链接数据;
根据所述列头数据的物料参数类型以及所述外部链接数据,对所述初始电子元件数据进行转换并去除所述外部链接数据,生成所述解析电子元件数据。
8.根据权利要求7所述的BOM文件的解析识别方法,其特征在于,所述根据所述列头数据的物料参数类型,对所述初始电子元件数据进行转换,生成所述解析电子元件数据,当所述列头数据的物料参数类型为位号时,包括:
获取位号列的位号数据;
判断所述位号数据中是否有逗号,当所述位号数据中有所述逗号时,以所述逗号作为分隔符,生成目标位号数据;当所述位号数据中没有所述逗号时,获取所述位号数据中的其他符号,将所述其他符号替换为所述逗号,生成所述目标位号数据;
根据所述目标位号数据,生成所述解析电子元件数据。
9.根据权利要求7所述的BOM文件的解析识别方法,其特征在于,所述根据所述列头数据的物料参数类型,对所述初始电子元件数据进行转换,生成所述解析电子元件数据,当所述列头数据的物料参数类型为分销商或分销商编码时,包括:
获取分销商列的分销商数据;
获取分销商数据库内的数据;
根据所述分销商数据以及所述分销商数据库内的数据,获取目标分销商数据;
根据所述目标分销商数据以及所述分销商数据库内的数据等级,对所述目标分销商数据按等级排序,生成所述解析电子元件数据。
10.一种电子设备,其特征在于,包括:
处理器,所述处理器用于执行所述权利要求1-9任一项所述的BOM文件的解析识别方法;
用于存储所述处理器可执行信息的存储器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938489.7A CN113627893B (zh) | 2021-08-16 | 2021-08-16 | 一种bom文件的解析识别方法以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938489.7A CN113627893B (zh) | 2021-08-16 | 2021-08-16 | 一种bom文件的解析识别方法以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113627893A true CN113627893A (zh) | 2021-11-09 |
CN113627893B CN113627893B (zh) | 2023-09-01 |
Family
ID=78385874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110938489.7A Active CN113627893B (zh) | 2021-08-16 | 2021-08-16 | 一种bom文件的解析识别方法以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627893B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473941A (zh) * | 2023-12-28 | 2024-01-30 | 广东美创希科技有限公司 | 图纸处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093336A1 (en) * | 2002-05-06 | 2004-05-13 | Jinsong Hu | Computer program method and apparatus to recognize and normalize data pattern based information |
CN102819526A (zh) * | 2011-06-07 | 2012-12-12 | 鸿富锦精密工业(深圳)有限公司 | 电子元件bom表模块化处理系统及方法 |
CN110515951A (zh) * | 2019-08-27 | 2019-11-29 | 云汉芯城(上海)互联网科技股份有限公司 | 一种bom标准化方法、系统及电子设备和存储介质 |
CN111061770A (zh) * | 2019-12-27 | 2020-04-24 | 云汉芯城(上海)互联网科技股份有限公司 | 一种bom型号匹配装置、方法及电子设备和存储介质 |
CN112347750A (zh) * | 2020-10-29 | 2021-02-09 | 浪潮通用软件有限公司 | 一种物料清单的生成方法、设备及介质 |
-
2021
- 2021-08-16 CN CN202110938489.7A patent/CN113627893B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093336A1 (en) * | 2002-05-06 | 2004-05-13 | Jinsong Hu | Computer program method and apparatus to recognize and normalize data pattern based information |
CN102819526A (zh) * | 2011-06-07 | 2012-12-12 | 鸿富锦精密工业(深圳)有限公司 | 电子元件bom表模块化处理系统及方法 |
CN110515951A (zh) * | 2019-08-27 | 2019-11-29 | 云汉芯城(上海)互联网科技股份有限公司 | 一种bom标准化方法、系统及电子设备和存储介质 |
CN111061770A (zh) * | 2019-12-27 | 2020-04-24 | 云汉芯城(上海)互联网科技股份有限公司 | 一种bom型号匹配装置、方法及电子设备和存储介质 |
CN112347750A (zh) * | 2020-10-29 | 2021-02-09 | 浪潮通用软件有限公司 | 一种物料清单的生成方法、设备及介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473941A (zh) * | 2023-12-28 | 2024-01-30 | 广东美创希科技有限公司 | 图纸处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113627893B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909226B (zh) | 金融类文档信息处理方法、装置、电子设备及存储介质 | |
CA3082237C (en) | Systems and methods for enhanced mapping and classification of data | |
US20040193520A1 (en) | Automated understanding and decomposition of table-structured electronic documents | |
CA3048356A1 (en) | Unstructured data parsing for structured information | |
US10282467B2 (en) | Mining product aspects from opinion text | |
CN113627168B (zh) | 一种元器件封装冲突的检查方法、装置、介质及设备 | |
US11775737B2 (en) | System and method for correction of acquired transaction text fields | |
CN111143505A (zh) | 文档处理方法、装置、介质及电子设备 | |
CN115203309A (zh) | 网页中标数据结构化方法及装置 | |
CN111625567A (zh) | 数据模型匹配方法、装置、计算机系统及可读存储介质 | |
CN113627893B (zh) | 一种bom文件的解析识别方法以及电子设备 | |
JP6758448B1 (ja) | 文書解析装置、文書解析方法及び文書解析プログラム | |
CN113626561A (zh) | 一种元器件的型号识别方法、装置、介质和设备 | |
US20220198133A1 (en) | System and method for validating tabular summary reports | |
CN113627892B (zh) | 一种bom数据的识别方法及其电子设备 | |
CN113627852B (zh) | 物料清单的生成方法及系统、存储介质及其电子设备 | |
JP5766438B2 (ja) | 電子メディアにおけるクリックスルー機能に関する方法およびシステム | |
EP4167122A1 (en) | Extracting key value pairs using positional coordinates | |
US11281901B2 (en) | Document extraction system and method | |
CN113627173A (zh) | 一种制造商名称识别方法、装置、电子设备及可读介质 | |
CN115310772A (zh) | 一种药械质量监管结果数据监测方法、药械交易平台及系统 | |
CN110874398B (zh) | 违禁词处理方法、装置、电子设备及存储介质 | |
CN113807807A (zh) | 一种元器件参数识别方法、装置、电子设备及可读介质 | |
US20210318949A1 (en) | Method for checking file data, computer device and readable storage medium | |
CN114169306A (zh) | 一种生成电子回执单的方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |