CN113627892A - 一种bom数据的识别方法及其电子设备 - Google Patents

一种bom数据的识别方法及其电子设备 Download PDF

Info

Publication number
CN113627892A
CN113627892A CN202110938487.8A CN202110938487A CN113627892A CN 113627892 A CN113627892 A CN 113627892A CN 202110938487 A CN202110938487 A CN 202110938487A CN 113627892 A CN113627892 A CN 113627892A
Authority
CN
China
Prior art keywords
data
column
row
bit number
bom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110938487.8A
Other languages
English (en)
Other versions
CN113627892B (zh
Inventor
刘军
谢国清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuncai Network Technology Co ltd
Original Assignee
Shenzhen Yuncai Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuncai Network Technology Co ltd filed Critical Shenzhen Yuncai Network Technology Co ltd
Priority to CN202110938487.8A priority Critical patent/CN113627892B/zh
Publication of CN113627892A publication Critical patent/CN113627892A/zh
Application granted granted Critical
Publication of CN113627892B publication Critical patent/CN113627892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Manufacturing & Machinery (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种BOM数据的识别方法及其电子设备,这种BOM数据的识别方法包括:获取初始BOM数据,所述初始BOM数据包括多个工作表;遍历多个所述工作表,识别所述工作表的列头数据以及表格数据;根据所述列头数据以及所述表格数据,在多个所述工作表中查询目标工作表;以及对所述目标工作表进行识别,获取目标BOM数据。通过对初始BOM数据的每个工作表进行解析识别,以获取到较为准确的列头数据以及表格数据,对列头数据以及表格数据进行查询比对,准确获取目标工作表,最后通过识别目标工作表,获取到目标BOM数据,解析以及识别过程逐层次进行,科学合理,且解析精度较高,有利于提高目标BOM数据识别的准确性,并降低人工成本。

Description

一种BOM数据的识别方法及其电子设备
技术领域
本申请涉及电子器件技术领域,具体涉及一种BOM数据的识别方法及其电子设备。
背景技术
当今全球的电子元器件交易市场,每日都有数亿美元金额的订单依赖物料清单文件(即BOM文件)来实现交易,因此也孕育了无数以此为生的公司。而与每日海量资金的流动形成鲜明对比的是,目前BOM清单的处理依然主要依赖于人工,平均需要耗费几日甚至更久的时间才能完成采购报价,不仅人工成本较高,而且大大降低了交易效率。
相关技术中,有人采用智能识别的方式对初始BOM数据进行筛选识别,以降低人工处理的强度,但是,在进行BOM数据的筛选识别时,常常出现识别错误问题,因此,亟需寻求一种更加准确的BOM数据的识别方法。
发明内容
有鉴于此,本申请提供了一种BOM数据的识别方法及其电子设备,解决了现有技术中BOM数据的识别筛选过程易出现不准确的技术问题。
根据本申请的第一个方面,本申请实施例提供了一种BOM数据的识别方法,这种BOM数据的识别方法包括:获取初始BOM数据,所述初始BOM数据包括一个或多个工作表;遍历每个所述工作表,识别每个所述工作表的列头数据以及表格数据;根据所述列头数据以及所述表格数据,在多个所述工作表中查询目标工作表;以及对所述目标工作表进行识别,获取目标BOM数据。
在一实施例中,所述识别每个所述工作表的列头数据,包括:遍历所述工作表中的每行单元格,获取多个行数据;根据列头字典中包括的标准列头数据,在多个所述行数据中查找与所述标准列头数据相匹配的所述行数据作为所述工作表中的列头数据。
在一实施例中,所述根据列头字典中包括的标准列头数据,在多个所述行数据中查找与所述标准列头数据相匹配的所述行数据作为所述工作表中的列头数据,包括:获取所述行数据中的多个单元格数据;根据所述标准列头数据,对每个所述行数据中的多个所述单元格数据进行匹配,获取初始命中行,所述初始命中行包括至少一个与所述标准列头数据匹配的单元格数据;将与所述标准列头数据匹配的单元格数据数量最多的一个初始命中行作为命中行;将所述命中行中的多个单元格数据作为列头数据。
在一实施例中,所述将与所述标准列头数据匹配的单元格数据数量最多的一个初始命中行作为命中行,包括:当所述初始命中行中至少两个所述单元格数据重复时,且当重复的所述单元格数据符合预设列头规则时,保留重复的所述单元格数据作为匹配的单元格数据。
在一实施例中,在所述根据所述标准列头数据在多个所述行数据中查找与所述标准列头数据相匹配的所述行数据作为所述工作表中的列头数据之后,还包括:对所述列头数据进行纠错;根据纠错后的所述列头数据以及所述表格数据,在多个所述工作表中查询目标工作表。
在一实施例中,所述对所述列头数据进行纠错,包括:获取所述初始列头数据中的物料参数类型;判断所述物料参数类型中是否有位号列;其中,当所述物料参数类型中没有位号列时,在所述行数据中获取所述物料参数类型中的初始位号列;遍历所述初始位号列的数据,获取所述初始位号列中的分隔符;根据所述分隔符,对所述初始位号列中的数据进行切分,获取切分数据;获取位号数据模式;对所述切分数据以及所述位号数据模式进行匹配,获取命中切分数据;根据所述命中切分数据,在所述初始位号列中获取位号列;将所述位号列的列头作为纠错后的列头数据。
在一实施例中,所述根据所述命中切分数据,在所述初始位号列中获取位号列,包括:获取所述初始位号列中所述命中切分数据的个数以及未命中切分数据的个数;根据所述命中切分数据的个数以及所述未命中切分数据的个数,获取所述初始位号列的命中识别分数;根据所述命中识别分数,获取所述初始位号列的置信度;以及当所述置信度大于预设值时,所述初始位号列即为位号列。
在一实施例中,所述识别表格数据,包括:获取所述列头数据所在行;根据所述列头数据所在行,获取所述列头数据所在行的下一行并将其作为所述表格数据的首行数据;遍历提取所述首行数据以及所述首行数据以下的数据行,获取所述表格数据;其中,当所述列头数据为重复列头数据时,将所述重复列头数据对应的重复表格数据进行合并;其中,合并后的所述重复数据采用空格符连接。
在一实施例中,所述根据所述列头数据以及所述表格数据,在多个所述工作表中查询目标工作表,包括:遍历包含所述列头数据以及所述表格数据的所有工作表;获取包含所述列头数据最多的所述工作表作为所述目标工作表;其中,当所述列头数据相同时,获取所述表格数据最多的工作表作为目标工作表。
根据本申请的第二个方面,本申请实施例提供了一种电子设备,这种电子设备包括:处理器;以及用于存储所述处理器可执行信息的存储器;其中,所述处理器用于执行上述任一实施例中所述的BOM数据的识别方法。
本申请提供一种BOM数据的识别方法及其电子设备,这种BOM数据的识别方法包括:获取初始BOM数据,所述初始BOM数据包括一个或多个工作表;遍历多个所述工作表,识别所述工作表的列头数据以及表格数据;根据所述列头数据以及所述表格数据,在多个所述工作表中查询目标工作表;以及对所述目标工作表进行识别,获取目标BOM数据。通过对初始BOM数据的每个工作表进行解析识别,以获取到较为准确的列头数据以及表格数据,对列头数据以及表格数据进行查询比对,准确获取目标工作表,最后通过识别目标工作表,获取到目标BOM数据,解析以及识别过程逐层次进行,科学合理,且解析精度较高,有利于提高目标BOM数据识别的准确性,并降低人工成本。
附图说明
图1所示为本申请一实施例提供一种BOM数据的识别方法的流程示意图。
图2所示为本申请另一实施例提供的一种BOM数据的识别方法的流程示意图。
图3所示为本申请另一实施例提供的一种BOM数据的识别方法中查找匹配行数据作为列头数据的方法的流程示意图。
图4所示为本申请另一实施例提供的一种BOM数据的识别方法中查找匹配行数据作为列头数据的方法的流程示意图。
图5所示为本申请另一实施例提供的一种BOM数据的识别方法的流程示意图。
图6所示为本申请另一实施例提供的一种BOM数据的识别方法中对列头数据纠错的方法的流程示意图。
图7所示为本申请另一实施例提供的一种BOM数据的识别方法中获取位号列的方法的流程示意图。
图8所示为本申请另一实施例提供的一种BOM数据的识别方法中识别表格数据的方法的流程示意图。
图9所示为本申请另一实施例提供的一种BOM数据的识别方法的流程示意图。
图10所示为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后、顶、底……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1所示为本申请一实施例提供一种BOM数据的识别方法的流程示意图。如图1所示,这种BOM数据的识别方法具体包括如下步骤:
步骤100:获取初始BOM数据,初始BOM数据包括一个或多个工作表。
BOM数据为BOM文件中的物料清单数据,是以数据格式对产品结构进行描述,也是计算机可以识别的产品结构数据。初始BOM数据为系统对用户上传的初始BOM文件经过初步格式上的统一以及初步纠正过明显错误的初始数据,其中包括一个或多个工作表。当用于上传的初始BOM文件为Excel文件时,很可能包含多个工作表;而当用户上传的初始BOM文件为CSV文件或TSV文件时,其初始BOM数据即为一个工作表。获取到初始BOM数据,是进行后续数据识别的前提。
步骤110:遍历每个工作表,识别每个工作表的列头数据以及表格数据。
列头数据指的是每列初始BOM数据的开头数据,列头数据包括了该列数据所代表的物料参数类型。表格数据为每个列头数据所在列所对应的该列物料数据。遍历每个工作表,识别出每个工作表的列头数据以及表格数据,即可识别出每列数据所代表的物料参数含义,从而对其进行更加准确的识别以及解析,便于系统后续根据数据的物料参数类型对数据进行清洗以及转换,以实现报价,节省人工成本,提高报价的准确性。
步骤120:根据列头数据以及表格数据,在多个工作表中查询目标工作表。
当初始BOM文件为Excel文件时,该文件通常具有多个工作表,而多个工作表中通常只有一个是真正的物料清单表格,目标工作表即为系统经过识别确认后,最终确定的真正物料清单表。根据每个工作表的列头数据以及表格数据,经过系统的比对分析等,即可定位到目标工作表,当确认出目标工作表后,才能对此工作表的数据进行对应提取,从而获取有效的物料清单数据,以达到更加准确地处理数据的目的,进而更加准确地进行报价。
步骤130:对目标工作表进行识别,获取目标BOM数据。
目标BOM数据为目标工作表中代表电子元器件的物料清单的数据。当系统识别到目标工作表后,对目标工作表中的数据进行识别,从而获取到目标BOM数据。获取到目标BOM数据后,系统才可以进一步地进行数据解析以及转换,从而替代人工的解析识别过程,降低人工成本,同时也避免了由于人员疲惫等原因易造成的数据错漏问题。
这种BOM数据的识别方法通过对初始BOM数据的每个工作表进行解析识别,以获取到较为准确的列头数据以及表格数据,对列头数据以及表格数据进行查询比对,准确获取目标工作表,最后通过识别目标工作表,获取到目标BOM数据,解析以及识别过程逐层次进行,科学合理,且解析精度较高,有利于提高目标BOM数据识别的准确性,并降低人工成本。
在一种可能的实现方式中,图2所示为本申请另一实施例提供的一种BOM数据的识别方法的流程示意图。如图2所示,步骤110具体还可以包括如下步骤:
步骤111:遍历工作表中的每行单元格,获取多个行数据。
行数据为每行单元格内的整行数据。由于列头数据为物料清单表格中每列的表头数据,因此所有列头数据一般位于同一行,以行为单位对每个工作表进行列头数据的识别,获取每行的行数据,是更加准确且快速的识别方式。
步骤112:根据列头字典中包括的标准列头数据,在多个行数据中查找与标准列头数据相匹配的行数据作为工作表中的列头数据。
列头字典是系统根据常见常用的物料清单列头数据记录形成的数据库,其中包含了电子元件常用的不同名称、不同形式的各种列头,且其中对于各种列头,分别标记了该列头是否允许在单个物料清单文件中重复出现,以更加准确地对初始BOM数据进行对照匹配。标准列头数据即为列头字典中列出的常用列头。将行数据中的每个单元格数据与标准列头数据进行对照匹配,且对照匹配的过程忽略数据的英文大小写、汉字简繁体以及标点符号、无意义字符等的干扰,当直接进行数据对照无法识别时,尝试使用关键字进行对照。当单元格数据与标准列头数据匹配命中时,将其作为列头数据,而该列头数据所在列的数据为表格数据。通过上述列头数据的识别过程,初步可以识别出存在于物料参数列头的所有单元格数据,并将其作为初始的列头数据,以提高后续进行目标BOM数据识别的全面性以及准确性。
具体的,图3所示为本申请另一实施例提供的一种BOM数据的识别方法中查找匹配行数据作为列头数据的方法的流程示意图。如图3所示,步骤112进一步还可以包括如下步骤:
步骤1120:获取行数据的多个单元格数据。
以行为单位进行列头数据的对照匹配,但对照过程将行数据按每个单元格进行拆分,将拆分后的单元格数据与标准列头数据进行对照匹配,如此可以更加准确全面地进行列头数据的识别。
步骤1121:根据标准列头数据,对每个行数据中的多个单元格数据进行匹配,获取初始命中行。
初始命中行指的是包括至少一个与标准列头数据匹配的单元格数据的行数据。由于包括了与标准列头数据匹配的单元格数据的行数据都有为列头数据的可能性,因此当采用上述规则对行数据进行识别提取时,可以以行为单位进行识别匹配,在匹配结束后,对所有初始命中行进行比对,从而确定真正的列头数据,降低遗漏或错选列头数据所在行的可能性。
步骤1122:将与标准列头数据匹配的单元格数据数量最多的一个初始命中行作为命中行。
命中行为当前工作表内所有初始命中行中的列头数据所在行。当识别出该工作表中的所有初始命中行后,对所有初始命中行进行比较,其中包括更多与标准列头数据匹配的单元格数据的行数据,即为命中行。通过这种确定命中行的方式,快速有效地识别出了列头数据所在行,以进行后续表格数据的识别工作。
步骤1123:将命中行中的多个单元格数据作为列头数据。
在确定了命中行后,命中行内的单元格数据即为列头数据,其包括了该列的物料参数含义。
可选的,图4所示为本申请另一实施例提供的一种BOM数据的识别方法中查找匹配行数据作为列头数据的方法的流程示意图。如图4所示,步骤1122具体还可以包括如下步骤:
步骤11220:当初始命中行中至少两个单元格数据重复时,且当重复的单元格数据符合预设列头规则时,保留重复的单元格数据作为匹配的单元格数据。
预设列头规则为列头字典中对每个标准列头数据是否可以在单个物料清单表格中重复出现的标注规则,如位号等,即为允许重复出现的列头,如数量等,即为不允许重复出现的列头。当初始命中行中出现了两个或两个以上单元格数据重复时,判断此重复单元格数据所命中的标准列头数据是否允许在单个物料清单表格中重复出现,如允许重复出现则进行相应保留,如不允许重复出现则保留其中一列数据作为有效数据,去除其他重复单元格数据,通常选择保留初始命中的列。
在一种可能的实现方式中,图5所示为本申请另一实施例提供的一种BOM数据的识别方法的流程示意图。如图5所示,在步骤112之后,还可以进一步包括如下步骤:
步骤113:对列头数据进行纠错。
用户在进行列头数据的编辑时,有时会因个人习惯,出现将部分物料参数信息写入其他列的情况,针对这种问题,需要对识别出的列头数据进行错误的纠正,以获取到更加准确的列头数据,进行后续的数据解析识别。
步骤114:根据纠错后的列头数据以及表格数据,在多个工作表中查询目标工作表。
当列头数据进行错误的纠正后,根据此纠正后的列头数据获取的表格数据则更加准确,进而所查询获取的目标工作表也更加完善。
具体的,图6所示为本申请另一实施例提供的一种BOM数据的识别方法中对列头数据纠错的方法的流程示意图。如图6所示,步骤113具体可以包括如下步骤:
步骤1130:获取初始列头数据中的物料参数类型。
物料参数类型为该列头数据所代表的关于物料的描述含义,如数量、位号或生产厂家等信息。由于用户在进行初始BOM文件的撰写时,容易出现需要纠错的列头数据,通常与该列头数据的物料参数类型有关,因此先获取列头数据的物料参数类型是对列头数据进行纠错的前提。
步骤1131:判断物料参数类型中是否有位号列;其中,当物料参数类型中没有位号列时,在行数据中获取物料参数类型中的初始位号列。
位号列为物料参数类型为“位号”的数据列;初始位号列为各个数据列中可能为“位号列”但需要进行纠错的数据列。需要说明的是,此处的初始位号列不一定为最终位号列。在实际应用过程中,有些用户会因习惯问题将“位号”相关的数据放入如“型号”、“品名”等类的列头中,如此会影响后续系统的判断,因此要对此类情况进行纠错。当物料参数类型中已经包括位号列时,则说明列头数据没有此类错误,不会影响后续系统进一步识别,则无需纠错;而当物料参数类型中没有位号列时,则说明位号列被误填入其他列头,则需要及时进行纠错。纠错的第一步则是遍历行数据,在行数据中查询最有可能为位号列的初始位号列,以进行进一步地比对,最终更加准确地获取到位号列。
步骤1132:遍历初始位号列的数据,获取初始位号列中的分隔符。
分隔符为例如逗号分隔符一类用于数据分隔的符号。利用分隔符将用以代表位号信息的字符串切分为独立位号数据,以便更加准确地识别匹配位号数据。
步骤1133:根据分隔符,对初始位号列中的数据进行切分,获取切分数据。
切分数据即为利用分隔符对原始的初始位号列内的数据进行切分后所得到的数据。在将初始位号列中的数据进行切分后,后续的位号数据匹配识别过程得以更加准确地进行。
步骤1134:获取位号数据模式。
位号数据模式为系统预先设计的位号数据可能存在的数据模式,通常采用正则表达式的形式来表达,具体可以包括以下几种形式:单个字母+1~4位数字+单个字母+1~4位数字或1~4位数字+单个字母+1~4位数字等,但不限于以上两种形式。当切分数据中出现与位号数据模式相同的数据时,则该切分数据可能为位号数据。因此,先获取正确的位号数据模式,是匹配识别位号数据的前提。
步骤1135:对切分数据以及位号数据模式进行匹配,获取命中切分数据。
命中切分数据为与位号数据模式匹配命中的切分数据。将切分数据与位号数据模式进行对照匹配,当切分数据符合位号数据模式,说明该切分数据可能为位号数据。
步骤1136:根据命中切分数据,在初始位号列中获取位号列。
当获取到命中切分数据后,对各初始位号列中的命中切分数据以及未命中切分数据进行比较,即可得到位号列,从而进行纠错。
步骤1137:将位号列的列头作为纠错后的列头数据。
当识别出位号列后,将位号列的列头作为位号列的列头数据,如此使得列头数据更加准确,有利用后续的目标BOM数据的识别。
可选的,图7所示为本申请另一实施例提供的一种BOM数据的识别方法中获取位号列的方法的流程示意图。如图7所示,步骤1136进一步还可以包括如下步骤:
步骤11360:获取初始位号列中命中切分数据的个数以及未命中切分数据的个数。
由于后续需要通过比较各个初始位号列中的命中切分数据的个数以及未命中切分数据的个数,来判断命中列,因此需要先进行初始位号列中命中切分数据的个数以及未命中切分数据的个数的获取。
步骤11361:根据命中切分数据的个数以及未命中切分数据的个数,获取初始位号列的命中识别分数。
命中识别分数为通过按照预设计算方式对命中切分数据的个数以及未命中切分数据的个数进行计算得到的分数,是用于根据各个初始位号列的分数高低,判断其是否为位号列的依据。其中,预设各个初始位号列的基础分数相等,当某初始位号列中包括一个命中切分数据,则加一分,当该初始位号列中包括一个未命中切分数据,则减一分,经过计算,最终得到该初始位号列的命中识别分数,用于进行后续置信度的计算。通过上述计算方法,可以更加客观地对初始位号列进行判断,以获取到更加准确的位号列。
步骤11362:根据命中识别分数,获取初始位号列的置信度。
置信度是所测得的样本概率值,和总体真实情况一致的概率,用以判断所得估算概率值的可信程度。其中,置信度的计算方法为,获取初始位号列的命中识别分数以及该初始位号列的总行数,计算其命中识别分数与总行数的比值,此比值即为初始位号列的置信度。通过上述计算过程,可以计算得到初始位号列的置信度,进而对初始位号列进行比较,获取位号列。
步骤11363:当置信度大于预设值时,初始位号列即为位号列。
预设值为系统根据大数据等信息预设的置信度数值,以此预设值为基础去判断初始位号列是否为位号列。此处的预设值设置为0.6,但本申请不对预设值的具体数值作出限定,可根据具体情况而定。当初始位号列的置信度大于0.6时,说明该初始位号列基本可以确定为位号列,且判断结果较为准确。
在一种可能的实现方式中,图8所示为本申请另一实施例提供的一种BOM数据的识别方法中识别表格数据的方法的流程示意图。如图8所示,步骤110进一步还可以包括如下步骤:
步骤1101:获取列头数据所在行。
当列头数据确定后,列头数据所在行即可确定,而每个列头数据的单元格所在列包括表格数据。因此,定位列头数据所在行,即可定位每个列头数据下的表格数据。
步骤1102:根据列头数据所在行,获取列头数据所在行的下一行并将其作为表格数据的首行数据。
表格数据的首行数据即为表格数据的第一行数据,当表格数据的首行数据确定,表格数据的其他数据也均可确定。而步骤1101中已经进行了列头数据的定位,因此列头数据所在行的下一行即为表格数据的首行数据,通过这种定位识别方法,可以有利于更加准确地识别表格数据。
步骤1103:遍历提取首行数据以及首行数据以下的数据行,获取表格数据;其中,当列头数据为重复列头数据时,将重复列头数据对应的重复表格数据进行合并;其中,合并后的重复数据采用空格符连接。
此处的重复列头数据即为上述符合预设列头规则的重复列头数据,但上述重复列头数据虽然允许在单个物料清单表中存在,但是重复列依然影响后续目标BOM数据的识别。因此,将重复数据进行单元格合并并将重复数据以空格符连接,不会影响数据的识别,且有助于提高后续数据处理的准确性。
具体的,图9所示为本申请另一实施例提供的一种BOM数据的识别方法的流程示意图。如图9所示,步骤120进一步还可以包括如下步骤:
步骤121:遍历包含列头数据以及表格数据的所有工作表。
由于用户在进行BOM文件的制作时,常常会出现将半成品表格保留在BOM文件中的情况,因此并非包括列头数据以及表格数据的工作表均为有效物料清单表格,需要对文件内的所有工作表进行遍历,经过分析比对才可以筛选出有效的物料清单工作表。
步骤122:获取包含列头数据最多的工作表作为目标工作表;其中,当列头数据相同时,获取表格数据最多的工作表作为目标工作表。
目标工作表指的是在初始文件中的多个工作表中筛选出的有效物料清单工作表。其中,包含列头数据最多的工作表最有可能为目标工作表,因此筛选原则以列头数据更多为准。其中,首先排除表格数据的行数少于5行的工作表,这种工作表通常情况下都是半成品工作表;随后,筛选列头数据较多的工作表作为目标工作表的选择;当列头数据的数量相同时,则筛选对应表格数据行数较多的工作表作为目标工作表;最后,当列头数据的数量以及表格工作表的行数均相同时,默认选择先识别到的工作表作为目标工作表。通过上述筛选过程,可以更加准确地筛选出目标工作表,从而提高后续识别目标BOM数据的准确性。
下面,参考图10来描述根据本申请实施例的电子设备。图10所示为本申请一实施例提供的电子设备的结构示意图。
如图10所示,电子设备600包括一个或多个处理器601和存储器602。
处理器601可以是中央处理单元(CPU)或者具有数据处理能力和/或信息执行能力的其他形式的处理单元,并且可以控制电子设备600中的其他组件以执行期望的功能。
存储器601可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序信息,处理器601可以运行所述程序信息,以实现上文所述的本申请的各个实施例的BOM数据的识别方法或者其他期望的功能。
在一个示例中,电子设备600还可以包括:输入装置603和输出装置604,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置603可以包括例如键盘、鼠标等等。
该输出装置604可以向外部输出各种信息。该输出装置604可以包括例如显示器、通信网络及其所连接的远程输出设备等等。
当然,为了简化,图10中仅示出了该电子设备600中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备600还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序信息,所述计算机程序信息在被处理器运行时使得所述处理器执行本说明书中描述的根据本申请各种实施例的BOM数据的识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序信息,所述计算机程序信息在被处理器运行时使得所述处理器执行本说明书根据本申请各种实施例的BOM数据的识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此发明的原理和新颖的特征一致的最宽范围。
以上所述仅为本申请创造的较佳实施例而已,并不用以限制本申请创造,凡在本申请创造的精神和原则之内,所作的任何修改、等同替换等,均应包含在本申请创造的保护范围之内。

Claims (10)

1.一种BOM数据的识别方法,其特征在于,包括:
获取初始BOM数据,所述初始BOM数据包括一个或多个工作表;
遍历每个所述工作表,识别每个所述工作表的列头数据以及表格数据;
根据所述列头数据以及所述表格数据,在多个所述工作表中查询目标工作表;以及
对所述目标工作表进行识别,获取目标BOM数据。
2.根据权利要求1所述的BOM数据的识别方法,其特征在于,所述识别每个所述工作表的列头数据,包括:
遍历所述工作表中的每行单元格,获取多个行数据;
根据列头字典中包括的标准列头数据,在多个所述行数据中查找与所述标准列头数据相匹配的所述行数据作为所述工作表中的列头数据。
3.根据权利要求2所述的BOM数据的识别方法,其特征在于,所述根据列头字典中包括的标准列头数据,在多个所述行数据中查找与所述标准列头数据相匹配的所述行数据作为所述工作表中的列头数据,包括:
获取所述行数据中的多个单元格数据;
根据所述标准列头数据,对每个所述行数据中的多个所述单元格数据进行匹配,获取初始命中行,所述初始命中行包括至少一个与所述标准列头数据匹配的单元格数据;
将与所述标准列头数据匹配的单元格数据数量最多的一个初始命中行作为命中行;
将所述命中行中的多个单元格数据作为列头数据。
4.根据权利要求3所述的BOM数据的识别方法,其特征在于,所述将与所述标准列头数据匹配的单元格数据数量最多的一个初始命中行作为命中行,包括:
当所述初始命中行中至少两个所述单元格数据重复时,且当重复的所述单元格数据符合预设列头规则时,保留重复的所述单元格数据作为匹配的单元格数据。
5.根据权利要求2所述的BOM数据的识别方法,其特征在于,在所述根据所述标准列头数据在多个所述行数据中查找与所述标准列头数据相匹配的所述行数据作为所述工作表中的列头数据之后,还包括:
对所述列头数据进行纠错;
根据纠错后的所述列头数据以及所述表格数据,在多个所述工作表中查询目标工作表。
6.根据权利要求5所述的BOM数据的识别方法,其特征在于,所述对所述列头数据进行纠错,包括:
获取所述初始列头数据中的物料参数类型;
判断所述物料参数类型中是否有位号列;其中,当所述物料参数类型中没有位号列时,在所述行数据中获取所述物料参数类型中的初始位号列;
遍历所述初始位号列的数据,获取所述初始位号列中的分隔符;
根据所述分隔符,对所述初始位号列中的数据进行切分,获取切分数据;
获取位号数据模式;
对所述切分数据以及所述位号数据模式进行匹配,获取命中切分数据;
根据所述命中切分数据,在所述初始位号列中获取位号列;
将所述位号列的列头作为纠错后的列头数据。
7.根据权利要求6所述的BOM数据的识别方法,其特征在于,所述根据所述命中切分数据,在所述初始位号列中获取位号列,包括:
获取所述初始位号列中所述命中切分数据的个数以及未命中切分数据的个数;
根据所述命中切分数据的个数以及所述未命中切分数据的个数,获取所述初始位号列的命中识别分数;
根据所述命中识别分数,获取所述初始位号列的置信度;以及
当所述置信度大于预设值时,所述初始位号列即为位号列。
8.根据权利要求1所述的BOM数据的识别方法,其特征在于,所述识别表格数据,包括:
获取所述列头数据所在行;
根据所述列头数据所在行,获取所述列头数据所在行的下一行并将其作为所述表格数据的首行数据;
遍历提取所述首行数据以及所述首行数据以下的数据行,获取所述表格数据;其中,当所述列头数据为重复列头数据时,将所述重复列头数据对应的重复表格数据进行合并;其中,合并后的所述重复数据采用空格符连接。
9.根据权利要求1所述的BOM数据的识别方法,其特征在于,所述根据所述列头数据以及所述表格数据,在多个所述工作表中查询目标工作表,包括:
遍历包含所述列头数据以及所述表格数据的所有工作表;
获取包含所述列头数据最多的所述工作表作为所述目标工作表;其中,当所述列头数据相同时,获取所述表格数据最多的工作表作为目标工作表。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;以及
用于存储所述处理器可执行信息的存储器;
其中,所述处理器用于执行上述权利要求1-9任一项所述的BOM数据的识别方法。
CN202110938487.8A 2021-08-16 2021-08-16 一种bom数据的识别方法及其电子设备 Active CN113627892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110938487.8A CN113627892B (zh) 2021-08-16 2021-08-16 一种bom数据的识别方法及其电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110938487.8A CN113627892B (zh) 2021-08-16 2021-08-16 一种bom数据的识别方法及其电子设备

Publications (2)

Publication Number Publication Date
CN113627892A true CN113627892A (zh) 2021-11-09
CN113627892B CN113627892B (zh) 2023-09-01

Family

ID=78385986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110938487.8A Active CN113627892B (zh) 2021-08-16 2021-08-16 一种bom数据的识别方法及其电子设备

Country Status (1)

Country Link
CN (1) CN113627892B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659934A (zh) * 2022-12-09 2023-01-31 泰盈科技集团股份有限公司 一种表格文档中不同工作表列数据计算存储的方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6094684A (en) * 1997-04-02 2000-07-25 Alpha Microsystems, Inc. Method and apparatus for data communication
US20090006223A1 (en) * 2007-06-28 2009-01-01 Inventec Corporation Method and system for checking a bill of material
CN104200397A (zh) * 2014-08-27 2014-12-10 北京广利核系统工程有限公司 一种核电站dcs系统设计输入文件与变量信息数据库一致性校验方法
CN108268604A (zh) * 2017-12-25 2018-07-10 广州视源电子科技股份有限公司 Bom表数据转换方法、系统
CN109359275A (zh) * 2018-09-20 2019-02-19 郑州云海信息技术有限公司 一种数据转换方法和装置
CN109446257A (zh) * 2018-10-18 2019-03-08 浪潮软件集团有限公司 一种将excel文件数据导入数据库的方法及装置
CN110502516A (zh) * 2019-08-22 2019-11-26 深圳前海环融联易信息科技服务有限公司 表格数据解析方法、装置、计算机设备及存储介质
CN110503378A (zh) * 2019-08-27 2019-11-26 云汉芯城(上海)互联网科技股份有限公司 一种bom标准化方法、系统及电子设备和存储介质
CN110515951A (zh) * 2019-08-27 2019-11-29 云汉芯城(上海)互联网科技股份有限公司 一种bom标准化方法、系统及电子设备和存储介质
CN110795919A (zh) * 2019-11-07 2020-02-14 达而观信息科技(上海)有限公司 一种pdf文档中的表格抽取方法、装置、设备及介质
CN111191429A (zh) * 2019-09-27 2020-05-22 深圳逻辑汇科技有限公司 数据表格自动填充的系统和方法
CN111651452A (zh) * 2020-04-29 2020-09-11 中国平安财产保险股份有限公司 数据存储方法、装置、计算机设备及存储介质
CN112597927A (zh) * 2020-12-28 2021-04-02 电子科技大学 二维表格识别方法、装置、设备及系统
CN112637039A (zh) * 2020-07-24 2021-04-09 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN112905467A (zh) * 2021-02-19 2021-06-04 浙江诺诺网络科技有限公司 一种测试用例执行管理方法、装置、设备及存储介质
CN113064828A (zh) * 2021-04-13 2021-07-02 广州骏伯网络科技有限公司 一种自动化测试方法、装置、计算机设备及存储介质
CN113204555A (zh) * 2021-05-21 2021-08-03 北京字跳网络技术有限公司 数据表处理方法、装置、电子设备和存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6094684A (en) * 1997-04-02 2000-07-25 Alpha Microsystems, Inc. Method and apparatus for data communication
US20090006223A1 (en) * 2007-06-28 2009-01-01 Inventec Corporation Method and system for checking a bill of material
CN104200397A (zh) * 2014-08-27 2014-12-10 北京广利核系统工程有限公司 一种核电站dcs系统设计输入文件与变量信息数据库一致性校验方法
CN108268604A (zh) * 2017-12-25 2018-07-10 广州视源电子科技股份有限公司 Bom表数据转换方法、系统
CN109359275A (zh) * 2018-09-20 2019-02-19 郑州云海信息技术有限公司 一种数据转换方法和装置
CN109446257A (zh) * 2018-10-18 2019-03-08 浪潮软件集团有限公司 一种将excel文件数据导入数据库的方法及装置
CN110502516A (zh) * 2019-08-22 2019-11-26 深圳前海环融联易信息科技服务有限公司 表格数据解析方法、装置、计算机设备及存储介质
CN110515951A (zh) * 2019-08-27 2019-11-29 云汉芯城(上海)互联网科技股份有限公司 一种bom标准化方法、系统及电子设备和存储介质
CN110503378A (zh) * 2019-08-27 2019-11-26 云汉芯城(上海)互联网科技股份有限公司 一种bom标准化方法、系统及电子设备和存储介质
CN111191429A (zh) * 2019-09-27 2020-05-22 深圳逻辑汇科技有限公司 数据表格自动填充的系统和方法
CN110795919A (zh) * 2019-11-07 2020-02-14 达而观信息科技(上海)有限公司 一种pdf文档中的表格抽取方法、装置、设备及介质
CN111651452A (zh) * 2020-04-29 2020-09-11 中国平安财产保险股份有限公司 数据存储方法、装置、计算机设备及存储介质
CN112637039A (zh) * 2020-07-24 2021-04-09 腾讯科技(深圳)有限公司 一种信息处理方法、装置及存储介质
CN112597927A (zh) * 2020-12-28 2021-04-02 电子科技大学 二维表格识别方法、装置、设备及系统
CN112905467A (zh) * 2021-02-19 2021-06-04 浙江诺诺网络科技有限公司 一种测试用例执行管理方法、装置、设备及存储介质
CN113064828A (zh) * 2021-04-13 2021-07-02 广州骏伯网络科技有限公司 一种自动化测试方法、装置、计算机设备及存储介质
CN113204555A (zh) * 2021-05-21 2021-08-03 北京字跳网络技术有限公司 数据表处理方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘悦;: "使用VBA实现Excel表单数据的自动抽取与汇总", 中国管理信息化, no. 14 *
廖金辉;蔡伯军;邓胜军;: "PowerBuilder中Excel工作表的报表输出", 现代计算机, no. 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115659934A (zh) * 2022-12-09 2023-01-31 泰盈科技集团股份有限公司 一种表格文档中不同工作表列数据计算存储的方法
CN115659934B (zh) * 2022-12-09 2023-03-07 泰盈科技集团股份有限公司 一种表格文档中不同工作表列数据计算存储的方法

Also Published As

Publication number Publication date
CN113627892B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN112163424B (zh) 数据的标注方法、装置、设备和介质
US9817875B2 (en) Methods and systems for automated data characterization and extraction
CN111797356B (zh) 网页表格信息抽取方法及装置
CN110826494A (zh) 标注数据质量评价方法、装置、计算机设备及存储介质
US20170212921A1 (en) Annotation system for extracting attributes from electronic data structures
CN110222336A (zh) 财务报告分析方法、装置、计算机设备和存储介质
CN113627168B (zh) 一种元器件封装冲突的检查方法、装置、介质及设备
CN111191429A (zh) 数据表格自动填充的系统和方法
CN106997350B (zh) 一种数据处理的方法及装置
CN112181490A (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN103544299A (zh) 一种商业智能云计算系统的构建方法
CN113627892B (zh) 一种bom数据的识别方法及其电子设备
CN112579629A (zh) 一种帮助电子元器件企业的采购员准确找到产品的方法
CN114116736A (zh) 知识库更新、更新验证和基于知识库的搜索方法及装置
CN112330501A (zh) 一种文书处理方法、装置、电子设备及存储介质
CN109710651B (zh) 数据类型识别方法及装置
CN113627852B (zh) 物料清单的生成方法及系统、存储介质及其电子设备
US20160027123A1 (en) Automatic tagging of trial balance
CN114943219A (zh) 物料清单测试数据的生成方法、装置、设备及存储介质
CN115470034A (zh) 一种日志分析方法、设备及存储介质
TWI777163B (zh) 表單數據檢測方法、電腦裝置及儲存介質
CN115544620A (zh) 图纸中门窗表解析方法、装置、设备及存储介质
CN114912002A (zh) 电子元器件搜索方法、装置、电子设备及存储介质
CN113627893A (zh) 一种bom文件的解析识别方法以及电子设备
CN114154480A (zh) 信息提取方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant