CN113626561A - 一种元器件的型号识别方法、装置、介质和设备 - Google Patents
一种元器件的型号识别方法、装置、介质和设备 Download PDFInfo
- Publication number
- CN113626561A CN113626561A CN202110938502.9A CN202110938502A CN113626561A CN 113626561 A CN113626561 A CN 113626561A CN 202110938502 A CN202110938502 A CN 202110938502A CN 113626561 A CN113626561 A CN 113626561A
- Authority
- CN
- China
- Prior art keywords
- keywords
- component
- text
- model
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000000463 material Substances 0.000 claims abstract description 24
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- VUFOSBDICLTFMS-UHFFFAOYSA-M ethyl-hexadecyl-dimethylazanium;bromide Chemical compound [Br-].CCCCCCCCCCCCCCCC[N+](C)(C)CC VUFOSBDICLTFMS-UHFFFAOYSA-M 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/087—Inventory or stock management, e.g. order filling, procurement or balancing against orders
- G06Q10/0875—Itemisation or classification of parts, supplies or services, e.g. bill of materials
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Finance (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种元器件的型号识别方法、装置、介质和设备,包括:获取元器件文本,其中,元器件文本包括物料清单中的常规参数和型号,对元器件文本进行拆分,以得到多个关键词,以及根据多个关键词与预设型号库之间的匹配度,确定元器件文本对应的型号,其中,预设型号库包括多个关键词与型号之间的对应关系。通过对元器件文本进行拆分,以得到多个关键词,再通过关键词与预设型号库之间的匹配度,最终确定该元器件文本对应的型号,从而提高了识别元器件文本对应的型号的精准度。
Description
技术领域
本申请涉及元器件的型号识别技术领域,具体涉及一种元器件的型号识别方法、装置、介质和设备。
背景技术
目前,由于一个设备需要数量和种类较多的元器件进行组装,通常会利用物料清单进行获取全部的元器件。但是由于物料清单(Bill of Materials,BOM,描述企业产品组成的技术文件)中信息比较复杂,有很多无用的信息或者干扰信息,导致无法识别所需元器件的型号,那么容易导致元器件数量和种类达不到实际需求。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种元器件的型号识别方法、装置、介质和设备,从而解决无法识别元器件的型号的问题。
根据本申请的一个方面,提供了一种元器件的型号识别方法,包括:获取元器件文本;其中,所述元器件文本包括物料清单中的常规参数和型号;对所述元器件文本进行拆分,以得到多个关键词;以及根据所述多个关键词与预设型号库之间的匹配度,确定所述元器件文本对应的型号;其中,所述预设型号库包括多个关键词与型号之间的对应关系。
在一实施例中,所述对所述元器件文本进行拆分,以得到多个关键词包括:根据预设分隔符对所述元器件文本进行分割,以得到多个词语;以及将所述多个词语进行组合,以得到所述多个关键词。
在一实施例中,所述将所述多个词语进行组合,以得到所述多个关键词包括:将所述多个词语中的任意两个词语进行组合,以得到所述多个关键词
在一实施例中,所述根据所述多个关键词与预设词库的匹配度,确定所述元器件文本对应的型号之前,还包括:保留与所述元器件型号相关的多个关键词。
在一实施例中,所述保留与所述元器件类型相关的多个关键词包括:识别每个关键词的字符数量;以及根据所述字符数量和预设数量阈值的对比结果,保留与所述元器件类型相关的多个关键词。
在一实施例中,所述根据所述字符数量和预设数量阈值的对比结果,保留与所述元器件类型相关的多个关键词包括:若所述字符数量小于或等于所述预设数量阈值,则保留与所述元器件类型相关的多个关键词。
在一实施例中,所述对所述元器件文本进行拆分,以得到多个关键词之后,还包括:对所述多个关键词进行预处理,以得到处理后的多个关键词;所述根据所述多个关键词与预设型号库之间的匹配度,确定所述元器件文本对应的型号包括:根据所述处理后的多个关键词与预设型号库之间的匹配度,确定所述元器件文本对应的型号。
在一实施例中,所述对所述多个关键词进行预处理,以得到处理后的多个关键词包括:删除含有中文字符的关键词,以得到所述处理后的多个关键词;和/或删除含有元器件参数的关键词,以得到所述处理后的多个关键词;和/或删除含有字符均为英文字母的关键词,以得到所述处理后的多个关键词;和/或以及删除含有字符均为数字的关键词,以得到所述处理后的多个关键词。
在一实施例中,所述根据所述多个关键词与预设型号库之间的匹配度,确定所述元器件文本对应的型号包括:若所述多个关键词均与所述预设型号库匹配,则确定所述多个关键词与所述预设型号库相匹配对应的型号为元器件文本对应的型号。
在一实施例中,所述获取元器件文本包括:提取所述物料清单中含有常规参数和型号的文本;对所述文本进行编码转换,以得到编码文本;将所述编码文本中的全角字符转换成半角字符,以得到字符文本;以及删除所述字符文本中无语义的词语,以得到所述元器件文本。
在一实施例中,所述获取元器件文本之前,元器件的型号识别方法还包括:获取初始BOM文件;对所述初始BOM文件进行解析,获取所述初始BOM文件的目标BOM数据;根据所述目标BOM数据,获取所述目标BOM数据中的列头数据以及每种电子元件的初始电子元件数据;根据所述列头数据,对所述初始电子元件数据进行清洗以及转换,生成解析电子元件数据;以及根据所述列头数据以及所述解析电子元件数据,封装成BOM解析数据;所述获取元器件文本包括:根据所述BOM解析数据,获取所述元器件文本。
根据本申请的另一个方面,提供了一种元器件的型号识别装置,包括:获取模块,用于获取元器件文本;其中,所述元器件文本包括物料清单中的常规参数和型号;关键词获取模块,用于对所述元器件文本进行拆分,以得到多个关键词;以及确定模块,用于根据所述多个关键词与预设词库之间的匹配度,确定所述元器件文本对应的型号。
根据本申请的另一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述元器件的型号识别方法。
根据本申请的另一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述元器件的型号识别方法。
本申请提供了一种元器件的型号识别方法、装置、介质和设备,包括:获取元器件文本,其中,元器件文本包括物料清单中的常规参数和型号,对元器件文本进行拆分,以得到多个关键词,以及根据多个关键词与预设型号库之间的匹配度,确定元器件文本对应的型号,其中,预设型号库包括多个关键词与型号之间的对应关系。通过对元器件文本进行拆分,以得到多个关键词,再通过关键词与预设型号库之间的匹配度,最终确定该元器件文本对应的型号,从而提高了识别元器件型号的精准度。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一示例性实施例提供的元器件的型号识别方法的流程示意图。
图2是本申请一示例性实施例提供的多个关键词获取方法的流程示意图。
图3是本申请另一示例性实施例提供的多个关键词获取方法的流程示意图。
图4是本申请另一示例性实施例提供的元器件的型号识别方法的流程示意图。
图5是本申请另一示例性实施例提供的元器件的型号识别方法的流程示意图。
图6是本申请另一示例性实施例提供的元器件的型号识别方法的流程示意图。
图7是本申请另一示例性实施例提供的元器件的型号识别方法的流程示意图。
图8是本申请一示例性实施例提供的处理后的多个关键词获取方法的流程示意图。
图9是本申请另一示例性实施例提供的元器件的型号识别方法的流程示意图。
图10是本申请一示例性实施例提供的元器件文本的获取方法的流程示意图。
图11是本申请一示例性实施例提供的元器件的型号识别装置的流程示意图。
图12是本申请另一示例性实施例提供的元器件的型号识别装置的流程示意图。
图13是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
图1是本申请一示例性实施例提供的元器件的型号识别方法的流程示意图。如图1所示,元器件的型号识别方法包括:
步骤110:获取元器件文本,其中,元器件文本包括物料清单中的常规参数和型号。
获取含有常规参数和型号的元器件文本。或者含有描述元器件的文本,在描述中常常伴有元器件的型号。物料清单中有很多种类,例如常规参数、型号、位号以及规格等。元器件文本可以包含有常规参数、型号以及规格或者元器件文本可以包含有常规参数、型号以及位号。或者元器件文本包含有常规参数、型号、位号以及规格,元器件文本包含的数据不作限定,根据具体实际情况决定。获取到的元器件文本可能是一串英文字母。也可能含有中英文字母,也有可能含有数字、中英文字母,也有可能含有空格或者其他符号、数字、中英文字母等。
步骤120:对元器件文本进行拆分,以得到多个关键词。
对元器件文本进行拆分,以得到多个关键词,其中可以将多个关键词建立为关键词列表,即将多个关键词以列表的形式显示,从而方便后续的匹配,且可以直观的看出关键词的数量等。得到的多个关键词有可能是有关元器件型号的关键词,也有可能是毫无意义的关键词。因此对元器件文本进行拆分后,先得到多个关键词,不需要考虑关键词的含义,从而可以建立更加直观的关键词列表,也可以直观的看出元器件文本可以拆分成多少个关键词。
步骤130:根据多个关键词与预设型号库之间的匹配度,确定元器件文本对应的型号,其中,预设型号库包括多个关键词与型号之间的对应关系。
设定预设型号库,型号库中包括多个关键词与型号之间的对应关系,由此可见,只要得到型号相匹配的关键词,就可以直接确定出关键词与预设型号库匹配对应的型号为最终的元器件文本对应的型号,从而提高识别元器件的型号的精准度。
本申请提供了一种元器件的型号识别方法,通过获取元器件文本,然后对元器件文本进行拆分,以得到多个关键词,最后根据多个关键词与预设型号库之间的匹配度,确定元器件文本对应的型号。通过对元器件文本进行拆分,以得到多个关键词,再通过关键词与预设型号库之间的匹配度,最终确定该元器件文本对应的型号,从而提高了识别元器件文本对应的型号的精准度。
图2是本申请一示例性实施例提供的多个关键词获取方法的流程示意图。如图2所示,步骤120可以包括:
步骤121:根据预设分隔符对元器件文本进行分割,以得到多个词语。
利用元器件文本中的预设分隔符对其进行分割,其中预设分隔符有可能是顿号、空格或者竖线等,当识别到有顿号、空格或者竖线等这些分割符时就对元器件文本进行分割,分割成多个词语。该多个词语有可能是单词,有可能是符号,有可能是数字,也有可能是无语义的单词或者词语等。
步骤122:将多个词语进行组合,以得到多个关键词。
若词语本身有词义的可不进行组合,将没有词义的词语两两组合成含有语义的关键词。或者将所有词语均两两组合,得到多个关键词,不考虑组合成的词语是否具有词义,也不考虑组合成的词语是否是错误的。或者也可以只将单独的单词组合。
图3是本申请另一示例性实施例提供的多个关键词获取方法的流程示意图。如图3所示,步骤122可以包括:
步骤1221:将多个词语中的任意两个词语进行组合,以得到多个关键词。
将分割出来的多个词语中的任意两个词语进行组合。该组合方式为任意两个词语的交叉组合。例如,两个词语为A和B,将A和B可以组合成AB和BA,从而形成了两个词语。该组合将A和B的组合顺序进行调整,可以将A排列在前形成AB词语,也可以将B排列在前形成BA词语,其中A和B也有可能是单词。检测组合后的每个关键词的字符数量,将任意两个字符数量小于或者等于第一预设字符数量的关键词进行组合,以组合成字符数量满足预设条件的关键词,该预设条件可以为字符数量等于第二预设字符数量的关键词。例如以组成之后的AB为例,单个的A和单个的B为字符数量为1的单词,那么组合成之后的AB就为字符数量为2的词语,现有组成后的关键词CD,单个C和单个D为字符数量为1的单词,那么组合成之后的C为字符数量为2的词语,将AB和CD进行组合,即可以组合成ABCD和CDAB。其第二预设字符数量为4。另外,若将AB与CDF组合,且CDF是小于或者等于第一预设字符数量的关键词,其第一预设字符数量为3,那么组成之后的关键词为ABCDF,那么该字符数量为5,且大于第二预设字符数量4,因此将该ABCDF这个关键词删除,即若字符数量大于第二预设字符数量,则将对应的关键词进行删除。图4是本申请另一示例性实施例提供的元器件的型号识别方法的流程示意图。如图4所示,在步骤130之前,元器件的型号识别方法还包括:
步骤140:保留与元器件型号相关的多个关键词。
删除无法识别元器件型号的关键词。另外,可以只保留与元器件型号相关的必要的多个关键词,删除非必要的多个关键词,以防止非必要的多个关键词影响后续的型号识别。
图5是本申请另一示例性实施例提供的元器件的型号识别方法的流程示意图。如图5所示,步骤140可以包括:
步骤141:识别每个关键词的字符数量。
识别每个关键词的字符数量,即每个关键词的长度。例如英文单词apple,它的字符长度为5或者字符数量为5,因为包含有5个字符a、p、p、l和e。
步骤142:根据字符数量和预设数量阈值的对比结果,保留与元器件类型相关的多个关键词。
识别出每个关键词对应的字符数量,然后将该字符数量与预设数量阈值进行对比。例如apple,它的字符长度为5或者字符数量为5,设定预设数量阈值为4,然后将5和4进行对比,从而根据其对比结果判断是否将该关键词保留。
图6是本申请另一示例性实施例提供的元器件的型号识别方法的流程示意图。如图6所示,步骤142可以包括:
步骤1421:若字符数量小于或等于预设数量阈值,则保留与元器件类型相关的多个关键词。
保留字符数量小于或等于预设数量阈值的关键词。字符长度短,识别的准确度就会提高,且识别的时间也会缩短。因为字符长度过长,那么在后续的识别中不仅识别的时间过长,且准确度也会降低,甚至可能省略掉某部分符合元器件型号的字符。如果字符长度过长也很有可能过滤不掉一些无意义的字符,那么就会导致最终的识别结果降低。以上述为例,apple,它的字符长度为5或者字符数量为5,设定预设数量阈值为4,然后将5和4进行对比,5>4,说明该关键词不符合需要的长度或者字符数量,应该删除。
图7是本申请另一示例性实施例提供的元器件的型号识别方法的流程示意图。如图7所示,步骤120之后,元器件的型号识别方法还可以包括:
步骤150:对多个关键词进行预处理,以得到处理后的多个关键词。
对多个关键词进行预处理,实际上是将多个关键词中无意义的词语删除,影响后续识别元器件型号的关键词排除,得到最终的多个关键词。
对应的,步骤130可以包括:
步骤131:根据处理后的多个关键词与预设型号库之间的匹配度,确定元器件文本对应的型号。
将处理后的多个关键词与预设型号库匹配,因为处理后的关键词已经排除了一些影响识别型号准确度的词语,那么也就提高了确定元器件文本对应的型号的准确率。处理之前的关键词可能包含一些无意义的词语、标号或者表情符号等,会影响与预设型号库匹配的成功率。因此选用处理后的关键词与预设型号库匹配,从而提高与预设型号库匹配的成功概率。该预设型号库可包括多个关键词与元器件文件对应的型号之间的对应关系。
图8是本申请一示例性实施例提供的处理后的多个关键词获取方法的流程示意图。如图8所示,步骤150可以包括如下步骤中的任一个或多个的组合:
步骤151:删除含有中文字符的关键词。
元器件的型号中无中文字符,因此需删除含有中文字符的关键词,从而提高后续识别元器件型号的准确度。
步骤152:删除含有元器件参数的关键词。
元器件的型号中无元器件的参数,例如1欧姆或者1伏特等,因此需要删除含有元器件参数的关键词,从而提高后续识别元器件型号的准确度。
步骤153:删除含有字符均为英文字母的关键词。
删除字符均是英文字母的关键词,因为均是英文字母无词语含义,在这里关键词中的字符最好是字母和数字的组合,因为型号均是由字母和数字组合,因此需要删除含有字符均为英文字母的关键词,从而提高后续型号识别的准确度。
步骤154:删除含有字符均为数字的关键词,以得到处理后的多个关键词。
同理,关键词需含有数字和字母,因此需要删除含有字符均为数字的关键词,从而提高后续的准确度。
图9是本申请另一示例性实施例提供的元器件的型号识别方法的流程示意图。如图9所示,步骤130可以包括:
步骤132:若多个关键词均与预设型号库匹配,则确定多个关键词与预设型号库相匹配对应的型号为元器件文本对应的型号。
因为元器件的型号种类较多,如果改变拆分之后的关键词中的一个就可能识别到另一个元器件的型号,因此元器件文本拆分之后的多个关键词均与预设型号匹配,从而可以确定出最终的元器件文本对应的型号。
图10是本申请一示例性实施例提供的元器件文本的获取方法的流程示意图。如图10所示,步骤110可以包括:
步骤111:提取物料清单中含有常规参数和型号的文本。
物料清单中分布有很多种类,例如型号、常规参数、位号等。最优的方式是只提取含有常规参数和型号的文本即可,如此就可以只对含有常规参数和型号的文本进行相应的处理,从而提高后续确定元器件型号的准确度。
步骤112:对文本进行编码转换,以得到编码文本。
可对文本进行编码转换,例如将文本为gb2312(信息交换用汉字编码字符集,GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆)格式转换为格式utf8(utf8_encode,用于将宽字符值转换为字节流的Unicode的标准机制)。
步骤113:将编码文本中的全角字符转换成半角字符,以得到字符文本。
将编码文本中的全角字符都转换成半角字符,以免文本占用空间较大。其中,全角字符占用两个字节,半角字符占用一个字节。
步骤114:删除字符文本中无语义的词语,以得到元器件文本。
保留字符文本中有意义的文本,删除无意义的文本,例如表情符号、制表符或者不可见字符等,将无意义的文本删除,从而得到纯净的字符文本,该字符文本更容易与预设型号库匹配,以保证确定最终元器件型号的准确度。
在一实施例中,元器件的型号识别方法还可以包括:获取初始BOM文件,对初始BOM文件进行解析,获取初始BOM文件的目标BOM数据,根据目标BOM数据,获取目标BOM数据中的列头数据以及每种电子元件的初始电子元件数据,根据列头数据,对初始电子元件数据进行清洗以及转换,生成解析电子元件数据,以及根据列头数据以及解析电子元件数据,封装成BOM解析数据。
BOM文件,即BOM(Bill of Material)物料清单,也就是以数据格式来描述产品结构的文件,是计算机可以识别的数据文件,也是电子制造供应链企业联系与沟通主要业务的纽带。初始BOM文件为系统所识别到的客户上传的原始BOM文件,其数据内容、格式等不尽相同,系统只有在获取得到初始BOM文件后,才能进行后续的解析识别过程,便于将各种各样的BOM文件进行格式的统一以及错漏的纠正。
BOM数据指的是BOM文件中用于表示电子元器件物料信息的数据,目标BOM数据为进行了格式的统一以及错误的纠正后得到的BOM数据。在BOM数据进行了格式统一以及错误纠正后,系统得以更加准确地识别出电子元器件的物料信息,进而对所需电子元器件进行更加准确的报价,降低错误报价的概率。
列头数据指的是每列BOM数据的开头数据;电子元件即电子元器件的简称,其初始电子元件数据指的是未经清洗转换,只是进行了格式的统一以及初步纠错后的用以表示电子元件信息的初始数据。由于列头数据包含了其所在列的信息的种类,先识别列头数据,更加有利于对整列数据进行归类以及清洗。
解析电子元件数据为对初始电子元件数据进行清洗转换后的电子元件数据。由于不同公司的BOM表格式不一,人工输入又难以避免会出现错漏,因此,预先清洗数据并进行格式的转化统一,便于系统更加准确地识别物料信息,进而准确报价。而整个解析识别过程由系统进行,无需人力,节省人力成本的同时,再次避免了因工作人员疲劳或经验不足等原因出现的二次错误情况,且识别效率更高。
解析BOM数据即为经过了数据的清洗以及转换后的物料清单数据。在获取到列头数据和解析后的电子元件数据后,输出为解析BOM数据的形式,并封装成自定义的JSON数据进行传递,便于后续系统对其进行报价操作。需要说明的是,此处的解析BOM数据可以为文件、字符串、数据等多种形式,在日常操作本申请不对解析BOM数据的具体格式作出限定。
在一实施例中,步骤110可具体实施为:根据BOM解析数据,获取元器件文本。
在一实施例中,元器件的型号识别方法可以包括:获取位号列的位号数据;判断位号数据中是否有逗号,当位号数据中有逗号时,以逗号作为分隔符,生成目标位号数据;当位号数据中没有逗号时,获取位号数据中的其他符号,将其他符号替换为逗号,生成目标位号数据;根据目标位号数据,生成解析电子元件数据。
图11是本申请一示例性实施例提供的元器件的型号识别装置的流程示意图。如图11所示,元器件的型号识别装置20包括:获取模块201,用于获取元器件文本,其中,元器件文本包括物料清单中的常规参数和型号,关键词获取模块202,用于对元器件文本进行拆分,以得到多个关键词,以及确定模块203,用于根据多个关键词与预设词库之间的匹配度,确定元器件文本对应的型号。
本申请提供了一种元器件的型号识别装置,通过获取模块201获取元器件文本,其中,元器件文本包括物料清单中的常规参数和型号,关键词获取模块202对元器件文本进行拆分,以得到多个关键词,以及确定模块203根据多个关键词与预设型号库之间的匹配度,确定元器件文本对应的型号,其中,预设型号库包括多个关键词与型号之间的对应关系。通过对元器件文本进行拆分,以得到多个关键词,再通过关键词与预设型号库之间的匹配度,最终确定该元器件文本对应的型号,从而提高了识别元器件文本对应的型号的精准度。
图12是本申请另一示例性实施例提供的元器件的型号识别装置的流程示意图。如图12所示,关键词获取模块202可以包括:分割单元2021,用于根据预设分隔符对元器件文本进行分割,以得到多个词语;组合单元2022,用于将多个词语进行组合,以得到多个关键词。
组合单元2022可具体配置为:将多个词语中的任意两个词语进行组合,以得到多个关键词。
在一实施例中,如图12所示,元器件的型号识别装置20还可以包括:保留单元204,用于保留与元器件型号相关的多个关键词。
在一实施例中,如图12所示,保留单元204可以包括:识别字符单元2041,用于识别每个关键词的字符数量;关键词保留单元2042,用于根据字符数量和预设数量阈值的对比结果,保留与元器件类型相关的多个关键词。
在一实施例中,关键词保留单元2042可具体配置为:若字符数量小于或等于预设数量阈值,则保留与元器件类型相关的多个关键词。
在一实施例中,元器件的型号识别装置20还可以包括:处理单元205,用于对多个关键词进行预处理,以得到处理后的多个关键词;
在一实施例中,确定模块203可具体配置为:根据处理后的多个关键词与预设型号库之间的匹配度,确定元器件文本对应的型号。
在一实施例中,如图12所示,处理单元205可以包括:中文字符删除单元2051,用于删除含有中文字符的关键词;元器件参数删除单元2052,用于删除含有元器件参数的关键词;英文字母删除单元2053,用于删除含有字符均为英文字母的关键词,以及数字删除单元2054,用于删除含有字符均为数字的关键词,以得到处理后的多个关键词。
在一实施例中,如图12所示,确定模块203可以包括:型号确定单元2031,用于若多个关键词均与预设型号库匹配,则确定多个关键词与预设型号库相匹配对应的型号为元器件文本对应的型号。
在一实施例中,如图12所示,获取模块201可以包括:提取单元2011,用于提取物料清单中含有常规参数和型号的文本;转换单元2012,用于对文本进行编码转换,以得到编码文本;字符单元2013,用于将编码文本中的全角字符转换成半角字符,以得到字符文本;以及无语义删除单元2014,用于删除字符文本中无语义的词语,以得到元器件文本。
在一实施例中,元器件的型号识别装置20可具体配置为:获取初始BOM文件;对所述初始BOM文件进行解析,获取所述初始BOM文件的目标BOM数据;根据所述目标BOM数据,获取所述目标BOM数据中的列头数据以及每种电子元件的初始电子元件数据;根据所述列头数据,对所述初始电子元件数据进行清洗以及转换,生成解析电子元件数据;以及根据所述列头数据以及所述解析电子元件数据,封装成BOM解析数据;所述获取元器件文本包括:根据所述BOM解析数据,获取所述元器件文本。
在一实施例中,所述根据所述列头数据,对所述初始电子元件数据进行清洗以及转换,生成解析电子元件数据包括:获取所述列头数据的物料参数类型;获取所述初始电子元件数据中的外部链接数据;根据所述列头数据的物料参数类型以及所述外部链接数据,对所述初始电子元件数据进行转换并去除所述外部链接数据,生成所述解析电子元件数据。
下面,参考图13来描述根据本申请实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图13图示了根据本申请实施例的电子设备的框图。
如图13所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的元器件的型号识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
此外,该输入装置13还可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图13中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的元器件的型号识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的元器件的型号识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (14)
1.一种元器件的型号识别方法,其特征在于,包括:
获取元器件文本;其中,所述元器件文本包括物料清单中的常规参数和型号;
对所述元器件文本进行拆分,以得到多个关键词;以及
根据所述多个关键词与预设型号库之间的匹配度,确定所述元器件文本对应的型号;其中,所述预设型号库包括多个关键词与型号之间的对应关系。
2.根据权利要求1所述元器件的型号识别方法,其特征在于,所述对所述元器件文本进行拆分,以得到多个关键词包括:
根据预设分隔符对所述元器件文本进行分割,以得到多个词语;以及
将所述多个词语进行组合,以得到所述多个关键词。
3.根据权利要求2所述元器件的型号识别方法,其特征在于,所述将所述多个词语进行组合,以得到所述多个关键词包括:
将所述多个词语中的任意两个词语进行组合,以得到所述多个关键词。
4.根据权利要求1所述元器件的型号识别方法,其特征在于,所述根据所述多个关键词与预设词库的匹配度,确定所述元器件文本对应的型号之前,还包括:
保留与所述元器件型号相关的多个关键词。
5.根据权利要求4所述元器件的型号识别方法,其特征在于,所述保留与所述元器件类型相关的多个关键词包括:
识别每个关键词的字符数量;以及
根据所述字符数量和预设数量阈值的对比结果,保留与所述元器件类型相关的多个关键词。
6.根据权利要求5所述元器件的型号识别方法,其特征在于,所述根据所述字符数量和预设数量阈值的对比结果,保留与所述元器件类型相关的多个关键词包括:
若所述字符数量小于或等于所述预设数量阈值,则保留与所述元器件类型相关的多个关键词。
7.根据权利要求1至6任一项所述元器件的型号识别方法,其特征在于,所述对所述元器件文本进行拆分,以得到多个关键词之后,还包括:
对所述多个关键词进行预处理,以得到处理后的多个关键词;
所述根据所述多个关键词与预设型号库之间的匹配度,确定所述元器件文本对应的型号包括:
根据所述处理后的多个关键词与预设型号库之间的匹配度,确定所述元器件文本对应的型号。
8.根据权利要求7所述元器件的型号识别方法,其特征在于,所述对所述多个关键词进行预处理,以得到处理后的多个关键词包括:
删除含有中文字符的关键词,以得到所述处理后的多个关键词;和/或
删除含有元器件参数的关键词,以得到所述处理后的多个关键词;和/或
删除含有字符均为英文字母的关键词,以得到所述处理后的多个关键词;和/或
删除含有字符均为数字的关键词,以得到所述处理后的多个关键词。
9.根据权利要求1所述元器件的型号识别方法,其特征在于,所述根据所述多个关键词与预设型号库之间的匹配度,确定所述元器件文本对应的型号包括:
若所述多个关键词均与所述预设型号库匹配,则确定所述多个关键词与所述预设型号库相匹配对应的型号为元器件文本对应的型号。
10.根据权利要求1所述元器件的型号识别方法,其特征在于,所述获取元器件文本包括:
提取所述物料清单中含有常规参数和型号的文本;
对所述文本进行编码转换,以得到编码文本;
将所述编码文本中的全角字符转换成半角字符,以得到字符文本;以及
删除所述字符文本中无语义的词语,以得到所述元器件文本。
11.根据权利要求1所述元器件的型号识别方法,其特征在于,所述获取元器件文本之前,还包括:
获取初始BOM文件;
对所述初始BOM文件进行解析,获取所述初始BOM文件的目标BOM数据;
根据所述目标BOM数据,获取所述目标BOM数据中的列头数据以及每种电子元件的初始电子元件数据;
根据所述列头数据,对所述初始电子元件数据进行清洗以及转换,生成解析电子元件数据;以及
根据所述列头数据以及所述解析电子元件数据,封装成BOM解析数据;
所述获取元器件文本包括:
根据所述BOM解析数据,获取所述元器件文本。
12.一种元器件的型号识别装置,其特征在于,包括:
获取模块,用于获取元器件文本;其中,所述元器件文本包括物料清单中的常规参数和型号;
关键词获取模块,用于对所述元器件文本进行拆分,以得到多个关键词;以及
确定模块,用于根据所述多个关键词与预设词库之间的匹配度,确定所述元器件文本对应的型号。
13.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-11任一所述元器件的型号识别方法。
14.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-11任一所述元器件的型号识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938502.9A CN113626561A (zh) | 2021-08-16 | 2021-08-16 | 一种元器件的型号识别方法、装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938502.9A CN113626561A (zh) | 2021-08-16 | 2021-08-16 | 一种元器件的型号识别方法、装置、介质和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113626561A true CN113626561A (zh) | 2021-11-09 |
Family
ID=78385878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110938502.9A Pending CN113626561A (zh) | 2021-08-16 | 2021-08-16 | 一种元器件的型号识别方法、装置、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626561A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090750A (zh) * | 2021-11-10 | 2022-02-25 | 深圳前海硬之城信息技术有限公司 | 对元器件型号快速精准匹配的方法、设备以及存储介质 |
CN114461797A (zh) * | 2022-01-19 | 2022-05-10 | 深圳市云采网络科技有限公司 | 电容分类识别方法、装置、存储介质以及电子设备 |
CN116137077A (zh) * | 2023-04-13 | 2023-05-19 | 宁波为昕科技有限公司 | 电子元器件库的建立方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093336A1 (en) * | 2002-05-06 | 2004-05-13 | Jinsong Hu | Computer program method and apparatus to recognize and normalize data pattern based information |
CN105426360A (zh) * | 2015-11-12 | 2016-03-23 | 中国建设银行股份有限公司 | 一种关键词抽取方法及装置 |
CN107016309A (zh) * | 2017-03-02 | 2017-08-04 | 努比亚技术有限公司 | 一种终端和音效匹配方法 |
CN107239440A (zh) * | 2017-04-21 | 2017-10-10 | 同盾科技有限公司 | 一种垃圾文本识别方法和装置 |
CN110674384A (zh) * | 2019-09-27 | 2020-01-10 | 厦门晶欣电子有限公司 | 一种元器件型号匹配方法 |
CN111061770A (zh) * | 2019-12-27 | 2020-04-24 | 云汉芯城(上海)互联网科技股份有限公司 | 一种bom型号匹配装置、方法及电子设备和存储介质 |
US20200272106A1 (en) * | 2017-09-11 | 2020-08-27 | Apple Inc. | Identification of bands for wearable electronic devices |
CN112818693A (zh) * | 2021-02-07 | 2021-05-18 | 深圳市世强元件网络有限公司 | 一种电子元器件型号词的自动提取方法及系统 |
-
2021
- 2021-08-16 CN CN202110938502.9A patent/CN113626561A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093336A1 (en) * | 2002-05-06 | 2004-05-13 | Jinsong Hu | Computer program method and apparatus to recognize and normalize data pattern based information |
CN105426360A (zh) * | 2015-11-12 | 2016-03-23 | 中国建设银行股份有限公司 | 一种关键词抽取方法及装置 |
CN107016309A (zh) * | 2017-03-02 | 2017-08-04 | 努比亚技术有限公司 | 一种终端和音效匹配方法 |
CN107239440A (zh) * | 2017-04-21 | 2017-10-10 | 同盾科技有限公司 | 一种垃圾文本识别方法和装置 |
US20200272106A1 (en) * | 2017-09-11 | 2020-08-27 | Apple Inc. | Identification of bands for wearable electronic devices |
CN110674384A (zh) * | 2019-09-27 | 2020-01-10 | 厦门晶欣电子有限公司 | 一种元器件型号匹配方法 |
CN111061770A (zh) * | 2019-12-27 | 2020-04-24 | 云汉芯城(上海)互联网科技股份有限公司 | 一种bom型号匹配装置、方法及电子设备和存储介质 |
CN112818693A (zh) * | 2021-02-07 | 2021-05-18 | 深圳市世强元件网络有限公司 | 一种电子元器件型号词的自动提取方法及系统 |
Non-Patent Citations (2)
Title |
---|
理查德•M.里斯: "《Java自然语言处理》", vol. 1, 机械工业出版社, pages: 2 - 2 * |
理查德•M.里斯: "《无形的市场-知识本体与网络消费研究》", vol. 1, 31 January 2009, 湖南师范大学出版社, pages: 53 - 2 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090750A (zh) * | 2021-11-10 | 2022-02-25 | 深圳前海硬之城信息技术有限公司 | 对元器件型号快速精准匹配的方法、设备以及存储介质 |
CN114461797A (zh) * | 2022-01-19 | 2022-05-10 | 深圳市云采网络科技有限公司 | 电容分类识别方法、装置、存储介质以及电子设备 |
CN116137077A (zh) * | 2023-04-13 | 2023-05-19 | 宁波为昕科技有限公司 | 电子元器件库的建立方法、装置、电子设备及存储介质 |
CN116137077B (zh) * | 2023-04-13 | 2023-08-08 | 宁波为昕科技有限公司 | 电子元器件库的建立方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113626561A (zh) | 一种元器件的型号识别方法、装置、介质和设备 | |
AU2012213242B2 (en) | System for data extraction and processing | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN110298041B (zh) | 垃圾文本过滤方法、装置、电子设备及存储介质 | |
CN111143505A (zh) | 文档处理方法、装置、介质及电子设备 | |
CN113657088A (zh) | 接口文档解析方法、装置、电子设备以及存储介质 | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
CN113627168A (zh) | 一种元器件封装冲突的检查方法、装置、介质及设备 | |
CN112101003A (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN115424284A (zh) | 文本相似度识别方法、装置、设备及存储介质 | |
CN116955561A (zh) | 问答方法、装置、电子设备以及存储介质 | |
CN113807807A (zh) | 一种元器件参数识别方法、装置、电子设备及可读介质 | |
CN111209831A (zh) | 一种基于分类算法的文档表格内容识别方法及装置 | |
CN111597807A (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
CN114821613A (zh) | 一种pdf中表格信息的抽取方法和系统 | |
CN114743012B (zh) | 一种文本识别方法及装置 | |
CN110516125B (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
CN116631400A (zh) | 语音转文本方法和装置、计算机设备及存储介质 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN114254109B (zh) | 用于确定行业类别的方法及装置 | |
CN116543798A (zh) | 基于多分类器的情感识别方法和装置、电子设备、介质 | |
US11481389B2 (en) | Generating an executable code based on a document | |
CN113627173B (zh) | 一种制造商名称识别方法、装置、电子设备及可读介质 | |
CN114118049B (zh) | 信息获取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |