CN113807807A - 一种元器件参数识别方法、装置、电子设备及可读介质 - Google Patents

一种元器件参数识别方法、装置、电子设备及可读介质 Download PDF

Info

Publication number
CN113807807A
CN113807807A CN202110939668.2A CN202110939668A CN113807807A CN 113807807 A CN113807807 A CN 113807807A CN 202110939668 A CN202110939668 A CN 202110939668A CN 113807807 A CN113807807 A CN 113807807A
Authority
CN
China
Prior art keywords
parameter
standard
element text
text
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110939668.2A
Other languages
English (en)
Inventor
谢国清
林颖朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuncai Network Technology Co ltd
Original Assignee
Shenzhen Yuncai Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuncai Network Technology Co ltd filed Critical Shenzhen Yuncai Network Technology Co ltd
Priority to CN202110939668.2A priority Critical patent/CN113807807A/zh
Publication of CN113807807A publication Critical patent/CN113807807A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Manufacturing & Machinery (AREA)
  • Human Computer Interaction (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种元器件参数识别方法、装置、电子设备及可读介质。该方法包括:从物料清单文件中获取与电子元件对应的元件文本;对所述元件文本进行预处理;对预处理后的所述元件文本进行分词,确定是否能够获得至少一个关键词;以及当能够获得至少一个所述关键词时,确定根据至少一个所述关键词是否能获得至少一个参数词,若是,将至少一个所述参数词作为所述元件文本对应的参数词。本申请提供的方案能够识别BOM文件中对应的电子元件的参数。

Description

一种元器件参数识别方法、装置、电子设备及可读介质
技术领域
本申请涉及识别技术领域,具体涉及一种元器件参数识别方法、装置、电子设备及可读介质。
背景技术
随着互联网技术的发展,越来越多的厂家开始通过互联网上的元器件采购平台来进行元器件的采购。通常厂家在进行采购时,根据自己需要的元器件的信息生成物料清单(Bill of Material,BOM)文件,将BOM文件导入元器件采购平台进行识别,从而得到所需要的元器件的购买详情。
然而,现有的元器件采购平台在通过BOM文件中元器件的参数进行识别的时候,只有在BOM文件中的参数文本完全无误的时候才能搜索到,若厂家在生成BOM文件前输入参数文本时出现了格式错误或者字符错误,则无法成功进行识别,影响元器件的采购。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种元器件参数识别方法、装置、电子设备及可读介质,能够对BOM文件中的参数进行更精确地识别。
根据本申请的一个方面,提供了一种元器件参数识别方法,包括:从物料清单文件中获取与电子元件对应的元件文本;对所述元件文本进行预处理;对预处理后的所述元件文本进行分词,确定是否能够获得至少一个关键词;以及当能够获得至少一个所述关键词时,确定根据至少一个所述关键词是否能获得至少一个参数词,若是,将至少一个所述参数词作为所述元件文本对应的参数词。
在一实施例中,元器件参数识别方法还包括:当能够获得至少一个关键词时,针对每个所述关键词,执行:确定当前关键词中是否包括非标准参数字符;当所述当前关键词中包括所述非标准参数字符时,根据标准参数字符库确定所述非标准参数字符对应的目标标准参数字符,其中,所述标准参数字符库中包括至少一个标准参数字符及每个所述标准参数字符对应的至少一个非标准参数字符;以及将所述非标准参数字符替换为所述目标标准参数字符。
在一实施例中,所述元件文本中包括至少一个间隔符;所述对预处理后的所述元件文本进行分词,确定是否能够获得至少一个关键词:按照字符排列顺序对所述元件文本进行扫描;首次扫描到间隔符时,将所述间隔符前的字符作为一个词汇;非首次扫描到间隔符时,将扫描到的当前间隔符和上一间隔符间的字符作为一个词汇;对所述元件文本扫描完成时,将最后扫描到的间隔符之后的字符作为一个词汇;确定每个所述词汇与至少一个预设的标准关键词的相似度;以及将相似度大于阈值的词汇作为所述关键词。
在一实施例中,所述确定根据至少一个所述关键词是否能获得至少一个参数词包括:将每个所述关键词作为搜索条件输入预设的参数词模型中进行识别,确定是否能够得到至少一个检索结果,每个所述检索结果对应一个所述参数词。
在一实施例中,对所述元件文本进行预处理包括:对所述元件文本进行编码转换;和/或根据预设的允许字符库,将所述元件文本中的非允许字符进行替换;和/或将所述元件文本中的字母字符修改为大写或小写;和/或将所述元件文本中的全角字符转换为半角字符。
在一实施例中,所述对所述元件文本进行预处理包括:对所述元件文本进行编码转换;所述对所述元件文本进行编码转换包括:确定所述元件文本的特征信息;将所述特征信息输入预先训练的编码识别模型中,得到识别结果;以及当所述识别结果为非标准编码时,对所述元件文本进行编码转换处理。
在一实施例中,所述编码识别模型通过如下方式进行训练:获取标准编码特征信息样本集和非标准编码特征信息样本集;其中,所述样本标准编码特征信息样本集中包括标准编码对应的至少一个特征信息,所述非标准编码特征信息样本集中包括非标准编码对应的至少一个特征信息;以及利用标准编码特征信息样本集和非标准编码特征信息样本集对所述编码识别模型进行训练;其中,在将所述标准编码特征信息样本集作为所述编码识别模型的输入时,将标准编码作为所述编码识别模型的输出结果的比对目标结果;在将所述非标准编码特征信息样本集作为所述编码识别模型的输入时,将非标准编码作为所述编码识别模型的输出结果的比对目标结果。
在一实施例中,所述从物料清单文件中获取与电子元件对应的元件文本包括:获取初始物料清单文件;对所述初始物料清单文件进行解析,获取所述初始物料清单文件的目标物料清单数据;根据所述目标物料清单数据,获取所述目标物料清单数据中的列头数据以及每种电子元件的初始元件文本数据;根据所述列头数据,对所述初始元件文本数据进行清洗以及转换,生成解析元件文本数据;以及根据所述列头数据以及所述解析元件文本数据,封装成所述元件文本。
根据本申请的另一方面,提供了一种元器件参数识别装置,包括:获取模块,用于从物料清单文件中获取与电子元件对应的元件文本;处理模块,用于对所述元件文本进行预处理;分词模块,用于对预处理后的所述元件文本进行分词,确定是否能够获得至少一个关键词;以及选择模块,用于当获得至少一个关键词时,确定根据每个所述关键词是否对应一参数词,若是,将至少一个所述参数词作为所述元件文本对应的参数词。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的元器件参数识别方法。
根据本申请的另一方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的元器件参数识别方法。
本申请提供的一种元器件参数识别方法、装置、电子设备及可读介质,从用户上传的物料清单BOM文件中获取与电子元件的参数对应的元件文本,由于用户在生成BOM文件时输入的元件文本的格式、字体等并不统一,会对识别结果产生干扰,因此需要对元件文本进行预处理。对预处理后的元件文本进行分词,确定是否能够获得至少一个关键词。若获得了至少一个关键词,确定每个关键词是否对应一个参数词,若是,将参数词作为元件文本对应的参数词。在本发明实施例中,由于用户输入的元件文本中包括的词汇可能并非是完全标准的词汇,因此通过对用户输入的元件文本进行预处理,并对预处理后的元件文本进行分词,确定是否能够得到关键词,并确定关键词是否对应参数词。由此可见,本发明实施例提供的方案,在用户生成BOM 文件时,在电子元件对应的元件文本中,即使输入的并非是标准词汇,也能够通过预处理和分词将元件文本分词并确定是否包括关键词,根据关键词确定是否能够获得参数词,能够更准确地识别元件文本中可能包括的参数词。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一示例性实施例提供的一种元器件参数识别方法的流程示意图。
图2是本申请一示例性实施例提供的一种字符替换方法的流程示意图。
图3是本申请一示例性实施例提供的一种分词方法的流程示意图。
图4是本申请一示例性实施例提供的一种编码转换方法的流程示意图。
图5是本申请一示例性实施例提供的一种编码识别模型的训练方法的流程示意图。
图6是本申请一示例性实施例提供的一种元器件参数识别装置的结构示意图。
图7是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
如图1所示,本发明一实施例提供了一种元器件参数识别方法,该方法包括以下步骤:
步骤110:从物料清单文件中获取与电子元件对应的元件文本。
具体地,物料清单BOM文件是以数据格式来描述产品结构的文件,是计算机可以识别的数据文件。BOM文件的通常以BOM表的形式出现。在BOM表中,找到电子元件对应的元件文本,即在BOM表中找到表头为电子元件的行或列,这些行或列中的文本即为电子元件对应的元件文本。元件文本用于表示用户需要选购的元件的相关信息,但并非一定是与参数有关系的信息,也可能是电子元件其它属性的信息。
步骤120:对元件文本进行预处理。
具体地,由于用于在生成BOM表时输入的元件文本很可能与标准的参数并不完全相符,并且在格式、编码等方面上的错误也可能会导致BOM 表无法被识别,因此需要对元件文本进行预处理,消除其它因素的干扰。虽然预处理后的元件文本仍无法被认为是准确且标准的参数名称,但经过预处理后,元件文本中不会存在对识别结果产生干扰的因素,方便进行后续处理。
步骤130:对预处理后的元件文本进行分词,确定是否能够获得至少一个关键词。
具体地,在清除了干扰因素后,需要对元件文本进行分词。由于用户在输入元件文本时通常输入的是非结构化数据,即一些数据结构不规则或不完整,没有预定义的数学模型,不方便用数据库二维逻辑表来表现数据,比如办公文档、文本、各类报表等。因此,BOM表中输入的的元件文本自然也属于非结构化数据。因此,在进行识别时,需要将非元件文本进行分词。但进行分词之后,元件文本中未必一定会包括关键词。如果不存在关键词,则说明该元件文本无可识别的内容。当至少能够获得一个关键词时,才会进行下一步处理。
步骤140:当能够获得至少一个关键词时,确定根据至少一个关键词是否能获得至少一个参数词,若是,将至少一个参数词作为元件文本对应的参数词。
具体地,在从元件文本中获得至少一个关键词之后,这些关键词也并非一定对应参数词,有可能对应元件的其它属性。因此,需要确定这些关键词是否均对应一个参数词,若能够获得至少一个参数词,该参数词即为元件文本对应的参数词。参数词为用户需要查找的电子元件的参数构成要素,根据这些参数词,能够从在售的电子元件中选择元件文本对应的电子元件,方便用户进行后续的采购。
如图2所示,本发明一实施例提供了一种字符替换方法,当能够获得至少一个关键词时,针对每个关键词,可以执行以下步骤:
步骤210:确定当前关键词中是否包括非标准参数字符。
具体地,用户在输入元件文本时,可能会自然地根据口头习惯或者习惯书写的符号来进行填写,而并非使用行业特定的写法。比如,在文本中想要填写的内容为“电阻的阻值为1欧姆”,在填写的时候可能会写成 1r,而不是1Ω。此时,字母r即为非标准参数字符。虽然用户能够理解 1r表示的是电阻阻值1欧姆,但计算机无法理分辨出该含义,因此需要提前确定关键词中是否包括非标准参数字符。
步骤220:当前关键词中包括非标准参数字符时,根据标准参数字符库确定非标准参数字符对应的目标标准参数字符,其中,标准参数字符库中包括至少一个标准参数字符及每个标准参数字符对应的至少一个非标准参数字符。
具体地,标准参数字符库中包含多个标准参数字符及每个标准参数字符对应的非标准参数字符,这些非标准参数字符为用户在填写中可能会误填的字符。比如标准字符为Ω,表示电阻,对应的,用户在填写时很可能会用R或者r来表示电阻,因此R和r为标准字符Ω对应的非标准参数字符。
步骤230:将非标准参数字符替换为目标标准参数字符。
举例来说,将对应电阻的r、R等非标准参数字符替换为标准参数字符Ω。如图3所示,本发明一实施例提供了一种分词方法,元件文本中包括至少一个间隔符,对预处理后的元件文本进行分词,确定是否能够获得至少一个关键词可以包括以下步骤:
步骤310:按照字符排列顺序对元件文本进行扫描。
具体地,由于元件文本中可能包括电子元件其它的一些信息,在对元件文本进行分词之前,需要按照输入的字符排列顺序进行扫描,确定元件文本中包括哪些字符,方便进行后续的分词处理。通常来说,按照书写习惯的顺序,即从左至右进行扫描。
步骤320:首次扫描到间隔符时,将间隔符前的字符作为一个词汇。
具体地,在首次扫描到间隔符时,由于间隔符用于将不同字符构成的词汇区分开,形成一个词汇,因此把第一个间隔符前的所有字符作为一个词汇。
步骤330:非首次扫描到间隔符时,将扫描到的当前间隔符和上一间隔符间的字符作为一个词汇。
具体地,如前文,间隔符用于区分开不同的词汇,因此两个间隔符之间的字符即为一个词汇。
步骤340:对元件文本扫描完成时,将最后扫描到的间隔符之后的字符作为一个词汇。
具体地,由于最后一个词汇后没有其他字符,因此也就不会出现间隔符。当元件文本的所有字符均扫描完成后,将最后一个间隔符后面的字符作为一个词汇。
步骤350:确定每个词汇与至少一个预设的标准关键词的相似度,将相似度大于阈值的词汇作为参数词。
具体地,在分词完成得到多个词汇后,这些词汇并非全部是关键词,因此需要将与关键词无关的词汇排除掉,防止影响后续的结果。标准关键词为一些标准化的用于表示电子元件属性的词汇,如果一词汇与标准关键词的相似度较高,则可以被认为是关键词;若与标准关键词的相似度较低,则表明该词汇与电子元件的属性无关或关系较小,因此不能作为关键词。
在本发明实施例中,确定根据至少一个关键词是否能获得至少一个参数词包括:将每个关键词作为搜索条件输入预设的参数词模型中进行识别,确定是否能够得到至少一个检索结果,每个检索结果对应一个参数词。
具体地,由于需要选择与关键词最为接近的参数词,通过参数词模型来对每个关键词进行识别。参数词识别模型包括字典,或者是根据关键词的形式,比如数字和单位的组合,从而识别关键词是否为参数词。若无法识别出参数词,则说明该关键词并非对应电子元件的参数。对BOM 表中的其它元件文本重复上述步骤,找到对应的参数词。
在本发明一实施例中,对元件文本进行预处理可以包括:对元件文本进行编码转换。
具体地,BOM表中文本通常是基于多语言文本库来实现的,多语言文本库包含了多国语言对应的文本。不同国家的语言往往编码格式不同,例如有UTF-8、UTF-16以及GBK2312等。在进行文本输入的过程中,很容易造成编码混乱。如果一条文本中包含有多种编码,那么在进行识别到时候会导致识别失败。因此,对元件文本进行编码转换,比如从 GBK2312转换为UTF-8(因为UTF-8为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码),将元件文本的编码进行统一。
在本发明一实施例中,对元件文本进行预处理可以包括:根据预设的允许字符库,将元件文本中的非允许字符进行替换。
具体地,BOM表中的元件文本中一般会存在干扰字符或者很多不可见字符,这些字符会对分析结果产生干扰。详细来说,在数据处理时有一些是不需要的数据,比如文本中的句号、问号、感叹号等特殊字符,这些字符可以被看做是非允许字符;需要保留的是字母和数字,这些字符可以被看做是允许字符。为了替换这些非允许字符,减少对分析结果的干扰,可以通过正则表达式来将这些非允许字符进行替换。比如,用正则匹配小写“a”到“z”以及大写“A”到“Z”以及数字“0”到“9”的范围(该范围即为允许字符库)之外的所有字符并用空格代替。这个方法无需指定所有标点符号。当然,也可以采用其他正则表达式正则匹配所有非a-z、 A-Z和0-9的字符,并将其替换为空格。
在本发明一实施例中,对元件文本进行预处理可以包括:将元件文本中的字母字符修改为大写或小写。
具体地,在英文中,所有句子的第一个单词的首字母一般是大写,有的单词也会全部字母都大写用于表示强调和区分风格,这样更易于人类理解表达的意思。但是计算机在进行识别的时候,无法进行区别。比如“WORD”、“word”、“Word”这三个词对于计算机来说是无法区分的。因此,将元件文本中所有的字母都统一替换为大写或小写,便于进行识别。
在本发明一实施例中,对元件文本进行预处理可以包括:将元件文本中的全角字符转换为半角字符。
具体地,半角字符为一字符占用一个标准的字符位置,通常的英文字母、数字键、符号键都是半角字符。汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。在计算机内部,英文字母、数字键、符号键都是作为基本代码处理的,所以用户输入命令和参数时一般都使用半角。一般的系统命令是不用全角字符的,只是在作文字处理时才会使用全角字符。因此,当元件文本以字母、数字为主时,需要将元件文本中的全角字符转换为半角字符。
在本发明一实施例中,对元件文本进行预处理包括:对元件文本进行编码转换;如图4所示的一种编码转换方法的流程示意图,对元件文本进行编码转换可以包括以下步骤:
步骤410:确定元件文本的特征信息。
具体地,每种文本的编码方式都有其各自的特征,即使是同样的文本,也可能在编码上有所不同,可能是GBK2312,也可能是UTF-8。在进行编码转换之前需要首先确认元件文本的特征信息,通过特征信息进行后续的处理。
步骤420:将特征信息输入预先训练的编码识别模型中,得到识别结果。
具体地,将元件文本的特征信息输入预先训练的编码识别模型中,由于编码识别模型通过样本编码的特征信息与样本识别结果训练得到,因此编码识别模型能够根据元件文本的特征信息来进行识别,确定元件文本的编码类型。
步骤430:当识别结果为非标准编码时,对元件文本进行编码转换处理。
举例来说,元件文本的识别结果为GBK2312,预设的标准编码为 UTF-8时,由此确定元件文本的编码类型为非标准编码。如果使用非标准编码的元件文本进行识别,会出现乱码的情况,因此,需要对元件文本进行编码转换处理,将其编码类型转换为UTF-8。
如图5所示,本发明一实施例提供了一种编码识别模型的训练方法,该方法可以包括以下步骤:
步骤510:获取标准编码特征信息样本集和非标准编码特征信息样本集;其中,样本标准编码特征信息样本集中包括标准编码对应的至少一个特征信息,非标准编码特征信息样本集中包括非标准编码对应的至少一个特征信息。
步骤520:利用标准编码特征信息样本集和非标准编码特征信息样本集对编码识别模型进行训练;其中,在将标准编码特征信息样本集作为编码识别模型的输入时,将标准编码作为编码识别模型的输出结果的比对目标结果;在将非标准编码特征信息样本集作为编码识别模型的输入时,将非标准编码作为编码识别模型的输出结果的比对目标结果。
具体地,编码识别模型是通过将标准编码特征信息样本集和非标准编码特征信息样本集通过机器学习的方法进行训练,其目的是生成一个具有识别目标能力的编码识别模型;本发明实施例中采用的是CART分类树算法对数据集进行训练;以CART(ClassificationAnd Regression Tree)决策树作为机器学习方法,即误差函数为基尼系数的决策树算法为例,应当理解本发明实施例还可以应用深度神经网络(Deep Neural Networks,DNN)、支持向量机(Support Vector Machine,SVM)等其他机器学习算法。
CART分类树算法的流程包括:
采集大量特征信息样本集,对每个特征向量标记其类别,例如,标准编码特征信息标记为1,非标准编码特征信息标记为-1;将标记好类别的特征信息随机划分为验证集和训练集。
本申请实施例中,可以令训练集占90%,验证集占10%。
本实施例中,采用CART决策树生成算法对训练集进行训练,生成CART 决策树。
根据验证集采用决策树后剪枝算法决策树进行后剪枝,得到编码识别模型。
具体地,对生成的CART决策树进行后剪枝(Postpruning)处理,提高其泛化(Generalization)能力,所得到的剪枝后的决策树即为编码识别模型。
应当理解的是,本实施例中采用了CART决策树及后剪枝处理作为编码识别模型的训练方法,前述步骤中需要预留一定比例的验证集。在其他实施例中,如采用深度神经网络(DeepNeural Networks,DNN)、支持向量机(Support Vector Machine,SVM)等其他机器学习算法,可能将验证集在训练过程中用作其他处理来降低泛化误差或不需要留验证集。
在本发明一实施例中,从物料清单文件中获取与电子元件对应的元件文本包括:
获取初始物料清单文件;
对初始物料清单文件进行解析,获取初始物料清单文件的目标物料清单数据;
根据目标物料清单数据,获取目标物料清单数据中的列头数据以及每种电子元件的初始元件文本数据;
根据列头数据,对初始元件文本数据进行清洗以及转换,生成解析元件文本数据;以及
根据列头数据以及解析元件文本数据,封装成元件文本。
具体地,BOM文件就是以数据格式来描述产品结构的文件,是计算机可以识别的数据文件,也是电子制造供应链企业联系与沟通主要业务的纽带。初始BOM文件为系统所识别到的客户上传的原始BOM文件,其数据内容、格式等不尽相同,系统只有在获取得到初始BOM文件后,才能进行后续的解析识别过程,便于将各种各样的BOM文件进行格式的统一以及错漏的纠正。
BOM(即物料清单)数据指的是BOM文件中用于表示电子元件物料信息的数据,目标BOM数据为进行了格式的统一以及错误的纠正后得到的BOM数据。在BOM数据进行了格式统一以及错误纠正后,系统得以更加准确地识别出电子元器件的物料信息,进而对所需电子元件进行更加准确的报价,降低出现错误报价的概率。
列头数据指的是每列BOM数据的开头数据;电子元件即电子元器件的简称,其初始元件文本数据指的是未经清洗转换、只是进行了格式的统一以及初步纠错后的用以表示电子元件信息的初始数据。由于列头数据包含了其所在列的信息的种类,先识别列头数据,更加有利于对整列数据进行归类以及清洗。
解析元件文本数据为对初始元件文本数据进行清洗转换后的元件文本数据。由于不同公司的BOM表格式不一,人工输入又难以避免会出现错漏,因此,预先清洗数据并进行格式的转化统一,便于系统更加准确地识别物料信息,进而准确报价。而整个解析识别过程由系统进行,无需人力,节省人力成本的同时,再次避免了因工作人员疲劳或经验不足等原因出现的二次错误情况,且识别效率更高。
解析元件文本数据即为经过了数据的清洗以及转换后的元件文本数据。在获取到列头数据和解析后的元件文本数据后,输出为解析元件文本的形式,并封装成自定义的JSON数据进行传递,便于后续系统对其进行报价操作。需要说明的是,此处的解析元件文本数据可以为文件、字符串、数据等多种形式,在日常操作本申请不对解析元件文本数据的具体格式作出限定。
如图6所示,本发明一实施例提供了一种参数识别装置,包括:
获取模块610,用于从物料清单文件中获取与电子元件对应的元件文本。
处理模块620,用于对元件文本进行预处理。
分词模块630,用于对预处理后的元件文本进行分词,确定是否能够获得至少一个关键词。
确定模块640,用于当能够获得至少一个关键词时,确定根据至少一个关键词是否能获得至少一个参数词,若是,将至少一个参数词作为元件文本对应的参数词。
在本发明一实施例中,分词模块630还用于当能够获得至少一个所述关键词时,执行:确定当前关键词中是否包括非标准参数字符;当所述当前关键词中包括所述非标准参数字符时,根据标准参数字符库确定所述非标准参数字符对应的目标标准参数字符,其中,所述标准参数字符库中包括至少一个标准参数字符及每个所述标准参数字符对应的至少一个非标准参数字符;以及将所述非标准参数字符替换为所述目标标准参数字符。
在本发明一实施例中,元件文本中包括至少一个间隔符;如图6所示,分词模块630可以包括:
扫描单元631,按照字符排列顺序对所述元件文本进行扫描。
处理单元632,用于执行:首次扫描到间隔符时,将间隔符前的字符作为一个词汇;非首次扫描到间隔符时,将扫描到的当前间隔符和上一间隔符间的字符作为一个词汇;对元件文本扫描完成时,将最后扫描到的间隔符之后的字符作为一个词汇。
相似度确定单元633,用于确定每个所述词汇与至少一个预设的标准关键词的相似度。
关键词确定单元634,用于将相似度大于阈值的词汇作为所述关键词。
在本发明一实施例中,选择模块640可以包括:
检索单元641,用于将每个所述关键词作为搜索条件输入预设的参数词库中进行检索,得到至少一个检索结果,每个所述检索结果对应一个所述参数词。
匹配值确定单元642,用于确定每个检索结果与搜索条件的匹配值;
参数词确定单元643,用于当存在至少一个匹配值高于预设值的检索结果时,将匹配值最高的检索结果对应的所述参数词作为所述元件文本对应的参数词。
在本发明一实施例中,处理模块620在执行对元件文本进行预处理时,具体执行:
对元件文本进行编码转换;和/或根据预设的允许字符库,将元件文本中的非允许字符进行替换;和/或将元件文本中的字母字符修改为大写或小写;和/或将元件文本中的全角字符转换为半角字符。
在本发明一实施例中,对元件文本进行预处理包括:对元件文本进行编码转换;如图6所示,处理模块620可以包括:
特征确定单元621,确定元件文本的特征信息;输入单元622,将特征信息输入预先训练的编码识别模型中,得到识别结果;转换单元623,当识别结果为非标准编码时,对元件文本进行编码转换处理。
下面,参考图7来描述根据本申请实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备70包括一个或多个处理器71和存储器72。
处理器71可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备70中的其他组件以执行期望的功能。
存储器72可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器 (ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器71可以运行所述程序指令,以实现上文所述的本申请的各个实施例的参数方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备70还可以包括:输入装置73和输出装置74,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
在该电子设备是单机设备时,该输入装置73可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
此外,该输入装置73还可以包括例如键盘、鼠标等等。
该输出装置74可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置74可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出装置等等。
当然,为了简化,图7中仅示出了该电子设备70中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备70还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的元器件参数识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的元器件参数识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体地例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体地细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (11)

1.一种元器件参数识别方法,其特征在于,包括:
从物料清单文件中获取与电子元件对应的元件文本;
对所述元件文本进行预处理;
对预处理后的所述元件文本进行分词,确定是否能够获得至少一个关键词;以及
当能够获得至少一个所述关键词时,确定根据至少一个所述关键词是否能获得至少一个参数词,若是,将至少一个所述参数词作为所述元件文本对应的参数词。
2.根据权利要求1所述的一种元器件参数识别方法,其特征在于,进一步包括:
当能够获得至少一个所述关键词时,针对每个所述关键词,执行:
确定当前关键词中是否包括非标准参数字符;
当所述当前关键词中包括所述非标准参数字符时,根据标准参数字符库确定所述非标准参数字符对应的目标标准参数字符,其中,所述标准参数字符库中包括至少一个标准参数字符及每个所述标准参数字符对应的至少一个非标准参数字符;以及
将所述非标准参数字符替换为所述目标标准参数字符。
3.根据权利要求1所述的元器件参数识别方法,其特征在于,所述元件文本中包括至少一个间隔符;所述对预处理后的所述元件文本进行分词,确定是否能够获得至少一个关键词包括:
按照字符排列顺序对所述元件文本进行扫描;
首次扫描到间隔符时,将所述间隔符前的字符作为一个词汇;
非首次扫描到间隔符时,将扫描到的当前间隔符和上一间隔符间的字符作为一个词汇;
对所述元件文本扫描完成时,将最后扫描到的间隔符之后的字符作为一个词汇;
确定每个所述词汇与至少一个预设的标准关键词的相似度;以及
将相似度大于阈值的词汇作为所述关键词。
4.根据权利要求1所述的元器件参数识别方法,其特征在于,
所述确定根据至少一个所述关键词是否能获得至少一个参数词包括:
将每个所述关键词作为搜索条件输入预设的参数词模型中进行识别,确定是否能够得到至少一个检索结果,每个所述检索结果对应一个所述参数词。
5.根据权利要求1所述的元器件参数识别方法,其特征在于,所述对所述元件文本进行预处理包括:
对所述元件文本进行编码转换;和/或
根据预设的允许字符库,将所述元件文本中的非允许字符进行替换;和/或
将所述元件文本中的字母字符修改为大写或小写;和/或
将所述元件文本中的全角字符转换为半角字符。
6.根据权利要求5所述的元器件参数识别方法,其特征在于,
所述对所述元件文本进行预处理包括:对所述元件文本进行编码转换;
所述对所述元件文本进行编码转换包括:
确定所述元件文本的特征信息;
将所述特征信息输入预先训练的编码识别模型中,得到识别结果;以及
当所述识别结果为非标准编码时,对所述元件文本进行编码转换处理。
7.根据权利要求6所述的元器件参数识别方法,其特征在于,所述编码识别模型通过如下方式进行训练:
获取标准编码特征信息样本集和非标准编码特征信息样本集;其中,所述样本标准编码特征信息样本集中包括标准编码对应的至少一个特征信息,所述非标准编码特征信息样本集中包括非标准编码对应的至少一个特征信息;以及
利用标准编码特征信息样本集和非标准编码特征信息样本集对所述编码识别模型进行训练;其中,在将所述标准编码特征信息样本集作为所述编码识别模型的输入时,将标准编码作为所述编码识别模型的输出结果的比对目标结果;在将所述非标准编码特征信息样本集作为所述编码识别模型的输入时,将非标准编码作为所述编码识别模型的输出结果的比对目标结果。
8.根据权利要求1所述的元器件参数识别方法,其特征在于,
所述从物料清单文件中获取与电子元件对应的元件文本包括:
获取初始物料清单文件;
对所述初始物料清单文件进行解析,获取所述初始物料清单文件的目标物料清单数据;
根据所述目标物料清单数据,获取所述目标物料清单数据中的列头数据以及每种电子元件的初始元件文本数据;
根据所述列头数据,对所述初始元件文本数据进行清洗以及转换,生成解析元件文本数据;以及
根据所述列头数据以及所述解析元件文本数据,封装成所述元件文本。
9.一种元器件参数识别装置,其特征在于,包括:
获取模块,用于从物料清单文件中获取与电子元件对应的元件文本;
处理模块,用于对所述元件文本进行预处理;
分词模块,用于对预处理后的所述元件文本进行分词,确定是否能够获得至少一个关键词;以及
选择模块,用于当能够获得至少一个所述关键词时,确定根据至少一个所述关键词是否能获得至少一个参数词,若是,将至少一个所述参数词作为所述元件文本对应的参数词。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的元器件参数识别方法。
11.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-8任一所述的元器件参数识别方法。
CN202110939668.2A 2021-08-16 2021-08-16 一种元器件参数识别方法、装置、电子设备及可读介质 Pending CN113807807A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110939668.2A CN113807807A (zh) 2021-08-16 2021-08-16 一种元器件参数识别方法、装置、电子设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110939668.2A CN113807807A (zh) 2021-08-16 2021-08-16 一种元器件参数识别方法、装置、电子设备及可读介质

Publications (1)

Publication Number Publication Date
CN113807807A true CN113807807A (zh) 2021-12-17

Family

ID=78893811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110939668.2A Pending CN113807807A (zh) 2021-08-16 2021-08-16 一种元器件参数识别方法、装置、电子设备及可读介质

Country Status (1)

Country Link
CN (1) CN113807807A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116137077A (zh) * 2023-04-13 2023-05-19 宁波为昕科技有限公司 电子元器件库的建立方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093336A1 (en) * 2002-05-06 2004-05-13 Jinsong Hu Computer program method and apparatus to recognize and normalize data pattern based information
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN106570668A (zh) * 2016-11-02 2017-04-19 深圳效率科技有限公司 一种物料清单的信息整理方法及装置
CN108197087A (zh) * 2018-01-18 2018-06-22 北京奇安信科技有限公司 字符编码识别方法及装置
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN110033206A (zh) * 2018-01-11 2019-07-19 国科赛思(北京)科技有限公司 物料清单自动校核方法及装置
CN110096481A (zh) * 2019-04-19 2019-08-06 福建天晴数码有限公司 文件编码的识别方法及计算机可读存储介质
CN110674255A (zh) * 2019-09-24 2020-01-10 湖南快乐阳光互动娱乐传媒有限公司 文本内容审核方法及装置
CN111489030A (zh) * 2020-04-09 2020-08-04 河北利至人力资源服务有限公司 一种基于文本分词的离职预测方法及系统
CN112508432A (zh) * 2020-12-15 2021-03-16 百度国际科技(深圳)有限公司 广告潜在风险检测方法及装置、电子设备、介质和产品
CN113094473A (zh) * 2021-04-30 2021-07-09 平安国际智慧城市科技股份有限公司 关键词的权重计算方法、装置、计算机设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093336A1 (en) * 2002-05-06 2004-05-13 Jinsong Hu Computer program method and apparatus to recognize and normalize data pattern based information
CN106570668A (zh) * 2016-11-02 2017-04-19 深圳效率科技有限公司 一种物料清单的信息整理方法及装置
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN110033206A (zh) * 2018-01-11 2019-07-19 国科赛思(北京)科技有限公司 物料清单自动校核方法及装置
CN108197087A (zh) * 2018-01-18 2018-06-22 北京奇安信科技有限公司 字符编码识别方法及装置
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN110096481A (zh) * 2019-04-19 2019-08-06 福建天晴数码有限公司 文件编码的识别方法及计算机可读存储介质
CN110674255A (zh) * 2019-09-24 2020-01-10 湖南快乐阳光互动娱乐传媒有限公司 文本内容审核方法及装置
CN111489030A (zh) * 2020-04-09 2020-08-04 河北利至人力资源服务有限公司 一种基于文本分词的离职预测方法及系统
CN112508432A (zh) * 2020-12-15 2021-03-16 百度国际科技(深圳)有限公司 广告潜在风险检测方法及装置、电子设备、介质和产品
CN113094473A (zh) * 2021-04-30 2021-07-09 平安国际智慧城市科技股份有限公司 关键词的权重计算方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张辉;吴家家;费天鸣;张胜文;: "面向信息集成的装配BOM转换方法研究", 江苏科技大学学报(自然科学版), no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116137077A (zh) * 2023-04-13 2023-05-19 宁波为昕科技有限公司 电子元器件库的建立方法、装置、电子设备及存储介质
CN116137077B (zh) * 2023-04-13 2023-08-08 宁波为昕科技有限公司 电子元器件库的建立方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US20240013005A1 (en) Method and system for identifying citations within regulatory content
CN109284371B (zh) 反欺诈方法、电子装置及计算机可读存储介质
EP2671190B1 (en) System for data extraction and processing
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN112052305A (zh) 信息提取方法、装置、计算机设备及可读存储介质
US8874426B2 (en) Method for translating computer generated log files
CN112667780A (zh) 一种评论信息的生成方法、装置、电子设备及存储介质
CN113626561A (zh) 一种元器件的型号识别方法、装置、介质和设备
CN113807807A (zh) 一种元器件参数识别方法、装置、电子设备及可读介质
CN113627173A (zh) 一种制造商名称识别方法、装置、电子设备及可读介质
US20230289529A1 (en) Detecting the tone of text
US20220198133A1 (en) System and method for validating tabular summary reports
CN114692655A (zh) 翻译系统及文本翻译、下载、质量检查和编辑方法
US11687700B1 (en) Generating a structure of a PDF-document
CN114254109B (zh) 用于确定行业类别的方法及装置
CN110555212A (zh) 基于自然语言处理的文档校验方法、装置和电子设备
JP7021496B2 (ja) 情報処理装置及びプログラム
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN113627893A (zh) 一种bom文件的解析识别方法以及电子设备
CN114743012B (zh) 一种文本识别方法及装置
KR102649429B1 (ko) 반정형 문서로부터 정보를 추출하는 방법 및 시스템
EP4273736A1 (en) System and method for managing information present in technical documents
US11868313B1 (en) Apparatus and method for generating an article

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination