CN113627173A - 一种制造商名称识别方法、装置、电子设备及可读介质 - Google Patents

一种制造商名称识别方法、装置、电子设备及可读介质 Download PDF

Info

Publication number
CN113627173A
CN113627173A CN202110938511.8A CN202110938511A CN113627173A CN 113627173 A CN113627173 A CN 113627173A CN 202110938511 A CN202110938511 A CN 202110938511A CN 113627173 A CN113627173 A CN 113627173A
Authority
CN
China
Prior art keywords
standard
manufacturer name
element text
text
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110938511.8A
Other languages
English (en)
Inventor
林颖朝
谢国清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuncai Network Technology Co ltd
Original Assignee
Shenzhen Yuncai Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yuncai Network Technology Co ltd filed Critical Shenzhen Yuncai Network Technology Co ltd
Priority to CN202110938511.8A priority Critical patent/CN113627173A/zh
Publication of CN113627173A publication Critical patent/CN113627173A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • G06Q10/0875Itemisation or classification of parts, supplies or services, e.g. bill of materials

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Finance (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Accounting & Taxation (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)

Abstract

本申请公开了一种制造商名称识别方法、装置、电子设备及可读介质。方法包括:从物料清单文件中获取与电子元件的制造商对应的元件文本;对元件文本进行预处理,得到电子元件的元件文本;对元件文本进行分词,得到至少一个关键词;以及根据每个关键词确定电子元件的标准制造商名称。本申请提供的方案能够更精确地识别BOM文件中的制造商名称。

Description

一种制造商名称识别方法、装置、电子设备及可读介质
技术领域
本申请涉及识别技术领域,具体涉及一种制造商名称识别方法、装置、电子设备及可读介质。
背景技术
随着互联网技术的发展,越来越多的厂家开始通过互联网上的元器件采购平台来进行元器件的采购。通常厂家在进行采购时,根据自己需要的元器件的信息生成物料清单(Bill of Material,BOM)文件,将BOM文件导入元器件采购平台进行识别,从而得到所需要的元器件的购买详情。
然而,现有的元器件采购平台在通过BOM文件中元器件的制造商进行识别的时候,只有在BOM文件中的制造商名称完全无误的时候才能搜索到,若厂家在生成BOM文件前输入制造商名称时出现了格式错误或者字符错误,则无法成功进行识别,影响元器件的采购。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种制造商名称识别方法、装置、电子设备及可读介质,能够更精确地识别BOM文件中的制造商名称。
根据本申请的一个方面,提供了一种制造商名称识别方法,包括:从物料清单文件中获取与电子元件的元件文本;对所述元件文本进行预处理;对预处理后的所述元件文本进行分词,得到至少一个关键词;以及根据每个所述关键词确定所述电子元件的标准制造商名称。
在一实施例中,所述对所述元件文本进行预处理包括:对所述元件文本进行编码转换;和/或根据预设的允许字符库,将所述元件文本中的非允许字符进行替换;和/或将所述元件文本中的字母字符统一修改为大写或小写;和/或将所述元件文本中的全角字符转换为半角字符。
在一实施例中,所述对所述元件文本进行预处理包括:对所述元件文本进行编码转换;其中,所述对所述元件文本进行编码转换包括:确定所述元件文本的特征信息;将所述特征信息输入预先训练的编码识别模型中,该编码识别模型通过作为输入的样本编码的特征信息与作为输出的样本识别结果,训练得到;确定所述编码识别模型的识别结果;以及当所述识别结果为非标准编码时,对所述元件文本进行编码转换处理。
在一实施例中,所述编码识别模型通过如下方式进行训练:获取标准编码特征信息样本集和非标准编码特征信息样本集;其中,所述样本标准编码特征信息样本集中包括标准编码对应的至少一个特征信息,所述非标准编码特征信息样本集中包括非标准编码对应的至少一个特征信息;以及利用标准编码特征信息样本集和非标准编码特征信息样本集对所述编码识别模型进行训练;其中,在将所述标准编码特征信息样本集作为所述编码识别模型的输入时,将标准编码作为识别结果作为所述编码识别模型的输出;在将所述非标准编码特征信息样本集作为所述编码识别模型的输入时,将非标准编码作为识别结果作为所述编码识别模型的输出。
在一实施例中,所述对预处理后的所述元件文本进行分词,得到至少一个关键词包括:根据分词库对所述元件文本进行分词,生成至少一个词汇,其中,所述分词库中包括至少一个标准词汇,其中,所述标准词汇为用于构成标准制造商名称的词汇;将所述词汇以及与所述词汇对应的标准词汇进行相似度计算;以及将相似度大于预设阈值的词汇作为关键词。
在一实施例中,在所述得到至少一个关键词之后,所述制造商的识别方法还包括:针对每个所述关键词,执行:确定当前关键词中是否包括非标准参数字符;当所述当前关键词中包括所述非标准参数字符时,确定所述当前关键词的参数类型;根据所述参数类型对应的标准参数字符库,将所述非标准参数字符替换为标准参数字符,其中,所述标准参数字符库中包括至少一个标准参数字符对应的至少一个非标准参数字符。
在一实施例中,所述根据每个所述关键词确定所述电子元件的标准制造商名称包括:将每个所述关键词作为搜索词输入预设的标准制造商名称库中进行检索,得到至少一个检索结果,每个检索结果对应一个标准制造商名称;确定每个检索结果与所述元件文本的相似度得分;将相似度得分最高的检索结果对应的标准制造商名称作为所述电子元件的标准制造商名称。
在一实施例中,所述从物料清单文件中获取与电子元件对应的元件文本包括:获取初始物料清单文件;对所述初始物料清单文件进行解析,获取所述初始物料清单文件的目标物料清单数据;根据所述目标物料清单数据,获取所述目标物料清单数据中的列头数据以及每种电子元件的初始元件文本数据;根据所述列头数据,对所述初始元件文本数据进行清洗以及转换,生成解析元件文本数据;以及根据所述列头数据以及所述解析元件文本数据,封装成所述元件文本。
根据本申请的另一个方面,提供了一种制造商名称识别装置,包括:获取模块,用于从物料清单文件中获取与电子元件对应的元件文本;处理模块,用于对所述元件文本进行预处理,得到所述电子元件的元件文本;分词模块,用于对所述元件文本进行分词,得到至少一个关键词;以及确定模块,用于根据每个所述关键词确定所述电子元件的标准制造商名称。
根据本申请的另一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的制造商名称识别方法。
根据本申请的另一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的制造商名称识别方法。
本申请提供的一种制造商名称识别方法、装置、电子设备及计算机可读介质,从用户上传的物料清单BOM文件中获取与电子元件的制造商对应的元件文本,由于用户在生成BOM文件时输入的元件文本的格式、字体等并不统一,会对识别结果产生干扰,因此需要对元件文本进行预处理。对预处理后的元件文本进行分词,得到至少一个关键词,通过关键词确定所述电子元件的标准制造商名称。在本发明实施例中,由于用户数输入的元件文本很可能并非完全对应标准制造商名称,因此通过对用户输入的元件文本进行预处理,并对预处理得到的元件文本进行分词得到关键词,并通过关键词确定标准制造商名称。由此可见,本发明实施例提供的方案,在用户生成BOM文件时,即使在制造商对应的部分输入的并非是标准的制造商名称的元件文本,也能够通过预处理和分词将元件文本识别为标准制造商名称,从而避免因格式错误、输入错误等而导致的无法识别的问题,能够更精确地识别BOM文件中的制造商名称。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一示例性实施例提供的一种制造商名称识别方法的流程示意图。
图2是本申请一示例性实施例提供的一种编码转换方法的流程示意图。
图3是本申请一示例性实施例提供的一种编码识别模型的训练方法的流程示意图。
图4是本申请一示例性实施例提供的一种分词方法的流程示意图。
图5是本申请一示例性实施例提供的一种字符替换方法的流程示意图。
图6是本申请一示例性实施例提供的一种确定标准制造商名称的方法的流程示意图。
图7是本申请一示例性实施例提供的一种制造商名称识别装置的结构示意图。
图8是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
如图1所示,本发明一实施例提供了一种制造商名称识别方法,该方法包括以下步骤:
步骤110:从物料清单文件中获取与电子元件对应的元件文本。
具体地,物料清单BOM文件示意数据格式来描述产品结构的文件,是计算机可以识别的产品结构数据文件。BOM文件的通常以BOM表的形式出现。在BOM表中,由于在识别开始时并不清楚哪部分对应的是制造商,因此需要提取每一行或列的文本作为元件文本执行下述的步骤。
步骤120:对元件文本进行预处理。
具体地,由于用户在生成BOM表时输入的元件文本很可能与标准制造商名称并不完全相符,并且在格式、编码等维度上的错误也可能会导致BOM表无法被识别,因此需要对元件文本进行预处理,消除其它因素导致的干扰。虽然预处理后的元件文本仍无法被认为是准确的标准执照上名称,但经过预处理后,元件文本中不会存在会对识别结果产生干扰的因素,方便进行后续处理。
步骤130:对预处理后的元件文本进行分词,得到至少一个关键词。
具体地,在清除了干扰因素后,需要对元件文本进行分词。由于用户在输入元件文本时通常输入的是非结构化数据,即一些数据结构不规则或不完整,没有预定义的数学模型,不方便用数据库二维逻辑表来表现的数据,比如说办公文档、文本、各类报表等。BOM表中的文本自然也属于非结构化数据。因此,在进行识别时,需要将元件文本进行分词,得到至少一个关键词。每个关键词,表征构成一个标准制造商名称的要素或性质的词语。比如,需要识别的是电子元件制造商,关键词可能包括电子元件、制造等词汇。
步骤140:根据每个关键词确定电子元件的标准制造商名称。
具体地,在识别出多个关键词之后,这些关键词即为用户需要查找的制造商的标准制造商名称的构成要素,因此,根据这些关键词进行识别,能够确定电子元件的标准制造商名称。
在本发明一实施例中,对元件文本进行预处理可以包括:对元件文本进行编码转换。
具体地,BOM表中文本通常是基于多语言文本库来实现的,多语言文本库包含了多国语言对应的文本。不同国家的语言往往编码格式不同,例如有UTF-8、UTF-16以及GBK2312等。在进行文本输入的过程中,很容易造成编码混乱。如果一条文本中包含有多种编码,那么在进行识别到时候会导致识别失败。因此,对元件文本进行编码转换,比如从GBK2312转换为UTF-8(因为UTF-8为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码),将元件文本的编码进行统一。
在本发明一实施例中,对元件文本进行预处理可以包括:根据预设的允许字符库,将元件文本中的非允许字符进行替换。
具体地,BOM表中的元件文本中一般会存在干扰字符或者很多不可见字符,这些字符会对分析结果产生干扰。详细来说,在数据处理时有一些是不需要的数据,比如文本中的句号、问号、感叹号等特殊字符,这些字符可以被看做是非允许字符;需要保留的是字母和数字,这些字符可以被看做是允许字符。为了替换这些非允许字符,减少对分析结果的干扰,可以通过正则表达式来将这些非允许字符进行替换。比如,用正则匹配小写“a”到“z”以及大写“A”到“Z”以及数字“0”到“9”的范围(该范围即为允许字符库)之外的所有字符并用空格代替。这个方法无需指定所有标点符号。当然,也可以采用其他正则表达式正则匹配所有非a-z、A-Z和0-9的字符,并将其替换为空格。
在本发明一实施例中,对元件文本进行预处理可以包括:将元件文本中的字母字符统一修改为大写或小写。
具体地,在英文中,所有句子的第一个单词的首字母一般是大写,有的单词也会全部字母都大写用于表示强调和区分风格,这样更易于人类理解表达的意思。但是计算机在进行识别的时候,无法进行区别。比如“WORD”“word”“Word”这三个词对于计算机来说是无法区分的。因此,将元件文本中所有的字母都统一替换为大写或小写,便于进行识别。
在本发明一实施例中,对元件文本进行预处理可以包括:将元件文本中的全角字符转换为半角字符。
具体地,半角字符为一字符占用一个标准的字符位置,通常的英文字母、数字键、符号键都是半角字符。汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。在计算机内部,英文字母、数字键、符号键都是作为基本代码处理的,所以用户输入命令和参数时一般都使用半角。一般的系统命令是不用全角字符的,只是在作文字处理时才会使用全角字符。因此,当元件文本以字母、数字为主时,需要将元件文本中的全角字符转换为半角字符。
在本发明一实施例中,对元件文本进行预处理包括:对元件文本进行编码转换;如图2所示的一种编码转换方法的流程示意图,对元件文本进行编码转换可以包括以下步骤:
步骤210:确定元件文本的特征信息。
具体地,每种文本的编码方式都有其各自的特征,即使是同样的文本,也可能在编码上有所不同,可能是GBK2312,也可能是UTF-8。在进行编码转换之前需要首先确认元件文本的特征信息,通过特征信息进行后续的处理。
步骤220:将特征信息输入预先训练的编码识别模型中,该编码识别模型通过作为输入的样本编码的特征信息与作为输出的样本识别结果,训练得到。
具体地,将元件文本的特征信息输入预先训练的编码识别模型中,由于编码识别模型通过作为输入的样本编码的特征信息与作为输出的样本识别结果训练得到,因此编码识别模型能够根据元件文本的特征信息来进行识别,确定元件文本的编码类型。
步骤230:确定编码识别模型的识别结果。
步骤240:当识别结果为非标准编码时,对元件文本进行编码转换处理。
具体地,举例来说,当元件文本的识别结果为当标准编码为GBK2312,标准编码为UTF-8时,确定元件文本的编码类型为非标准编码。由于使用非标准编码的元件文本进行识别,会出现乱码的情况,因此需要对元件文本进行编码转换处理,将其编码类型转换为标准编码UTF-8。
如图3所示,本发明一实施例提供了一种编码识别模型的训练方法,该方法可以包括以下步骤:
步骤310:获取标准编码特征信息样本集和非标准编码特征信息样本集;其中,样本标准编码特征信息样本集中包括标准编码对应的至少一个特征信息,非标准编码特征信息样本集中包括非标准编码对应的至少一个特征信息。
步骤320:利用标准编码特征信息样本集和非标准编码特征信息样本集对编码识别模型进行训练;其中,在将标准编码特征信息样本集作为编码识别模型的输入时,将标准编码作为识别结果作为编码识别模型的输出;在将非标准编码特征信息样本集作为编码识别模型的输入时,将非标准编码作为识别结果作为编码识别模型的输出。
具体地,编码识别模型是通过将标准编码特征信息样本集和非标准编码特征信息样本集通过机器学习的方法进行训练,其目的是生成一个具有识别目标能力的编码识别模型;本发明实施例中采用的是CART分类树算法对数据集进行训练;以CART(ClassificationAnd Regression Tree)决策树作为机器学习方法,即误差函数为基尼系数的决策树算法为例,应当理解本发明实施例还可以应用深度神经网络(Deep Neural Networks,DNN)、支持向量机(Support Vector Machine,SVM)等其他机器学习算法。
CART分类树算法的流程包括:
采集大量特征信息样本集,对每个特征向量标记其类别,例如,标准编码特征信息标记为1,非标准编码特征信息标记为-1;将标记好类别的特征信息随机划分为验证集和训练集。
本申请实施例中,可以令训练集占90%,验证集占10%。
本实施例中,采用CART决策树生成算法对训练集进行训练,生成CART决策树。
根据验证集采用决策树后剪枝算法决策树进行后剪枝,得到编码识别模型。
具体的,对生成的CART决策树进行后剪枝(Postpruning)处理,提高其泛化(Generalization)能力,所得到的剪枝后的决策树即为编码识别模型。
应当理解的是,本实施例中采用了CART决策树及后剪枝处理作为编码识别模型的训练方法,前述步骤中需要预留一定比例的验证集。在其他实施例中,如采用深度神经网络(DeepNeural Networks,DNN)、支持向量机(Support Vector Machine,SVM)等其他机器学习算法,可能将验证集在训练过程中用作其他处理来降低泛化误差或不需要留验证集。
如图4所示,本发明一实施例提供了一种分词方法,具体地,分词方法用于对元件文本进行分词,得到至少一个关键词。该方法可以包括以下步骤:
步骤410:根据分词库对元件文本进行分词,生成至少一个词汇,其中,分词库中包括至少一个标准词汇,其中,标准词汇为用于构成标准制造商名称的词汇。
具体地,预先根据多个标准词汇生成分词库,每个标准词汇为用于构成标准制造商名称的词汇。若以完整的元件文本进行搜索,则只有当搜索结果完全与元件文本相同才会被检索到。进行分词后,将一个完整且较长的名称,根据分词库切分成一个一个单独的词汇。在搜索时,只要包含其中一个词汇就能被检索到,从而能够更好地体现用户搜索的内容和意图,将更符合用户需求的内容展现出来。
步骤420:将词汇以及与词汇对应的标准词汇进行相似度计算。
具体地,由于用户在生成BOM表时输入的文本可能并非为标准词汇,因此,需要将元件文本中通过分词得到的多个词语进行筛选,确定哪些词汇与标准词汇较为接近或者属于标准词汇,通过这些词汇进行检索。由于在检索时,每个词汇可能包含多个语素,因此在筛选时,需要对每个词汇与标准词汇进行相似度计算。相似度计算可以包括多个参考条件,比如与词汇的重合字数、语义的相近程度等等。可以针对每个条件设置不同的权重,通过加权求和的方式来计算每个词汇与标准词汇的相似度得分。
步骤430:将相似度大于预设阈值的词汇作为关键词。
具体地,由于元件文本分词后的词汇并非全部对应标准制造商名称,因此在进行相似度计算后,相似度大于预设阈值的词汇可以被认为是接近或属于构成标准制造商名称的词汇。因此,将这些词汇筛选出来,即确定关键词,对关键词进行搜索能够获得与元件文本对应的标准制造商名称。
如图5所示,本发明一实施例提供了一种字符替换方法,在得到至少一个关键词后,针对每个关键词可以执行以下步骤:
步骤510:确定当前关键词中是否包括非标准参数字符。
具体地,用户在输入元件文本时,会根据口头习惯或者习惯书写的符号来进行参数的填写,而并非行业特定的写法。比如电阻的阻值为1欧姆,在填写的时候可能会写成1r,而不是1Ω。此时,字母r即为非标准参数字符。虽然用户能够分辨出1r表示的是电阻阻值1欧姆,但计算机无法理分辨出该含义。
步骤520:当前关键词中包括非标准参数字符时,确定当前关键词的参数类型。
具体地,如前文所述,在发现当前关键词中包括非标准参数字符时,确定该非标准参数字符表示的参数类型,比如,c可能表示的是电容,r可能表示的是电阻,等等。
步骤530:根据参数类型对应的标准参数字符库,将非标准参数字符替换为标准参数字符,其中,标准参数字符库中包括至少一个标准参数字符对应的至少一个非标准参数字符。
举例来说,当参数类型为电阻时,将r、R等非标准参数字符对应的电阻参数类型的标准参数字符为Ω,将当前关键词中的r或R替换为Ω。其它的诸如将电容参数类型的当前关键词中的c或C替换为F等。
如图6所示,本发明一实施例提供了一种确定标准制造商名称的方法,该方法可以包括以下步骤:
步骤610:将每个关键词作为搜索词输入预设的标准制造商名称库中进行检索,得到至少一个检索结果,每个检索结果对应一个标准制造商名称。
具体地,每个关键词作为搜索条件,在预设的标准制造商名称库中进行检索,只要一标准制造商名称中包括任一关键词,该标准制造商即可作为检索结果。
步骤620:确定每个检索结果与元件文本的相似度得分。
具体地,由于在多个关键词作为检索词进行检索,因此检索结果有可能有多个,需要从这些检索结果中确定与元件文本最为接近的一个标准制造商名称,因此需要对每个检索结果进行相似度计算。相似度计算可以包括多个维度,比如包含关键词的数量,关键词以外的字符数量等维度。可以根据每个维度重要程度的不同,设置不同的权重,通过加权求和的方式计算每个检索结果与元件文本的相似度得分。
步骤630:将相似度得分最高的检索结果对应的标准制造商名称作为电子元件对应的标准制造商名称。
具体地,由于需要选择与元件文本最为接近的标准制造商名称,因此相似度得分最高的标准制造商名称作为元件文本的标准制造商名称。此外,相似度得分还可以设置一个阈值,在进行标准制造商名称的筛选步骤时,可以仅将相似度得分超过该阈值的标准制造商名称作为筛选目标。若所有检索结果的相似度得分均低于该阈值,则说明该元件文本并非对应于制造商名称,对BOM表中的其它元件文本重复上述步骤,直至找到对应的标准制造商名称。
在本发明一实施例中,从物料清单文件中获取与电子元件对应的元件文本包括:
获取初始物料清单文件;
对初始物料清单文件进行解析,获取初始物料清单文件的目标物料清单数据;
根据目标物料清单数据,获取目标物料清单数据中的列头数据以及每种电子元件的初始元件文本数据;
根据列头数据,对初始元件文本数据进行清洗以及转换,生成解析元件文本数据;以及
根据列头数据以及解析元件文本数据,封装成元件文本。
具体地,BOM文件就是以数据格式来描述产品结构的文件,是计算机可以识别的数据文件,也是电子制造供应链企业联系与沟通主要业务的纽带。初始BOM文件为系统所识别到的客户上传的原始BOM文件,其数据内容、格式等不尽相同,系统只有在获取得到初始BOM文件后,才能进行后续的解析识别过程,便于将各种各样的BOM文件进行格式的统一以及错漏的纠正。
BOM(即物料清单)数据指的是BOM文件中用于表示电子元件物料信息的数据,目标BOM数据为进行了格式的统一以及错误的纠正后得到的BOM数据。在BOM数据进行了格式统一以及错误纠正后,系统得以更加准确地识别出电子元器件的物料信息,进而对所需电子元件进行更加准确的报价,降低出现错误报价的概率。
列头数据指的是每列BOM数据的开头数据;电子元件即电子元器件的简称,其初始元件文本数据指的是未经清洗转换,只是进行了格式的统一以及初步纠错后的用以表示电子元件信息的初始数据。由于列头数据包含了其所在列的信息的种类,先识别列头数据,更加有利于对整列数据进行归类以及清洗。
解析元件文本数据为对初始元件文本数据进行清洗转换后的元件文本数据。由于不同公司的BOM表格式不一,人工输入又难以避免会出现错漏,因此,预先清洗数据并进行格式的转化统一,便于系统更加准确地识别物料信息,进而准确报价。而整个解析识别过程由系统进行,无需人力,节省人力成本的同时,再次避免了因工作人员疲劳或经验不足等原因出现的二次错误情况,且识别效率更高。
解析元件文本数据即为经过了数据的清洗以及转换后的元件文本数据。在获取到列头数据和解析后的元件文本数据后,输出为解析元件文本数据的形式,并封装成自定义的JSON数据进行传递,便于后续系统对其进行报价操作。需要说明的是,此处的解析元件文本数据可以为文件、字符串、数据等多种形式,在日常操作本申请不对解析元件文本数据的具体格式作出限定。
如图7所示,本发明一实施例提供了一种制造商名称识别装置,包括:
获取模块710,用于从物料清单文件中获取与电子元件对应的元件文本。
预处理模块720,用于对元件文本进行预处理。
分词模块730,用于对预处理后的元件文本进行分词,得到至少一个关键词。
确定模块740,用于根据每个关键词确定电子元件的标准制造商名称。
在本发明一实施例中,处理模块720在执行对元件文本进行预处理时,具体执行:
对元件文本进行编码转换;和/或
根据预设的允许字符库,将元件文本中的非允许字符进行替换;和/或
将元件文本中的字母字符统一修改为大写或小写;和/或
将元件文本中的全角字符转换为半角字符。
如图7所示,在本发明一实施例中,处理模块720可以包括:
特征确定单元721,用于确定元件文本的特征信息.
输入单元722,用于将特征信息输入预先训练的编码识别模型中,该编码识别模型通过作为输入的样本编码的特征信息与作为输出的样本识别结果,训练得到。
结果确定单元723,用于确定编码识别模型的识别结果。
转换单元724,用于当识别结果为非标准编码时,对元件文本进行编码转换处理。
如图7所示,在本发明一实施例中,分词模块730可以包括:
划分单元731,用于根据分词库对元件文本进行分词,生成至少一个词汇,其中,分词库中包括至少一个标准词汇,其中,标准词汇为用于构成标准制造商名称的词汇。
第一计算单元732,用于将词汇以及与词汇对应的标准词汇进行相似度计算。
相似度确定单元733,用于将相似度大于预设阈值的词汇作为关键词。
在本发明一实施例中,分词模块730还用于针对每个关键词,执行:确定当前关键词中是否包括非标准参数字符;当前关键词中包括非标准参数字符时,确定当前关键词的参数类型;根据参数类型对应的标准参数字符库,将非标准参数字符替换为标准参数字符,其中,标准参数字符库中包括至少一个标准参数字符对应的至少一个非标准参数字符。
如图7所示,在本发明一实施例中,确定模块740可以包括:
检索单元741,用于将每个关键词作为搜索词输入预设的标准制造商名称库中进行检索,得到至少一个检索结果,每个检索结果对应一个标准制造商名称;
第二计算单元742,用于确定每个检索结果与元件文本的相似度得分;
名称确定单元743,用于将相似度得分最高的检索结果对应的标准制造商名称作为元件文本对应的标准制造商名称。
下面,参考图8来描述根据本申请实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图8图示了根据本申请实施例的电子设备的框图。
如图8所示,电子设备80包括一个或多个处理器81和存储器82。
处理器81可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备80中的其他组件以执行期望的功能。
存储器82可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器81可以运行所述程序指令,以实现上文所述的本申请的各个实施例的制造商名称识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备80还可以包括:输入装置83和输出装置84,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
在该电子设备是单机设备时,该输入装置83可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
此外,该输入装置83还可以包括例如键盘、鼠标等等。
该输出装置84可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置84可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出装置等等。
当然,为了简化,图8中仅示出了该电子设备80中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备80还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的制造商名称识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的制造商名称识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (11)

1.一种制造商名称识别方法,其特征在于,包括:
从物料清单文件中获取与电子元件对应的元件文本;
对所述元件文本进行预处理;
对预处理后的所述元件文本进行分词,得到至少一个关键词;以及
根据每个所述关键词确定所述电子元件的标准制造商名称。
2.根据权利要求1所述的制造商名称识别方法,其特征在于,所述对所述元件文本进行预处理包括:
对所述元件文本进行编码转换;和/或
根据预设的允许字符库,将所述元件文本中的非允许字符进行替换;和/或
将所述元件文本中的字母字符统一修改为大写或小写;和/或
将所述元件文本中的全角字符转换为半角字符。
3.根据权利要求2所述的制造商名称识别方法,其特征在于,所述对所述元件文本进行预处理包括:
对所述元件文本进行编码转换;
其中,所述对所述元件文本进行编码转换包括:
确定所述元件文本的特征信息;
将所述特征信息输入预先训练的编码识别模型中,该编码识别模型通过作为输入的样本编码的特征信息与作为输出的样本识别结果,训练得到;
确定所述编码识别模型的识别结果;以及
当所述识别结果为非标准编码时,对所述元件文本进行编码转换处理。
4.根据权利要求3所述的制造商名称识别方法,其特征在于,所述编码识别模型通过如下方式进行训练:
获取标准编码特征信息样本集和非标准编码特征信息样本集;其中,所述样本标准编码特征信息样本集中包括标准编码对应的至少一个特征信息,所述非标准编码特征信息样本集中包括非标准编码对应的至少一个特征信息;以及
利用标准编码特征信息样本集和非标准编码特征信息样本集对所述编码识别模型进行训练;其中,在将所述标准编码特征信息样本集作为所述编码识别模型的输入时,将标准编码作为识别结果作为所述编码识别模型的输出;在将所述非标准编码特征信息样本集作为所述编码识别模型的输入时,将非标准编码作为识别结果作为所述编码识别模型的输出。
5.根据权利要求1所述的制造商名称识别方法,其特征在于,所述对预处理后的所述元件文本进行分词,得到至少一个关键词包括:
根据分词库对所述元件文本进行分词,生成至少一个词汇,其中,所述分词库中包括至少一个标准词汇,其中,所述标准词汇为用于构成标准制造商名称的词汇;
将所述词汇以及与所述词汇对应的标准词汇进行相似度计算;以及
将相似度大于预设阈值的词汇作为关键词。
6.根据权利要求1所述的制造商名称识别方法,其特征在于,在所述得到至少一个关键词之后,所述制造商的识别方法还包括:
针对每个所述关键词,执行:
确定当前关键词中是否包括非标准参数字符;
当所述当前关键词中包括所述非标准参数字符时,确定所述当前关键词的参数类型;
根据所述参数类型对应的标准参数字符库,将所述非标准参数字符替换为标准参数字符,其中,所述标准参数字符库中包括至少一个标准参数字符对应的至少一个非标准参数字符。
7.根据权利要求1所述的制造商名称识别方法,其特征在于,所述根据每个所述关键词确定所述电子元件的标准制造商名称包括:
将每个所述关键词作为搜索词输入预设的标准制造商名称库中进行检索,得到至少一个检索结果,每个检索结果对应一个标准制造商名称;
确定每个检索结果与所述元件文本的相似度得分;
将相似度得分最高的检索结果对应的标准制造商名称作为所述电子元件的标准制造商名称。
8.根据权利要求1所述的制造商名称识别方法,其特征在于,所述从物料清单文件中获取与电子元件对应的元件文本包括:
获取初始物料清单文件;
对所述初始物料清单文件进行解析,获取所述初始物料清单文件的目标物料清单数据;
根据所述目标物料清单数据,获取所述目标物料清单数据中的列头数据以及每种电子元件的初始元件文本数据;
根据所述列头数据,对所述初始元件文本数据进行清洗以及转换,生成解析元件文本数据;以及
根据所述列头数据以及所述解析元件文本数据,封装成所述元件文本。
9.一种制造商名称识别装置,其特征在于,包括:
获取模块,用于从物料清单文件中获取与电子元件对应的元件文本;
预处理模块,用于对所述元件文本进行预处理;
分词模块,用于对预处理后的所述元件文本进行分词,得到至少一个关键词;以及
确定模块,用于根据每个所述关键词确定所述电子元件的标准制造商名称。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的制造商名称识别方法。
11.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-8任一所述的制造商名称识别方法。
CN202110938511.8A 2021-08-16 2021-08-16 一种制造商名称识别方法、装置、电子设备及可读介质 Pending CN113627173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110938511.8A CN113627173A (zh) 2021-08-16 2021-08-16 一种制造商名称识别方法、装置、电子设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110938511.8A CN113627173A (zh) 2021-08-16 2021-08-16 一种制造商名称识别方法、装置、电子设备及可读介质

Publications (1)

Publication Number Publication Date
CN113627173A true CN113627173A (zh) 2021-11-09

Family

ID=78385876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110938511.8A Pending CN113627173A (zh) 2021-08-16 2021-08-16 一种制造商名称识别方法、装置、电子设备及可读介质

Country Status (1)

Country Link
CN (1) CN113627173A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022086A (zh) * 2022-01-06 2022-02-08 深圳前海硬之城信息技术有限公司 基于bom识别的采购方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093336A1 (en) * 2002-05-06 2004-05-13 Jinsong Hu Computer program method and apparatus to recognize and normalize data pattern based information
CN106570668A (zh) * 2016-11-02 2017-04-19 深圳效率科技有限公司 一种物料清单的信息整理方法及装置
CN108197087A (zh) * 2018-01-18 2018-06-22 北京奇安信科技有限公司 字符编码识别方法及装置
CN108287843A (zh) * 2017-01-09 2018-07-17 北京四维图新科技股份有限公司 一种兴趣点信息检索的方法和装置、及导航设备
CN109817217A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 基于语音识别的自助贩卖方法、装置、设备及介质
CN110033206A (zh) * 2018-01-11 2019-07-19 国科赛思(北京)科技有限公司 物料清单自动校核方法及装置
CN112668280A (zh) * 2020-12-29 2021-04-16 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093336A1 (en) * 2002-05-06 2004-05-13 Jinsong Hu Computer program method and apparatus to recognize and normalize data pattern based information
CN106570668A (zh) * 2016-11-02 2017-04-19 深圳效率科技有限公司 一种物料清单的信息整理方法及装置
CN108287843A (zh) * 2017-01-09 2018-07-17 北京四维图新科技股份有限公司 一种兴趣点信息检索的方法和装置、及导航设备
CN110033206A (zh) * 2018-01-11 2019-07-19 国科赛思(北京)科技有限公司 物料清单自动校核方法及装置
CN108197087A (zh) * 2018-01-18 2018-06-22 北京奇安信科技有限公司 字符编码识别方法及装置
CN109817217A (zh) * 2019-01-17 2019-05-28 深圳壹账通智能科技有限公司 基于语音识别的自助贩卖方法、装置、设备及介质
CN112668280A (zh) * 2020-12-29 2021-04-16 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022086A (zh) * 2022-01-06 2022-02-08 深圳前海硬之城信息技术有限公司 基于bom识别的采购方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
AU2019219746A1 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN110597964A (zh) 一种双录质检语义分析方法、装置及双录质检系统
AU2022305355A1 (en) Ai-augmented auditing platform including techniques for automated document processing
EP2671190B1 (en) System for data extraction and processing
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
CN113627168A (zh) 一种元器件封装冲突的检查方法、装置、介质及设备
CN112052305A (zh) 信息提取方法、装置、计算机设备及可读存储介质
US20230028664A1 (en) System and method for automatically tagging documents
CN113626561A (zh) 一种元器件的型号识别方法、装置、介质和设备
Kayal et al. Tables to LaTeX: structure and content extraction from scientific tables
CN113627173A (zh) 一种制造商名称识别方法、装置、电子设备及可读介质
CN113807807A (zh) 一种元器件参数识别方法、装置、电子设备及可读介质
US20230289529A1 (en) Detecting the tone of text
CN110555212A (zh) 基于自然语言处理的文档校验方法、装置和电子设备
CN114254109B (zh) 用于确定行业类别的方法及装置
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
KR102363958B1 (ko) 이중 클러스터링 기반 소비자 인식 분석 방법, 장치 및 프로그램
CN113515587A (zh) 一种标的物信息提取方法、装置、计算机设备及存储介质
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
CN113536802A (zh) 小语种文本数据的情感判别方法、装置、设备和存储介质
CN114743012B (zh) 一种文本识别方法及装置
US11868313B1 (en) Apparatus and method for generating an article
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination