CN113221548A - 基于机器学习的bom表识别方法、装置、计算机设备及介质 - Google Patents

基于机器学习的bom表识别方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN113221548A
CN113221548A CN202110356881.0A CN202110356881A CN113221548A CN 113221548 A CN113221548 A CN 113221548A CN 202110356881 A CN202110356881 A CN 202110356881A CN 113221548 A CN113221548 A CN 113221548A
Authority
CN
China
Prior art keywords
identified
bom
machine learning
bom table
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110356881.0A
Other languages
English (en)
Inventor
常江
熊斌
李成刚
陈森彬
杨树贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Liexin Technology Co ltd
Original Assignee
Shenzhen Liexin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Liexin Technology Co ltd filed Critical Shenzhen Liexin Technology Co ltd
Priority to CN202110356881.0A priority Critical patent/CN113221548A/zh
Publication of CN113221548A publication Critical patent/CN113221548A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种基于机器学习的BOM表识别方法,通过使用Python平台的机器学习包scikit‑learn构建目标识别模型;获取待识别BOM表,对待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;将待识别特征数据作为目标识别模型的输入进行识别,确定待识别特征项的特征类型,实现了对BOM表的自动化识别,无需用户参与,同时由于是采用机器学习的算法识别BOM表,能够应用于不同应用场景的BOM表,具有广泛适用性。此外,还提出了一种基于机器学习的BOM表识别装置、计算机设备及介质。

Description

基于机器学习的BOM表识别方法、装置、计算机设备及介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于机器学习的BOM表识别方法、装置、计算机设备及介质。
背景技术
BOM(Bill of Material)物料清单,是以数据格式来描述产品结构的文件,实际生产中BOM不仅仅是零件和物料的简单集合,还可以包含零部件所有有价值的属性信息,例如,关于电子元器件的BOM中,电子元器件的图号、装配要求、质量标准、供应商数据、公差规范、定价数据、订购数量等。作为存储物料信息的工具,需要快速从物料清单中查找到需要的信息,因此,需要提供一种BOM表识别方法。由于不同行业的产品结构和制造方式千差万别,且用户在列好自己想要的元器件清单后,不同用户的书写行为、排版格式等都不一样,在处理用户上传的BOM表的过程中,需要通过人工介入,BOM表的快速准确识别存在一定的难度。
目前行业所采用的数据库匹配和字符串匹配的方式对BOM表进行识别,虽然在比较标准的模板BOM下能获得较为精确的结果,但是在应对一些格式不够规范的BOM表单时会束手无策,并且对于类似元器件的参数型号数据上千万乃至亿级别的数据量时,用数据库匹配不仅无法穷尽所有参数型号,而且数据量过大会导致识别耗时,影响BOM表的识别效率。
发明内容
基于此,有必要针对上述问题,提出一种能够提高BOM表识别效率的基于机器学习的BOM表识别方法、装置、计算机设备及介质。
一种基于机器学习的BOM表识别方法,所述方法包括:
使用Python平台的机器学习包scikit-learn构建目标识别模型;
获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;
将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。
一种基于机器学习的BOM表识别装置,所述装置包括:
模型构建模块,用于使用Python平台的机器学习包scikit-learn构建目标识别模型;
特征提取模块,用于获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;
识别模块,用于将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
使用Python平台的机器学习包scikit-learn构建目标识别模型;
获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;
将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。
一种计算机可读介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
使用Python平台的机器学习包scikit-learn构建目标识别模型;
获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;
将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。
上述基于机器学习的BOM表识别方法、系统、计算机设备及介质,通过使用Python平台的机器学习包scikit-learn构建目标识别模型;获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型,通过对BOM表进行分析处理,确定对应的特征及特征数据,利用基于机器学习的识别模型进行识别,实现了对BOM表的自动化且高效识别,提高了BOM表的识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中基于机器学习的BOM表识别方法的流程图;
图2为一个实施例中电子元器件的待识别BOM表的示意图;
图3为一个实施例中待识别特征项提取方法的流程图;
图4为另一个实施例中待识别特征项提取方法的流程图;
图5为一个实施例中目标识别模型构建方法的流程图;
图6为另一个实施例中目标识别模型构建方法的流程图;
图7为一个实施例中基于机器学习的BOM表识别装置的结构框图;
图8为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,在一个实施例中,提供了一种基于机器学习的BOM表识别方法,该基于机器学习的BOM表识别方法既可以应用于终端,也可以应用于服务器,本实施例以应用于服务器举例说明。基于机器学习的BOM表识别方法具体包括以下步骤:
步骤102,使用Python平台的机器学习包scikit-learn构建目标识别模型。
其中,Python平台的机器学习包scikit-learn是一个Python第三方提供的非常强力的机器学习库,它包含了从数据预处理到训练模型的各个方面,通过利用该机器学习包,可以极大的减少模型的代码编写。目标识别模型是值用于对BOM表中的数据进行分类识别的机器学习分类器。使用Python平台的机器学习包scikit-learn构建目标识别模型的具体方法为:利用少量数据先行训练出识别模型,再用模型去预测类型,基于预测结果对识别模型进行优化调整,得到该目标识别模型。
步骤104,获取待识别BOM表,对待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据。
其中,待识别BOM表是指用户上传至服务器的数据表格。特征项是指BOM的字段。以电子元器件的BOM表为例,如图2所示,为电子元器件的待识别BOM表的示意图,其中的特征项可以是电子元器件的型号、参数、封装、位号、序号及数量等。在实际应用中,若用户需要查找多种型号的电子元器件时,为了保证查找的准确性和全面性,需要对待识别BOM表进行特征提取,获取到待识别特征项及对应的待识别特征数据,从而可以针对待识别特征性准确查找数据,提高后续的查找识别率。具体地,可以利用处理与分析工具pandas对待识别BOM表进行分析处理,实现待识别BOM表的特征提取,得到多个待识别特征项及对应的待识别特征数据。
值得说明的是,在实际应用中,可能存在待识别BOM表中存在干扰数据,为了进一步提高特征提取效率,可以对待识别BOM表进行预处理,如数据清洗等。
步骤106,将待识别特征数据作为目标识别模型的输入进行识别,确定待识别特征项的特征类型。
其中,特征类型是指用户需要获取到目标数据,继续以电子元器件的BOM表为例,当待识别特征项为参数,且对应的待识别特征数据为“RES,0603,10Ω±5%,1/10W”,待识别特征项的特征类型为型号为“RC0603JR-0710RL”、“CRCW060310K0JNEA”、“CR0603-JW-472ELF”的电阻。具体地,在确定了待识别特征数据后,将该待识别特征数据输入到目标识别模型进行识别,从而实现了对BOM表的自动化识别,无需用户参与,同时由于是采用机器学习的算法识别BOM表,能够应用于不同应用场景的BOM表,具有广泛适用性。
上述基于机器学习的BOM表识别方法,通过使用Python平台的机器学习包scikit-learn构建目标识别模型;获取待识别BOM表,对待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;将待识别特征数据作为目标识别模型的输入进行识别,确定待识别特征项的特征类型,实现了对BOM表的自动化识别,无需用户参与,同时由于是采用机器学习的算法识别BOM表,能够应用于不同应用场景的BOM表,具有广泛适用性。
如图3所示,在一个实施例中,对待识别BOM表进行特征提取,得到多个待识别特征项,包括:
步骤104A,利用tf-idf关键词提取方法提取待识别BOM表的初始关键词;
步骤104B,通过Python平台的分词器对关键词进行分词处理,得到目标关键词;
步骤104C,基于目标关键词确定待识别特征项。
在这个实施例中,通过tf-idf(term frequency–inverse document frequency,词频-逆向文件频率),对待识别BOM表中的每个数据进行评估,即对每个数据打分,这样每个数据都获得一个评估值,又称为权值。获取所有数据的权值,权值越大,该数据的关键程度越大,因此,提取出权值超过预设权值范围的数据作为初始关键词,然后通过Python平台的分词器,例如用char类型作为analyzer进行分词处理,得到目标关键词,最后基于目标关键词和预设的目标特征数据记性匹配,确定待识别特征项,可以理解地,通过对待识别BOM表进行特征提取,实现了对待识别BOM表的数据的分析和处理,以便后续基于该待识别特征项进行准确识别,提高BOM表的识别效率。
如图4所示,在一个实施例中,基于目标关键词确定待识别特征项,包括:
步骤104C1,利用正则表达式对目标关键词进行筛选,得到候选关键词;
步骤104C2,获取待识别BOM表的目标特征数据;
步骤104C3,计算目标特征数据与关键词的匹配度;
步骤104C4,将匹配度中满足匹配度阈值的候选关键词确定为待识别特征项。
在这个实施例中,通过正则表达式对目标关键词进行筛选,得到候选关键词,以加快提取到有效的部分数据的进程,继续以图2为例,通过正则表达式/\d{1,}/可以快速定位到数量的特征项,获取待识别BOM表的目标特征数据,例如,待识别BOM中预先存储的电阻的型号数据,接着,利用字符串匹配方法计算目标特征数据与关键词的匹配度,最后,将匹配度中满足匹配度阈值的候选关键词确定为待识别特征项,实现了对待识别特征项的准确提取。
在一个实施例中,在利用tf-idf关键词提取方法提取待识别BOM表的初始关键词之前,还包括:
对待识别BOM表进行预处理,预处理包括数据清洗、分词、或者数据格式转换中的至少一种。
具体地,对待识别BOM表进行数据清洗、分析或者数据格式转换,实现了对待识别BOM表的的数据挖掘和分析,使得预处理后的待识别BOM表的数据更加准确且具有针对性,进而提高后续的识别效率。
如图5所示,在一个实施例中,使用Python平台的机器学习包scikit-learn构建目标识别模型,包括:
步骤102A,获取样本BOM表,从样本BOM表中提取样本集,样本集包括多个样本特征项及对应的样本特征数据,样本特征数据标注了对应的特征类型;
步骤102B,将样本集按照预设比例切分为训练集和验证集;
步骤102C,根据训练集和验证集,利用机器学习包scikit-learn中的估计器进行预测,确定目标识别模型。
在这个实施例中,首先获取获取样本BOM表,从样本BOM表中提取样本集,多个样本特征项及对应的样本特征数据,且样本特征数据标注了对应的特征类型,其中的样本特征项的提取方法与步骤102中的待识别特征项提取方法一致,此处不作赘述。然后,将样本集按照预设比例切分为训练集和验证集,该预设的比例可以是20%、50%或者60%等。其中,机器学习包scikit-learn中的估计器是一种监督学习的预测模型,鉴于目标识别模型的输出为的监督学习的离散型数值,因此,通过利用机器学习包scikit-learn中的估计器进行训练和预测,从而确定目标识别模型,提高了目标识别模型的训练效率和生成效率,保证了目标识别模型的精确性。
如图6所示,在一个实施例中,根据训练集和验证集,利用机器学习包scikit-learn中的估计器进行预测,确定目标识别模型,包括:
步骤102C1,将训练集作为预设分类器的输入进行训练,得到第一识别模型;
步骤102C2,将验证集作为第一识别模型的输入进行验证,得到第一识别模型的准确率;
步骤102C3,基于准确率,通过网格搜索法确定第一识别模型的最佳超参数;
步骤102C4,根据最佳超参数对第一识别模型的参数进行更新,得到目标识别模型。
其中,该预设分类器可以是k近邻分类器、随机森林分类器、朴素贝叶斯分类器、决策树分类器、支持向量机或高斯过程分类器中的至少一种。具体地,将训练集作为预设分类器的输入进行训练,得到第一识别模型;利用验证集作为第一识别模型的输入进行验证,得到第一识别模型的准确率;基于准确率,通过网格搜索法确定第一识别模型的最佳超参数;根据最佳超参数对第一识别模型的参数进行更新,得到目标识别模型,使得目标识别模型的超参数为最佳超参数,大大提高了目标识别模型的识别效率。
在一个实施例中,将训练集作为预设分类器的输入进行训练,得到第一识别模型,包括:获取训练集中各个特征项对应的特征数据及权重;基于特征数据及权重进行矩阵回归计算,得到回归值;基于回归值,利用预设的激活函数进行激活,得到激活值;基于激活值,通过预设的损失函数确定损失值;利用梯度下降优化算法优化损失值,得到各个特征项的优化权重;基于预设的分类器及优化权重,生成第一识别模型。
具体地,结合训练集中各个特征项对应的特征数据及权重进行矩阵回归计算,也即矩阵点乘运算,得到回归值后,使用预设的激活函数,例如sigmoid函数进行激活,得到激活值,通过损失函数计算出损失值,然后用梯度下降优化算法优化损失值得到最终的各特征权重,各个特征项的优化权重;基于预设的分类器及优化权重,生成第一识别模型,实现了对预设分类器的优化训练,提高了第一识别模型的准确率,有利于提高对BOM表的识别效率。
如图7所示,在一个实施例中,提出了一种基于机器学习的BOM表识别装置,所述装置包括:
模型构建模块702,用于使用Python平台的机器学习包scikit-learn构建目标识别模型;
特征提取模块704,用于获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;
识别模块706,用于将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。
在一个实施例中,特征提取模块包括:
提取子模块,用于利用tf-idf关键词提取方法提取所述待识别BOM表的初始关键词;
分词子模块,用于通过Python平台的分词器对所述关键词进行分词处理,得到目标关键词;
确定子模块,用于基于所述目标关键词确定所述待识别特征项。
在一个实施例中,确定子模块包括:
利用正则表达式对所述目标关键词进行筛选,得到候选关键词;
获取单元,用于获取所述待识别BOM表的目标特征数据;
计算单元,用于计算所述目标特征数据与所述关键词的匹配度;
匹配单元,用于将所述匹配度中满足匹配度阈值的所述候选关键词确定为所述待识别特征项。
在一个实施例中,特征提取模块还包括:预处理子模块,用于对所述待识别BOM表进行预处理,所述预处理包括数据清洗、分词、或者数据格式转换中的至少一种。
在一个实施例中,模型构建模块包括:
获取子模块,用于获取样本BOM表,从所述样本BOM表中提取样本集,所述样本集包括多个样本特征项及对应的样本特征数据,所述样本特征数据标注了对应的特征类型;
切分子模块,用于将所述样本集按照预设比例切分为训练集和验证集;
预测子模块,用于根据所述训练集和所述验证集,利用所述机器学习包scikit-learn中的估计器进行预测,确定所述目标识别模型。
在一个实施例中,预测子模块包括:
训练单元,用于将所述训练集作为预设分类器的输入进行训练,得到第一识别模型;
验证单元,用于将所述验证集作为所述第一识别模型的输入进行验证,得到第一识别模型的准确率;
确定单元,用于基于所述准确率,通过网格搜索法确定所述第一识别模型的最佳超参数;
更新单元,用于根据所述最佳超参数对所述第一识别模型的参数进行更新,得到所述目标识别模型。
在一个实施例中,训练单元包括:
获取子单元,用于获取所述训练集中各个特征项对应的特征数据及权重;
计算子单元,用于基于所述特征数据及权重进行矩阵回归计算,得到回归值;
激活子单元,用于基于所述回归值,利用预设的激活函数进行激活,得到激活值;
确定子单元,用于基于所述激活值,通过预设的损失函数确定损失值;
优化子单元,用于利用梯度下降优化算法优化所述损失值,得到各个所述特征项的优化权重;
生成子单元,用于基于所述预设的分类器及所述优化权重,生成所述第一识别模型。
图8示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器,所述服务器包括但不限于高性能计算机和高性能计算机集群。如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现基于机器学习的BOM表识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行基于机器学习的BOM表识别方法。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的基于机器学习的BOM表识别方法可以实现为一种计算机程序的形式,计算机程序可在如图8所示的计算机设备上运行。计算机设备的存储器中可存储组成基于机器学习的BOM表识别装置的各个程序模板。比如,模型构建模块702,特征提取模块704,识别模块706。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:使用Python平台的机器学习包scikit-learn构建目标识别模型;获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。
在一个实施例中,对所述待识别BOM表进行特征提取,得到多个待识别特征项,包括:利用tf-idf关键词提取方法提取所述待识别BOM表的初始关键词;通过Python平台的分词器对所述关键词进行分词处理,得到目标关键词;基于所述目标关键词确定所述待识别特征项。
在一个实施例中,基于所述目标关键词确定所述待识别特征项,包括:利用正则表达式对所述目标关键词进行筛选,得到候选关键词;获取所述待识别BOM表的目标特征数据;计算所述目标特征数据与所述关键词的匹配度;将所述匹配度中满足匹配度阈值的所述候选关键词确定为所述待识别特征项。
在一个实施例中,在所述利用tf-idf关键词提取方法提取所述待识别BOM表的初始关键词之前,还包括:对所述待识别BOM表进行预处理,所述预处理包括数据清洗、分词、或者数据格式转换中的至少一种。
在一个实施例中,使用Python平台的机器学习包scikit-learn构建目标识别模型,包括:获取样本BOM表,从所述样本BOM表中提取样本集,所述样本集包括多个样本特征项及对应的样本特征数据,所述样本特征数据标注了对应的特征类型;将所述样本集按照预设比例切分为训练集和验证集;根据所述训练集和所述验证集,利用所述机器学习包scikit-learn中的估计器进行预测,确定所述目标识别模型。
在一个实施例中,根据所述训练集和所述验证集,利用所述机器学习包scikit-learn中的估计器进行预测,确定所述目标识别模型,包括:将所述训练集作为预设分类器的输入进行训练,得到第一识别模型;将所述验证集作为所述第一识别模型的输入进行验证,得到第一识别模型的准确率;基于所述准确率,通过网格搜索法确定所述第一识别模型的最佳超参数;根据所述最佳超参数对所述第一识别模型的参数进行更新,得到所述目标识别模型。
在一个实施例中,将所述训练集作为预设分类器的输入进行训练,得到第一识别模型,包括:获取所述训练集中各个特征项对应的特征数据及权重;基于所述特征数据及权重进行矩阵回归计算,得到回归值;基于所述回归值,利用预设的激活函数进行激活,得到激活值;基于所述激活值,通过预设的损失函数确定损失值;利用梯度下降优化算法优化所述损失值,得到各个所述特征项的优化权重;基于所述预设的分类器及所述优化权重,生成所述第一识别模型。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如下步骤:使用Python平台的机器学习包scikit-learn构建目标识别模型;获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。
在一个实施例中,对所述待识别BOM表进行特征提取,得到多个待识别特征项,包括:利用tf-idf关键词提取方法提取所述待识别BOM表的初始关键词;通过Python平台的分词器对所述关键词进行分词处理,得到目标关键词;基于所述目标关键词确定所述待识别特征项。
在一个实施例中,基于所述目标关键词确定所述待识别特征项,包括:利用正则表达式对所述目标关键词进行筛选,得到候选关键词;获取所述待识别BOM表的目标特征数据;计算所述目标特征数据与所述关键词的匹配度;将所述匹配度中满足匹配度阈值的所述候选关键词确定为所述待识别特征项。
在一个实施例中,在所述利用tf-idf关键词提取方法提取所述待识别BOM表的初始关键词之前,还包括:对所述待识别BOM表进行预处理,所述预处理包括数据清洗、分词、或者数据格式转换中的至少一种。
在一个实施例中,使用Python平台的机器学习包scikit-learn构建目标识别模型,包括:获取样本BOM表,从所述样本BOM表中提取样本集,所述样本集包括多个样本特征项及对应的样本特征数据,所述样本特征数据标注了对应的特征类型;将所述样本集按照预设比例切分为训练集和验证集;根据所述训练集和所述验证集,利用所述机器学习包scikit-learn中的估计器进行预测,确定所述目标识别模型。
在一个实施例中,根据所述训练集和所述验证集,利用所述机器学习包scikit-learn中的估计器进行预测,确定所述目标识别模型,包括:将所述训练集作为预设分类器的输入进行训练,得到第一识别模型;将所述验证集作为所述第一识别模型的输入进行验证,得到第一识别模型的准确率;基于所述准确率,通过网格搜索法确定所述第一识别模型的最佳超参数;根据所述最佳超参数对所述第一识别模型的参数进行更新,得到所述目标识别模型。
在一个实施例中,将所述训练集作为预设分类器的输入进行训练,得到第一识别模型,包括:获取所述训练集中各个特征项对应的特征数据及权重;基于所述特征数据及权重进行矩阵回归计算,得到回归值;基于所述回归值,利用预设的激活函数进行激活,得到激活值;基于所述激活值,通过预设的损失函数确定损失值;利用梯度下降优化算法优化所述损失值,得到各个所述特征项的优化权重;基于所述预设的分类器及所述优化权重,生成所述第一识别模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于机器学习的BOM表识别方法,其特征在于,所述方法包括:
使用Python平台的机器学习包scikit-learn构建目标识别模型;
获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;
将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。
2.根据权利要求1所述的基于机器学习的BOM表识别方法,其特征在于,所述对所述待识别BOM表进行特征提取,得到多个待识别特征项,包括:
利用tf-idf关键词提取方法提取所述待识别BOM表的初始关键词;
通过Python平台的分词器对所述关键词进行分词处理,得到目标关键词;
基于所述目标关键词确定所述待识别特征项。
3.根据权利要求2所述的基于机器学习的BOM表识别方法,其特征在于,所述基于所述目标关键词确定所述待识别特征项,包括:
利用正则表达式对所述目标关键词进行筛选,得到候选关键词;
获取所述待识别BOM表的目标特征数据;
计算所述目标特征数据与所述关键词的匹配度;
将所述匹配度中满足匹配度阈值的所述候选关键词确定为所述待识别特征项。
4.根据权利要求2所述的基于机器学习的BOM表识别方法,其特征在于,在所述利用tf-idf关键词提取方法提取所述待识别BOM表的初始关键词之前,还包括:
对所述待识别BOM表进行预处理,所述预处理包括数据清洗、分词、或者数据格式转换中的至少一种。
5.根据权利要求1所述的基于机器学习的BOM表识别方法,其特征在于,所述使用Python平台的机器学习包scikit-learn构建目标识别模型,包括:
获取样本BOM表,从所述样本BOM表中提取样本集,所述样本集包括多个样本特征项及对应的样本特征数据,所述样本特征数据标注了对应的特征类型;
将所述样本集按照预设比例切分为训练集和验证集;
根据所述训练集和所述验证集,利用所述机器学习包scikit-learn中的估计器进行预测,确定所述目标识别模型。
6.根据权利要求5所述的基于机器学习的BOM表识别方法,其特征在于,所述根据所述训练集和所述验证集,利用所述机器学习包scikit-learn中的估计器进行预测,确定所述目标识别模型,包括:
将所述训练集作为预设分类器的输入进行训练,得到第一识别模型;
将所述验证集作为所述第一识别模型的输入进行验证,得到第一识别模型的准确率;
基于所述准确率,通过网格搜索法确定所述第一识别模型的最佳超参数;
根据所述最佳超参数对所述第一识别模型的参数进行更新,得到所述目标识别模型。
7.根据权利要求5所述的基于机器学习的BOM表识别方法,其特征在于,所述将所述训练集作为预设分类器的输入进行训练,得到第一识别模型,包括:
获取所述训练集中各个特征项对应的特征数据及权重;
基于所述特征数据及权重进行矩阵回归计算,得到回归值;
基于所述回归值,利用预设的激活函数进行激活,得到激活值;
基于所述激活值,通过预设的损失函数确定损失值;
利用梯度下降优化算法优化所述损失值,得到各个所述特征项的优化权重;
基于所述预设的分类器及所述优化权重,生成所述第一识别模型。
8.一种基于机器学习的BOM表识别装置,其特征在于,所述基于机器学习的BOM表识别装置包括:
模型构建模块,用于使用Python平台的机器学习包scikit-learn构建目标识别模型;
特征提取模块,用于获取待识别BOM表,对所述待识别BOM表进行特征提取,得到多个待识别特征项及对应的待识别特征数据;
识别模块,用于将所述待识别特征数据作为所述目标识别模型的输入进行识别,确定所述待识别特征项的特征类型。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于机器学习的BOM表识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于机器学习的BOM表识别方法的步骤。
CN202110356881.0A 2021-04-01 2021-04-01 基于机器学习的bom表识别方法、装置、计算机设备及介质 Pending CN113221548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110356881.0A CN113221548A (zh) 2021-04-01 2021-04-01 基于机器学习的bom表识别方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110356881.0A CN113221548A (zh) 2021-04-01 2021-04-01 基于机器学习的bom表识别方法、装置、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN113221548A true CN113221548A (zh) 2021-08-06

Family

ID=77086343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110356881.0A Pending CN113221548A (zh) 2021-04-01 2021-04-01 基于机器学习的bom表识别方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN113221548A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627136A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种元器件推荐方法、装置及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729369A (zh) * 2012-10-15 2014-04-16 金蝶软件(中国)有限公司 自动处理撞单的方法及装置
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
US20180018579A1 (en) * 2016-07-15 2018-01-18 ROKITT Inc. Primary Key-Foriegn Key Relationship Determination Through Machine Learning
CN110472209A (zh) * 2019-07-04 2019-11-19 重庆金融资产交易所有限责任公司 基于深度学习的表格生成方法、装置和计算机设备
CN111046632A (zh) * 2019-11-29 2020-04-21 智器云南京信息科技有限公司 一种数据提取转换方法、系统、存储介质及电子设备
CN111061770A (zh) * 2019-12-27 2020-04-24 云汉芯城(上海)互联网科技股份有限公司 一种bom型号匹配装置、方法及电子设备和存储介质
CN112270615A (zh) * 2020-10-26 2021-01-26 西安邮电大学 基于语义计算的复杂装备制造bom智能分解方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729369A (zh) * 2012-10-15 2014-04-16 金蝶软件(中国)有限公司 自动处理撞单的方法及装置
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
US20180018579A1 (en) * 2016-07-15 2018-01-18 ROKITT Inc. Primary Key-Foriegn Key Relationship Determination Through Machine Learning
CN110472209A (zh) * 2019-07-04 2019-11-19 重庆金融资产交易所有限责任公司 基于深度学习的表格生成方法、装置和计算机设备
CN111046632A (zh) * 2019-11-29 2020-04-21 智器云南京信息科技有限公司 一种数据提取转换方法、系统、存储介质及电子设备
CN111061770A (zh) * 2019-12-27 2020-04-24 云汉芯城(上海)互联网科技股份有限公司 一种bom型号匹配装置、方法及电子设备和存储介质
CN112270615A (zh) * 2020-10-26 2021-01-26 西安邮电大学 基于语义计算的复杂装备制造bom智能分解方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627136A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种元器件推荐方法、装置及系统

Similar Documents

Publication Publication Date Title
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN110021439B (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
CN109063217B (zh) 电力营销系统中的工单分类方法、装置及其相关设备
CN109829629B (zh) 风险分析报告的生成方法、装置、计算机设备和存储介质
CN108491406B (zh) 信息分类方法、装置、计算机设备和存储介质
CN109783785B (zh) 生成实验检测报告的方法、装置和计算机设备
CN111460250A (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN108536815B (zh) 一种文本分类方法及装置
CN111177655B (zh) 一种数据处理方法、装置及电子设备
CN112416778A (zh) 测试用例推荐方法、装置和电子设备
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN112116168B (zh) 一种用户行为的预测方法、装置及电子设备
CN114492423A (zh) 基于特征融合及筛选的虚假评论检测方法、系统及介质
CN115374277A (zh) 评论处理模型训练、评论排序方法、装置、设备及介质
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN117056834A (zh) 基于决策树的大数据分析方法
CN112464660B (zh) 文本分类模型构建方法以及文本数据处理方法
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN113221548A (zh) 基于机器学习的bom表识别方法、装置、计算机设备及介质
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN116703328A (zh) 一种项目评审方法及系统
CN112711678A (zh) 数据解析方法、装置、设备及存储介质
CN110888977A (zh) 文本分类方法、装置、计算机设备和存储介质
CN109614489B (zh) 一种基于迁移学习和特征提取的Bug报告严重程度识别方法
CN112182218A (zh) 文本数据的分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806

RJ01 Rejection of invention patent application after publication