CN116738343A - 建筑行业物料数据识别方法、装置及电子设备 - Google Patents

建筑行业物料数据识别方法、装置及电子设备 Download PDF

Info

Publication number
CN116738343A
CN116738343A CN202310989937.5A CN202310989937A CN116738343A CN 116738343 A CN116738343 A CN 116738343A CN 202310989937 A CN202310989937 A CN 202310989937A CN 116738343 A CN116738343 A CN 116738343A
Authority
CN
China
Prior art keywords
standard
original
commodity
material data
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310989937.5A
Other languages
English (en)
Other versions
CN116738343B (zh
Inventor
张颖
程杰
李宇埌
谷满昌
涂鹏
张自平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongjian E Commerce Co ltd
Yunzhu Information Technology Chengdu Co ltd
Original Assignee
Shanghai Zhongjian E Commerce Co ltd
Yunzhu Information Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongjian E Commerce Co ltd, Yunzhu Information Technology Chengdu Co ltd filed Critical Shanghai Zhongjian E Commerce Co ltd
Priority to CN202310989937.5A priority Critical patent/CN116738343B/zh
Publication of CN116738343A publication Critical patent/CN116738343A/zh
Application granted granted Critical
Publication of CN116738343B publication Critical patent/CN116738343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据识别处理技术领域,涉及建筑行业物料数据识别方法、装置及电子设备。该方法包括:构建对物料数据分类的层级化的分类树;为商品组分配属性名称与属性值;获取原始物料数据;对原始商品组进行标注;将标注后的原始商品组逐一映射到标准商品组;建立分类预测标注样本;建立神经网络模型进行训练,得到分类预测模型;得到若干个预测标准商品组;确定预测标准商品组的标准属性;标准属性值格式转换,得到标准物料数据识别结果。本发明通过对样本的标注学习,能够对杂乱的文本型物料进行精准分析,根据原始物料数据精准匹配到对应的标准物料数据;通过分类预测模型对原始物料数据识别,过滤了无关的数据,大大提升了匹配效率。

Description

建筑行业物料数据识别方法、装置及电子设备
技术领域
本发明属于数据识别处理技术领域,具体而言,涉及建筑行业物料数据识别方法、装置及电子设备。
背景技术
建筑行业传统物料管理方法是预先维护好结构化的标准物料,在添加清单时从标准库选择适用的物料。这种方式在管理上能够确保业务过程中物料的真实性和标准化,但不利于用户使用,用户在业务过程中发现想要的物料不存在,需管理人员先完成标准维护后才能使用,或者让用户自己通过结构化规则创建临时商品使用。这种模式很大程度上影响了采购效率,所以业务中用的更多的方式是将线下维护的Excel在添加清单时直接导入系统,这种方式能够快速实现清单添加,但又因为表格导入的物料规格不一、型号各异,又无法和标准物料关联,导致难以对这些数据进行统计分析。
当前一些大型企业都有一些物料识别算法,通过对文本型物料进行分析后匹配到标准物料。其核心模型是对文本型物料提取关键词,然后用这些关键词与标准物料进行匹配,相似度高时便将两者建立关联关系。
现有技术存在的问题有:
匹配容易出错:例如“钢丝网”和“钢丝”这两个标准物料,传入一个文本型商品是“镀锌钢丝网”,系统先匹配到“钢丝”这个标准物料,就直接将“镀锌钢丝网”和“钢丝”建立错误的关联;匹配效率太低:为了确保匹配的准确性,就必须每次匹配都将标准库数据全部匹配一次,从中找到匹配程度最高的数据,这样对数据处理效率存在较大的瓶颈。
发明内容
为了解决上述技术问题,本发明提供建筑行业物料数据识别方法、装置及电子设备。
第一方面,本发明提供了建筑行业物料数据识别方法,包括:
构建对物料数据分类的层级化的分类树;所述分类树的末级分类为商品组;所述商品组包括属性;所述属性包括属性名称与属性值;
获取原始物料数据;
在所述原始物料数据中选择若干个原始商品组,对所述原始商品组进行标注,将标注后的所述原始商品组逐一映射到标准商品组;
利用所述原始商品组与映射后的所述标准商品组,建立分类预测标注样本;
建立神经网络模型,利用所述分类预测标注样本对所述神经网络模型进行训练,得到分类预测模型;
从所述原始物料数据中选择若干个所述原始商品组,对所述原始商品组进行标注,利用所述分类预测模型对标注后的所述原始商品组进行处理,得到若干个预测标准商品组;
选择若干个所述原始物料数据与得到的若干个所述预测标准商品组,人工根据所述原始物料数据的原始属性为所述预测标准商品组分配标准属性;人工从所述预测标准商品组对应的所述原始物料数据的原始属性提取原始属性标签并进行标注,得到样本数据;建立所述原始属性标签与所述预测标准商品组的所述标准属性之间的关系模型;利用所述样本数据对所述关系模型进行训练;
利用训练后的所述关系模型确定所述原始物料数据对应的所述预测标准商品组的所述标准属性;
对所述标准属性对应的所述标准属性值的格式进行转换,得到包含标准属性名称与标准属性值的标准物料数据识别结果。
第二方面,本发明提供了建筑行业物料数据识别装置,包括分类树构建单元、获取单元、映射单元、映射单元、样本建立单元、分类预测模型建立单元、处理单元、关系模型建立与训练单元、第二处理单元与转换单元;
所述分类树构建单元,用于构建对物料数据分类的层级化的分类树;所述分类树的末级分类为商品组;所述商品组包括属性;所述属性包括属性名称与属性值;
所述获取单元,用于获取原始物料数据;
所述映射单元,用于在所述原始物料数据中选择若干个原始商品组,对所述原始商品组进行标注;
所述映射单元,用于将标注后的所述原始商品组逐一映射到标准商品组;
所述样本建立单元,用于利用所述原始商品组与映射后的所述标准商品组,建立分类预测标注样本;
所述分类预测模型建立单元,用于建立神经网络模型,利用所述分类预测标注样本对所述神经网络模型进行训练,得到分类预测模型;
所述处理单元,用于从所述原始物料数据中选择若干个所述原始商品组,对所述原始商品组进行标注,利用所述分类预测模型对标注后的所述原始商品组进行处理,得到若干个预测标准商品组;
所述关系模型建立与训练单元,用于选择若干个所述原始物料数据与得到的若干个所述预测标准商品组,人工根据所述原始物料数据的原始属性为所述预测标准商品组分配标准属性;人工从所述预测标准商品组对应的所述原始物料数据的原始属性提取原始属性标签并进行标注,得到样本数据;建立所述原始属性标签与所述预测标准商品组的所述标准属性之间的关系模型;利用所述样本数据对所述关系模型进行训练;
所述第二处理单元,用于利用训练后的所述关系模型确定所述原始物料数据对应的所述预测标准商品组的所述标准属性;
所述转换单元,用于对所述标准属性对应的所述标准属性值的格式进行转换,得到包含标准属性名称与标准属性值的标准物料数据识别结果。
第三方面,本发明提供了一种电子设备,包括:
处理器和存储器;
所述存储器,用于存储计算机操作指令;
所述处理器,用于通过调用所述计算机操作指令,执行所述的建筑行业物料数据识别方法。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,在所述原始物料数据中选择若干个原始商品组,对所述原始商品组以人工标注的方式选择各个所述标准属性对应的所述属性标签,人工对所述原始商品组标注所述属性标签。
进一步,将标注后的所述原始商品组逐一映射到标准商品组,包括:人工选择所述原始商品组与映射后的所述标准商品组,包括所述原始商品组的名称与编码,以及所述所述标准商品组的名称与编码。
进一步,建立神经网络模型,利用所述分类预测标注样本对所述神经网络模型进行训练,得到分类预测模型,包括:
建立Transformer模型;
利用所述Transformer模型从若干个维度计算所述原始商品组与每个所述标准商品组的特征相似度;
将所有维度计算得到的所述特征相似度进行拟合分布,得到最优拟合曲线;
根据所述最优拟合曲线确定所述分类预测模型的参数,得到所述分类预测模型。
进一步,所述维度包括文本的相似性、文意的相似性与词与词的距离。
进一步,在Excel表中为得到的所述预测标准商品组分配所述标准属性;在Excel表中对所述标准属性对应的标准属性值的格式进行转换。
本发明的有益效果是:本发明通过对样本的标注学习,能够对杂乱的文本型物料进行精准分析,根据原始物料数据精准匹配到对应的标准物料数据;本发明通过分类预测模型对原始物料数据识别,过滤了无关的数据,大大提升了匹配效率。
附图说明
图1为本发明实施例1提供的建筑行业物料数据识别方法的原理图;
图2为本发明实施例2提供的建筑行业物料数据识别装置的原理图;
图3为本发明实施例3提供的一种电子设备的原理图。
图标:30-电子设备;310-处理器;320-总线;330-存储器;340-收发器。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
实施例1
作为一个实施例,如附图1所示,为解决上述技术问题,本实施例提供建筑行业物料数据识别方法,包括:
构建对物料数据分类的层级化的分类树;分类树的末级分类为商品组;商品组包括属性;属性包括属性名称与属性值;
获取原始物料数据;
在原始物料数据中选择若干个原始商品组,对原始商品组进行标注,将标注后的原始商品组逐一映射到标准商品组;
利用原始商品组与映射后的标准商品组,建立分类预测标注样本;
建立神经网络模型,利用分类预测标注样本对神经网络模型进行训练,得到分类预测模型;
从原始物料数据中选择若干个原始商品组,对原始商品组进行标注,利用分类预测模型对标注后的原始商品组进行处理,得到若干个预测标准商品组;
选择若干个原始物料数据与得到的若干个预测标准商品组,人工根据原始物料数据的原始属性为预测标准商品组分配标准属性;人工从预测标准商品组对应的原始物料数据的原始属性提取原始属性标签并进行标注,得到样本数据;建立原始属性标签与预测标准商品组的标准属性之间的关系模型;利用样本数据对关系模型进行训练;
对标准属性对应的标准属性值的格式进行转换,得到包含标准属性名称与标准属性值的标准物料数据识别结果。
在实际应用过程中,使用Excel表梳理出层级化的分类,用作物料标准属性的分类,如一级分类、二级分类、三级分类与商品组,末级分类为商品组,一级分类编码如01,一级分类名称如黑色金属,二级分类编码如0101,二级分类名称如钢筋,三级分类编码如010101,三级分类名称如热轧光圆钢筋与普通热轧带肋钢筋,商品组编码如010101001与010101002,商品组名称如盘圆与普通热轧带肋钢筋,如下表所示:
为商品组分配属性与属性值,属性如公称直径、牌号与定尺长度,属性值如10mm、HPB235(H:热轧,P:光圆,B:钢筋,235:屈服点为235Mpa)与6m,如下表所示:
可选的,在原始物料数据中选择若干个原始商品组,对原始商品组以人工标注的方式选择各个标准属性对应的属性标签,人工对原始商品组标注属性标签。
可选的,将标注后的原始商品组逐一映射到标准商品组,包括:人工选择原始商品组与映射后的标准商品组,包括原始商品组的名称与编码,以及标准商品组的名称与编码,得到分类预测标注样本。
在实际应用过程中,在原始物料数据中选择20-30个原始商品组,人工在Excel表中将原始商品组逐一标注映射到标准商品组,将原始商品组的名称与编码以及标准商品组的名称与编码列入表中,得到分类预测标注样本。
可选的,建立神经网络模型,利用分类预测标注样本对神经网络模型进行训练,得到分类预测模型,包括:
建立Transformer模型;
利用Transformer模型从若干个维度计算原始商品组与每个标准商品组的特征相似度;
将所有维度计算得到的特征相似度进行拟合分布,得到最优拟合曲线;
根据最优拟合曲线确定分类预测模型的参数,得到分类预测模型。
可选的,维度包括文本的相似性、文意的相似性与词与词的距离。
在实际应用过程中,将每个维度计算得到的特征相似度进行拟合分布,得到最优拟合曲线。
基于训练样本采用transformer模型自动挖掘样本中词与词之间多维度数据特征完成分类模型的构建,分类预测模型能够根据从训练样本数据中自动学习到数据分布特征,根据数据特征的数据分布预测出当前输入数据对应的商品组。
可选的,在Excel表中为得到的预测标准商品组分配标准属性;在Excel表中对标准属性对应的标准属性值的格式进行转换。
在通过分类预测模型得到若干个预测标准商品组后,需要对标准商品组对应的标准属性与标准属性值,本发明提出将原始物料数据的原始属性与得到的预测标准商品组的标准属性作为样本数据,通过建立关系模型得到标准属性的方法,过程如下:
将原始物料数据的原始属性与得到的若干个预测标准商品组的标准属性作为样本数据,人工根据原始属性为得到的预测标准商品组分配标准属性;
对预测标准商品组对应的原始物料数据的属性提取属性标签并进行标注;例如为每个商品组手动标识标准属性,在原始物料数据中选择原始属性值(如词汇),人工为该词汇标识出属性标签,如:商品组为黑色金属/钢筋,余热处理带肋钢筋的原始属性为物料名称,RRB400的原始属性为牌号;
建立属性标签与预测标准商品组的标准属性之间的关系模型;
利用样本数据对关系模型进行训练;
利用训练后的关系模型确定原始物料数据对应的预测标准商品组的标准属性。
在得到预测标准商品组的标准属性后,对标准属性对应的标准属性值的格式进行转换,得到包含标准属性名称与标准属性值的标准物料数据识别结果,例如:将“φ60”转换为“60mm”,将“1000kg”转换为“1t”。其中,φ60表示直径为60,经过转换得到60mm,表示60毫米,1000kg表示1000千克,经过转换得到1吨即1t。
本发明通过对样本的标注学习,能够对杂乱的文本型物料进行精准分析,根据原始物料数据精准匹配到对应的标准物料数据,如“镀锌钢丝网”可以精准匹配到名称为“钢丝网”、材质为“镀锌”的标准物料。
本发明通过分类预测模型对原始物料数据识别,过滤了无关的数据,大大提升了匹配效率。
实施例2
基于与本发明的实施例1中所示的方法相同的原理,如附图2所示,本发明的实施例中还提供了建筑行业物料数据识别装置,包括分类树构建单元、获取单元、映射单元、映射单元、样本建立单元、分类预测模型建立单元、处理单元、关系模型建立与训练单元、第二处理单元与转换单元;
分类树构建单元,用于构建对物料数据分类的层级化的分类树;分类树的末级分类为商品组;商品组包括属性;属性包括属性名称与属性值;
获取单元,用于获取原始物料数据;
映射单元,用于在原始物料数据中选择若干个原始商品组,对原始商品组进行标注,将标注后的原始商品组逐一映射到标准商品组;
样本建立单元,用于利用原始商品组与映射后的标准商品组,建立分类预测标注样本;
分类预测模型建立单元,用于建立神经网络模型,利用分类预测标注样本对神经网络模型进行训练,得到分类预测模型;
处理单元,用于从原始物料数据中选择若干个原始商品组,对原始商品组进行标注,利用分类预测模型对标注后的原始商品组进行处理,得到若干个预测标准商品组;
关系模型建立与训练单元,用于选择若干个原始物料数据与得到的若干个预测标准商品组,人工根据原始物料数据的原始属性为预测标准商品组分配标准属性;人工从预测标准商品组对应的原始物料数据的原始属性提取原始属性标签并进行标注,得到样本数据;建立原始属性标签与预测标准商品组的标准属性之间的关系模型;利用样本数据对关系模型进行训练;
第二处理单元,用于利用训练后的关系模型确定原始物料数据对应的预测标准商品组的标准属性;
转换单元,用于对标准属性对应的标准属性值的格式进行转换,得到包含标准属性名称与标准属性值的标准物料数据识别结果。
可选的,在原始物料数据中选择若干个原始商品组,对原始商品组以人工标注的方式选择各个标准属性对应的属性标签,人工对原始商品组标注属性标签。
可选的,将标注后的原始商品组逐一映射到标准商品组,包括:人工选择原始商品组与映射后的标准商品组,包括原始商品组的名称与编码,以及标准商品组的名称与编码。
可选的,建立神经网络模型,利用分类预测标注样本对神经网络模型进行训练,得到分类预测模型,包括:
建立Transformer模型;
利用Transformer模型从若干个维度计算原始商品组与每个标准商品组的特征相似度;
将所有维度计算得到的特征相似度进行拟合分布,得到最优拟合曲线;
根据最优拟合曲线确定分类预测模型的参数,得到分类预测模型。
可选的,维度包括文本的相似性、文意的相似性与词与词的距离。
可选的,在Excel表中为得到的预测标准商品组分配标准属性;在Excel表中对标准属性对应的标准属性值的格式进行转换。
实施例3
基于与本发明的实施例中所示的方法相同的原理,本发明的实施例中还提供了一种电子设备,如附图3所示,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本发明实施例所示的建筑行业物料主数据管理方法。
在一个可选实施例中提供了一种电子设备,图3所示的电子设备30包括:处理器310和存储器330。其中,处理器310和存储器330相连,如通过总线320相连。
可选地,电子设备30还可以包括收发器340,收发器340可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器340不限于一个,该电子设备30的结构并不构成对本发明实施例的限定。
处理器310可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器310也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线320可包括一通路,在上述组件之间传送信息。总线320可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线320可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器330可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器330用于存储执行本发明方案的应用程序代码(计算机程序),并由处理器310来控制执行。处理器310用于执行存储器330中存储的应用程序代码,以实现前述方法实施例所示的内容。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.建筑行业物料数据识别方法,其特征在于,包括:
构建对物料数据分类的层级化的分类树;所述分类树的末级分类为商品组;所述商品组包括属性;所述属性包括属性名称与属性值;
获取原始物料数据;
在所述原始物料数据中选择若干个原始商品组,对所述原始商品组进行标注,将标注后的所述原始商品组逐一映射到标准商品组;
利用所述原始商品组与映射后的所述标准商品组,建立分类预测标注样本;
建立神经网络模型,利用所述分类预测标注样本对所述神经网络模型进行训练,得到分类预测模型;
从所述原始物料数据中选择若干个所述原始商品组,对所述原始商品组进行标注,利用所述分类预测模型对标注后的所述原始商品组进行处理,得到若干个预测标准商品组;
选择若干个所述原始物料数据与得到的若干个所述预测标准商品组,人工根据所述原始物料数据的原始属性为所述预测标准商品组分配标准属性;人工从所述预测标准商品组对应的所述原始物料数据的原始属性提取原始属性标签并进行标注,得到样本数据;建立所述原始属性标签与所述预测标准商品组的所述标准属性之间的关系模型;利用所述样本数据对所述关系模型进行训练;
利用训练后的所述关系模型确定所述原始物料数据的所述原始属性对应的所述预测标准商品组的所述标准属性;
对所述标准属性对应的标准属性值的格式进行转换,得到包含标准属性名称与标准属性值的标准物料数据识别结果。
2.根据权利要求1所述建筑行业物料数据识别方法,其特征在于,在所述原始物料数据中选择若干个原始商品组,对所述原始商品组以人工标注的方式选择各个所述标准属性对应的所述属性标签,人工对所述原始商品组标注所述属性标签。
3.根据权利要求1所述建筑行业物料数据识别方法,其特征在于,将标注后的所述原始商品组逐一映射到标准商品组,包括:人工选择所述原始商品组与映射后的所述标准商品组,包括所述原始商品组的名称与编码,以及所述所述标准商品组的名称与编码。
4.根据权利要求1所述建筑行业物料数据识别方法,其特征在于,建立神经网络模型,利用所述分类预测标注样本对所述神经网络模型进行训练,得到分类预测模型,包括:
建立Transformer模型;
利用所述Transformer模型从若干个维度计算所述原始商品组与每个所述标准商品组的特征相似度;
将所有维度计算得到的所述特征相似度进行拟合分布,得到最优拟合曲线;
根据所述最优拟合曲线确定所述分类预测模型的参数,得到所述分类预测模型。
5.根据权利要求4所述建筑行业物料数据识别方法,其特征在于,所述维度包括文本的相似性、文意的相似性与词与词的距离。
6.根据权利要求1所述建筑行业物料数据识别方法,其特征在于,在Excel表中为得到的所述预测标准商品组分配所述标准属性;在Excel表中对所述标准属性对应的标准属性值的格式进行转换。
7.建筑行业物料数据识别装置,其特征在于,包括分类树构建单元、获取单元、映射单元、映射单元、样本建立单元、分类预测模型建立单元、处理单元、关系模型建立与训练单元、第二处理单元与转换单元;
所述分类树构建单元,用于构建对物料数据分类的层级化的分类树;所述分类树的末级分类为商品组;所述商品组包括属性;所述属性包括属性名称与属性值;
所述获取单元,用于获取原始物料数据;
所述映射单元,用于在所述原始物料数据中选择若干个原始商品组,对所述原始商品组进行标注,将标注后的所述原始商品组逐一映射到标准商品组;
所述样本建立单元,用于利用所述原始商品组与映射后的所述标准商品组,建立分类预测标注样本;
所述分类预测模型建立单元,用于建立神经网络模型,利用所述分类预测标注样本对所述神经网络模型进行训练,得到分类预测模型;
所述处理单元,用于从所述原始物料数据中选择若干个所述原始商品组,对所述原始商品组进行标注,利用所述分类预测模型对标注后的所述原始商品组进行处理,得到若干个预测标准商品组;
所述关系模型建立与训练单元,用于选择若干个所述原始物料数据与得到的若干个所述预测标准商品组,人工根据所述原始物料数据的原始属性为所述预测标准商品组分配标准属性;人工从所述预测标准商品组对应的所述原始物料数据的原始属性提取原始属性标签并进行标注,得到样本数据;建立所述原始属性标签与所述预测标准商品组的所述标准属性之间的关系模型;利用所述样本数据对所述关系模型进行训练;
所述第二处理单元,用于利用训练后的所述关系模型确定所述原始物料数据对应的所述预测标准商品组的所述标准属性;
所述转换单元,用于对所述标准属性对应的所述标准属性值的格式进行转换,得到包含标准属性名称与标准属性值的标准物料数据识别结果。
8.一种电子设备,其特征在于,包括:
处理器和存储器;
所述存储器,用于存储计算机操作指令;
所述处理器,用于通过调用所述计算机操作指令,执行权利要求1至6中任一项所述的建筑行业物料数据识别方法。
CN202310989937.5A 2023-08-08 2023-08-08 建筑行业物料数据识别方法、装置及电子设备 Active CN116738343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310989937.5A CN116738343B (zh) 2023-08-08 2023-08-08 建筑行业物料数据识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310989937.5A CN116738343B (zh) 2023-08-08 2023-08-08 建筑行业物料数据识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN116738343A true CN116738343A (zh) 2023-09-12
CN116738343B CN116738343B (zh) 2023-10-20

Family

ID=87906279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310989937.5A Active CN116738343B (zh) 2023-08-08 2023-08-08 建筑行业物料数据识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116738343B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428028A (zh) * 2020-03-04 2020-07-17 中国平安人寿保险股份有限公司 基于深度学习的信息分类方法及相关设备
WO2020238053A1 (zh) * 2019-05-31 2020-12-03 平安科技(深圳)有限公司 基于神经网格模型的文本数据类别的识别方法及装置、非易失性可读存储介质、计算机设备
CN112328798A (zh) * 2020-11-27 2021-02-05 中国银联股份有限公司 文本分类方法以及装置
CN112380349A (zh) * 2020-12-04 2021-02-19 有米科技股份有限公司 商品性别分类方法、装置及电子设备
CN112966100A (zh) * 2020-12-30 2021-06-15 北京明朝万达科技股份有限公司 一种数据分类分级模型的训练方法、装置及电子设备
CN113850201A (zh) * 2021-09-28 2021-12-28 广州华多网络科技有限公司 跨模态商品分类方法及其装置、设备、介质、产品
CN114429599A (zh) * 2021-12-24 2022-05-03 北京达佳互联信息技术有限公司 类目分类方法、装置、电子设备和存储介质
CN114860892A (zh) * 2022-07-06 2022-08-05 腾讯科技(深圳)有限公司 层次类目预测方法、装置、设备和介质
CN115203401A (zh) * 2022-04-28 2022-10-18 北京小米移动软件有限公司 分类模型的训练方法、分类方法、装置、设备和存储介质
CN115392191A (zh) * 2022-08-18 2022-11-25 广联达科技股份有限公司 一种物料编码生成方法、识别方法和装置
US20230028142A1 (en) * 2021-07-14 2023-01-26 Hexagon Technology Center Gmbh System and method for generation of a unique identification code of an industrial commodity
CN115687610A (zh) * 2022-09-08 2023-02-03 恒生电子股份有限公司 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质
CN116089873A (zh) * 2023-02-10 2023-05-09 北京百度网讯科技有限公司 模型训练方法、数据分类分级方法、装置、设备及介质
CN116187342A (zh) * 2023-03-03 2023-05-30 北京青萌数海科技有限公司 一种提取商品标签的方法及系统
CN116304845A (zh) * 2023-05-23 2023-06-23 云筑信息科技(成都)有限公司 一种建筑物料的层次分类识别方法
WO2023137911A1 (zh) * 2022-01-21 2023-07-27 平安科技(深圳)有限公司 基于小样本语料的意图分类方法、装置及计算机设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020238053A1 (zh) * 2019-05-31 2020-12-03 平安科技(深圳)有限公司 基于神经网格模型的文本数据类别的识别方法及装置、非易失性可读存储介质、计算机设备
CN111428028A (zh) * 2020-03-04 2020-07-17 中国平安人寿保险股份有限公司 基于深度学习的信息分类方法及相关设备
CN112328798A (zh) * 2020-11-27 2021-02-05 中国银联股份有限公司 文本分类方法以及装置
CN112380349A (zh) * 2020-12-04 2021-02-19 有米科技股份有限公司 商品性别分类方法、装置及电子设备
CN112966100A (zh) * 2020-12-30 2021-06-15 北京明朝万达科技股份有限公司 一种数据分类分级模型的训练方法、装置及电子设备
US20230028142A1 (en) * 2021-07-14 2023-01-26 Hexagon Technology Center Gmbh System and method for generation of a unique identification code of an industrial commodity
CN113850201A (zh) * 2021-09-28 2021-12-28 广州华多网络科技有限公司 跨模态商品分类方法及其装置、设备、介质、产品
CN114429599A (zh) * 2021-12-24 2022-05-03 北京达佳互联信息技术有限公司 类目分类方法、装置、电子设备和存储介质
WO2023137911A1 (zh) * 2022-01-21 2023-07-27 平安科技(深圳)有限公司 基于小样本语料的意图分类方法、装置及计算机设备
CN115203401A (zh) * 2022-04-28 2022-10-18 北京小米移动软件有限公司 分类模型的训练方法、分类方法、装置、设备和存储介质
CN114860892A (zh) * 2022-07-06 2022-08-05 腾讯科技(深圳)有限公司 层次类目预测方法、装置、设备和介质
CN115392191A (zh) * 2022-08-18 2022-11-25 广联达科技股份有限公司 一种物料编码生成方法、识别方法和装置
CN115687610A (zh) * 2022-09-08 2023-02-03 恒生电子股份有限公司 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质
CN116089873A (zh) * 2023-02-10 2023-05-09 北京百度网讯科技有限公司 模型训练方法、数据分类分级方法、装置、设备及介质
CN116187342A (zh) * 2023-03-03 2023-05-30 北京青萌数海科技有限公司 一种提取商品标签的方法及系统
CN116304845A (zh) * 2023-05-23 2023-06-23 云筑信息科技(成都)有限公司 一种建筑物料的层次分类识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BO NING等: "UMP-MG: A Uni-directed Message-Passing Multi-label Generation Model for Hierarchical Text Classification", DATA SCIENCE AND ENGINEERING, vol. 8, pages 112 *
RICARDO CERRI等: "Hierarchical multi-label classification using local neural networks", JOURNAL OF COMPUTER AND SYSTEM SCIENCES, vol. 80, no. 01, pages 39 - 56, XP028729154, DOI: 10.1016/j.jcss.2013.03.007 *
阮小洲: "标签分类与识别算法研究与应用开发", 中国优秀硕士学位论文全文数据库 信息科技辑, pages 138 - 710 *
黄玉琳: "基于多模态信息的电商产品层次分类方法研究", 中国优秀硕士学位论文全文数据库 基础科学辑, pages 002 - 1526 *

Also Published As

Publication number Publication date
CN116738343B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN108829681B (zh) 一种命名实体提取方法及装置
Tsui et al. Knowledge-based extraction of intellectual capital-related information from unstructured data
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN111489105B (zh) 一种企业风险识别方法、装置及设备
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN108241867B (zh) 一种分类方法及装置
CN110569330A (zh) 一种基于智能选词的文本标注系统及装置、设备、介质
CN114398477A (zh) 基于知识图谱的政策推荐方法及其相关设备
CN112650858A (zh) 应急协助信息的获取方法、装置、计算机设备及介质
KR20220058192A (ko) 뉴스 기사를 이용한 키워드 매핑을 기반으로 종목 정보를 제공하는 서비스 제공 장치 및 그 동작 방법
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN116821372A (zh) 基于知识图谱的数据处理方法、装置、电子设备及介质
CN112416992B (zh) 基于大数据和关键词的行业类型识别方法、系统及设备
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
CN116738343B (zh) 建筑行业物料数据识别方法、装置及电子设备
CN111178615B (zh) 一种企业风险识别模型的构建方法及系统
CN115545783B (zh) 一种工程造价信息查询方法、系统及存储介质
CN115455934A (zh) 一种企业多种经营范围识别方法与系统
CN113869639B (zh) 长江流域企业筛选方法、装置、电子设备及存储介质
CN115730603A (zh) 基于人工智能的信息提取方法、装置、设备及存储介质
CN115617790A (zh) 数据仓库创建方法、电子设备及存储介质
CN112966038A (zh) 从非结构化数据中提取结构化数据方法及装置
CN112541341A (zh) 一种文本事件元素提取方法
CN113408263A (zh) 刑期预测方法、装置、存储介质及电子设备
CN114647733B (zh) 一种问答语料评估方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant