CN113609279B - 一种物料型号提取方法、装置及计算机设备 - Google Patents
一种物料型号提取方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN113609279B CN113609279B CN202110895880.3A CN202110895880A CN113609279B CN 113609279 B CN113609279 B CN 113609279B CN 202110895880 A CN202110895880 A CN 202110895880A CN 113609279 B CN113609279 B CN 113609279B
- Authority
- CN
- China
- Prior art keywords
- model
- target
- sample
- sub
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims abstract description 246
- 238000000605 extraction Methods 0.000 title claims abstract description 77
- 239000013077 target material Substances 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 33
- 239000000523 sample Substances 0.000 claims description 91
- 230000002159 abnormal effect Effects 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种物料型号提取方法、装置及计算机设备。该方法首先利用物料型号提取模型提取目标文本单元中包含的目标物料类型及对应的全部初始物料子型号,其中,每个初始物料子型号包括一个目标特征属性及至少一个目标特征值,不同初始物料子型号包含的目标特征属性不同。然后,从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号,再将各目标物料子型号组合得到对应目标物料类型的综合物料型号。本申请通过模型提取物料型号,提取文本单元中各类格式的初始物料子型号,然后筛选出匹配度最大的目标物料子型号,去除错误的子型号,进一步组合得到综合物料型号,可以提高型号提取的适应性和准确度。
Description
技术领域
本申请涉及文本解析领域,尤其涉及一种物料型号提取方法、装置及计算机设备。
背景技术
现有的语义分析技术是基于预设的解析规则对文本段中物料型号进行提取,常规的解析规则包括正则表达式和除前去后两类。这两种解析规则需要根据物料类型进行穷举,梳理出各物料类型对应的型号匹配式并排序,且排序和数据类型强相关。此外,除前去后的方法要求文本段中的文本单元单元遵循特定的描述范式。
因此,现有的物料型号提取方法对于不同的物料类型需要设置不同的提取规则或者正则表达式,即现有技术存在局限性大、实现繁琐且精度不理想的技术问题。
发明内容
为了解决上述技术问题,本发明提供了一种物料型号提取方法、装置及计算机设备,具体方案如下:
第一方面,本申请实施例提供了一种物料型号提取方法,所述方法包括:
利用物料型号提取模型提取目标文本单元中包含的目标物料类型及对应的全部初始物料子型号,其中,每个初始物料子型号包括一个目标特征属性及至少一个目标特征值,不同初始物料子型号包含的目标特征属性不同;
从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号;
将各目标物料子型号组合得到对应所述目标物料类型的综合物料型号。
根据本申请公开的一种具体实施方式,利用物料型号提取模型提取目标文本单元中包含的目标物料类型和对应的全部初始物料子型号的步骤,包括:
分别基于物料型号提取模型和预设的型号提取规则对各目标文本单元进行提取,对应得到第一物料子型号和第二物料子型号;
若所述第一物料子型号和所述第二物料子型号相同,选取所述第一物料子型号或第二物料子型号为初始物料子型号;
若所述第一物料子型号和所述第二物料子型号不同,输出提取异常信号。
根据本申请公开的一种具体实施方式,利用物料型号提取模型提取目标文本单元中包含的目标物料类型和对应的全部初始物料子型号的步骤之前,所述方法还包括:
采集并标注样本文本单元,其中,每个所述样本文本单元包含一种样本物料类型、至少一个样本特征属性和各样本特征属性对应的样本特征值;
将每个所述样本特征属性和对应的样本特征值关联存储到对应所述样本物料类型的样本数据集;
基于所述样本数据集训练基础神经网络,得到所述物料型号提取模型。
根据本申请公开的一种具体实施方式,采集并标注样本文本单元的步骤之后,所述方法还包括:
将样本特征属性及样本特征值错位匹配得到各样本特征属性对应的异常特征值,其中,每个所述样本特征属性对应的所述异常特征值和所述样本特征值的单位相同;
将每个所述样本特征属性及对应的异常特征值关联存储到对应所述样本物料类型的异常数据集;
从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号的步骤,包括:
判断所述初始物料子型号中的所述目标特征属性与所述目标特征值是否与所述异常数据集关联;
保留不与所述异常数据集关联的目标特征属性及对应的目标特征值为目标物料子型号。
根据本申请公开的一种具体实施方式,从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号的步骤,包括:
计算各初始物料子型号内所述目标特征属性与各所述目标特征值的匹配概率;
保留各所述初始物料子型号中最大匹配概率对应的目标特征值和目标特征属性为目标物料子型号。
第二方面,本申请实施例提供了一种物料型号提取装置,所述装置包括:
提取模块,用于利用物料型号提取模型提取目标文本单元中包含的目标物料类型及对应的全部初始物料子型号,其中,每个初始物料子型号包括一个目标特征属性及至少一个目标特征值,不同初始物料子型号包含的目标特征属性不同;
选取模块,用于从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号;
组合模块,用于将各目标物料子型号组合得到对应所述目标物料类型的综合物料型号。
根据本申请公开的一种具体实施方式,所述提取模块具体用于分别基于物料型号提取模型和预设的型号提取规则对各目标文本单元进行提取,对应得到第一物料子型号和第二物料子型号;
若所述第一物料子型号和所述第二物料子型号相同,选取所述第一物料子型号或第二物料子型号为初始物料子型号;
若所述第一物料子型号和所述第二物料子型号不同,输出提取异常信号。
根据本申请公开的一种具体实施方式,所述选取模块具体用于计算各初始物料子型号内所述目标特征属性与各所述目标特征值的匹配概率;
保留各所述初始物料子型号中最大匹配概率对应的目标特征值和目标特征属性为目标物料子型号。
第三方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上执行时实现第一方面中任一项实施例所述的物料型号提取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在处理器上执行时实现第一方面中任一项实施例所述的物料型号提取方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供一种物料型号提取方法、装置及计算机设备。该物料型号提取方法首先利用物料型号提取模型提取目标文本单元中包含的目标物料类型及对应的全部初始物料子型号,其中,每个初始物料子型号包括一个目标特征属性及至少一个目标特征值,不同初始物料子型号包含的目标特征属性不同。然后,从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号,再将各目标物料子型号组合得到对应目标物料类型的综合物料型号。本申请通过模型提取物料型号,提取文本单元中各类格式的初始物料子型号,然后筛选出匹配度最大的目标物料子型号,去除可能错误的型号,组合各目标物料子型号得到综合物料型号,可以提高型号提取的适应性和准确度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1为本申请实施例提供的一种物料型号提取方法的流程示意图;
图2为本申请实施例提供的一种物料型号提取装置的模块框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互结合。
参见图1,为本申请实施例提供的一种物料型号提取方法的流程示意图,如图1所示,所述方法主要包括:
步骤S101,利用物料型号提取模型提取目标文本单元中包含的目标物料类型及对应的全部初始物料子型号,其中,每个初始物料子型号包括一个目标特征属性及至少一个目标特征值,不同初始物料子型号包含的目标特征属性不同。
文本单元是指描述一个单一类型物料和该物料对应的规格参数的文本句,多个文本单元构成一个文本段。具体实施时,可以从线路图对应的物料清单或者其他包括描述物料及其用量的多个文本即为文本段。先通过文本单元提取方法从文本段中提取出文本单元,然后通过预先训练好的物料型号提取模型提取目标文本单元中包含的目标物料类型及对应的全部初始物料子型号,进一步得到综合物料型号。例如,“塔杆,杆高10m,稍径150mm”为一个文本单元,其中,“塔杆”为物料类型,“杆高”和“稍径”是对应“杆高”这个物料类型的两个不同特征属性,“10m”和“150mm”是两个不同的目标特征值;“杆高10m/150mm”和“稍径10m/150mm”是对应“杆高”这个物料类型的初始物料子型号,“杆高10m/150mm”包括了一个目标特征属性“杆高”以及两个目标特征属性值“10m”和“150mm”。表1示出了各物料型号与特征属性之间的部分例举的对应关系。
表1
具体实施时,可以在物料型号提取模型中,配置“提取物料类型”的功能模块,以实现提取文本单元中的物料类型的功能。也可以先基于预设的“物料类型提取模型”提取文本单元中的物料类型后,再根据所述物料型号提取模型提取各物料类型对应的初始物料子型号。
利用物料型号提取模型提取目标文本单元中包含的目标物料类型和对应的全部初始物料子型号的步骤,包括:
分别基于所述物料型号提取模型和预设的型号提取规则对各目标文本单元进行提取,对应得到第一物料子型号和第二物料子型号;
若所述第一物料子型号和所述第二物料子型号相同,选取所述第一物料子型号或第二物料子型号为初始物料子型号;
若所述第一物料子型号和所述第二物料子型号不同,输出提取异常信号。
现有技术通常是基于规则对物料型号进行提取,即人工设置正则表达式,按照正则表达式的格式对提取的型号进行解析。对于不同的物料类型需要设置不同的正则表达式,因此,基于规则对物料型号进行提取的方法不具备扩展性。但是,在实际业务场景下,物料类型是变动的,增加一种新的物料类型,之前的解析规则就会失效或者不适用。
而本申请分别基于物料型号提取模型和预设的型号提取规则对各目标文本单元进行提取,对应得到第一物料子型号和第二物料子型号。具体实施时,若第一物料子型号和第二物料子型号相同,选取第一物料子型号或第二物料子型号为初始物料子型号;若第一物料子型号和第二物料子型号不同,可以由人工介入,选取任意一个物料子型号作为目标物料子型号。此外,可以基于这两个不同的提取结果进行型号提取规则更新,以完善规则库;也可以对物料型号提取模型的数据进行丰富,在此基础上进行模型更新,以进一步增强模型的提取能力。
进一步地,可以对物料型号提取模型进行评测,若模型提取的准确率达到预设值,在两个提取结果不一致时,可直接采用物料型号提取模型输出的第一物料子型号作为目标物料子型号,不需要人工介入。
利用物料型号提取模型提取目标文本单元中包含的目标物料类型和对应的全部初始物料子型号的步骤之前,所述方法还包括:
采集并标注样本文本单元,其中,每个所述样本文本单元包含一种样本物料类型、至少一个样本特征属性和各样本特征属性对应的样本特征值;
将每个所述样本特征属性和对应的样本特征值关联存储到对应所述样本物料类型的样本数据集;
基于所述样本数据集训练基础神经网络,得到所述物料型号提取模型。
例如,“塔杆,杆高10m,稍径150mm”这个文本单元中,将“杆高”这一样本特征属性和其对应的样本特征值“10m”,以及“稍径”这一样本特征属性和其对应的样本特征值“150mm”关联存储到对应“塔杆”的样本数据集中,这一样本数据集是人工选择的正确数据集。然后基于样本数据集进行训练,得到物料型号提取模型。
步骤S102,从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号。
具体实施时,若在构建对应“塔杆”的样本数据集时,只存储了“应力类型”、“杆高”和“稍径”三个样本特征属性,而目标文本单元中存在大于三个特征值的情况。那么,在这种情况下,如果“10m”先被预测成杆高,“150mm”后被预测成杆高,那么这两个预测结果都会被保留并输出,从而导致错误,生成“杆高150mm”这一错误的目标物料子型号。
进一步地,为解决上述技术问题,需要从初始物料子型号“杆高10m/150mm”和“稍径10m\150mm”中,选取符合要求的目标物料子型号,即“杆高10m”和“稍径150mm”。本申请可以是选取匹配度最大的目标特征属性及对应的目标特征值来确定目标物料子型号。匹配度是指目标特征属性及目标特征值形成的组合与实际物料型号的符合程度。可以根据目标特征属性和目标特征值的组合与历史物料型号数据的平均数或中位数或众数之间差异程度表征匹配度大小,差异程度越小,匹配度越大,反之匹配度越小。
具体实施时,选取匹配度最大的特征值的方式可以有多种,下面将针对两种主要选取方式分别解释。
在一种实施方式中,从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号的步骤,包括:
计算各初始物料子型号内所述目标特征属性与各所述目标特征值的匹配概率;
保留各所述初始物料子型号中最大匹配概率对应的目标特征值和目标特征属性为目标物料子型号。
具体地,可以利用物料型号提取模型中的计算函数来计算每个物料子型号中的各目标特征值与目标特征属性之间的匹配概率,这个匹配概率即为匹配度。这一过程可用伪代码表示如下:
初始化:待预测的特征值集合F,模型文件M,模型依赖的数据及结构S;
第一步,加载物料型号提取模型:m:=LoadModel(M),m为加载至内存的模型文件;
第二步,加载模型数据及结构文件:s:=LoadStuct(S),s为加载至内存的数据文件;
第三步,使用F,m,s初始化物料型号提取模型:p:=InitModel(F,m,s);
第四步,物料型号提取模型使用其自身具备的概率计算功能计算各目标特征值与目标特征属性之间的匹配概率:
prob:=p.PredictProb(),prob是一个矩阵,为每个特征值分别在每个目标特征属性上的概率;
第五步,选取prob中的最大概率值对应的目标特征值和目标特征属性。
使用上述实施方式,可以计算出初始物料子型号中目标特征值和各目标特征属性之间的匹配概率,然后选取最大概率值对应的一组目标特征值和目标特征属性为目标物料子型号,使得目标物料子型号仅有一个,避免了输出错误匹配的其他目标特征值和目标特征属性间的组合。
在另一种实施方式中,则选用异常特征值排除的方案选择匹配度最大的方案。采集并标注样本文本单元的步骤之后,所述方法还可以包括:
将样本特征属性及样本特征值错位匹配得到各样本特征属性对应的异常特征值,其中,每个所述样本特征属性对应的所述异常特征值和所述样本特征值的单位相同;
将每个所述样本特征属性及对应的异常特征值关联存储到对应所述样本物料类型的异常数据集;
从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号的步骤,包括:
判断所述初始物料子型号中的所述目标特征属性与所述目标特征值是否与所述异常数据集关联;
保留不与所述异常数据集关联的目标特征属性及对应的目标特征值为目标物料子型号。
具体实施时,除了通过物料型号提取模型中的计算函数从初始物料子型号中选取匹配度最大的目标物料子型号,还可以在构建样本数据集时,将样本特征属性及样本特征值错位匹配得到各样本特征属性对应的异常特征值,再将每个所述样本特征属性及对应的异常特征值关联存储到对应所述样本物料类型的异常数据集。在得到初始物料子型号后,保留不与所述异常数据集关联的目标特征属性及对应的目标特征值为目标物料子型号,以降低提取结果被覆盖的几率。
例如,“塔杆,杆高10m,稍径150mm”这个文本单元中,将“杆高”这一样本特征属性和其对应的样本特征值“10m”,以及“稍径”这一样本特征属性和其对应的样本特征值“150mm”关联存储到对应“塔杆”的样本数据集之后,可以将“杆高”和“150mm”进行错误匹配,将“稍径”和“10m”进行错误匹配并存储到异常数据集。需要注意的是,每个样本特征属性进行错误匹配时,对应的异常特征值和样本特征值的单位需相同。例如,“10m”和“150mm”的单位都是长度单位,因此可以进行错误匹配。若目标特征值是类似“10m”和“20kg”这样的完全不同的单位,则不能进行错误匹配。
利用物料型号提取模型对前述目标文本单元“塔杆,杆高10m,稍径150mm”进行提取,得到的初始物料子型号为“杆高10m/150mm”和“稍径10m\150mm”。此时,可以初始物料子型号中的两个对应关系“杆高150mm”和“稍径10m”可以关联到上述异常数据集,那么,保留不与异常数据集关联的目标特征属性及对应的目标特征值为目标物料子型号。“杆高10m”和“稍径150mm”即为对应“塔杆”的两个目标物料子型号。
步骤S103,将各目标物料子型号组合得到对应所述目标物料类型的综合物料型号。
具体实施时,将初始物料子型号进行筛选得到目标物料子型号后,将各目标物料子型号组合就可以得到对应目标文本单元中目标物料类型的综合物料型号。例如,将“杆高10m”和“稍径150mm”进行组合,得到“杆高10m,稍径150mm”,“杆高10m,稍径150mm”即为对应“塔杆”的综合物料型号。具体地,可以按照预设的物料类型次序确定对应的目标物料子型号在综合物料型号中的排列顺序或者位置,例如,预先设置在综合物料类型中,“杆高”的排列次序优于“稍径”,那么,上述示例中得到的对应“塔杆”的综合物料型号为“杆高10m,稍径150mm”,而不是“稍径150mm,杆高10m”。
本申请提供的物料型号提取方法,分别通过物料型号提取模型和型号提取规则对目标文本单元进行物料型号提取,可以更新模型数据库,具有扩展性。还通过两种不同的筛选方法从初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号,再将各目标物料子型号组合得到对应目标物料类型的综合物料型号,提高了物料型号提取的准确性。
与上述方法实施例相对应,参见图2,本发明还提供一种物料型号提取装置200,所述物料型号提取装置200包括:
提取模块201,用于利用物料型号提取模型提取目标文本单元中包含的目标物料类型及对应的全部初始物料子型号,其中,每个初始物料子型号包括一个目标特征属性及至少一个目标特征值,不同初始物料子型号包含的目标特征属性不同;
选取模块202,用于从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号;
组合模块203,用于将各目标物料子型号组合得到对应所述目标物料类型的综合物料型号。
具体实施时,所述提取模块201具体用于分别基于所述物料型号提取模型和预设的型号提取规则对各目标文本单元进行提取,对应得到第一物料子型号和第二物料子型号;
若所述第一物料子型号和所述第二物料子型号相同,选取所述第一物料子型号或第二物料子型号为初始物料子型号;
若所述第一物料子型号和所述第二物料子型号不同,输出提取异常信号。
具体实施时,所述选取模块202具体用于计算各初始物料子型号内所述目标特征属性与各所述目标特征值的匹配概率;
保留各所述初始物料子型号中最大匹配概率对应的目标特征值和目标特征属性为目标物料子型号。
此外,还提供一种计算机设备,计算机设备包括处理器和存储器,存储器存储有计算机程序,计算机程序在处理器上执行时实现上述物料型号提取方法。
此外,还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序在处理器上执行时实现上述物料型号提取方法。
所提供的计算机设备和计算机可读存储介质的具体实施过程,可以参见上述实施例提供的物料型号提取方法的具体实施过程,在此不再一一赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种物料型号提取方法,其特征在于,所述方法包括:
采集并标注样本文本单元,其中,每个所述样本文本单元包含一种样本物料类型、至少一个样本特征属性和各样本特征属性对应的样本特征值;
利用物料型号提取模型提取目标文本单元中包含的目标物料类型及对应的全部初始物料子型号,其中,每个所述初始物料子型号包括一个目标特征属性及至少一个目标特征值,不同初始物料子型号包含的目标特征属性不同;
从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号;
将各目标物料子型号组合得到对应所述目标物料类型的综合物料型号;
将样本特征属性及样本特征值错位匹配得到各样本特征属性对应的异常特征值,其中,每个所述样本特征属性对应的所述异常特征值和所述样本特征值的单位相同;
将每个所述样本特征属性及对应的异常特征值关联存储到对应所述样本物料类型的异常数据集;
从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号的步骤,包括:
判断所述初始物料子型号中的所述目标特征属性与所述目标特征值是否与所述异常数据集关联;
保留不与所述异常数据集关联的目标特征属性及对应的目标特征值为目标物料子型号。
2.根据权利要求1所述的方法,其特征在于,利用物料型号提取模型提取目标文本单元中包含的目标物料类型和对应的全部初始物料子型号的步骤,包括:
分别基于物料型号提取模型和预设的型号提取规则对各目标文本单元进行提取,对应得到第一物料子型号和第二物料子型号;
若所述第一物料子型号和所述第二物料子型号相同,选取所述第一物料子型号或第二物料子型号为初始物料子型号;
若所述第一物料子型号和所述第二物料子型号不同,输出提取异常信号。
3.根据权利要求1所述的方法,其特征在于,采集并标注样本文本单元之后所述方法还包括:
将每个所述样本特征属性和对应的样本特征值关联存储到对应所述样本物料类型的样本数据集;
基于所述样本数据集训练基础神经网络,得到所述物料型号提取模型。
4.根据权利要求1所述的方法,其特征在于,从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号的步骤,包括:
计算各初始物料子型号内所述目标特征属性与各所述目标特征值的匹配概率;
保留各所述初始物料子型号中最大匹配概率对应的目标特征值和目标特征属性为目标物料子型号。
5.一种物料型号提取装置,其特征在于,所述装置包括:
提取模块,用于利用物料型号提取模型提取目标文本单元中包含的目标物料类型及对应的全部初始物料子型号,其中,每个初始物料子型号包括一个目标特征属性及至少一个目标特征值,不同初始物料子型号包含的目标特征属性不同;
选取模块,用于从各初始物料子型号中选取匹配度最大的目标特征属性及对应的目标特征值为目标物料子型号;
组合模块,用于将各目标物料子型号组合得到对应所述目标物料类型的综合物料型号;
所述提取模块,还用于采集并标注样本文本单元,其中,每个所述样本文本单元包含一种样本物料类型、至少一个样本特征属性和各样本特征属性对应的样本特征值;
将样本特征属性及样本特征值错位匹配得到各样本特征属性对应的异常特征值,其中,每个所述样本特征属性对应的所述异常特征值和所述样本特征值的单位相同;
将每个所述样本特征属性及对应的异常特征值关联存储到对应所述样本物料类型的异常数据集;
所述选取模块还用于判断所述初始物料子型号中的所述目标特征属性与所述目标特征值是否与所述异常数据集关联;
保留不与所述异常数据集关联的目标特征属性及对应的目标特征值为目标物料子型号。
6.根据权利要求5所述的装置,其特征在于,所述提取模块具体用于分别基于物料型号提取模型和预设的型号提取规则对各目标文本单元进行提取,对应得到第一物料子型号和第二物料子型号;
若所述第一物料子型号和所述第二物料子型号相同,选取所述第一物料子型号或第二物料子型号为初始物料子型号;
若所述第一物料子型号和所述第二物料子型号不同,输出提取异常信号。
7.根据权利要求5所述的装置,其特征在于,所述选取模块具体用于计算各初始物料子型号内所述目标特征属性与各所述目标特征值的匹配概率;
保留各所述初始物料子型号中最大匹配概率对应的目标特征值和目标特征属性为目标物料子型号。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上执行时实现权利要求1至4中任一项所述的物料型号提取方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序在处理器上执行时实现权利要求1至4中任一项所述的物料型号提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895880.3A CN113609279B (zh) | 2021-08-05 | 2021-08-05 | 一种物料型号提取方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110895880.3A CN113609279B (zh) | 2021-08-05 | 2021-08-05 | 一种物料型号提取方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113609279A CN113609279A (zh) | 2021-11-05 |
CN113609279B true CN113609279B (zh) | 2023-12-08 |
Family
ID=78307070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110895880.3A Active CN113609279B (zh) | 2021-08-05 | 2021-08-05 | 一种物料型号提取方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609279B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114973259B (zh) * | 2022-03-03 | 2024-08-20 | 北京电解智科技有限公司 | 信息抽取方法、装置和计算机可读存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473383A (zh) * | 2013-05-27 | 2013-12-25 | 李晓波 | 根据汽车线束图纸自动提取物料清单的方法 |
CN104615642A (zh) * | 2014-12-17 | 2015-05-13 | 吉林大学 | 基于局部邻域约束的空间验证的错误匹配检测方法 |
CN107203548A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN110033206A (zh) * | 2018-01-11 | 2019-07-19 | 国科赛思(北京)科技有限公司 | 物料清单自动校核方法及装置 |
CN111191067A (zh) * | 2019-12-25 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、终端设备及计算机可读存储介质 |
CN111726336A (zh) * | 2020-05-14 | 2020-09-29 | 北京邮电大学 | 一种联网智能设备识别信息提取方法及系统 |
CN111783903A (zh) * | 2020-08-05 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN112070384A (zh) * | 2020-08-31 | 2020-12-11 | 深圳市易思达软件技术有限公司 | 基于mi制作指示的物料匹配方法、装置、设备及存储介质 |
CN112199451A (zh) * | 2020-09-30 | 2021-01-08 | 京东数字科技控股股份有限公司 | 商品识别方法、装置、计算机设备及存储介质 |
CN112287071A (zh) * | 2020-11-16 | 2021-01-29 | 支付宝(杭州)信息技术有限公司 | 一种文本关系提取方法、装置及电子设备 |
CN112818693A (zh) * | 2021-02-07 | 2021-05-18 | 深圳市世强元件网络有限公司 | 一种电子元器件型号词的自动提取方法及系统 |
CN113111167A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接处警文本车辆型号提取方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190236460A1 (en) * | 2018-01-29 | 2019-08-01 | Salesforce.Com, Inc. | Machine learnt match rules |
CN109858555B (zh) * | 2019-02-12 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于图像的数据处理方法、装置、设备及可读存储介质 |
US20210182696A1 (en) * | 2019-12-11 | 2021-06-17 | International Business Machines Corporation | Prediction of objective variable using models based on relevance of each model |
-
2021
- 2021-08-05 CN CN202110895880.3A patent/CN113609279B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473383A (zh) * | 2013-05-27 | 2013-12-25 | 李晓波 | 根据汽车线束图纸自动提取物料清单的方法 |
CN104615642A (zh) * | 2014-12-17 | 2015-05-13 | 吉林大学 | 基于局部邻域约束的空间验证的错误匹配检测方法 |
CN107203548A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN110033206A (zh) * | 2018-01-11 | 2019-07-19 | 国科赛思(北京)科技有限公司 | 物料清单自动校核方法及装置 |
CN111191067A (zh) * | 2019-12-25 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、终端设备及计算机可读存储介质 |
CN113111167A (zh) * | 2020-02-13 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的接处警文本车辆型号提取方法和装置 |
CN111726336A (zh) * | 2020-05-14 | 2020-09-29 | 北京邮电大学 | 一种联网智能设备识别信息提取方法及系统 |
CN111783903A (zh) * | 2020-08-05 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN112070384A (zh) * | 2020-08-31 | 2020-12-11 | 深圳市易思达软件技术有限公司 | 基于mi制作指示的物料匹配方法、装置、设备及存储介质 |
CN112199451A (zh) * | 2020-09-30 | 2021-01-08 | 京东数字科技控股股份有限公司 | 商品识别方法、装置、计算机设备及存储介质 |
CN112287071A (zh) * | 2020-11-16 | 2021-01-29 | 支付宝(杭州)信息技术有限公司 | 一种文本关系提取方法、装置及电子设备 |
CN112818693A (zh) * | 2021-02-07 | 2021-05-18 | 深圳市世强元件网络有限公司 | 一种电子元器件型号词的自动提取方法及系统 |
Non-Patent Citations (2)
Title |
---|
Research on Classifications of Mobile Networking Device Users Based on BP Neural Networks;Xiaoling Xia等;2017 2nd International Conference on Mechatronics and Information Technology (ICMIT 2017);104-109 * |
基于SOINN的在线物联网设备识别方法;张帅帅等;东南大学学报(自然科学版);第51卷(第4期);715-723 * |
Also Published As
Publication number | Publication date |
---|---|
CN113609279A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457688B (zh) | 纠错处理方法及装置、存储介质和处理器 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN110188223B (zh) | 图像处理方法、装置及计算机设备 | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
CN111274785B (zh) | 一种文本纠错方法、装置、设备及介质 | |
CN106909575B (zh) | 文本聚类方法和装置 | |
CN106528532A (zh) | 文本纠错方法、装置及终端 | |
US20190220710A1 (en) | Data processing method and data processing device | |
CN111881289B (zh) | 分类模型的训练方法、数据风险类别的检测方法及装置 | |
CN111931491B (zh) | 领域词典构建方法及装置 | |
CN111767716A (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN108153735B (zh) | 一种近义词的获取方法及系统 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN109858025B (zh) | 一种地址标准化语料的分词方法及系统 | |
CN109299246B (zh) | 一种文本分类方法及装置 | |
CN114116973A (zh) | 多文档的文本查重方法、电子设备及存储介质 | |
CN112445912A (zh) | 一种故障日志分类方法、系统、设备以及介质 | |
CN113609279B (zh) | 一种物料型号提取方法、装置及计算机设备 | |
CN109670153B (zh) | 一种相似帖子的确定方法、装置、存储介质及终端 | |
JP5766152B2 (ja) | 言語モデル生成装置、その方法及びプログラム | |
CN112182337B (zh) | 从海量短新闻中识别相似新闻的方法及相关设备 | |
CN110019763A (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN115130455A (zh) | 文章处理方法、装置、电子设备以及存储介质 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN111143554B (zh) | 基于大数据平台的数据采样方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |