CN115495507B - 一种工程材料信息价格匹配方法、系统及存储介质 - Google Patents
一种工程材料信息价格匹配方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115495507B CN115495507B CN202211440292.1A CN202211440292A CN115495507B CN 115495507 B CN115495507 B CN 115495507B CN 202211440292 A CN202211440292 A CN 202211440292A CN 115495507 B CN115495507 B CN 115495507B
- Authority
- CN
- China
- Prior art keywords
- materials
- information
- matching
- matched
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims abstract description 453
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000012925 reference material Substances 0.000 claims abstract description 65
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 238000005065 mining Methods 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims description 26
- 238000012805 post-processing Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 239000004570 mortar (masonry) Substances 0.000 claims description 13
- 229910000831 Steel Inorganic materials 0.000 claims description 12
- 239000010959 steel Substances 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 11
- 239000004568 cement Substances 0.000 claims description 9
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000011449 brick Substances 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000002203 pretreatment Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005086 pumping Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种工程材料信息价格匹配方法、系统及存储介质,属于数据处理技术领域。本发明的方法首先构建常用材料库和特殊材料库,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;参考材料库和待匹配材料预处理;再根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,并将匹配到的材料信息按照相关性排序;再对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;最后对匹配材料价格单位换算。本发明基于常用词库对匹配出的材料进行规则匹配,显著提高匹配的准确度,并且解决人工进行材料价格匹配效率低的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种工程材料信息价格匹配方法、系统及存储介质。
背景技术
随着大数据技术的发展,尤其是在建筑行业中,正在加速实现建筑行业信息智能化管理,其中建筑工程材料信息的管理是建筑行业信息化建设中不可或缺的组成部分。目前构建的建筑工程材料参考材料库中材料名称和规格命名不规范,且规格混合在材料名称中,在查询需匹配材料价格过程中,材料名称和规格与参考材料库中不一致,单位不一致,名称相似材料不同,相同材料名称不同,导致需要匹配材料与参考材料库无法匹配。
针对以上问题,现有匹配方法是通过自然语言处理技术,并结合规则匹配实现。该方案采用新词发现对大量的数据进行挖掘,构建常用词库。基于常用词库对匹配出的材料进行规则匹配,显著提高匹配的准确度,并且解决人工进行材料价格匹配效率低的问题。
发明内容
为了解决上述问题,本发明提出一种工程材料信息价格匹配方法,具体步骤如下:
步骤S1:构建常用材料库和特殊材料库,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;
步骤S2:参考材料库和待匹配材料预处理,分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;
步骤S3:材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;
步骤S4:匹配结果后处理,对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;
步骤S5:匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
进一步地,步骤S1中所述新词发现技术是根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:
使用现有工程材料的名称建立语料库,计算每个候选词的总体得分,按照总体得分进行排序,选出常用材料库和特殊材料库词语,总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息,
候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:
候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:
候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:
对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。
进一步地,步骤S2中所述参考材料库和待匹配材料预处理具体是指对参考材料库和待匹配材料名称title和规格specs分别进行预处理,参考材料库预处理后的材料名称作为别名title_alias和spec_alias,参考材料库含有材料名称,规格,单位,含税价,除税价,来源及区域描述字段;待匹配材料含有名称,规格,单位描述字段。
进一步地,参考材料库所述的参考材料库预处理具体方法为:
参考材料库格式校验,检测其信息字段是否有缺失,补全缺失值为空字符;
参考材料库过滤去除名称为空的材料;
参考材料库的材料名称和规格统一转换为大写;
部分特殊材料补全描述信息,遍历特殊材料换算表对钢筋和砂浆材料进行代号换算,根据材料代号,获取参考材料库的材料名称和规格中缺少的描述信息作为补全信息;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息;
若预处理后的材料和规格名称不变,则将原始名称和规格作为材料别名和规格别名。
进一步地,所述的待匹配材料预处理方法具体为:
待匹配材料格式校验,检测其材料信息字段是否有缺失,补全缺失值为空字符。
待匹配材料名称和规格统一转换为大写;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息。
进一步地,步骤S3所述材料匹配方法如下:
以参考材料库的材料名称和规格别名title_alias和 spec_alias为全文索引;
将分词存储在一个辅助表中,分词大小设置为2;辅助表内容为词语及词语在各条记录位置的映射关系,存储为倒排文件索引;
通过倒排索引进行前查找,计算查看各条数据的相关性,相关性根据记录中的单词数,记录中唯一单词数,集合中单词的总数以及包含特定单词的记录数各因素进行计算;
按照相关性排序,取出前10条数据记录作为匹配结果。
进一步地,步骤S4所述匹配结果后处理具体方法如下:
过滤异义词材料,异义词材料即材料名称相似,但是完全不同的材料,遍历异义词材料表去除匹配结果中的异义词材料;
过滤单向含义材料,单向含义材料即需匹配材料A,材料B属于材料A,但是需匹配材料B,材料A不属于材料B,遍历单向含义材料表去除匹配结果中的单向含义材料;
部分特殊材料处理,对于待匹配材料为水泥,若含有水泥等级,过滤匹配结果中水泥等级的材料;对于待匹配材料为钢筋,若可换算为标准钢筋种类代号,过滤匹配结果中钢筋代号相同的材料;对于待匹配材料为砂浆,若可换算为标准砂浆种类代号,过滤匹配结果中砂浆代号相同的材料;
常用材料库过滤,待匹配材料名称包含的常用词列表,匹配结果中存在相同的常用词列表,否则去除;
特殊材料库过滤,待匹配材料名称包含的特殊词列表,匹配材料中存在相同的特殊词列表,待匹配材料名称不包含的特殊词列表,匹配材料同样不包含该特殊词列表,否则去除;
规格精确匹配过滤,若待匹配材料规格不为空则分割为多个条件,对于每个条件数字和字母进行完全匹配,否则去除。
进一步地,步骤S5所述匹配材料价格单位换算方法具体为:
根据单位换算表,若单位为相同度量单位且可进行转换,则对价格按照单位进率进行换算。若单位不可进行转换或包含砖的材料,匹配材料不做处理。
本发明还提供一种工程材料信息价格匹配系统,包括常用材料库和特殊材料库构建单元、参考材料库和待匹配材料预处理单元、材料匹配单元、匹配结果后处理单元,匹配材料价格单位换算单元和系统数据库;
所述常用材料库和特殊材料库构建单元,采用新词发现对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;
所述参考材料库和待匹配材料预处理单元分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;
所述材料匹配单元根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;
所述匹配结果后处理单元对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;
所述匹配材料价格单位换算单元将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算;
所属数据库存储上述参考材料库的材料数据,以及初步查询匹配的材料。
本发明另外提供一种计算机可读指令的存储介质,所述计算机可读指令的存储介质上存储计算机程序,可读指令被处理器执行所述计算机程序,实现所述一种工程材料信息价格匹配方法的步骤。
综上所述,本发明提供了一种工程材料信息价格匹配方法、系统及存储介质,通过构建常用材料库和特殊材料库,基于现有工程材料名称建立语料库丰富语义,解决匹配结果与待匹配材料明显不匹配问题。通过参考材料库和待匹配材料预处理,补全材料名称和规格信息作为别名,提高材料匹配的准确度。通过匹配结果后处理,采用规则匹配对部分特殊材料进行后处理后,进一步提高了匹配的准确度。
附图说明
图1为一种工程材料信息价格匹配方法步骤流程图;
图2为一种工程材料信息价格匹配方法系统框架图。
具体实施方式
为了能够更加清楚完整地描述本发明实施例中的技术方案,以下结合实施例中附图,对本发明做进一步详细描述说明。本发明所描述的具体实施例,以及基于本发明的其他实施例,均属于本发明保护范围。
本发明的目的在于提供了一种工程材料信息价格匹配方法、系统及存储介质,通过构建常用材料库和特殊材料库,基于现有工程材料名称建立语料库丰富语义,解决匹配结果与待匹配材料明显不匹配问题。通过参考材料库和待匹配材料预处理,补全材料名称和规格信息作为别名,提高材料匹配的准确度。通过匹配结果后处理,采用规则匹配对部分特殊材料进行后处理后,进一步提高了匹配的准确度。
如图1所示为本发明的一种工程材料信息价格匹配方法步骤如下:
步骤S1:构建常用材料库和特殊材料库,采用新词发现对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称。
步骤S2:参考材料库和待匹配材料预处理,分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名。
步骤S3:材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序。
步骤S4:匹配结果后处理,对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理。
步骤S5:匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
其中,步骤S1中,新词发现技术主要根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:
使用现有工程材料的名称建立语料库,计算每个候选词的总体得分。按照总体得分进行排序,选出常用材料库和特殊材料库词语。总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息。
候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:
候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:
候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:
对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。
在实际工程应用中,常用材料库词语可根据具体使用场景的词语建立语料库,并对建立语料库进行挖掘,最终构建适用场景的常用材料库。本发明采用的常用材料库词语为建筑工程材料仅取其名称构建,例如:接头,焊条,砌块和砂布等。
在实际工程应用中,特殊材料库可以根据需匹配材料的特殊属性要求。本发明采用特殊材料库词语为建筑工程材料的特殊工程要求,例如:非钢化,镀银,非泵送和防锈等。
其中,步骤S2中,对参考材料库和待匹配材料名称title和规格specs分别进行预处理,参考材料库预处理后的材料名称作为别名title_alias和spec_alias,参考材料库含有材料名称,规格,单位,含税价,除税价,来源及区域描述字段。待匹配材料含有名称,规格,单位描述字段。参考材料库和待匹配材料预处理方法如下。
S201:参考材料库预处理具体方法:
参考材料库格式校验,检测其信息字段是否有缺失,补全缺失值为空字符。
参考材料库过滤去除名称为空的材料;
参考材料库的材料名称和规格统一转换为大写;
部分特殊材料补全描述信息,遍历特殊材料换算表对钢筋和砂浆材料进行代号换算,根据材料代号,获取参考材料库的材料名称和规格中缺少的描述信息作为补全信息;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息;
若预处理后的材料和规格名称不变,则将原始名称和规格作为材料别名和规格别名。
在实际工程应用中,参考材料库经过步骤S201预处理后,材料和规格举例见表1所示:
表1
S202:待匹配材料预处理具体方法:
待匹配材料格式校验,检测其材料信息字段是否有缺失,补全缺失值为空字符。
待匹配材料名称和规格统一转换为大写;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息。
在实际工程应用中,待匹配材料经过步骤S202预处理后,材料和规格举例见表2所示:
表2
进一步,步骤S3中,材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序。材料匹配方法如下:
S301:以参考材料库的材料名称和规格别名title_alias和 spec_alias为全文索引;
S302:将分词存储在一个辅助表中,分词大小设置为2。辅助表内容为词语及词语在各条记录位置的映射关系,存储为倒排文件索引;
S303:通过倒排索引进行前查找,计算查看各条数据的相关性,相关性根据记录中的单词数,记录中唯一单词数,集合中单词的总数以及包含特定单词的记录数各因素进行计算;
S304:按照相关性排序,取出前10条数据记录作为匹配结果。
在实际工程应用中,经过步骤S3材料匹配,待匹配的材料均会有至少0个,最多10个材料作为匹配结果。匹配结果与待匹配材料名称或规格相似,但是并未完全是同种材料,因此需要执行步骤4。若待匹配材料名称为砼(泵送型),规格为C25,单位为m3,匹配结果为表3所示:
表3
进一步,步骤S4中,匹配结果后处理,对步骤S3材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理,具体处理内容如下:
S401:过滤异义词材料,异义词材料即材料名称相似,但是完全不同的材料。遍历异义词材料表去除匹配结果中的异义词材料;
S402:过滤单向含义材料,单向含义材料即需匹配材料A,材料B属于材料A,但是需匹配材料B,材料A不属于材料B。遍历单向含义材料表去除匹配结果中的单向含义材料;
S403:部分特殊材料处理,对于待匹配材料为水泥,若含有水泥等级,过滤匹配结果中水泥等级的材料。对于待匹配材料为钢筋,若可换算为标准钢筋种类代号,过滤匹配结果中钢筋代号相同的材料。对于待匹配材料为砂浆,若可换算为标准砂浆种类代号,过滤匹配结果中砂浆代号相同的材料。
S404:常用材料库过滤,待匹配材料名称包含的常用词列表,匹配结果中存在相同的常用词列表,否则去除。
S405:特殊材料库过滤,待匹配材料名称包含的特殊词列表,匹配材料中存在相同的特殊词列表,待匹配材料名称不包含的特殊词列表,匹配材料同样不包含该特殊词列表,否则去除。
S406:规格精确匹配过滤,若待匹配材料规格不为空则分割为多个条件,对于每个条件数字和字母进行完全匹配,否则去除。
在实际工程应用中,经过步骤4匹配结果后处理,待匹配的材料均会有至少0个,最多10个材料作为匹配结果。匹配结果与待匹配材料名称或规格大概率属于同种材料。若待匹配材料名称为砼(泵送型),规格为C25,单位为m3,匹配结果为表4所示:
表4
进一步,步骤S5中,匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
根据单位换算表,若单位为相同度量单位且可进行转换,则对价格按照单位进率进行换算。若单位不可进行转换或包含砖的材料,匹配材料不做处理。
在实际工程应用中,经过步骤5匹配材料价格单位换算,待匹配的材料与匹配结果中材料单位一致,信息价格可供参考使用。
为了实现上述一种工程材料信息价格匹配方法,本发明还包括一种工程材料信息价格匹配系统。
如图2所示的一种工程材料信息价格匹配方法系统框架图,系统包括常用材料库和特殊材料库构建单元、参考材料库和待匹配材料预处理单元、材料匹配单元、匹配结果后处理单元和匹配材料价格单位换算单元和系统数据库。
其中,所述常用材料库和特殊材料库构建单元,采用新词发现对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称。
所述参考材料库和待匹配材料预处理单元分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名。
所述材料匹配单元根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序。
所述匹配结果后处理单元对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理。
所述匹配材料价格单位换算单元将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
所属数据库存储上述参考材料库的材料数据,以及初步查询匹配的材料。
在实施例中,提供了一种计算机可读指令的存储介质,所述计算机可读指令的存储介质上存储计算机程序,可读指令被处理器执行所述计算机程序,实现所述一种工程材料信息价格匹配方法的步骤:获取常用材料库和特殊材料库,接收参考材料库和待匹配材料预处理,材料匹配,对材料匹配结果后处理,最后匹配材料价格单位换算。
上面结合附图对本发明的实施例进行了详细描述,但是本发明并不仅限于上述描述的实施方式,在本领域本发明启示和权利要求保护范围内,其他形式的实施例,均属于本发明的保护范围。
Claims (9)
1.一种工程材料信息价格匹配方法,其特征在于,该方法具体步骤如下:
步骤S1:构建常用材料库和特殊材料库,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;
步骤S2:参考材料库和待匹配材料预处理,分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;
步骤S3:材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;
步骤S4:匹配结果后处理,对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;
步骤S5:匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算;
步骤S1中所述新词发现技术是根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:
使用现有工程材料的名称建立语料库,计算每个候选词的总体得分,按照总体得分进行排序,选出常用材料库和特殊材料库词语,总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息,
候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:
候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:
候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:
对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。
2.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S2中所述参考材料库和待匹配材料预处理具体是指对参考材料库和待匹配材料名称title和规格specs分别进行预处理,参考材料库预处理后的材料名称作为别名title_alias和spec_alias,参考材料库含有材料名称,规格,单位,含税价,除税价,来源及区域描述字段;待匹配材料含有名称,规格,单位描述字段。
3.根据权利要求2所述的一种工程材料信息价格匹配方法,其特征在于,参考材料库所述的参考材料库预处理具体方法为:
参考材料库格式校验,检测其信息字段是否有缺失,补全缺失值为空字符;
参考材料库过滤去除名称为空的材料;
参考材料库的材料名称和规格统一转换为大写;
部分特殊材料补全描述信息,遍历特殊材料换算表对钢筋和砂浆材料进行代号换算,根据材料代号,获取参考材料库的材料名称和规格中缺少的描述信息作为补全信息;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息;
若预处理后的材料和规格名称不变,则将原始名称和规格作为材料别名和规格别名。
4.根据权利要求2所述的一种工程材料信息价格匹配方法,其特征在于,所述的待匹配材料预处理方法具体为:
待匹配材料格式校验,检测其材料信息字段是否有缺失,补全缺失值为空字符;
待匹配材料名称和规格统一转换为大写;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息。
5.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S3所述材料匹配方法如下:
以参考材料库的材料名称和规格别名title_alias和 spec_alias为全文索引;
将分词存储在一个辅助表中,分词大小设置为2;辅助表内容为词语及词语在各条记录位置的映射关系,存储为倒排文件索引;
通过倒排索引进行前查找,计算查看各条数据的相关性,相关性根据记录中的单词数,记录中唯一单词数,集合中单词的总数以及包含特定单词的记录数各因素进行计算;
按照相关性排序,取出前10条数据记录作为匹配结果。
6.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S4所述匹配结果后处理具体方法如下:
过滤异义词材料,异义词材料即材料名称相似,但是完全不同的材料,遍历异义词材料表去除匹配结果中的异义词材料;
过滤单向含义材料,单向含义材料即需匹配材料A,材料B属于材料A,但是需匹配材料B,材料A不属于材料B,遍历单向含义材料表去除匹配结果中的单向含义材料;
部分特殊材料处理,对于待匹配材料为水泥,若含有水泥等级,过滤匹配结果中水泥等级的材料;对于待匹配材料为钢筋,若可换算为标准钢筋种类代号,过滤匹配结果中钢筋代号相同的材料;对于待匹配材料为砂浆,若可换算为标准砂浆种类代号,过滤匹配结果中砂浆代号相同的材料;
常用材料库过滤,待匹配材料名称包含的常用词列表,匹配结果中存在相同的常用词列表,否则去除;
特殊材料库过滤,待匹配材料名称包含的特殊词列表,匹配材料中存在相同的特殊词列表,待匹配材料名称不包含的特殊词列表,匹配材料同样不包含该特殊词列表,否则去除;
规格精确匹配过滤,若待匹配材料规格不为空则分割为多个条件,对于每个条件数字和字母进行完全匹配,否则去除。
7.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S5所述匹配材料价格单位换算方法具体为:
根据单位换算表,若单位为相同度量单位且可进行转换,则对价格按照单位进率进行换算;若单位不可进行转换或包含砖的材料,匹配材料不做处理。
8.一种工程材料信息价格匹配系统,其特征在于,包括常用材料库和特殊材料库构建单元、参考材料库和待匹配材料预处理单元、材料匹配单元、匹配结果后处理单元,匹配材料价格单位换算单元和系统数据库;
所述常用材料库和特殊材料库构建单元,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;
所述参考材料库和待匹配材料预处理单元分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;
所述材料匹配单元根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;
所述匹配结果后处理单元对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;
所述匹配材料价格单位换算单元将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算;
所述数据库存储上述参考材料库的材料数据,以及初步查询匹配的材料;
所述新词发现技术是根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:
使用现有工程材料的名称建立语料库,计算每个候选词的总体得分,按照总体得分进行排序,选出常用材料库和特殊材料库词语,总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息,
候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:
候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:
候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:
对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。
9.一种计算机可读指令的存储介质,所述计算机可读指令的存储介质上存储计算机程序,可读指令被处理器执行所述计算机程序,实现如权利要求1所述一种工程材料信息价格匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211440292.1A CN115495507B (zh) | 2022-11-17 | 2022-11-17 | 一种工程材料信息价格匹配方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211440292.1A CN115495507B (zh) | 2022-11-17 | 2022-11-17 | 一种工程材料信息价格匹配方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115495507A CN115495507A (zh) | 2022-12-20 |
CN115495507B true CN115495507B (zh) | 2023-03-24 |
Family
ID=85116074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211440292.1A Active CN115495507B (zh) | 2022-11-17 | 2022-11-17 | 一种工程材料信息价格匹配方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115495507B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117010925B (zh) * | 2023-06-21 | 2024-03-22 | 广东中洲国信建设管理咨询有限公司 | 一种工程材料自动配价方法、系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049501A (zh) * | 2012-12-11 | 2013-04-17 | 上海大学 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
CN106649666A (zh) * | 2016-11-30 | 2017-05-10 | 浪潮电子信息产业股份有限公司 | 一种左右递归新词发现方法 |
CN107908671A (zh) * | 2017-10-25 | 2018-04-13 | 南京擎盾信息科技有限公司 | 基于法律数据的知识图谱构建方法及系统 |
CN108829658A (zh) * | 2018-05-02 | 2018-11-16 | 石家庄天亮教育科技有限公司 | 新词发现的方法及装置 |
CN113987125A (zh) * | 2021-10-28 | 2022-01-28 | 平安医疗健康管理股份有限公司 | 基于神经网络的文本结构化信息提取方法、及其相关设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020422B (zh) * | 2018-11-26 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
CN112818686B (zh) * | 2021-03-23 | 2023-10-31 | 北京百度网讯科技有限公司 | 领域短语挖掘方法、装置和电子设备 |
-
2022
- 2022-11-17 CN CN202211440292.1A patent/CN115495507B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049501A (zh) * | 2012-12-11 | 2013-04-17 | 上海大学 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
CN106649666A (zh) * | 2016-11-30 | 2017-05-10 | 浪潮电子信息产业股份有限公司 | 一种左右递归新词发现方法 |
CN107908671A (zh) * | 2017-10-25 | 2018-04-13 | 南京擎盾信息科技有限公司 | 基于法律数据的知识图谱构建方法及系统 |
CN108829658A (zh) * | 2018-05-02 | 2018-11-16 | 石家庄天亮教育科技有限公司 | 新词发现的方法及装置 |
CN113987125A (zh) * | 2021-10-28 | 2022-01-28 | 平安医疗健康管理股份有限公司 | 基于神经网络的文本结构化信息提取方法、及其相关设备 |
Non-Patent Citations (4)
Title |
---|
A Mutual-Information-Based Approach to Entity Reconciliation in Heterogeneous Databases;Bao-hua Qiang 等;《2008 International Conference on Computer Science and Software Engineering》;20081222;666-669 * |
Selection Method for Scene Matching Area Based on Information Entropy;Xiaochen Zhang 等;《2012 Fifth International Symposium on Computational Intelligence and Design》;20130110;364-368 * |
UGC环境下社会化问答社区的话题挖掘及问答推荐研究;陈晨;《中国博士学位论文全文数据库 信息科技辑》;20220415(第04(2022)期);I138-95 * |
航空发动机多指标模糊信息熵的性能排序研究;张海军 等;《应用科学学报》;20060530(第03(2006)期);288-292 * |
Also Published As
Publication number | Publication date |
---|---|
CN115495507A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7953724B2 (en) | Method and system for disambiguating informational objects | |
US9183290B2 (en) | Method and system for disambiguating informational objects | |
CN108228825B (zh) | 一种基于分词的用户地址数据清洗方法 | |
CN101079025B (zh) | 一种文档相关度计算系统和方法 | |
CN115495507B (zh) | 一种工程材料信息价格匹配方法、系统及存储介质 | |
CN101882163A (zh) | 一种基于匹配规则的模糊中文地址地理赋值方法 | |
CN112528174A (zh) | 基于知识图谱和多重匹配的地址修整补全方法及应用 | |
CN110990520A (zh) | 一种地址编码方法、装置、电子设备和存储介质 | |
CN103970842A (zh) | 一种面向防洪减灾领域的水利大数据存取系统及方法 | |
CN107463711A (zh) | 一种数据的标签匹配方法及装置 | |
WO2020037794A1 (zh) | 一种英文地名的索引建立方法及其查询方法和装置 | |
CN111897917A (zh) | 基于多模态自然语言特征的轨道交通行业术语提取方法 | |
CN117435777B (zh) | 一种产业链图谱自动构建方法与系统 | |
CN105824956A (zh) | 一种基于链表结构的倒排索引模型及其构建方法 | |
CN102385597B (zh) | 一种poi的容错搜索方法 | |
CN105005619A (zh) | 一种海量网站基础信息的快速检索方法和系统 | |
Faiz et al. | OD2WD: From Open Data to Wikidata through Patterns. | |
CN1426017A (zh) | 一种校对多个电子文件的方法及其系统 | |
CN102722527B (zh) | 一种支持含有缺失符号的查询请求的全文检索方法 | |
CN114595379A (zh) | 一种数据标准的智能推荐方法及装置 | |
CN111178771B (zh) | 体系构建方法和装置 | |
CN118193664B (zh) | 一种统一社会信用代码行政区划数据补全方法与系统 | |
Nsira et al. | Algorithms for indexing highly similar DNA sequences | |
Islam et al. | On the design of an effective corpus for evaluation of Bengali Text Compression Schemes | |
CN114819796A (zh) | 基于末端码的快递投递方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |