CN115495507B - 一种工程材料信息价格匹配方法、系统及存储介质 - Google Patents

一种工程材料信息价格匹配方法、系统及存储介质 Download PDF

Info

Publication number
CN115495507B
CN115495507B CN202211440292.1A CN202211440292A CN115495507B CN 115495507 B CN115495507 B CN 115495507B CN 202211440292 A CN202211440292 A CN 202211440292A CN 115495507 B CN115495507 B CN 115495507B
Authority
CN
China
Prior art keywords
materials
information
matching
matched
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211440292.1A
Other languages
English (en)
Other versions
CN115495507A (zh
Inventor
李珍珍
赵博
张海军
徐忠
崔爱民
黄宜华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Haopan Yunjian Network Technology Co ltd
Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Original Assignee
Jiangsu Haopan Yunjian Network Technology Co ltd
Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Haopan Yunjian Network Technology Co ltd, Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd filed Critical Jiangsu Haopan Yunjian Network Technology Co ltd
Priority to CN202211440292.1A priority Critical patent/CN115495507B/zh
Publication of CN115495507A publication Critical patent/CN115495507A/zh
Application granted granted Critical
Publication of CN115495507B publication Critical patent/CN115495507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种工程材料信息价格匹配方法、系统及存储介质,属于数据处理技术领域。本发明的方法首先构建常用材料库和特殊材料库,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;参考材料库和待匹配材料预处理;再根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,并将匹配到的材料信息按照相关性排序;再对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;最后对匹配材料价格单位换算。本发明基于常用词库对匹配出的材料进行规则匹配,显著提高匹配的准确度,并且解决人工进行材料价格匹配效率低的问题。

Description

一种工程材料信息价格匹配方法、系统及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种工程材料信息价格匹配方法、系统及存储介质。
背景技术
随着大数据技术的发展,尤其是在建筑行业中,正在加速实现建筑行业信息智能化管理,其中建筑工程材料信息的管理是建筑行业信息化建设中不可或缺的组成部分。目前构建的建筑工程材料参考材料库中材料名称和规格命名不规范,且规格混合在材料名称中,在查询需匹配材料价格过程中,材料名称和规格与参考材料库中不一致,单位不一致,名称相似材料不同,相同材料名称不同,导致需要匹配材料与参考材料库无法匹配。
针对以上问题,现有匹配方法是通过自然语言处理技术,并结合规则匹配实现。该方案采用新词发现对大量的数据进行挖掘,构建常用词库。基于常用词库对匹配出的材料进行规则匹配,显著提高匹配的准确度,并且解决人工进行材料价格匹配效率低的问题。
发明内容
为了解决上述问题,本发明提出一种工程材料信息价格匹配方法,具体步骤如下:
步骤S1:构建常用材料库和特殊材料库,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;
步骤S2:参考材料库和待匹配材料预处理,分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;
步骤S3:材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;
步骤S4:匹配结果后处理,对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;
步骤S5:匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
进一步地,步骤S1中所述新词发现技术是根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:
使用现有工程材料的名称建立语料库,计算每个候选词的总体得分,按照总体得分进行排序,选出常用材料库和特殊材料库词语,总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息,
候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:
Figure 352627DEST_PATH_IMAGE001
其中,ELER分别为左邻熵和右邻熵,
Figure 535347DEST_PATH_IMAGE002
和/>
Figure 970876DEST_PATH_IMAGE003
分别为左邻字符串集合和右邻字符串集合,/>
Figure 195446DEST_PATH_IMAGE004
为第i个字符串,s为字符串的组合,/>
Figure 72135DEST_PATH_IMAGE005
为信息熵,/>
Figure 160177DEST_PATH_IMAGE006
为字符串/>
Figure 489527DEST_PATH_IMAGE004
在字符串组合s出现的概率;
候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:
Figure 314526DEST_PATH_IMAGE007
其中,
Figure 45722DEST_PATH_IMAGE008
为平均互信息,W为候选词,n为候选词长度,/>
Figure 366982DEST_PATH_IMAGE009
是联合概率分布函数,/>
Figure 685093DEST_PATH_IMAGE010
和/>
Figure 484421DEST_PATH_IMAGE011
分别为字符串/>
Figure 70124DEST_PATH_IMAGE012
和/>
Figure 562285DEST_PATH_IMAGE013
的边缘概率分布函数;
候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:
Figure 695588DEST_PATH_IMAGE014
其中,
Figure 33029DEST_PATH_IMAGE015
为候选词的整体得分,/>
Figure 738816DEST_PATH_IMAGE016
为候选词信息熵,/>
Figure 637765DEST_PATH_IMAGE017
和/>
Figure 429003DEST_PATH_IMAGE018
分别为信息熵和互信息的评估权重;
对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。
进一步地,步骤S2中所述参考材料库和待匹配材料预处理具体是指对参考材料库和待匹配材料名称title和规格specs分别进行预处理,参考材料库预处理后的材料名称作为别名title_alias和spec_alias,参考材料库含有材料名称,规格,单位,含税价,除税价,来源及区域描述字段;待匹配材料含有名称,规格,单位描述字段。
进一步地,参考材料库所述的参考材料库预处理具体方法为:
参考材料库格式校验,检测其信息字段是否有缺失,补全缺失值为空字符;
参考材料库过滤去除名称为空的材料;
参考材料库的材料名称和规格统一转换为大写;
部分特殊材料补全描述信息,遍历特殊材料换算表对钢筋和砂浆材料进行代号换算,根据材料代号,获取参考材料库的材料名称和规格中缺少的描述信息作为补全信息;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息;
若预处理后的材料和规格名称不变,则将原始名称和规格作为材料别名和规格别名。
进一步地,所述的待匹配材料预处理方法具体为:
待匹配材料格式校验,检测其材料信息字段是否有缺失,补全缺失值为空字符。
待匹配材料名称和规格统一转换为大写;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息。
进一步地,步骤S3所述材料匹配方法如下:
以参考材料库的材料名称和规格别名title_alias和 spec_alias为全文索引;
将分词存储在一个辅助表中,分词大小设置为2;辅助表内容为词语及词语在各条记录位置的映射关系,存储为倒排文件索引;
通过倒排索引进行前查找,计算查看各条数据的相关性,相关性根据记录中的单词数,记录中唯一单词数,集合中单词的总数以及包含特定单词的记录数各因素进行计算;
按照相关性排序,取出前10条数据记录作为匹配结果。
进一步地,步骤S4所述匹配结果后处理具体方法如下:
过滤异义词材料,异义词材料即材料名称相似,但是完全不同的材料,遍历异义词材料表去除匹配结果中的异义词材料;
过滤单向含义材料,单向含义材料即需匹配材料A,材料B属于材料A,但是需匹配材料B,材料A不属于材料B,遍历单向含义材料表去除匹配结果中的单向含义材料;
部分特殊材料处理,对于待匹配材料为水泥,若含有水泥等级,过滤匹配结果中水泥等级的材料;对于待匹配材料为钢筋,若可换算为标准钢筋种类代号,过滤匹配结果中钢筋代号相同的材料;对于待匹配材料为砂浆,若可换算为标准砂浆种类代号,过滤匹配结果中砂浆代号相同的材料;
常用材料库过滤,待匹配材料名称包含的常用词列表,匹配结果中存在相同的常用词列表,否则去除;
特殊材料库过滤,待匹配材料名称包含的特殊词列表,匹配材料中存在相同的特殊词列表,待匹配材料名称不包含的特殊词列表,匹配材料同样不包含该特殊词列表,否则去除;
规格精确匹配过滤,若待匹配材料规格不为空则分割为多个条件,对于每个条件数字和字母进行完全匹配,否则去除。
进一步地,步骤S5所述匹配材料价格单位换算方法具体为:
根据单位换算表,若单位为相同度量单位且可进行转换,则对价格按照单位进率进行换算。若单位不可进行转换或包含砖的材料,匹配材料不做处理。
本发明还提供一种工程材料信息价格匹配系统,包括常用材料库和特殊材料库构建单元、参考材料库和待匹配材料预处理单元、材料匹配单元、匹配结果后处理单元,匹配材料价格单位换算单元和系统数据库;
所述常用材料库和特殊材料库构建单元,采用新词发现对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;
所述参考材料库和待匹配材料预处理单元分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;
所述材料匹配单元根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;
所述匹配结果后处理单元对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;
所述匹配材料价格单位换算单元将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算;
所属数据库存储上述参考材料库的材料数据,以及初步查询匹配的材料。
本发明另外提供一种计算机可读指令的存储介质,所述计算机可读指令的存储介质上存储计算机程序,可读指令被处理器执行所述计算机程序,实现所述一种工程材料信息价格匹配方法的步骤。
综上所述,本发明提供了一种工程材料信息价格匹配方法、系统及存储介质,通过构建常用材料库和特殊材料库,基于现有工程材料名称建立语料库丰富语义,解决匹配结果与待匹配材料明显不匹配问题。通过参考材料库和待匹配材料预处理,补全材料名称和规格信息作为别名,提高材料匹配的准确度。通过匹配结果后处理,采用规则匹配对部分特殊材料进行后处理后,进一步提高了匹配的准确度。
附图说明
图1为一种工程材料信息价格匹配方法步骤流程图;
图2为一种工程材料信息价格匹配方法系统框架图。
具体实施方式
为了能够更加清楚完整地描述本发明实施例中的技术方案,以下结合实施例中附图,对本发明做进一步详细描述说明。本发明所描述的具体实施例,以及基于本发明的其他实施例,均属于本发明保护范围。
本发明的目的在于提供了一种工程材料信息价格匹配方法、系统及存储介质,通过构建常用材料库和特殊材料库,基于现有工程材料名称建立语料库丰富语义,解决匹配结果与待匹配材料明显不匹配问题。通过参考材料库和待匹配材料预处理,补全材料名称和规格信息作为别名,提高材料匹配的准确度。通过匹配结果后处理,采用规则匹配对部分特殊材料进行后处理后,进一步提高了匹配的准确度。
如图1所示为本发明的一种工程材料信息价格匹配方法步骤如下:
步骤S1:构建常用材料库和特殊材料库,采用新词发现对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称。
步骤S2:参考材料库和待匹配材料预处理,分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名。
步骤S3:材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序。
步骤S4:匹配结果后处理,对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理。
步骤S5:匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
其中,步骤S1中,新词发现技术主要根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:
使用现有工程材料的名称建立语料库,计算每个候选词的总体得分。按照总体得分进行排序,选出常用材料库和特殊材料库词语。总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息。
候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:
Figure 570134DEST_PATH_IMAGE001
其中,ELER分别为左邻熵和右邻熵,
Figure 130429DEST_PATH_IMAGE002
和/>
Figure 636496DEST_PATH_IMAGE003
分别为左邻字符串集合和右邻字符串集合,/>
Figure 744392DEST_PATH_IMAGE004
为第i个字符串,s为字符串的组合,/>
Figure 423635DEST_PATH_IMAGE005
为信息熵,/>
Figure 104015DEST_PATH_IMAGE006
为字符串/>
Figure 344766DEST_PATH_IMAGE004
在字符串组合s出现的概率;
候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:
Figure 845017DEST_PATH_IMAGE007
其中,
Figure 327951DEST_PATH_IMAGE008
为平均互信息,W为候选词,n为候选词长度,/>
Figure 862838DEST_PATH_IMAGE009
是联合概率分布函数,/>
Figure 528350DEST_PATH_IMAGE010
和/>
Figure 515898DEST_PATH_IMAGE011
分别为字符串/>
Figure 802523DEST_PATH_IMAGE012
和/>
Figure 191916DEST_PATH_IMAGE013
的边缘概率分布函数。
候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:
Figure 40048DEST_PATH_IMAGE014
其中,
Figure 514892DEST_PATH_IMAGE015
为候选词的整体得分,/>
Figure 808470DEST_PATH_IMAGE016
为候选词信息熵,/>
Figure 52370DEST_PATH_IMAGE017
和/>
Figure 602562DEST_PATH_IMAGE018
分别为信息熵和互信息的评估权重。
对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。
在实际工程应用中,常用材料库词语可根据具体使用场景的词语建立语料库,并对建立语料库进行挖掘,最终构建适用场景的常用材料库。本发明采用的常用材料库词语为建筑工程材料仅取其名称构建,例如:接头,焊条,砌块和砂布等。
在实际工程应用中,特殊材料库可以根据需匹配材料的特殊属性要求。本发明采用特殊材料库词语为建筑工程材料的特殊工程要求,例如:非钢化,镀银,非泵送和防锈等。
其中,步骤S2中,对参考材料库和待匹配材料名称title和规格specs分别进行预处理,参考材料库预处理后的材料名称作为别名title_alias和spec_alias,参考材料库含有材料名称,规格,单位,含税价,除税价,来源及区域描述字段。待匹配材料含有名称,规格,单位描述字段。参考材料库和待匹配材料预处理方法如下。
S201:参考材料库预处理具体方法:
参考材料库格式校验,检测其信息字段是否有缺失,补全缺失值为空字符。
参考材料库过滤去除名称为空的材料;
参考材料库的材料名称和规格统一转换为大写;
部分特殊材料补全描述信息,遍历特殊材料换算表对钢筋和砂浆材料进行代号换算,根据材料代号,获取参考材料库的材料名称和规格中缺少的描述信息作为补全信息;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息;
若预处理后的材料和规格名称不变,则将原始名称和规格作为材料别名和规格别名。
在实际工程应用中,参考材料库经过步骤S201预处理后,材料和规格举例见表1所示:
表1
Figure 767964DEST_PATH_IMAGE020
S202:待匹配材料预处理具体方法:
待匹配材料格式校验,检测其材料信息字段是否有缺失,补全缺失值为空字符。
待匹配材料名称和规格统一转换为大写;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息。
在实际工程应用中,待匹配材料经过步骤S202预处理后,材料和规格举例见表2所示:
表2
Figure 396391DEST_PATH_IMAGE021
进一步,步骤S3中,材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序。材料匹配方法如下:
S301:以参考材料库的材料名称和规格别名title_alias和 spec_alias为全文索引;
S302:将分词存储在一个辅助表中,分词大小设置为2。辅助表内容为词语及词语在各条记录位置的映射关系,存储为倒排文件索引;
S303:通过倒排索引进行前查找,计算查看各条数据的相关性,相关性根据记录中的单词数,记录中唯一单词数,集合中单词的总数以及包含特定单词的记录数各因素进行计算;
S304:按照相关性排序,取出前10条数据记录作为匹配结果。
在实际工程应用中,经过步骤S3材料匹配,待匹配的材料均会有至少0个,最多10个材料作为匹配结果。匹配结果与待匹配材料名称或规格相似,但是并未完全是同种材料,因此需要执行步骤4。若待匹配材料名称为砼(泵送型),规格为C25,单位为m3,匹配结果为表3所示:
表3
Figure 760377DEST_PATH_IMAGE022
进一步,步骤S4中,匹配结果后处理,对步骤S3材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理,具体处理内容如下:
S401:过滤异义词材料,异义词材料即材料名称相似,但是完全不同的材料。遍历异义词材料表去除匹配结果中的异义词材料;
S402:过滤单向含义材料,单向含义材料即需匹配材料A,材料B属于材料A,但是需匹配材料B,材料A不属于材料B。遍历单向含义材料表去除匹配结果中的单向含义材料;
S403:部分特殊材料处理,对于待匹配材料为水泥,若含有水泥等级,过滤匹配结果中水泥等级的材料。对于待匹配材料为钢筋,若可换算为标准钢筋种类代号,过滤匹配结果中钢筋代号相同的材料。对于待匹配材料为砂浆,若可换算为标准砂浆种类代号,过滤匹配结果中砂浆代号相同的材料。
S404:常用材料库过滤,待匹配材料名称包含的常用词列表,匹配结果中存在相同的常用词列表,否则去除。
S405:特殊材料库过滤,待匹配材料名称包含的特殊词列表,匹配材料中存在相同的特殊词列表,待匹配材料名称不包含的特殊词列表,匹配材料同样不包含该特殊词列表,否则去除。
S406:规格精确匹配过滤,若待匹配材料规格不为空则分割为多个条件,对于每个条件数字和字母进行完全匹配,否则去除。
在实际工程应用中,经过步骤4匹配结果后处理,待匹配的材料均会有至少0个,最多10个材料作为匹配结果。匹配结果与待匹配材料名称或规格大概率属于同种材料。若待匹配材料名称为砼(泵送型),规格为C25,单位为m3,匹配结果为表4所示:
表4
Figure DEST_PATH_IMAGE023
进一步,步骤S5中,匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
根据单位换算表,若单位为相同度量单位且可进行转换,则对价格按照单位进率进行换算。若单位不可进行转换或包含砖的材料,匹配材料不做处理。
在实际工程应用中,经过步骤5匹配材料价格单位换算,待匹配的材料与匹配结果中材料单位一致,信息价格可供参考使用。
为了实现上述一种工程材料信息价格匹配方法,本发明还包括一种工程材料信息价格匹配系统。
如图2所示的一种工程材料信息价格匹配方法系统框架图,系统包括常用材料库和特殊材料库构建单元、参考材料库和待匹配材料预处理单元、材料匹配单元、匹配结果后处理单元和匹配材料价格单位换算单元和系统数据库。
其中,所述常用材料库和特殊材料库构建单元,采用新词发现对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称。
所述参考材料库和待匹配材料预处理单元分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名。
所述材料匹配单元根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序。
所述匹配结果后处理单元对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理。
所述匹配材料价格单位换算单元将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
所属数据库存储上述参考材料库的材料数据,以及初步查询匹配的材料。
在实施例中,提供了一种计算机可读指令的存储介质,所述计算机可读指令的存储介质上存储计算机程序,可读指令被处理器执行所述计算机程序,实现所述一种工程材料信息价格匹配方法的步骤:获取常用材料库和特殊材料库,接收参考材料库和待匹配材料预处理,材料匹配,对材料匹配结果后处理,最后匹配材料价格单位换算。
上面结合附图对本发明的实施例进行了详细描述,但是本发明并不仅限于上述描述的实施方式,在本领域本发明启示和权利要求保护范围内,其他形式的实施例,均属于本发明的保护范围。

Claims (9)

1.一种工程材料信息价格匹配方法,其特征在于,该方法具体步骤如下:
步骤S1:构建常用材料库和特殊材料库,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;
步骤S2:参考材料库和待匹配材料预处理,分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;
步骤S3:材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;
步骤S4:匹配结果后处理,对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;
步骤S5:匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算;
步骤S1中所述新词发现技术是根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:
使用现有工程材料的名称建立语料库,计算每个候选词的总体得分,按照总体得分进行排序,选出常用材料库和特殊材料库词语,总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息,
候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:
Figure DEST_PATH_IMAGE001
其中,ELER分别为左邻熵和右邻熵,
Figure 156109DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
分别为左邻字符串集合和右邻字符串集合,
Figure 616172DEST_PATH_IMAGE004
为第i个字符串,s为字符串的组合,
Figure DEST_PATH_IMAGE005
为信息熵,
Figure 851631DEST_PATH_IMAGE006
为字符串
Figure 547185DEST_PATH_IMAGE004
在字符串组合s出现的概率;
候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:
Figure DEST_PATH_IMAGE007
其中,
Figure 460521DEST_PATH_IMAGE008
为平均互信息,W为候选词,n为候选词长度,
Figure DEST_PATH_IMAGE009
是联合概率分布函数,
Figure 747277DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
分别为字符串
Figure 58915DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
的边缘概率分布函数;
候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:
Figure 417215DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
为候选词的整体得分,
Figure 190917DEST_PATH_IMAGE016
为候选词信息熵,
Figure DEST_PATH_IMAGE017
Figure 147109DEST_PATH_IMAGE018
分别为信息熵和互信息的评估权重;
对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。
2.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S2中所述参考材料库和待匹配材料预处理具体是指对参考材料库和待匹配材料名称title和规格specs分别进行预处理,参考材料库预处理后的材料名称作为别名title_alias和spec_alias,参考材料库含有材料名称,规格,单位,含税价,除税价,来源及区域描述字段;待匹配材料含有名称,规格,单位描述字段。
3.根据权利要求2所述的一种工程材料信息价格匹配方法,其特征在于,参考材料库所述的参考材料库预处理具体方法为:
参考材料库格式校验,检测其信息字段是否有缺失,补全缺失值为空字符;
参考材料库过滤去除名称为空的材料;
参考材料库的材料名称和规格统一转换为大写;
部分特殊材料补全描述信息,遍历特殊材料换算表对钢筋和砂浆材料进行代号换算,根据材料代号,获取参考材料库的材料名称和规格中缺少的描述信息作为补全信息;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息;
若预处理后的材料和规格名称不变,则将原始名称和规格作为材料别名和规格别名。
4.根据权利要求2所述的一种工程材料信息价格匹配方法,其特征在于,所述的待匹配材料预处理方法具体为:
待匹配材料格式校验,检测其材料信息字段是否有缺失,补全缺失值为空字符;
待匹配材料名称和规格统一转换为大写;
同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息。
5.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S3所述材料匹配方法如下:
以参考材料库的材料名称和规格别名title_alias和 spec_alias为全文索引;
将分词存储在一个辅助表中,分词大小设置为2;辅助表内容为词语及词语在各条记录位置的映射关系,存储为倒排文件索引;
通过倒排索引进行前查找,计算查看各条数据的相关性,相关性根据记录中的单词数,记录中唯一单词数,集合中单词的总数以及包含特定单词的记录数各因素进行计算;
按照相关性排序,取出前10条数据记录作为匹配结果。
6.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S4所述匹配结果后处理具体方法如下:
过滤异义词材料,异义词材料即材料名称相似,但是完全不同的材料,遍历异义词材料表去除匹配结果中的异义词材料;
过滤单向含义材料,单向含义材料即需匹配材料A,材料B属于材料A,但是需匹配材料B,材料A不属于材料B,遍历单向含义材料表去除匹配结果中的单向含义材料;
部分特殊材料处理,对于待匹配材料为水泥,若含有水泥等级,过滤匹配结果中水泥等级的材料;对于待匹配材料为钢筋,若可换算为标准钢筋种类代号,过滤匹配结果中钢筋代号相同的材料;对于待匹配材料为砂浆,若可换算为标准砂浆种类代号,过滤匹配结果中砂浆代号相同的材料;
常用材料库过滤,待匹配材料名称包含的常用词列表,匹配结果中存在相同的常用词列表,否则去除;
特殊材料库过滤,待匹配材料名称包含的特殊词列表,匹配材料中存在相同的特殊词列表,待匹配材料名称不包含的特殊词列表,匹配材料同样不包含该特殊词列表,否则去除;
规格精确匹配过滤,若待匹配材料规格不为空则分割为多个条件,对于每个条件数字和字母进行完全匹配,否则去除。
7.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S5所述匹配材料价格单位换算方法具体为:
根据单位换算表,若单位为相同度量单位且可进行转换,则对价格按照单位进率进行换算;若单位不可进行转换或包含砖的材料,匹配材料不做处理。
8.一种工程材料信息价格匹配系统,其特征在于,包括常用材料库和特殊材料库构建单元、参考材料库和待匹配材料预处理单元、材料匹配单元、匹配结果后处理单元,匹配材料价格单位换算单元和系统数据库;
所述常用材料库和特殊材料库构建单元,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;
所述参考材料库和待匹配材料预处理单元分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;
所述材料匹配单元根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;
所述匹配结果后处理单元对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;
所述匹配材料价格单位换算单元将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算;
所述数据库存储上述参考材料库的材料数据,以及初步查询匹配的材料;
所述新词发现技术是根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:
使用现有工程材料的名称建立语料库,计算每个候选词的总体得分,按照总体得分进行排序,选出常用材料库和特殊材料库词语,总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息,
候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:
Figure 283125DEST_PATH_IMAGE001
其中,ELER分别为左邻熵和右邻熵,
Figure 789324DEST_PATH_IMAGE002
Figure 129782DEST_PATH_IMAGE003
分别为左邻字符串集合和右邻字符串集合,
Figure 273187DEST_PATH_IMAGE004
为第i个字符串,s为字符串的组合,
Figure 780654DEST_PATH_IMAGE005
为信息熵,
Figure 529692DEST_PATH_IMAGE006
为字符串
Figure 462007DEST_PATH_IMAGE004
在字符串组合s出现的概率;
候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:
Figure 104210DEST_PATH_IMAGE007
其中,
Figure 316884DEST_PATH_IMAGE008
为平均互信息,W为候选词,n为候选词长度,
Figure 69945DEST_PATH_IMAGE009
是联合概率分布函数,
Figure 404236DEST_PATH_IMAGE010
Figure 699564DEST_PATH_IMAGE011
分别为字符串
Figure 821104DEST_PATH_IMAGE012
Figure 410479DEST_PATH_IMAGE013
的边缘概率分布函数;
候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:
Figure 274311DEST_PATH_IMAGE014
其中,
Figure 868103DEST_PATH_IMAGE015
为候选词的整体得分,
Figure 755900DEST_PATH_IMAGE016
为候选词信息熵,
Figure 555491DEST_PATH_IMAGE017
Figure 769435DEST_PATH_IMAGE018
分别为信息熵和互信息的评估权重;
对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。
9.一种计算机可读指令的存储介质,所述计算机可读指令的存储介质上存储计算机程序,可读指令被处理器执行所述计算机程序,实现如权利要求1所述一种工程材料信息价格匹配方法的步骤。
CN202211440292.1A 2022-11-17 2022-11-17 一种工程材料信息价格匹配方法、系统及存储介质 Active CN115495507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211440292.1A CN115495507B (zh) 2022-11-17 2022-11-17 一种工程材料信息价格匹配方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211440292.1A CN115495507B (zh) 2022-11-17 2022-11-17 一种工程材料信息价格匹配方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115495507A CN115495507A (zh) 2022-12-20
CN115495507B true CN115495507B (zh) 2023-03-24

Family

ID=85116074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211440292.1A Active CN115495507B (zh) 2022-11-17 2022-11-17 一种工程材料信息价格匹配方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115495507B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117010925B (zh) * 2023-06-21 2024-03-22 广东中洲国信建设管理咨询有限公司 一种工程材料自动配价方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN106649666A (zh) * 2016-11-30 2017-05-10 浪潮电子信息产业股份有限公司 一种左右递归新词发现方法
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN113987125A (zh) * 2021-10-28 2022-01-28 平安医疗健康管理股份有限公司 基于神经网络的文本结构化信息提取方法、及其相关设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020422B (zh) * 2018-11-26 2020-08-04 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
CN112818686B (zh) * 2021-03-23 2023-10-31 北京百度网讯科技有限公司 领域短语挖掘方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049501A (zh) * 2012-12-11 2013-04-17 上海大学 基于互信息和条件随机场模型的中文领域术语识别方法
CN106649666A (zh) * 2016-11-30 2017-05-10 浪潮电子信息产业股份有限公司 一种左右递归新词发现方法
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN113987125A (zh) * 2021-10-28 2022-01-28 平安医疗健康管理股份有限公司 基于神经网络的文本结构化信息提取方法、及其相关设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Mutual-Information-Based Approach to Entity Reconciliation in Heterogeneous Databases;Bao-hua Qiang 等;《2008 International Conference on Computer Science and Software Engineering》;20081222;666-669 *
Selection Method for Scene Matching Area Based on Information Entropy;Xiaochen Zhang 等;《2012 Fifth International Symposium on Computational Intelligence and Design》;20130110;364-368 *
UGC环境下社会化问答社区的话题挖掘及问答推荐研究;陈晨;《中国博士学位论文全文数据库 信息科技辑》;20220415(第04(2022)期);I138-95 *
航空发动机多指标模糊信息熵的性能排序研究;张海军 等;《应用科学学报》;20060530(第03(2006)期);288-292 *

Also Published As

Publication number Publication date
CN115495507A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
US7953724B2 (en) Method and system for disambiguating informational objects
US9183290B2 (en) Method and system for disambiguating informational objects
CN108228825B (zh) 一种基于分词的用户地址数据清洗方法
CN101079025B (zh) 一种文档相关度计算系统和方法
CN115495507B (zh) 一种工程材料信息价格匹配方法、系统及存储介质
CN101882163A (zh) 一种基于匹配规则的模糊中文地址地理赋值方法
CN112528174A (zh) 基于知识图谱和多重匹配的地址修整补全方法及应用
CN110990520A (zh) 一种地址编码方法、装置、电子设备和存储介质
CN103970842A (zh) 一种面向防洪减灾领域的水利大数据存取系统及方法
CN107463711A (zh) 一种数据的标签匹配方法及装置
WO2020037794A1 (zh) 一种英文地名的索引建立方法及其查询方法和装置
CN111897917A (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN117435777B (zh) 一种产业链图谱自动构建方法与系统
CN105824956A (zh) 一种基于链表结构的倒排索引模型及其构建方法
CN102385597B (zh) 一种poi的容错搜索方法
CN105005619A (zh) 一种海量网站基础信息的快速检索方法和系统
Faiz et al. OD2WD: From Open Data to Wikidata through Patterns.
CN1426017A (zh) 一种校对多个电子文件的方法及其系统
CN102722527B (zh) 一种支持含有缺失符号的查询请求的全文检索方法
CN114595379A (zh) 一种数据标准的智能推荐方法及装置
CN111178771B (zh) 体系构建方法和装置
CN118193664B (zh) 一种统一社会信用代码行政区划数据补全方法与系统
Nsira et al. Algorithms for indexing highly similar DNA sequences
Islam et al. On the design of an effective corpus for evaluation of Bengali Text Compression Schemes
CN114819796A (zh) 基于末端码的快递投递方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant