CN112084302B - 造价文件的清单数据检测方法、系统、装置及存储介质 - Google Patents

造价文件的清单数据检测方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN112084302B
CN112084302B CN202010856525.0A CN202010856525A CN112084302B CN 112084302 B CN112084302 B CN 112084302B CN 202010856525 A CN202010856525 A CN 202010856525A CN 112084302 B CN112084302 B CN 112084302B
Authority
CN
China
Prior art keywords
information
list
name information
main material
feature information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010856525.0A
Other languages
English (en)
Other versions
CN112084302A (zh
Inventor
高峰
吴虹鸥
许捷
周军
明安辉
李曼娜
刘金山
谭俊
王舜
杨娅婷
谢伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yida Home Credit Digital Technology Co ltd
Original Assignee
Jiangsu Yida Home Credit Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Yida Home Credit Digital Technology Co ltd filed Critical Jiangsu Yida Home Credit Digital Technology Co ltd
Priority to CN202010856525.0A priority Critical patent/CN112084302B/zh
Publication of CN112084302A publication Critical patent/CN112084302A/zh
Application granted granted Critical
Publication of CN112084302B publication Critical patent/CN112084302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Factory Administration (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种造价文件的清单数据检测方法、系统、装置及储存介质。该方法通过获取造价文件的工程清单,工程清单包括清单特征信息和主材设备信息;基于语义对清单特征信息进行换行处理,并确定清单特征信息和主材设备信息的第一相似度;对相似度高于第一阈值的清单特征信息和主材设备信息进行匹配,并对匹配到的第一名称信息和第二名称信息做一致性检查;根据一致性检查结果,对不同的第一名称信息和第二名称信息进行标注处理。该方法能够大大提高工程项目的造价文件质量检查的效率以及准确率,同时提供标注信息供检查人参考,方便快速定位检查重点与检查问题项。本发明可广泛应用于工程造价技术领域内。

Description

造价文件的清单数据检测方法、系统、装置及存储介质
技术领域
本发明涉及工程造价技术领域,尤其是一种造价文件的清单数据检测方法、系统、装置及存储介质。
背景技术
在工程项目上,为了保证造价文件的准确性,需要对工程的造价文件实行多阶段的审核、复核,对编制的造价文件的各类信息进行检查,保证造价文件的数据质量。
当前阶段,该项检查一般是通过人工检查的方式来完成对各项编制内容的核对,各级复核人、项目负责人等需一一审核造价文件,通过相应软件打开待审核的造价文件查阅或者导出造价文件报表,核对各检查项是否正确,在此过程中,审核的工作量巨大,重复性工作多,不但需花费大量的时间和精力,还容易遗漏问题,无法保证准确性,效率低下。因此,现有技术存在的问题亟需得到解决。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本申请实施例的一个目的在于提供一种造价文件的清单数据检测方法,能够大大提高工程项目的造价文件质量检查的效率以及准确率,同时提供标注信息供检查人参考,方便快速定位检查重点与检查问题项。
本申请实施例的另一个目的在于提供造价文件的清单数据检测系统。
为了达到上述技术目的,本申请实施例所采取的技术方案包括:
第一方面,本申请实施例提供了一种造价文件的清单数据检测方法,包括以下步骤:
获取造价文件的工程清单,所述工程清单包括清单特征信息和主材设备信息;所述清单特征信息包括主材的第一名称信息,所述主材设备信息包括对应所述主材的第二名称信息;
基于语义对所述清单特征信息进行换行处理,并确定所述清单特征信息和所述主材设备信息的第一相似度;
对所述相似度高于第一阈值的所述清单特征信息和所述主材设备信息进行匹配,并对匹配到的所述第一名称信息和所述第二名称信息做一致性检查;
根据所述一致性检查结果,对不同的所述第一名称信息和所述第二名称信息进行标注处理。
另外,根据本发明上述实施例的造价文件的清单数据检测方法,还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述清单特征信息还包括主材的第一规格信息,所述主材设备信息还包括对应所述主材的第二规格信息,所述方法还包括以下步骤:
对匹配到的所述第一规格信息和所述第二规格信息做一致性检查;
根据所述一致性检查结果,对不同的所述第一规格信息和所述第二规格信息进行标注处理。
进一步地,在本发明的一个实施例中,所述确定所述清单特征信息和所述主材设备信息的相似度这一步骤,其具体为:通过余弦相似度算法确定所述清单特征信息和所述主材设备信息的第一语义相似度。
进一步地,在本发明的一个实施例中,所述对匹配到的所述第一名称信息和所述第二名称信息做一致性检查这一步骤之前,还包括以下步骤:
按照预设的建筑行业词库对匹配到的所述清单特征信息和所述主材设备信息进行分词处理,得到匹配到的所述第一名称信息和所述第二名称信息;所述建筑行业词库包括同义词库和错词库;
判断所述第一名称信息和所述第二名称信息是否属于同一同义词库,若是则跳过一致性检查;
判断所述第一名称信息或者所述第二名称信息是否属于错词库,若则是对属于所述错词库的所述第一名称信息或者所述第二名称信息进行标注处理。
进一步地,在本发明的一个实施例中,所述对匹配到的所述第一名称信息和所述第二名称信息做一致性检查这一步骤,具体包括以下步骤:
确定所述第一名称信息和所述第二名称信息的第二语义相似度;
将位于预设阈值范围的所述第二语义相似度对应的所述第一名称信息和所述第二名称信息进行标注处理。
进一步地,在本发明的一个实施例中,所述建筑行业词库通过迭代的最细粒度切分算法得到。
第二方面,本申请实施例提供了一种造价文件的清单数据检测系统,包括:
获取模块,用于获取造价文件的工程清单,所述工程清单包括清单特征信息和主材设备信息;所述清单特征信息包括主材的第一名称信息,所述主材设备信息包括对应所述主材的第二名称信息;
处理模块,用于基于语义对所述清单特征信息进行换行处理,并确定所述清单特征信息和所述主材设备信息的第一相似度;
检测模块,用于对所述相似度高于第一阈值的所述清单特征信息和所述主材设备信息进行匹配,并对匹配到的所述第一名称信息和所述第二名称信息做一致性检查;
标注模块,用于根据所述一致性检查结果,对不同的所述第一名称信息和所述第二名称信息进行标注处理。
第三方面,本申请实施例提供了造价文件的清单数据检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现第一方面所述的造价文件的清单数据检测方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现第一方面所述的造价文件的清单数据检测方法。
本发明的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到:
本申请实施例中的方法,通过获取造价文件的工程清单,所述工程清单包括清单特征信息和主材设备信息,所述清单特征信息包括主材的第一名称信息,所述主材设备信息包括对应所述主材的第二名称信息;基于语义对所述清单特征信息进行换行处理,并确定所述清单特征信息和所述主材设备信息的第一相似度;对所述相似度高于第一阈值的所述清单特征信息和所述主材设备信息进行匹配,并对匹配到的所述第一名称信息和所述第二名称信息做一致性检查;根据所述一致性检查结果,对不同的所述第一名称信息和所述第二名称信息进行标注处理。该方法能够大大提高工程项目的造价文件质量检查的效率以及准确率,同时提供标注信息供检查人参考,方便快速定位检查重点与检查问题项。
附图说明
为了更清楚地说明本申请实施例或者现有技术中的技术方案,下面对本申请实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员来说,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1为本申请造价文件的清单数据检测方法具体实施例的流程示意图;
图2为本申请造价文件的清单数据检测系统具体实施例的结构示意图;
图3为本申请造价文件的清单数据检测装置具体实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
下面参照附图详细描述根据本申请实施例提出的造价文件的清单数据检测方法和系统,首先将参照附图描述根据本申请实施例提出的造价文件的清单数据检测方法。该方法可应用于终端中,也可应用于服务器中,还可以是运行于终端或服务器中的软件,例如具有造价文件的清单数据检测的应用程序等。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。软件可以是各类工程造价计价软件、各类工程造价估算软件、概算软件或者各类工程造价指标分析软件。
参照图1,本申请实施例中提供一种造价文件的清单数据检测方法,基于该方法能够大大提高工程项目的造价文件质量检查的效率以及准确率,同时提供标注信息供检查人参考,方便快速定位检查重点与检查问题项。该方法主要包括以下步骤:
S1、获取造价文件的工程清单;所述工程清单包括清单特征信息和主材设备信息;所述清单特征信息包括主材的第一名称信息,所述主材设备信息包括对应所述主材的第二名称信息;
本申请实施例中,造价文件可以从上游数据库直接导入,具体地造价文件数据规范和格式根据需要设定,造价文件中包括有涵盖工程项目各类信息的工程清单,具体地,工程清单中至少包括有以下两类信息,第一类为清单特征信息,主要包括措施项目、清单项目的明细要求、施工条件或要求、价值描述(如土壤类别)、使用材料要求、施工工艺要求等,清单特征信息中的使用材料要求记载有主材的第一名称信息、第一规格信息。第二类为主材设备信息,主要包括工程中使用材料的详细数据,每个主材设备信息记载有材料的第二名称信息、第二规格信息。本申请实施例中的造价文件的清单数据检测,主要就是对比清单特征信息和主材设备信息中相同的材料记载是否一致,当发现清单特征信息和主材设备信息记载存在差异时,作出标注处理,使得用户能够快速发现文件中的纰漏,及时进行修改完善。举例来说,例如清单特征信息中记载有本次工程中用到的混凝土强度等级是C35,而主材设备信息记录的材料则是强度为C15的预拌混凝土,此时则对强度等级部分进行标记处理,比如显示红色,说明此处可能存在记载错误。
S2、基于语义对所述清单特征信息进行换行处理,并确定所述清单特征信息和所述主材设备信息的第一相似度;
本申请实施例中,在工程项目的造价文件入库时,对清单特征信息按以下算法换行处理:
将清单特征信息的字符长度记为length,以3个字符为一组,将清单特征信息转换为字符数组chars,循环遍历chars数组,从i=0开始,到i=length-2结束。每次循环时判断是否满足规则,满足则在i-1的位置插入换行符。具体地,该规则如下:以字符c0=chars[i-1]、字符c1=chars[i]、字符c2=chars[i+1]、字符c3=chars[i+2],从i+1开始做以下规则判断:
条件1:如果c1是1-9的数字,或者一到九的中文数字,判断条件2;
条件2:如果c2是字符,判断条件3;
条件3:如果c3的Ascall编码是汉字,判断条件4;
条件4:如果c0不是换行符,则在chars[i-1]到chars[i]之间,插入换行符,将新的字符数组转换成字符串,返回换行后的清单特征信息字符串。
此处,由于清单特征信息里,描述的一般是这条清单中对所有主材(主要材料)的做法,所以需要将每种做法进行换行,以提高查询对应主要材料的准确性。即当该行特征信息描述的主要材料都在表达同一件事情,这样分析材料的类型或规格型号是否一致才更为准确。
对于分行后的清单特征信息,使用自然语言算法计算清单特征信息和主材设备信息的相似度,从而先匹配到该行的清单特征信息所指向的主材设备所对应的主材设备信息,具体地,本申请实施例中,采用的是余弦相似度算法确定清单特征信息和主材设备信息的相似度,并且设有第一阈值作为认定相似的标准,对于某一行的清单特征信息,如果没找到相似度大于等于第一阈值的主材设备信息,则跳过该行特征,进行下一行特征寻找;如果找到相似度大于等于第一阈值的主材设备信息,则记录下这行清单特征信息与对应的主材设备信息,完成匹配,进行下一行的匹配工作。另外,如果当前行的清单特征信息找完所有的主材设备信息,相似度都小于第一阈值,则联系上一行特征和/或下一行特征,组合成新的一行清单特征信息,再次跟主材设备信息进行匹配,直到找到相似度大于等于第一阈值的。
S3、对所述相似度高于第一阈值的所述清单特征信息和所述主材设备信息进行匹配,并对匹配到的所述第一名称信息和所述第二名称信息做一致性检查;
本申请实施例中,由于在步骤S2中,仅仅是对相似度高于第一阈值的清单特征信息和主材设备信息进行了匹配,目的是先初步找出指代同一主材的两个信息,而实际上二者记载的内容是否相同,还需要进一步进行一致性检查。
可选地,在进行一致性检查以前,可以先按照预设的建筑行业词库对匹配到的清单特征信息和主材设备信息进行分词处理,得到匹配到的第一名称信息和第二名称信息(第一规格信息和第二规格信息的处理方式类似,在此不再赘述)。其中的建筑行业词库,使用正向迭代最细粒度切分算法,具体的过程步骤如下:首先执行程序加载现代汉语词典、建筑行业专业词典,读入待匹配的文本、初始化文本指针,指向文本中的第一个字符;遍历分词器,进行分词处理,其中中文分词采用CN_Quantifier Segmenter,匹配中文词典中有的词,生成词语候选集;英文分词采用Letter Segmenter,其有三个类似的处理器:分别处理字母、数字、字母和数字的组合,英文分词主要用于处理规格型号的词,处理的基本思路就是匹配连续的相同类型字符,直到出现不同类型字符为止,切出一个词。比如对字串“混凝土M7.5”的处理方式就是Letter Segmenter匹配出连续的字母子串M7.5,切为一个词,混凝土在CN_QuantifierSegmenter中完成切割,最终的切词结果为混凝土、M7.5。本申请实施例中的建筑行业词库还包括同义词库、错词库等,其中同义词库用于记载相似度不高,但表达相同意思的名词,避免误报:比如“加气砼砌块”与“蒸压加气混凝土砌块”名称差别较大,但实际是同一材料,则可将此添加至同义词库中,系统在检查时就不会报错;错词库用以记载相似度很高,但表达不同意思的名词,比如:“钢筋”与“直钢筋”两个名词相似度很高,但实际上是不一样的两种材料,因此需要区分开来。当然,以上的词库中各个词语的设置方式可以是根据行业习惯预输入的,也可以由计算机自动根据多次检测错误和实际判定结果学习到的。
本申请实施例中,如果判断第一名称信息和第二名称信息是否属于同一同义词库,则说明两者指代的信息无误,可以跳过一致性检查;如果判断第一名称信息或者第二名称信息是否属于错词库,则说明此时需要注意对该信息的核对,因此可以将属于错词库的第一名称信息或者第二名称信息进行标注处理。
S4、根据所述一致性检查结果,对不同的所述第一名称信息和所述第二名称信息进行标注处理。
本申请实施例中,在进行最终的一致性检查是,确定第一名称信息和第二名称信息的第二语义相似度;将位于预设阈值范围的第二语义相似度对应的第一名称信息和第二名称信息进行标注处理。进行第二次语义相似度检测时,采用的算法仍然可以是余弦相似度算法,预设阈值范围可以根据实际的检测经验值确定,例如余弦相似度算法的结果位于0.55到0.95之间,可以认为是语义不一致的材料名称,当然,该预设范围的实际数值是灵活、可调整的。得到一致性检查中判断为不同的第一名称信息和第二名称信息后,可以选择将该信息进行高亮处理,以提醒审核人员注意检查复核,加快工程文件的检测进度。
其次,参照附图描述根据本申请实施例提出的一种造价文件的清单数据检测系统。
图2是本发明一个实施例的一种造价文件的清单数据检测系统结构示意图。
系统具体包括:
获取模块,用于获取造价文件的工程清单,所述工程清单包括清单特征信息和主材设备信息;所述清单特征信息包括主材的第一名称信息,所述主材设备信息包括对应所述主材的第二名称信息;
处理模块,用于基于语义对所述清单特征信息进行换行处理,并确定所述清单特征信息和所述主材设备信息的第一相似度;
检测模块,用于对所述相似度高于第一阈值的所述清单特征信息和所述主材设备信息进行匹配,并对匹配到的所述第一名称信息和所述第二名称信息做一致性检查;
标注模块,用于根据所述一致性检查结果,对不同的所述第一名称信息和所述第二名称信息进行标注处理。
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
参照图3,本申请实施例提供了造价文件的清单数据检测装置,包括:
至少一个处理器201;
至少一个存储器202,用于存储至少一个程序;
当至少一个程序被至少一个处理器201执行时,使得至少一个处理器201实现的造价文件的清单数据检测方法。
同理,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本申请实施例还提供了一种存储介质,其中存储有处理器201可执行的指令,处理器201可执行的指令在由处理器201执行时用于执行上述的造价文件的清单数据检测方法。
同理,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于实施例,熟悉本领域的技术人员在不违背本发明精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种造价文件的清单数据检测方法,其特征在于,包括以下步骤:
获取造价文件的工程清单,所述工程清单包括清单特征信息和主材设备信息;所述清单特征信息包括主材的第一名称信息,所述主材设备信息包括对应所述主材的第二名称信息;
基于语义对所述清单特征信息进行换行处理,并确定所述清单特征信息和所述清单特征信息所指向的主材设备对应的主材设备信息的第一相似度;
对所述第一相似度高于第一阈值的所述清单特征信息和所述清单特征信息所指向的主材设备对应的主材设备信息进行匹配,并对匹配到的所述第一名称信息和所述第二名称信息做一致性检查;
根据所述一致性检查结果,对不同的所述第一名称信息和所述第二名称信息进行标注处理;
其中,对所述清单特征信息进行换行处理,包括:
将清单特征信息的字符长度记为length,以3个字符为一组,将清单特征信息转换为字符数组chars,循环遍历chars数组,从i=0开始,到i=length-2结束,每次循环时判断是否满足规则,满足则在i-1的位置插入换行符,具体地,循环时判断的规则如下:
以字符c0=chars[i-1]、字符c1=chars[i]、字符c2=chars[i+1]、字符c3=chars[i+2],从i+1开始做以下规则判断:
条件1:如果c1是1-9的数字,或者一到九的中文数字,判断条件2;
条件2:如果c2是字符,判断条件3;
条件3:如果c3的Ascall编码是汉字,判断条件4;
条件4:如果c0不是换行符,则在chars[i-1]到chars[i]之间,插入换行符,将新的字符数组转换成字符串,返回换行后的清单特征信息字符串。
2.根据权利要求1所述的一种造价文件的清单数据检测方法,其特征在于,所述清单特征信息还包括主材的第一规格信息,所述主材设备信息还包括对应所述主材的第二规格信息,所述方法还包括以下步骤:
对匹配到的所述第一规格信息和所述第二规格信息做一致性检查;
根据所述一致性检查结果,对不同的所述第一规格信息和所述第二规格信息进行标注处理。
3.根据权利要求1或者2中任一项所述的一种造价文件的清单数据检测方法,其特征在于,所述确定所述清单特征信息和所述清单特征信息所指向的主材设备对应的主材设备信息的第一相似度这一步骤,其具体为:通过余弦相似度算法确定所述清单特征信息和所述清单特征信息所指向的主材设备对应的主材设备信息的第一语义相似度。
4.根据权利要求1所述的一种造价文件的清单数据检测方法,其特征在于,所述对匹配到的所述第一名称信息和所述第二名称信息做一致性检查这一步骤之前,还包括以下步骤:
按照预设的建筑行业词库对匹配到的所述清单特征信息和所述清单特征信息所指向的主材设备对应的主材设备信息进行分词处理,得到匹配到的所述第一名称信息和所述第二名称信息;所述建筑行业词库包括同义词库和错词库;
判断所述第一名称信息和所述第二名称信息是否属于同一同义词库,若是则跳过一致性检查;
判断所述第一名称信息或者所述第二名称信息是否属于错词库,若则是对属于所述错词库的所述第一名称信息或者所述第二名称信息进行标注处理。
5.根据权利要求4所述的一种造价文件的清单数据检测方法,其特征在于,所述对匹配到的所述第一名称信息和所述第二名称信息做一致性检查这一步骤,具体包括以下步骤:
确定所述第一名称信息和所述第二名称信息的第二语义相似度;
将位于预设阈值范围的所述第二语义相似度对应的所述第一名称信息和所述第二名称信息进行标注处理。
6.根据权利要求4所述的造价文件的清单数据检测方法,其特征在于,所述建筑行业词库通过迭代的最细粒度切分算法得到。
7.一种造价文件的清单数据检测系统,其特征在于,包括:
获取模块,用于获取造价文件的工程清单,所述工程清单包括清单特征信息和主材设备信息;所述清单特征信息包括主材的第一名称信息,所述主材设备信息包括对应所述主材的第二名称信息;
处理模块,用于基于语义对所述清单特征信息进行换行处理,并确定所述清单特征信息和所述清单特征信息所指向的主材设备对应的主材设备信息的第一相似度;
检测模块,用于对所述第一相似度高于第一阈值的所述清单特征信息和所述清单特征信息所指向的主材设备对应的主材设备信息进行匹配,并对匹配到的所述第一名称信息和所述第二名称信息做一致性检查;
标注模块,用于根据所述一致性检查结果,对不同的所述第一名称信息和所述第二名称信息进行标注处理;
其中,对所述清单特征信息进行换行处理,包括:
将清单特征信息的字符长度记为length,以3个字符为一组,将清单特征信息转换为字符数组chars,循环遍历chars数组,从i=0开始,到i=length-2结束,每次循环时判断是否满足规则,满足则在i-1的位置插入换行符,具体地,循环时判断的规则如下:
以字符c0=chars[i-1]、字符c1=chars[i]、字符c2=chars[i+1]、字符c3=chars[i+2],从i+1开始做以下规则判断:
条件1:如果c1是1-9的数字,或者一到九的中文数字,判断条件2;
条件2:如果c2是字符,判断条件3;
条件3:如果c3的Ascall编码是汉字,判断条件4;
条件4:如果c0不是换行符,则在chars[i-1]到chars[i]之间,插入换行符,将新的字符数组转换成字符串,返回换行后的清单特征信息字符串。
8.一种造价文件的清单数据检测装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6任一项所述的造价文件的清单数据检测方法。
9.一种计算机可读存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-6中任一项所述的造价文件的清单数据检测方法。
CN202010856525.0A 2020-08-24 2020-08-24 造价文件的清单数据检测方法、系统、装置及存储介质 Active CN112084302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010856525.0A CN112084302B (zh) 2020-08-24 2020-08-24 造价文件的清单数据检测方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010856525.0A CN112084302B (zh) 2020-08-24 2020-08-24 造价文件的清单数据检测方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112084302A CN112084302A (zh) 2020-12-15
CN112084302B true CN112084302B (zh) 2024-04-30

Family

ID=73729279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010856525.0A Active CN112084302B (zh) 2020-08-24 2020-08-24 造价文件的清单数据检测方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112084302B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112734369A (zh) * 2020-12-31 2021-04-30 大为国际工程咨询有限公司 一种基于大数据的工程造价管理系统
CN114707507B (zh) * 2022-04-02 2023-04-07 永道工程咨询有限公司 一种基于人工智能算法的清单信息检测方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709671A (zh) * 2017-02-16 2017-05-24 广东华联软件科技有限公司 一种造价指标动态化的建立方法及动态指标系统
CN108037742A (zh) * 2017-11-30 2018-05-15 郑州云海信息技术有限公司 一种对生产过程中所用原材料进行核对的方法和系统
CN109993190A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN110222103A (zh) * 2019-04-19 2019-09-10 平安科技(深圳)有限公司 提取excel数据的方法及装置、计算机设备、存储介质
CN110362660A (zh) * 2019-07-23 2019-10-22 重庆邮电大学 一种基于知识图谱的电子产品质量自动检测方法
CN110390564A (zh) * 2019-07-18 2019-10-29 广联达科技股份有限公司 建筑计价程序中项目快速自检方法、系统和计算机可读存储介质
CN110389998A (zh) * 2019-07-18 2019-10-29 广联达科技股份有限公司 建筑计价程序中项目快速组价方法、系统和计算机可读存储介质
CN110413742A (zh) * 2019-08-08 2019-11-05 北京字节跳动网络技术有限公司 简历信息的查重方法、装置、设备及存储介质
CN110442679A (zh) * 2019-08-01 2019-11-12 信雅达系统工程股份有限公司 一种基于融合模型算法的文本去重方法
CN110555089A (zh) * 2019-09-09 2019-12-10 广东电网有限责任公司 一种字符名称的匹配方法、装置及计算机可读存储介质
CN110659822A (zh) * 2019-09-20 2020-01-07 云南恒协科技有限公司 一种变电站智能信息监控管理系统
CN110795482A (zh) * 2019-10-16 2020-02-14 浙江大华技术股份有限公司 数据对标方法、装置、及存储装置
CN111324463A (zh) * 2020-02-21 2020-06-23 广州易达建信科技开发有限公司 一种工程文件清标方法、系统、装置及存储介质
CN111370086A (zh) * 2020-02-27 2020-07-03 平安国际智慧城市科技股份有限公司 电子病例检测方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9710547B2 (en) * 2014-11-21 2017-07-18 Inbenta Natural language semantic search system and method using weighted global semantic representations
KR102365412B1 (ko) * 2015-10-13 2022-02-21 삼성전자주식회사 전자 장치 및 전자 장치에서의 지문 인증을 위한 방법
US9846801B2 (en) * 2015-11-16 2017-12-19 MorphoTrak, LLC Minutiae grouping for distorted fingerprint matching

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709671A (zh) * 2017-02-16 2017-05-24 广东华联软件科技有限公司 一种造价指标动态化的建立方法及动态指标系统
CN108037742A (zh) * 2017-11-30 2018-05-15 郑州云海信息技术有限公司 一种对生产过程中所用原材料进行核对的方法和系统
CN109993190A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN110222103A (zh) * 2019-04-19 2019-09-10 平安科技(深圳)有限公司 提取excel数据的方法及装置、计算机设备、存储介质
CN110389998A (zh) * 2019-07-18 2019-10-29 广联达科技股份有限公司 建筑计价程序中项目快速组价方法、系统和计算机可读存储介质
CN110390564A (zh) * 2019-07-18 2019-10-29 广联达科技股份有限公司 建筑计价程序中项目快速自检方法、系统和计算机可读存储介质
CN110362660A (zh) * 2019-07-23 2019-10-22 重庆邮电大学 一种基于知识图谱的电子产品质量自动检测方法
CN110442679A (zh) * 2019-08-01 2019-11-12 信雅达系统工程股份有限公司 一种基于融合模型算法的文本去重方法
CN110413742A (zh) * 2019-08-08 2019-11-05 北京字节跳动网络技术有限公司 简历信息的查重方法、装置、设备及存储介质
CN110555089A (zh) * 2019-09-09 2019-12-10 广东电网有限责任公司 一种字符名称的匹配方法、装置及计算机可读存储介质
CN110659822A (zh) * 2019-09-20 2020-01-07 云南恒协科技有限公司 一种变电站智能信息监控管理系统
CN110795482A (zh) * 2019-10-16 2020-02-14 浙江大华技术股份有限公司 数据对标方法、装置、及存储装置
CN111324463A (zh) * 2020-02-21 2020-06-23 广州易达建信科技开发有限公司 一种工程文件清标方法、系统、装置及存储介质
CN111370086A (zh) * 2020-02-27 2020-07-03 平安国际智慧城市科技股份有限公司 电子病例检测方法、装置、计算机设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Systematic Review of Software Behavioral Model Consistency Checking;Faiz ul Muram 等;《ACM Computing Surveys》;20170811;1-39 *
东鑫垣项目全过程建设中模拟工程量清单应用研究;张方舟;《工程科技Ⅱ辑》;20190115;1-88 *
工程全过程造价预结算审核及控制方法分析;林树彬;《住宅与房地产》;20180325;28 *
工程量清单计价模式应用分析;沈艳丽;《现代商贸工业》;20140115;139-140 *

Also Published As

Publication number Publication date
CN112084302A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
WO2021042521A1 (zh) 一种合同自动生成方法、计算机设备及计算机非易失性存储介质
US8635197B2 (en) Systems and methods for efficient development of a rule-based system using crowd-sourcing
CN112084302B (zh) 造价文件的清单数据检测方法、系统、装置及存储介质
CN106598999B (zh) 一种计算文本主题归属度的方法及装置
CN109448793B (zh) 基因序列的权利范围标注、检索及信息标注方法、系统
US8626737B1 (en) Method and apparatus for processing electronically stored information for electronic discovery
CN109271489A (zh) 一种文本检测方法及装置
CN107463548A (zh) 短语挖掘方法及装置
CN111222336A (zh) 一种识别未知实体的方法及装置
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
CN106598997B (zh) 一种计算文本主题归属度的方法及装置
CN115344712A (zh) 一种基于融合文本的碳标准知识图谱构建方法
CN111753536A (zh) 一种专利申请文本的自动撰写方法和装置
CN112612810A (zh) 慢sql语句识别方法及系统
CN112613176A (zh) 慢sql语句预测方法及系统
CN109710574B (zh) 一种从文献中提取关键信息的方法和装置
CN113094424B (zh) 通过构建多级指标体系进行图表模式识别的方法和系统
CN114943219A (zh) 物料清单测试数据的生成方法、装置、设备及存储介质
CN114911936A (zh) 一种模型训练、评论识别方法、装置、电子设备及介质
CN109710651B (zh) 数据类型识别方法及装置
CN112085522A (zh) 一种工程项目的造价数据处理方法、系统、装置及介质
CN111061869A (zh) 一种基于TextRank的应用偏好文本分类方法
CN111310477B (zh) 文档查询方法及装置
JP7138981B1 (ja) 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant