CN117290320A - 建筑工程excel文件的存储方法、装置、设备和存储介质 - Google Patents
建筑工程excel文件的存储方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN117290320A CN117290320A CN202210693332.7A CN202210693332A CN117290320A CN 117290320 A CN117290320 A CN 117290320A CN 202210693332 A CN202210693332 A CN 202210693332A CN 117290320 A CN117290320 A CN 117290320A
- Authority
- CN
- China
- Prior art keywords
- index type
- data
- index
- header data
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000014509 gene expression Effects 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 12
- 230000008676 import Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 229910001294 Reinforcing steel Inorganic materials 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种建筑工程excel文件的存储方法、装置、设备和可读存储介质,该方法包括:获取经过格式标准化的建筑工程excel文件并进行拆分,获得待识别数据,其中,待识别数据包括表头数据和非表头数据;识别每列的表头数据和非表头数据所属的指标类型,并对识别结果进行分别存储;根据识别结果确定每列待识别数据所属的统一指标类型;从统一指标类型中确定科目名称和其他指标类型,并判断统一指标类型中是否存在单项信息指标类型,若存在单项信息指标类型,根据单项信息指标类型、科目名称指标类型和其他指标类型将待识别数据存储至标准模板,否则,根据科目名称指标类型和其他指标类型将待识别数据存储至标准模板。
Description
技术领域
本发明涉及建筑工程图形识别领域,具体涉及一种建筑工程excel文件的存储方法、装置、设备和可读存储介质。
背景技术
随着建筑工程技术的迅速发展,建设方、施工方和咨询方等各领域的造价人员需要使用指标文件作为建筑工程项目的工程量测算成本管理参考,因此,对于指标文件的存储也成为建筑工程不可或缺的一步。现阶段,各建筑企业通常需要将指标excel文件导入至对应企业平台的软件系统进行存储和编制的。
现有技术中由于各企业管理方式不同,因此存储的指标excel文件也有所不同,在对系统中指标excel文件中的数据内容进行编制或者汇总时,通常因为存在表格样式多、制表样式差异大和科目名称命名多样等情形,而导致数据内容识别准确率不足,增加了指标excel文件的管理难度。
针对现有技术指标文件形式不统一导致识别准确率低的技术问题,目前未存在有效的解决办法。
发明内容
本发明的目的在于提供了一种建筑工程excel文件的存储方法、装置、设备和可读存储介质,能够解决现有技术指标文件形式不统一导致识别准确率低的技术问题。
本发明的一个方面提供了一种建筑工程excel文件的存储方法,该方法包括:获取经过格式标准化的建筑工程excel文件并进行拆分,获得待识别数据,其中,待识别数据包括表头数据和非表头数据;识别每列的表头数据和非表头数据所属的指标类型,并对识别结果进行分别存储;根据识别结果确定每列待识别数据所属的统一指标类型;从统一指标类型中确定科目名称和其他指标类型,并判断统一指标类型中是否存在单项信息指标类型,若存在单项信息指标类型,根据单项信息指标类型、科目名称指标类型和其他指标类型将待识别数据存储至标准模板,否则,根据科目名称指标类型和其他指标类型将待识别数据存储至标准模板。
可选地,识别每列的表头数据和非表头数据所属的指标类型,并对识别结果进行分别存储,包括:根据第一预设正则表达式集对表头数据进行逐列识别,获得每列表头数据所属的指标类型,提取每列表头数据所属的指标类型并进行顺序拼接,生成表头数据的指标类型表头行以实现表头数据识别结果的存储;根据第二预设正则表达式集和预设分类器对非表头数据进行逐列识别,获得每列非表头数据所属的指标类型,提取每列非表头数据所属的指标类型并进行顺序拼接,生成非表头数据的指标类型表头行以实现非表头数据识别结果的存储。
可选地,根据识别结果确定每列待识别数据所属的统一指标类型,包括:逐列判断表头数据的指标类型和非表头数据的指标类型是否相同;若相同,则将指标类型确定为该列待识别数据的统一指标类型;若不相同,则根据非表头数据所属的指标类型或表头数据所属的指标类型确定该列待识别数据的统一指标类型。
可选地,根据非表头数据所属的指标类型或者表头数据所属的指标类型确定该列待识别数据的统一指标类型,包括:若非表头数据所属的指标类型为计算口径,确定非表头数据所属的指标类型为该列待识别数据的统一指标类型;若表头数据的布局形式为单行且所属的指标类型为单项信息、科目编码、科目名称、单位、计算口径值和数值属性中的任一项,确定该列表头数据所属的指标类型为该列待识别数据的统一指标类型;若表头数据的布局形式为多行且所属的指标类型包含单项信息和数值属性,确定数值属性为该列待识别数据的统一指标类型;若表头数据的布局形式为多行且所属的指标类型包含未识别信息,确定该列待识别数据的统一指标类型为待确定。
可选地,从统一指标类型中确定科目名称和其他指标类型,包括:判断统一指标类型中是否存在科目名称指标类型,根据判断结果获取科目名称指标类型和其他指标类型;若存在科目名称指标类型,则获取科目名称指标类型和其他指标类型作为标准模板的部分定位条件,以将非表头数据导入至标准模板中;若不存在科目名称指标类型,则根据预设分类器对所属指标类型为未识别信息的表头数据进行识别,获得所属指标类型为科目名称指标类型的表头数据,根据所属指标类型为科目名称的表头数据的布局形式确定科目名称关联的科目编号,并根据第二预设正则表达式集对所属指标类型为科目名称的表头数据进行识别,确定科目名称指标类型关联的数值属性指标类型,获取科目名称指标类型和科目名称指标类型关联的科目编号指标类型、关联的数值属性指标类型与公共指标类型作为导入模板的部分定位条件,以将待识别数据导入至标准模板中。
可选地,根据所属指标类型为科目名称的表头数据的布局形式确定科目编号,包括:若所属指标类型为科目名称的表头数据的布局为单行,确定科目名称指标类型关联的科目编号指标类型为同级形式;若所属指标类型为科目名称的表头数据的布局为多行,确定科目名称指标类型关联的科目编号指标类型为多级形式。
可选地,若存在单项信息,根据单项信息指标类型、科目名称指标类型和其他指标类型将待识别数据导入标准模板,包括:若科目名称指标类型和单项信息指标类型对应的待识别数据均为列布局时,根据科目名称指标类型、其他指标类型和单项信息指标类型所在列非表头数据的原始排列顺序将非表头数据分别填入标准模板的对应指标类型所在列;若科目名称指标类型的待识别数据为列布局且单项信息指标类型的待识别数据为行布局,在统一指标类型中确定科目名称指标类型、公共指标类型和每项单项信息关联的数值属性,按照单项信息在表头数据中的顺序,依次提取科目名称指标类型、公共指标类型和每项单项信息关联的数值属性指标类型所在列的非表头数据以及单项信息的表头数据填入至标准模板中的对应指标类型所在列;若科目名称指标类型的待识别数据为行布局且单项信息指标类型的待识别数据为列布局,确定每项单项信息关联的科目名称指标类型、数值属性指标类型和公共指标类型,按照单项信息在待识别数据中的原始顺序,逐行提取每项单项信息、单项信息关联的科目名称指标类型表头数据以及数值属性指标类型和公共指标类型所在列的非表头数据填入至标准模板中的对应指标类型所在列。
可选地,若不存在单项信息,根据科目名称指标类型和其他指标类型将待识别数据存储至标准模板,包括:若科目名称指标类型的待识别数据为列布局,根据科目名称指标类型和其他指标类型所在列的非表头数据原始排列顺序将非表头数据分别填入标准模板的对应指标类型所在列;若科目名称指标类型的待识别数据为行布局,确定每行待识别数据所属的公共指标类型和科目名称指标类型关联的数值属性指标类型,逐行提取指标类型为科目名称的表头数据与指标类型为数值属性和公共指标类型所在列的非表头数据填入至标准模板中的对应指标类型所在列。
可选地,在获取预处理的建筑工程excel文件并进行拆分,获得待识别数据之前,包括:将建筑工程excel文件转化为workbook格式,对建筑工程excel文件中的合并单元格进行定位标记;将建筑工程excel文件转化为dataframe格式,根据定位标记查找合并单元格,对标题合并单元格和无效合并单元格进行空置,对非标题合并单元格进行拆分,并将合并单元格的内容放置在拆分后的每个单元格内,以完成建筑工程excel文件的格式标准化。
本发明的另一个方面提供了一种建筑工程excel文件的存储装置,该装置包括:获取模块,用于获取经过格式标准化的建筑工程excel文件并进行拆分,获得待识别数据,其中,所述待识别数据包括表头数据和非表头数据;识别模块,用于识别每列的表头数据和非表头数据所属的指标类型,并对识别结果进行分别存储;确定模块,用于根据所述识别结果确定每列所述待识别数据所属的统一指标类型;存储模块,用于从所述统一指标类型中确定科目名称和其他指标类型,并判断所述统一指标类型中是否存在单项信息指标类型,若存在所述单项信息指标类型,根据所述单项信息指标类型、所述科目名称指标类型和所述其他指标类型将所述待识别数据存储至标准模板,否则,根据所述科目名称指标类型和所述其他指标类型将所述待识别数据存储至标准模板。
本发明的再一个方面提供了一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一实施例所述的建筑工程excel文件的存储方法。
本发明的又一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的建筑工程excel文件的存储方法。进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明中,通过对待识别数据的表头数据和非表头数据分别进行识别,并对识别结果进行统一,提高了列数据匹配的准确性,同时根据统一识别结果指标类型的布局形式确定待识别数据的存储内容以及存储方式,基于存储内容和存储方式将待识别数据存储至标准模板中,实现了不同类型的excel文件的统一化存储,进而提高了数据识别以及整合的效率和准确率。基于本申请,解决了指标文件形式不统一导致识别准确率低的技术问题,基于统一后的excel文件,能够加快对应excel文件的数据处理,有效提高数据统计的识别效率和准确率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例一提供的建筑工程excel文件的存储方法的一种可选的流程图;
图2示出了本发明实施例一提供的建筑工程excel文件识别过程的一种可选的流程图;
图3示出了本发明实施例一提供的建筑工程excel文件标准模板的一种可选的应用示意图;
图4示出了本发明实施例一提供的建筑工程excel文件存储方法另一种可选的流程图;
图5示出了本发明实施例二提供的建筑工程excel文件的存储装置的结构框图;以及
图6示出了本发明实施例三提供的适于实现建筑工程excel文件的存储方法的计算机设备的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
实施例一
本实施例提供了一种建筑工程excel文件的存储方法,图1示出了该建筑工程excel文件的存储方法的流程图,如图1所示,该建筑工程excel文件的存储方法可以包括步骤S1至步骤S4,其中:
步骤S1,获取经过格式标准化的建筑工程excel文件并进行拆分,获得待识别数据,其中,待识别数据包括表头数据和非表头数据。
建筑工程指标excel文件为企业、施工单位提供的excel文件,通常为工程项目工程量或单位造价清单,需要用户上传或导入至软件系统中。每个指标excel文件均有页签以对建筑工程进行区分,优选地,页签可以为具体建筑工程名称。按预设页签顺序依次读取指标excel文件进行识别。本实施例使用了Python工具的Pandas库,支持“.xls”、“.xlsx”等多种excel文件格式。导入excel文件后,依次读取excel文件中的页签进行解析,获取页签涵盖的清单数据,例如“土建工程分包”页签和“防水分包”页签包含同一建筑工程不同的分部信息。将页签涵盖的清单数据进行格式标准化,保留excel文件的有效信息作为待识别数据,其中,待识别数据包括表头数据和非表头数据。
优选地,作为本实施例一种可选的实施方式,对于建筑工程excel文件的格式标准化可以为,使用xlrd库将建筑工程excel文件转化为workbook格式,获得所有单元格的位置信息,确定合并单元格的位置信息进行定位标记;同时,使用Pandas库将建筑工程excel文件转化为dataframe格式,根据workbook格式的合并单元格的定位标记在dataframe格式中查找合并单元格的数据内容,对标题或者无效合并单元格(与数据内容无关联关系,例如,备注信息)的数据内容进行空置,对剩余的有效合并单元格进行拆分,并将合并单元格的数据内容放置在拆分后的每个单元格内。该步骤通过筛选出excel文件中的有效数据,无需对无用数据展开额外分析以及识别,提高了识别准确率和效率。
步骤S2,识别每列的表头数据和非表头数据所属的指标类型,并对识别结果进行分别存储。
由于表头数据和非表头数据的形式有所不同,因此按照分别对表头数据和非表头数据进行逐列识别,获得表头数据和非表头数据所属的指标类型,并分别对表头数据和非表头数据所属的指标类型进行汇总,为汇总的指标类型结果新增表头行进行相应放置。对每列的表头数据和非表头数据进行分别识别,具有双重验证的作用,能够对识别结果及时纠正,从而保证识别准确率。
可选的,步骤S2包括步骤S21至步骤S22,其中:
步骤S21,根据第一预设正则表达式集对表头数据进行逐列识别,获得每列表头数据所属的指标类型,提取每列表头数据所属的指标类型并进行顺序拼接,生成表头数据的指标类型表头行以实现表头数据识别结果的存储;
优选地,第一预设正则表达式集包括:科目名称正则表达式、计算口径第一正则表达式、单位第一正则表达式、单项信息第一正则表达式、科目编号第一正则表达式、计算口净值第一正则表达式、工程量第一正则表达式、含量第一正则表达式、单方造价第一正则表达式、合价第一正则表达式和造价占比第一正则表达式。例如,计算口径第一正则表达式为:统计口径|计算口径|计量基础|计算基数|原始指标|测算对象|指标名称;单位第一正则表达式为:单位$,不同的指标类型能够通过对应的正则表达式进行识别,而对于正则表达式的设置在此不作限制。
使用第一预设正则表达式集对表头数据进行逐列识别,获得每个表头数据所属的指标类型,对每列表头数据所属的指标类型进行统计,将每列中表头数据数量最多的所属指标类型确定为该列表头数据所属的指标类型并进行提取,为表头数据新建指标类型表头行,同时将提取的指标类型放置在该表头行的对应列位置处,以反映各列表头数据所属的指标类型。
步骤S22,根据第二预设正则表达式集和预设分类器对非表头数据进行逐列识别,获得每列非表头数据所属的指标类型,提取每列非表头数据所属的指标类型并进行顺序拼接,生成非表头数据的指标类型表头行以实现非表头数据识别结果的存储。
优选地,第二预设正则表达式集包括:计算口径第二正则表达式、单位第二正则表达式、单项信息第二正则表达式和数值属性正则表达式。
具体地,计算口径第二正则表达式为:.*(楼层数|楼栋数|单元数|周长|户数|层数|容积|桩长|间数|厅数|重量|樘数|含量|高度|位数|长度|数量|体积|面积|用量)\b;单位第二正则表达式为:(m3|m2|kg|t)。由于行业人员用语习惯的不同,不同企业指标文件存在科目名称命名差异,而科目名称存在一定的上下文语义关系,因此通过设置分类器对科目名称进行二分类识别,判断非表头数据是否属于科目名称,能够对科目名称类型的非表头数据进行准确识别。优选地,预设分类器可以是word2vec+SVM模型。具体地,将该非表头数据输入预设分类器中,使用word2vec将该列非表头数据进行向量化处理,再通过SVM分类器识别向量化的非表头数据是否属于科目名称。
使用第二预设正则表达式集对非表头数据进行逐列识别后,对识别结果进行检测,查找每列是否存在未识别信息,若某一列非表头数据均为未识别信息,使用预设分类器对该列非表头数据进行识别,若识别出科目名称指标类型的非表头数据数量大于预设阈值数量的非表头数据均属于科目名称,则确定该列非表头数据所属指标类型为科目名称,否则确定该列非表头数据为无效信息并进行清理;而对于不存在未识别信息的其他列数据,分别对每列非表头数据的指标类型识别结果进行统计,将每列中数量最多的指标类型作为该列非表头数据的所属指标类型。在获得所有列的非表头数据所属的指标类型后,为非表头数据新建指标类型表头行,并将各列非表头数据所属的指标类型放置在表头行的对应列位置处,以反映各列非表头数据所属的指标类型。
此外,还涉及特殊情形,先确定空置的标题行位置,接着根据计算口径正则表达式对标题行位置周围的上下左右的位置进行识别,获得计算口径指标类型。此种情形在待识别数据中未识别到计算口径指标类型时,若待识别数据中已识别到,无需执行该步骤。这一方式避免了excel文件识别过程的数据遗漏,保证了excel数据的准确性。
图2示出了excel文件识别一种可选的流程图,如图2所示,识别流程具体为:提取每列待识别数据,依次对每个单元格数据进行识别,首先通过正则匹配进行识别,若匹配成功,将识别结果作为所在列的类别标签,否则,再通过分类器进行识别,若匹配成功,将第二次识别结果作为所在列的类别标签,否则判定该列为无效列,添加无效标签。
优选地,第一正则表达式集和第二预设正则表达式集的存储服务包括但不限于:Redis数据结构服务器,关系型数据库,nosql数据库。
步骤S3,根据识别结果确定每列待识别数据所属的统一指标类型。
在分别获得表头数据和非表头数据所在列的指标类型后,使用预设规则对表头数据和非表头数据的识别结果逐列进行融合,确定出每列待识别数据所属的统一指标类型,并设置统一指标类型表头行放置每列所属的统一指标类型,便于对列数据的统一存储,提高了存储效率。
可选地,步骤S3包括步骤S31至步骤S33,其中:
步骤S31,逐列判断表头数据的指标类型和非表头数据的指标类型是否相同;
步骤S32,若相同,则将指标类型确定为该列待识别数据的统一指标类型;
步骤S33,若不相同,则根据非表头数据所属的指标类型或者表头数据所属的指标类型确定该列待识别数据的统一指标类型。
根据每列的表头数据和非表头数据所属的指标类型确定所在列的待识别数据的统一所属指标类型,若表头数据和非表头数据所属的指标类型相同,无需进行额外判断即可确定二者的指标类型为同一特征,则将该相同的指标类型作为该列待识别数据的统一指标类型;若每列的表头数据和非表头数据所属的指标类型不相同,表明没有可提取的公共特征作为统一指标类型,需要根据非表头数据所属的指标类型或者表头数据所属的指标类型进一步确定。
优选地,其他指标类型包括科目编码、单位、计算口径、计算口径值和数值属性,
可选地,步骤S33包括步骤A1至步骤A4,其中:
步骤A1,若非表头数据所属的指标类型为计算口径,确定非表头数据所属的指标类型为该列待识别数据的统一指标类型;
步骤A2,若表头数据的布局形式为单行且所属的指标类型为单项信息、科目编码、科目名称、单位、计算口径值和数值属性中的任一项,确定该列表头数据所属的指标类型为该列待识别数据的统一指标类型;
步骤A3,若表头数据的布局形式为多行且所属的指标类型包含单项信息和数值属性,确定数值属性为该列待识别数据的统一指标类型;
步骤A4,若表头数据的布局形式为多行且所属的指标类型包含未识别信息,确定该列待识别数据的统一指标类型为待确定。
当表头数据所属的指标类型和非表头数据所属的指标类型不相同时,按照预设优先原则进行统一。通常,由于非表头数据识别结果占表格的较大比例,优先考虑非表头数据的识别结果,但是,若非表头数据识别结果为具体数值时,不能清楚地定义该列数据所属的指标含义,因此,以表头数据的识别结果作为统一指标类型。例如,当表头数据所属的指标类型为科目编码、计算口径值和数值属性等相应指标时,能够直观反映所在列的指标类型,而该列对应的非表头数据识别结果一般为具体数据,不能清晰显示出所属的指标含义,在这种情况下,以该列表头数据所属的指标类型作为统一指标类型能够保证表格数据识别的准确率;而当非表头数据所属指标类型为计算口径时,非表头数据为具体文本内容,能够被准确地识别到,因此以非表头数据的识别结果作为该列待识别数据的统一指标类型。
实际应用场景中,表头数据往往会存在多行的布局形式,此时会出现一列中存在多种指标类型的识别结果,在将表头数据所属指标类型作为整列待识别数据的指标类型时,需要确定出一项指标类型保证命名的统一。具体实现方式为:当指标类型包含单项信息和数值属性,确定数值属性为该列待识别数据的统一指标类型;当指标类型包含未识别信息,此时该列表头数据对应的所有指标类型尚不明确,确定该列待识别数据的统一指标类型为待确定。
步骤S4,从统一指标类型中确定科目名称和其他指标类型,并判断统一指标类型中是否存在单项信息指标类型,若存在单项信息指标类型,根据单项信息指标类型、科目名称指标类型和其他指标类型将待识别数据存储至标准模板,否则,根据科目名称指标类型和其他指标类型将待识别数据存储至标准模板。
由于科目名称指标类型和其他指标类型指标是建筑工程文件中不可或缺的指标,而单项信息指标类型是和应用业务场景相关的指标类型,随具体应用需求而定,可见,单项信息指标类型并不存在于所有工程文件中,因此,在确定每列待识别数据所属的统一指标类型中,必然存在科目名称和其他指标类型,而单项信息需要进一步在中间识别表格中确定,若存在单项信息,以单项信息指标类型、科目名称指标类型和其他指标类型三种维度信息作为定位条件将待识别数据存储至标准模板中,若没有单项信息指标类型,以科目名称指标类型和其他指标类型作为定位条件将待识别数据存储至标准模板中。
可选地,步骤S4包括步骤S41至步骤S43,其中:
步骤S41,判断统一指标类型中是否存在科目名称指标类型,根据判断结果获取科目名称指标类型和其他指标类型;
步骤S42,若存在科目名称指标类型,则获取科目名称指标类型和其他指标类型作为标准模板的部分定位条件,以将非表头数据导入至标准模板中;
步骤S43,若不存在科目名称指标类型,则根据预设分类器对所属指标类型为未识别信息的表头数据进行识别,获得所属指标类型为科目名称指标类型的表头数据,根据所属指标类型为科目名称的表头数据的布局形式确定科目名称关联的科目编号,并根据第二预设正则表达式集对所属指标类型为科目名称的表头数据进行识别,确定科目名称指标类型关联的数值属性指标类型,获取科目名称指标类型和科目名称指标类型关联的科目编号指标类型、关联的数值属性指标类型与公共指标类型作为导入模板的部分定位条件,以将待识别数据导入至标准模板中。
通常,其他指标类型的数据是以列布局的形式存在,而科目名称在指标文件中的布局分为列布局和行布局两种形式,当科目名称为列布局时,该列数据包括表头数据和非表头数据,每个单元格均为独立的科目名称内容,正则表达式对于表头数据可以清楚地识别;当科目名称为行布局时,位于表头区域,此时表头单元格内容是以科目名称和其他指标类型的组合形式存在的,且科目名称是以具体类型所表示的,正则表达式的匹配范围较固定,仅能匹配科目名称的统一名称,而对于具体指标类型并不能很好地被识别到,显示为未识别信息,因此还需进一步识别。
为了使得各指标类型的数据得到准确处理,先判断统一指标类型中是否存在科目名称,若存在科目名称,表明科目名称和其他指标类型对应的待识别数据均以列布局存在,无需对科目名称进一步识别,便可确定科目名称的具体位置,因此,可直接确定科目名称和其他指标类型为部分或者全部定位条件(部分和全部两种情况由单项信息决定,若存在单项信息,为部分,否则为全部),将待识别数据导入至标准模板中;若不存在科目名称,表明科目名称的数据是以行布局的形式存在,且科目名称对应的待识别数据为表头数据,由于此时科目名称为具体类型,使用预设分类器对表头行中未识别的单元格进行识别,获得所属指标类型为科目名称表头数据,根据所属指标类型为科目名称的表头数据的布局形式确定科目名称关联的科目编号,并根据第二预设正则表达式集对所属指标类型为科目名称的表头数据进行识别,确定科目名称关联的数值属性指标类型,获取科目名称和科目名称关联的科目编号、关联的数值属性指标与其他指标类型作为导入模板的部分定位条件,以将非表头数据导入至标准模板中。
例如,当科目名称的待识别数据为行布局时,当前excel文件的科目名称指标类型包括建筑现浇结构指标、钢筋(T)、柱子砼(不含构柱)m3、剪力墙砼m3、有梁板砼m3、其他砼m3,以钢筋(T)为例,钢筋为科目名称,T为工程量的单位,该待识别数据不仅包括科目名称指标类型,还包括数值属性指标类型,需要进行两次识别,才能还原真实的待识别数据。
可选地,步骤S43包括步骤A1至步骤A2,其中:
步骤A1,若所属指标类型为科目名称的表头数据的布局为单行,确定科目名称指标类型关联的科目编号指标类型为同级形式。
当科目名称的表头数据为位于同一行时,例如,包括钢筋(T)、柱子砼(不含构柱)m3、剪力墙砼m3、有梁板砼m3、其他砼m3等多个类型,此时上述表头数据为同一级别(并列关系),因此科目编号形式设置为同级形式,即上述表头数据的科目编号依次为1、2、3、4和5。
步骤A2,若所属指标类型为科目名称的表头数据的布局为多行,确定科目名称指标类型关联的科目编号指标类型为多级形式。
当科目名称的表头数据位于多行其相邻行的表头数据具有层级关系,例如,现有两行科目名称指标类型,其中,第一行为建筑现浇结构指标,第二行为钢筋(T)、柱子砼(不含构柱)m3、剪力墙砼m3、有梁板砼m3、其他砼m3,其中,第二行数据属于第一行数据的子集,二者具有层级关系,因此将该科目名称关联的科目编号设置为多级结构,即第一行科目编号为1,第二行科目编号则为1.1、1.2、1.3、1.4和1.5。
可选地,步骤S4包括步骤S41至步骤S43,其中:
步骤S41,若科目名称指标类型和单项信息指标类型对应的待识别数据均为列布局时,根据科目名称指标类型、其他指标类型和单项信息指标类型所在列非表头数据的原始排列顺序将非表头数据分别填入标准模板的对应指标类型所在列。
标准模板的规则是以列布局进行存储的,图3示出了建筑工程excel文件标准模板的一种可选的应用示意图,如图3所示,标准模板分为经济模板和含量模板两种样式,经济模板、含量模板横向表头均包括序号、科目编码、科目名称、单位、计算口径、计算口径值、指标说明(单项信息),其中经济模板表头包括合价、单方造价、造价占比等信息,含量模板包括工程量、含量等信息。对待识别数据中的科目名称和单项信息的布局形式进行判断,以将待识别数据存储至标准模板中。当科目名称和单项信息对应的待识别数据分别位于一列(即列布局)时,表明当前待识别数据与标准模板的布局形式一致,通过待识别数据所属的数值属性进行标准模板的选取,在确定好标准模板后,对统一指标类型表头行的内容与标准模板的行表头进行匹配,若匹配成功,将待识别数据中的非表头数据依次存储至标准模板所属指标类型一致的所在列中。
步骤S42,若科目名称指标类型的待识别数据为列布局且单项信息指标类型的待识别数据为行布局,在统一指标类型中确定科目名称指标类型、公共指标类型和每项单项信息关联的数值属性,按照单项信息在表头数据中的顺序,依次提取科目名称指标类型、公共指标类型和每项单项信息关联的数值属性指标类型所在列的非表头数据以及单项信息的表头数据填入至标准模板中的对应指标类型所在列。
当科目名称的待识别数据的布局形式是待识别数据中的一列数据(列布局),同时单项信息的待识别数据位于表头数据中某一行的连续单元格内(行布局),按照单项信息在表头数据在该行中的排列顺序,依次提取科目名称、公共指标类型和每项单项信息关联的数值属性指标对应的非表头数据以及单项信息的表头数据存储至标准模板中,其中,单项信息填写在标准模板中的指标说明所在列,只有一项单项信息关联的所有待识别数据存储完成才能开启下一项单项信息关联的待识别数据的存储操作。
步骤S43,若科目名称指标类型的待识别数据为行布局且单项信息指标类型的待识别数据为列布局,确定每项单项信息关联的科目名称指标类型、数值属性指标类型和公共指标类型,按照单项信息在待识别数据中的原始顺序,逐行提取每项单项信息、单项信息关联的科目名称指标类型表头数据以及数值属性指标类型和公共指标类型所在列的非表头数据填入至标准模板中的对应指标类型所在列。
在待识别数据中,当科目名称位于表头数据的连续区域(行布局),同时单项信息的布局形式为一列数据(列布局),逐行提取单项信息、公共指标类型和数值属性对应的非表头数据,并在提取单行非表头数据过程中提取科目名称的表头数据,在存储过程中,将科目名称在表头数据中的排列顺序转换为列顺序存储至标准模板的对应列位置处,且对每行的非表头数据进行复用,其复用次数与科目名称的表头数据数量相同。
可选地,步骤S4可以包括步骤S41’至步骤S42’,其中:
步骤S41’,若科目名称指标类型的待识别数据为列布局,根据科目名称指标类型和其他指标类型所在列的非表头数据原始排列顺序将非表头数据分别填入标准模板的对应指标类型所在列;
当科目名称的待识别数据的布局形式是一列数据(列布局),表明当前所有指标类型的待识别数据均是列布局形式,按照科目名称和其他指标类型所在列非表头数据的原始排列顺序将待识别数据中的非表头数据存储至标准模板的对应列位置处。
步骤S42’,若科目名称指标类型的待识别数据为行布局,确定每行待识别数据所属的公共指标类型和科目名称指标类型关联的数值属性指标类型,逐行提取指标类型为科目名称的表头数据与指标类型为数值属性和公共指标类型所在列的非表头数据填入至标准模板中的对应指标类型所在列。
当科目名称位于表头数据的连续区域(行布局),逐行提取公共指标类型和数值指标类型的非表头数据,并在提取单行非表头数据过程中提取科目名称的表头数据,在存储过程中,将科目名称在表头数据中的排列顺序转换为列顺序存储至标准模板的对应列位置处,且对每行的非表头数据进行复用,其复用次数与科目名称的表头数据数量相同。
图4示出了建筑工程excel文件存储一种可选的流程图,如图4所示,在系统接收到输入excel文件时,合并单元格还原,获得标准化的表格结构,然后对标准化表格按列进行拆分,获得每列的表头和数据内容(即非表头数据),对表头和数据内容分别进行列识别,并将识别结果合并获得统一指标类型,在统一指标类型确定清单(即科目名称)、单项和数值所在位置以及布局形式,确定对应的科目层级关系,在所有指标类型确定完成后,将excel文件中的数据填入至标准模板中,以实现对于excel文件的存储。
在本实施例中,通过对待识别数据的表头数据和非表头数据分别进行识别,并对识别结果进行统一,提高了列数据匹配的准确性,同时根据统一识别结果指标类型的布局形式确定待识别数据的存储内容以及存储方式,基于存储内容和存储方式将待识别数据存储至标准模板中,实现了不同类型的excel文件的统一化存储,进而提高了数据识别以及整合的效率和准确率。基于本申请,解决了指标文件形式不统一导致识别准确率低的技术问题,基于统一后的excel文件,能够加速建筑工程excel文件的数据处理,有效提高数据统计的识别效率和准确率。
实施例二
本发明的实施例二还提供了一种建筑工程excel文件的存储装置,该建筑工程excel文件的存储装置与上述实施例一提供的建筑工程excel文件的存储方法相对应,相应的技术特征和技术效果在本实施例中不再详述,相关之处可参考上述实施例一。具体地,图5示出了该建筑工程excel文件的存储装置的结构框图。如图5所示,该建筑工程excel文件的存储装置500包括获取模块501、识别模块502、确定模块503和存储模块504,其中:
获取模块501,用于获取经过格式标准化的建筑工程excel文件并进行拆分,获得待识别数据,其中,待识别数据包括表头数据和非表头数据;
识别模块502,与获取模块501连接,用于识别每列的表头数据和非表头数据所属的指标类型,并对识别结果进行分别存储;
确定模块503,与识别模块502连接,用于根据识别结果确定每列待识别数据所属的统一指标类型;
存储模块504,与确定模块503连接,用于从统一指标类型中确定科目名称和其他指标类型,并判断统一指标类型中是否存在单项信息指标类型,若存在单项信息指标类型,根据单项信息指标类型、科目名称指标类型和其他指标类型将待识别数据存储至标准模板,否则,根据科目名称指标类型和其他指标类型将待识别数据存储至标准模板。
可选地,识别模块具体用于:根据第一预设正则表达式集对表头数据进行逐列识别,获得每列表头数据所属的指标类型,提取每列表头数据所属的指标类型并进行顺序拼接,生成表头数据的指标类型表头行以实现表头数据识别结果的存储;根据第二预设正则表达式集和预设分类器对非表头数据进行逐列识别,获得每列非表头数据所属的指标类型,提取每列非表头数据所属的指标类型并进行顺序拼接,生成非表头数据的指标类型表头行以实现非表头数据识别结果的存储。
可选地,确定模块包括:第一判断子模块,具体用于逐列判断表头数据的指标类型和非表头数据的指标类型是否相同;第一确定子模块,具体用于若相同,则将指标类型确定为该列待识别数据的统一指标类型;第二确定子模块,具体用于若不相同,则根据非表头数据所属的指标类型或表头数据所属的指标类型确定该列待识别数据的统一指标类型。
可选地,第二确定子模块具体用于:若非表头数据所属的指标类型为计算口径,确定非表头数据所属的指标类型为该列待识别数据的统一指标类型;若表头数据的布局形式为单行且所属的指标类型为单项信息、科目编码、科目名称、单位、计算口径值和数值属性中的任一项,确定该列表头数据所属的指标类型为该列待识别数据的统一指标类型;若表头数据的布局形式为多行且所属的指标类型包含单项信息和数值属性,确定数值属性为该列待识别数据的统一指标类型;若表头数据的布局形式为多行且所属的指标类型包含未识别信息,确定该列待识别数据的统一指标类型为待确定。
可选地,存储模块包括:第二判断子模块,具体用于若存在科目名称指标类型,则获取科目名称指标类型和其他指标类型作为标准模板的部分定位条件,以将非表头数据导入至标准模板中;第一导入子模块,具体用于若存在科目名称指标类型,则获取科目名称指标类型和其他指标类型作为标准模板的部分定位条件,以将非表头数据导入至标准模板中;第二导入子模块,具体用于若不存在科目名称指标类型,则根据预设分类器对所属指标类型为未识别信息的表头数据进行识别,获得所属指标类型为科目名称指标类型的表头数据,根据所属指标类型为科目名称的表头数据的布局形式确定科目名称关联的科目编号,并根据第二预设正则表达式集对所属指标类型为科目名称的表头数据进行识别,确定科目名称指标类型关联的数值属性指标类型,获取科目名称指标类型和科目名称指标类型关联的科目编号指标类型、关联的数值属性指标类型与公共指标类型作为导入模板的部分定位条件,以将待识别数据导入至标准模板中。
可选地,第二导入子模块在执行根据所属指标类型为科目名称的表头数据的布局形式确定科目编号,具体用于:若所属指标类型为科目名称的表头数据的布局为单行,确定科目名称指标类型关联的科目编号指标类型为同级形式;若所属指标类型为科目名称的表头数据的布局为多行,确定科目名称指标类型关联的科目编号指标类型为多级形式。
可选地,存储模块在执行根据单项信息指标类型、科目名称指标类型和其他指标类型将中间识别表格中的待识别数据导入标准模板时,具体用于:若科目名称指标类型和单项信息指标类型对应的待识别数据均为列布局时,根据科目名称指标类型、其他指标类型和单项信息指标类型所在列非表头数据的原始排列顺序将非表头数据分别填入标准模板的对应指标类型所在列;若科目名称指标类型的待识别数据为列布局且单项信息指标类型的待识别数据为行布局,在统一指标类型中确定科目名称指标类型、公共指标类型和每项单项信息关联的数值属性,按照单项信息在表头数据中的顺序,依次提取科目名称指标类型、公共指标类型和每项单项信息关联的数值属性指标类型所在列的非表头数据以及单项信息的表头数据填入至标准模板中的对应指标类型所在列;若科目名称指标类型的待识别数据为行布局且单项信息指标类型的待识别数据为列布局,确定每项单项信息关联的科目名称指标类型、数值属性指标类型和公共指标类型,按照单项信息在待识别数据中的原始顺序,逐行提取每项单项信息、单项信息关联的科目名称指标类型表头数据以及数值属性指标类型和公共指标类型所在列的非表头数据填入至标准模板中的对应指标类型所在列。
可选地,存储模块在执行根据科目名称指标类型和其他指标类型将中间识别表格中的待识别数据存储至标准模板时,具体用于:若科目名称指标类型的待识别数据为列布局,根据科目名称指标类型和其他指标类型所在列的非表头数据原始排列顺序将非表头数据分别填入标准模板的对应指标类型所在列;若科目名称指标类型的待识别数据为行布局,确定每行待识别数据所属的公共指标类型和科目名称指标类型关联的数值属性指标类型,逐行提取指标类型为科目名称的表头数据与指标类型为数值属性和公共指标类型所在列的非表头数据填入至标准模板中的对应指标类型所在列。
可选地,该装置还包括格式标准化模块,具体用于:将建筑工程excel文件转化为workbook格式,对建筑工程excel文件中的合并单元格进行定位标记;将建筑工程excel文件转化为dataframe格式,根据定位标记查找合并单元格,对标题合并单元格和无效合并单元格进行空置,对非标题合并单元格进行拆分,并将合并单元格的内容放置在拆分后的每个单元格内,以完成建筑工程excel文件的格式标准化。
实施例三
图6示出了本发明实施例三提供的适于实现建筑工程excel文件的存储方法的计算机设备的框图。本实施例中,计算机设备600可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图6所示,本实施例的计算机设备600至少包括但不限于:可通过系统总线相互通信连接的存储器601、处理器602、网络接口603。需要指出的是,图6仅示出了具有组件601-603的计算机设备600,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器603至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器601可以是计算机设备600的内部存储单元,例如该计算机设备600的硬盘或内存。在另一些实施例中,存储器601也可以是计算机设备600的外部存储设备,例如该计算机设备600上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器601还可以既包括计算机设备600的内部存储单元也包括其外部存储设备。在本实施例中,存储器601通常用于存储安装于计算机设备600的操作系统和各类应用软件,例如建筑工程excel文件的存储方法的程序代码等。
处理器602在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器602通常用于控制计算机设备600的总体操作。例如执行与计算机设备600进行数据交互或者通信相关的控制和处理等。本实施例中,处理器602用于运行存储器601中存储的建筑工程excel文件的存储方法的步骤的程序代码。
在本实施例中,存储于存储器601中的建筑工程excel文件的存储方法还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器602)所执行,以完成本发明。
网络接口603可包括无线网络接口或有线网络接口,该网络接口603通常用于在计算机设备600与其他计算机设备之间建立通信链接。例如,网络接口603用于通过网络将计算机设备600与外部终端相连,在计算机设备600与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
实施例四
本实施例还提供一种计算机可读存储介质,包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等,其上存储有计算机程序,所述计算机程序被处理器执行时实现建筑工程excel文件的存储方法的步骤。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
需要说明的是,本发明实施例序号仅仅为了描述,并不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (12)
1.一种建筑工程excel文件的存储方法,其特征在于,所述方法包括:
获取经过格式标准化的建筑工程excel文件并进行拆分,获得待识别数据,其中,所述待识别数据包括表头数据和非表头数据;
识别每列的表头数据和非表头数据所属的指标类型,并对识别结果进行分别存储;
根据所述识别结果确定每列所述待识别数据所属的统一指标类型;
从所述统一指标类型中确定科目名称和其他指标类型,并判断所述统一指标类型中是否存在单项信息指标类型,若存在所述单项信息指标类型,根据所述单项信息指标类型、所述科目名称指标类型和所述其他指标类型将所述待识别数据存储至标准模板,否则,根据所述科目名称指标类型和所述其他指标类型将所述待识别数据存储至标准模板。
2.根据权利要求1所述的方法,其特征在于,所述识别每列的表头数据和非表头数据所属的指标类型,并对识别结果进行分别存储,包括:
根据第一预设正则表达式集对所述表头数据进行逐列识别,获得每列表头数据所属的指标类型,提取每列表头数据所属的指标类型并进行顺序拼接,生成所述表头数据的指标类型表头行以实现表头数据识别结果的存储;
根据第二预设正则表达式集和预设分类器对所述非表头数据进行逐列识别,获得每列非表头数据所属的指标类型,提取每列非表头数据所属的指标类型并进行顺序拼接,生成所述非表头数据的指标类型表头行以实现非表头数据识别结果的存储。
3.根据权利要求1所述的方法,其特征在于,所述根据所述识别结果确定每列所述待识别数据所属的统一指标类型,包括:
逐列判断所述表头数据的指标类型和所述非表头数据的指标类型是否相同;
若相同,则将所述指标类型确定为该列待识别数据的统一指标类型;
若不相同,则根据所述非表头数据所属的指标类型或所述表头数据所属的指标类型确定该列待识别数据的统一指标类型。
4.根据权利要求3所述的方法,其特征在于,所述其他指标类型包括科目编码、单位、计算口径、计算口径值和数值属性,所述根据所述非表头数据所属的指标类型或者所述表头数据所属的指标类型确定该列待识别数据的统一指标类型,包括:
若所述非表头数据所属的指标类型为计算口径,确定所述非表头数据所属的指标类型为该列待识别数据的统一指标类型;
若所述表头数据的布局形式为单行且所属的指标类型为单项信息、科目编码、科目名称、单位、计算口径值和数值属性中的任一项,确定该列表头数据所属的指标类型为该列待识别数据的统一指标类型;
若所述表头数据的布局形式为多行且所属的指标类型包含单项信息和数值属性,确定数值属性为该列待识别数据的统一指标类型;
若所述表头数据的布局形式为多行且所属的指标类型包含未识别信息,确定该列待识别数据的统一指标类型为待确定。
5.根据权利要求3所述的方法,其特征在于,所述其他指标类型包括公共指标类型和数值属性指标类型,所述从所述统一指标类型中确定科目名称和其他指标类型,包括:
判断所述统一指标类型中是否存在科目名称指标类型,根据判断结果获取科目名称指标类型和其他指标类型;
若存在科目名称指标类型,则获取所述科目名称指标类型和其他指标类型作为标准模板的部分定位条件,以将所述非表头数据导入至标准模板中;
若不存在科目名称指标类型,则根据预设分类器对所属指标类型为未识别信息的表头数据进行识别,获得所属指标类型为科目名称指标类型的表头数据,根据所属指标类型为科目名称的表头数据的布局形式确定科目名称关联的科目编号,并根据第二预设正则表达式集对所述所属指标类型为科目名称的表头数据进行识别,确定所述科目名称指标类型关联的数值属性指标类型,获取所述科目名称指标类型和所述科目名称指标类型关联的科目编号指标类型、关联的数值属性指标类型与公共指标类型作为导入模板的部分定位条件,以将所述待识别数据导入至标准模板中。
6.根据权利要求5所述的方法,其特征在于,所述根据所属指标类型为科目名称的表头数据的布局形式确定科目编号,包括:
若所属指标类型为科目名称的表头数据的布局为单行,确定所述科目名称指标类型关联的科目编号指标类型为同级形式;
若所属指标类型为科目名称的表头数据的布局为多行,确定所述科目名称指标类型关联的科目编号指标类型为多级形式。
7.根据权利要求5所述的方法,其特征在于,所述若存在单项信息,根据所述单项信息指标类型、所述科目名称指标类型和所述其他指标类型将所述待识别数据导入标准模板,包括:
若所述科目名称指标类型和所述单项信息指标类型对应的待识别数据均为列布局时,根据所述科目名称指标类型、所述其他指标类型和所述单项信息指标类型所在列非表头数据的原始排列顺序将非表头数据分别填入标准模板的对应指标类型所在列;
若所述科目名称指标类型的待识别数据为列布局且所述单项信息指标类型的待识别数据为行布局,在统一指标类型中确定科目名称指标类型、公共指标类型和每项单项信息关联的数值属性,按照所述单项信息在所述表头数据中的顺序,依次提取科目名称指标类型、公共指标类型和每项单项信息关联的数值属性指标类型所在列的非表头数据以及所述单项信息的表头数据填入至标准模板中的对应指标类型所在列;
若所述科目名称指标类型的待识别数据为行布局且所述单项信息指标类型的待识别数据为列布局,确定每项单项信息关联的科目名称指标类型、数值属性指标类型和公共指标类型,按照所述单项信息在待识别数据中的原始顺序,逐行提取每项单项信息、所述单项信息关联的科目名称指标类型表头数据以及数值属性指标类型和公共指标类型所在列的非表头数据填入至标准模板中的对应指标类型所在列。
8.根据权利要求5所述的方法,其特征在于,所述若不存在单项信息,根据所述科目名称指标类型和所述其他指标类型将所述待识别数据存储至标准模板,包括:
若所述科目名称指标类型的待识别数据为列布局,根据所述科目名称指标类型和其他指标类型所在列的非表头数据原始排列顺序将非表头数据分别填入标准模板的对应指标类型所在列;
若所述科目名称指标类型的待识别数据为行布局,确定每行待识别数据所属的公共指标类型和所述科目名称指标类型关联的数值属性指标类型,逐行提取指标类型为科目名称的表头数据与指标类型为数值属性和公共指标类型所在列的非表头数据填入至标准模板中的对应指标类型所在列。
9.根据权利要求1所述的方法,其特征在于,在所述获取预处理的建筑工程excel文件并进行拆分,获得待识别数据之前,包括:
将所述建筑工程excel文件转化为workbook格式,对所述建筑工程excel文件中的合并单元格进行定位标记;
将所述建筑工程excel文件转化为dataframe格式,根据所述定位标记查找合并单元格,对标题合并单元格和无效合并单元格进行空置,对非标题合并单元格进行拆分,并将合并单元格的内容放置在拆分后的每个单元格内,以完成所述建筑工程excel文件的格式标准化。
10.一种建筑工程excel文件的存储装置,其特征在于,所述装置包括:
获取模块,用于获取经过格式标准化的建筑工程excel文件并进行拆分,获得待识别数据,其中,所述待识别数据包括表头数据和非表头数据;
识别模块,用于识别每列的表头数据和非表头数据所属的指标类型,并对识别结果进行分别存储;
确定模块,用于根据所述识别结果确定每列所述待识别数据所属的统一指标类型;
存储模块,用于从所述统一指标类型中确定科目名称和其他指标类型,并判断所述统一指标类型中是否存在单项信息指标类型,若存在所述单项信息指标类型,根据所述单项信息指标类型、所述科目名称指标类型和所述其他指标类型将所述待识别数据存储至标准模板,否则,根据所述科目名称指标类型和所述其他指标类型将所述待识别数据存储至标准模板。
11.一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210693332.7A CN117290320A (zh) | 2022-06-17 | 2022-06-17 | 建筑工程excel文件的存储方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210693332.7A CN117290320A (zh) | 2022-06-17 | 2022-06-17 | 建筑工程excel文件的存储方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117290320A true CN117290320A (zh) | 2023-12-26 |
Family
ID=89246887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210693332.7A Pending CN117290320A (zh) | 2022-06-17 | 2022-06-17 | 建筑工程excel文件的存储方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117290320A (zh) |
-
2022
- 2022-06-17 CN CN202210693332.7A patent/CN117290320A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107832676B (zh) | 表格信息换行识别方法、电子设备及计算机可读存储介质 | |
CN110275965B (zh) | 假新闻检测方法、电子装置及计算机可读存储介质 | |
CN112036144B (zh) | 数据解析方法、装置、计算机设备和可读存储介质 | |
CN111159982B (zh) | 文档编辑方法、装置、电子设备及计算机可读存储介质 | |
CN115061721A (zh) | 一种报表生成方法、装置、计算机设备及存储介质 | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
CN101661512A (zh) | 一种识别传统表单信息并创建对应Web表单的系统及方法 | |
CN111427544B (zh) | 软件需求文档的生成方法、装置、存储介质及电子设备 | |
CN110705226A (zh) | 电子表格的创建方法、装置及计算机设备 | |
CN112286934A (zh) | 数据库表导入方法、装置、设备及介质 | |
CN114241499A (zh) | 表格图片识别方法、装置、设备和可读存储介质 | |
CN111369294B (zh) | 软件造价估算方法及装置 | |
CN114238575A (zh) | 文档解析方法、系统、计算机设备及计算机可读存储介质 | |
CN111126058B (zh) | 文本信息自动抽取方法、装置、可读存储介质和电子设备 | |
CN112818937A (zh) | Excel文件的识别方法、装置、电子设备及可读存储介质 | |
CN111815162A (zh) | 一种数字化审计工具及方法 | |
CN111723210A (zh) | 存储数据表的方法、装置、计算机设备及可读存储介质 | |
CN117743558B (zh) | 基于大模型的知识加工、知识问答方法、装置及介质 | |
CN117423124A (zh) | 基于表格图像的表格数据处理方法和装置、设备及介质 | |
CN117290320A (zh) | 建筑工程excel文件的存储方法、装置、设备和存储介质 | |
CN116205233A (zh) | 一种识别文档中关键字段的方法、装置、设备和存储介质 | |
CN115563941B (zh) | 复合文档处理方法、装置、存储介质及计算机设备 | |
CN118095232A (zh) | 表单数据导入方法、装置、设备及存储介质 | |
CN116719839B (zh) | 会计档案的数据查询方法、装置和电子设备 | |
CN116306573B (zh) | 工程做法的智能解析方法、装置、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |