CN114595669A - 一种算量表格识别方法、系统、电子设备及存储介质 - Google Patents

一种算量表格识别方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN114595669A
CN114595669A CN202210236897.2A CN202210236897A CN114595669A CN 114595669 A CN114595669 A CN 114595669A CN 202210236897 A CN202210236897 A CN 202210236897A CN 114595669 A CN114595669 A CN 114595669A
Authority
CN
China
Prior art keywords
column
information
vector
head
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210236897.2A
Other languages
English (en)
Other versions
CN114595669B (zh
Inventor
杨万勇
杨耀庭
华健
王钰
栾巨
张树勇
杨名渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mengcheng Technology Co ltd
Original Assignee
Beijing Mengcheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mengcheng Technology Co ltd filed Critical Beijing Mengcheng Technology Co ltd
Priority to CN202210236897.2A priority Critical patent/CN114595669B/zh
Publication of CN114595669A publication Critical patent/CN114595669A/zh
Application granted granted Critical
Publication of CN114595669B publication Critical patent/CN114595669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种算量表格识别方法、系统、电子设备及存储介质。其中,方法包括:根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;根据所述第一列信息和列头词向量,得到第二列信息;基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息;基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测,并输出预测结果的结构化数据。本发明的方案,自动识别各种类型算量表格,快速准确的输出结构化数据及将输出的结构化数据应实现由EXCEL表自动录入算量表操作。

Description

一种算量表格识别方法、系统、电子设备及存储介质
技术领域
本发明属于工程表格识别领域,尤其涉及一种算量表格识别方法、系统、电子设备及存储介质。
背景技术
NLP:自然语言处理,跨越从人工智能到计算语言学多个领域,实现与计算机之间用自然语言进行通信。计算机通过准确并快速地分析处理大量的自然语言语料库,从而理解和从文本里提取信息等,主要应用于信息分析、语音识别、机器翻译等方面。
词向量:NLP中通常把每个词表示为一个很长的向量把语言数学化,也就是使用向量表示文本。如本产品采用的是三百维度的词向量,每个词汇为300*1的向量,每个位置表示词汇在这个维度所占的权重。可以通过表达词的含义,词汇之间的内在联系,实现对词语更精确的描述。
当前产品主要解决以OCR识别图纸中的算量表格生成的EXCEL为输入,通过NLP和EXCEL相关算法来识别单元格的业务含义,抽取表格中的算量内容;输出的结构化数据用于后续的算量表录入。
结构化数据内容包括:
1、EXCEL中SHEET工作表信息;
2、识别区域类型及区域在EXCEL中行、列的起止范围。
现有技术:
目前基建行业算量主要依赖于EXCEL表格算量,若希望使用算量工具自动算量,必须手动将EXCEL算量表进行录入。录入的方式需要手动复制EXCEL内容,或者手动框选出EXCEL内容区域并需要指定区域类型生成结构化数据。
现有技术的缺点:
算量图纸中存在大量表格,若通过手动录入结构化信息或手动复制粘贴,耗时耗力且容易出现误差。特别是多种类型的表格会同时出现,若不采用自动识别时,会造成不可预估的风险,无法保证准确率,定位错误难上加难。而本产品通过NLP和EXCEL相关算法实现自动识别各种类型算量表格,既能保证正确率又能降低各种成本。
发明内容
为解决上述技术问题,本发明提出一种算量表格识别方法、系统、电子设备及存储介质的技术方案,以解决上述技术问题。
本发明第一方面公开了一种算量表格识别方法,所述方法包括:
步骤S1、获取算量表格的训练数据,应用所述训练数据训练识别模型,得到训练后的识别模型;
步骤S2、确定输入EXCEL数据的输入形式;
步骤S3、对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置;
步骤S4、根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;根据所述第一列信息和列头词向量,得到第二列信息;
步骤S5、基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息;
步骤S6、基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测;
步骤S7、根据预测结果,输出包含不同分类区域及其起止位置的结构化数据。
根据本发明第一方面的方法,在所述步骤S3中,所述对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置的具体方法包括:
步骤S3.1、获取列头的起始位置:基于纵向单元格合并位置及当前行为空单元格占比是否超过当前行单元格总数的百分之二十,确定列头的起始位置;
步骤S3.2、获取列头的结束位置:基于对每列的每个单元格处理,确定列头的结束位置。
根据本发明第一方面的方法,在所述步骤S3中,所述基于对每列的每个单元格处理,确定列头的结束位置的具体方法包括:
步骤S3.2.1、对SHEET中的所有列进行遍历,再遍历列中的每个单元格,确定每个单元格属性值类型;找到当前列非空单元格最后一次类型变化获取当前列列头的初始结束位置;
步骤S3.2.2、当前行单元格属性值为递增的整数或整型浮点数,且当前行为空单元格占比不超过当前行单元格总数的百分之二十,更新初始结束位置,得到更新后的结束位置;
步骤S3.2.3、当存在单元格合并函数,即merge_cells时,取出纵向合并行数量,与所述更新后的结束位置比较,若大于所述更新后的结束位置则再次更新结束位置。
根据本发明第一方面的方法,在所述步骤S4中,所述根据所述第一列信息和列头词向量,得到第二列信息的具体方法包括:
将所述列头词向量作为一个属性添加到所述第一列信息中,得到第二列信息。
根据本发明第一方面的方法,在所述步骤S5中,所述根据所述第二列信息和列表示向量,得到第三列信息的具体方法包括:
将所述第二列信息中的所述列头词向量替换为列表示向量,得到第三列信息。
根据本发明第一方面的方法,在所述步骤S6中,所述基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测的具体方法包括:
步骤S6.1、基于所述训练后的识别模型预测出每一列的第一预测分类及准确率;
步骤S6.2、根据所述第三列信息及业务规则划分表格分类和所述第一预测分类及准确率,对不同类型的表格及其业务规则重新预测分类,并去除准确率较低或无需标记的列预测,得到第二列预测分类;
步骤S6.3、将列头、所述第二列预测分类和行列号进行合并,再次结合业务规则,对所述第二列预测分类为单位、算量内容和规格型号的列重新预测分类,得到列头的预测分类结果。
根据本发明第一方面的方法,在所述步骤S7中,根据业务规则及单元格内容,列头按照单元格、内容按照列划分为19种类型,分别为分部分项、部位、部位数量、起讫桩号、部位位置、属性名称、属性值、属性单位、算量内容、算量内容单位、编号/位置、规格型号、工程量、图号、说明、钢筋直径、单根长、根数和米重。
本发明第二方面公开了一种算量表格识别系统,所述系统包括:
第一处理模块,被配置为,获取算量表格的训练数据,应用所述训练数据训练识别模型,得到训练后的识别模型;
第二处理模块,确定输入EXCEL数据的输入形式;
第三处理模块,被配置为,对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置;
第四处理模块,被配置为,根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;根据所述第一列信息和列头词向量,得到第二列信息;
第五处理模块,被配置为,基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息;
第六处理模块,被配置为,基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测;
第七处理模块,被配置为,输出预测结果的结构化数据。
根据本发明第二方面的系统,第三处理模块,被配置为,获取列头的起始位置:基于纵向单元格合并位置及当前行为空单元格占比是否超过当前行单元格总数的百分之二十,确定列头的起始位置;获取列头的结束位置:基于对每列的每个单元格处理,确定列头的结束位置。
根据本发明第二方面的系统,第三处理模块,被配置为,对SHEET中的所有列进行遍历,再遍历列中的每个单元格,确定每个单元格属性值类型;找到当前列非空单元格最后一次类型变化获取当前列列头的初始结束位置;当前行单元格属性值为递增的整数或整型浮点数,且当前行为空单元格占比不超过当前行单元格总数的百分之二十,更新初始结束位置,得到更新后的结束位置;当存在单元格合并函数,即merge_cells时,取出纵向合并行数量,与所述更新后的结束位置比较,若大于所述更新后的结束位置则再次更新结束位置。
根据本发明第二方面的系统,第四处理模块,被配置为,将所述列头词向量作为一个属性添加到所述第一列信息中,得到第二列信息。
根据本发明第二方面的系统,第五处理模块,被配置为,将所述第二列信息中的所述列头词向量替换为列表示向量,得到第三列信息。
根据本发明第二方面的系统,第六处理模块,被配置为,基于所述训练后的识别模型预测出每一列的第一预测分类及准确率;根据所述第三列信息及业务规则划分表格分类和所述第一预测分类及准确率,对不同类型的表格及其业务规则重新预测分类,并去除准确率较低或无需标记的列预测,得到第二列预测分类;将列头、所述第二列预测分类和行列号进行合并,再次结合业务规则,对所述第二列预测分类为单位、算量内容和规格型号的列重新预测分类,得到列头的预测分类结果。
根据本发明第二方面的系统,第七处理模块,被配置为,根据业务规则及单元格内容,列头按照单元格、内容按照列划分为19种类型,分别为分部分项、部位、部位数量、起讫桩号、部位位置、属性名称、属性值、属性单位、算量内容、算量内容单位、编号/位置、规格型号、工程量、图号、说明、钢筋直径、单根长、根数和米重。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种算量表格识别方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种算量表格识别方法中的步骤。
本发明提出的方案,具有如下有益效果:自动识别各种类型算量表格,快速准确的输出结构化数据及将输出的结构化数据应实现由EXCEL表自动录入算量表操作。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种算量表格识别方法的流程图;
图2为根据本发明实施例的数据标注示意图;
图3为根据本发明实施例的一种算量表格识别系统的结构图;
图4为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面公开了一种算量表格识别方法。图1为根据本发明实施例的一种算量表格识别方法的流程图,如图1所示,所述方法包括:
步骤S1、获取算量表格的训练数据,应用所述训练数据训练识别模型,得到训练后的识别模型;
步骤S2、确定输入EXCEL数据的输入形式;
步骤S3、对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置;
步骤S4、根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;根据所述第一列信息和列头词向量,得到第二列信息;
步骤S5、基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息;
步骤S6、基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测;
步骤S7、根据预测结果,输出包含不同分类区域及其起止位置的结构化数据。
在步骤S1,获取算量表格的训练数据,应用所述训练数据训练识别模型,得到训练后的识别模型。
在一些实施例中,在所述步骤S1中,根据业务规则及单元格内容,列头按照单元格、内容按照列划分为19种类型,分别为分部分项、部位、部位数量、起讫桩号、部位位置、属性名称、属性值、属性单位、算量内容、算量内容单位、编号/位置、规格型号、工程量、图号、说明、钢筋直径、单根长、根数和米重。
具体地,获取算量表格的训练数据,根据业务规则及单元格内容,列头按照单元格、内容按照列划分为19种类型,数据标注如图2所示,分别为_DIVISIONAL_WORK(分部分项)、PART_NAME(部位)、PART_COUNT(部位数量)、PART_STATION_NO(起讫桩号)、PART_POSITION(部位位置)、PROPERTY_NAME(属性名称)、PROPERTY_VALUE(属性值)、PROPERTY_UNIT(属性单位)、QUANTITY_NAME(算量内容)、QUANTITY_UNIT(算量内容单位)、ELEMENT_NAME(编号/位置)、SPEC(规格型号)、QUANTITY_VALUE(工程量)、BLUEPRINT_NO(图号)、REMARK(说明)、REBAR_DIAMETER(钢筋直径)、LENGTH_PER_STICK(单根长)STICK_COUNT(根数)和WEIGHT_PER_METER(米重),基于KFold将所有读入文件按照sheet划分为5个,将其中的一个作为测试其他的sheet中的labeled_columns进行训练及预测,得到训练后的识别模型。
在步骤S2,确定输入EXCEL数据的输入形式。
具体地,输入EXCEL数据,输入形式分为两种EXCEL的BASE64编码或EXCEL的路径地址。
在步骤S3,对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置。
在一些实施例中,在所述步骤S3中,所述对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置的具体方法包括:
步骤S3.1、获取列头的起始位置:基于纵向单元格合并位置及当前行为空单元格占比是否超过当前行单元格总数的百分之二十,确定列头的起始位置;
步骤S3.2、获取列头的结束位置:基于对每列的每个单元格处理,确定列头的结束位置。
所述基于对每列的每个单元格处理,确定列头的结束位置的具体方法包括:
步骤S3.2.1、对SHEET中的所有列进行遍历,再遍历列中的每个单元格,确定每个单元格属性值类型(根据数据类型及特殊属性划分为8中类型);找到当前列非空单元格最后一次类型变化获取当前列列头的初始结束位置;此处忽略属性值为【总计、编制、复核、合计、小计、汇总】的单元格;
步骤S3.2.2、当前行单元格属性值为递增的整数或整型浮点数,且当前行为空单元格占比不超过当前行单元格总数的百分之二十,更新初始结束位置,得到更新后的结束位置;
步骤S3.2.3、当存在单元格合并函数,即merge_cells时,取出纵向合并行数量,与所述更新后的结束位置比较,若大于所述更新后的结束位置则再次更新结束位置。
在步骤S4,根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;根据所述第一列信息和列头词向量,得到第二列信息。
在一些实施例中,在所述步骤S4中,所述根据所述第一列信息和列头词向量,得到第二列信息的具体方法包括:
将所述列头词向量作为一个属性添加到所述第一列信息中,得到第二列信息。
具体地,根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,结合本产品使用的300维词汇语料库生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;将所述列头词向量作为一个属性添加到所述第一列信息中,得到第二列信息。
在步骤S5,基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息。
在一些实施例中,在所述步骤S5中,所述根据所述第二列信息和列表示向量,得到第三列信息的具体方法包括:
将所述第二列信息中的所述列头词向量替换为列表示向量,得到第三列信息。
具体地,基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个309维的列表示向量,将所述第二列信息中的所述列头词向量替换为列表示向量,得到第三列信息。
在步骤S6,基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测。
在一些实施例中,在所述步骤S6中,所述基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测的具体方法包括:
步骤S6.1、基于所述训练后的识别模型预测出每一列的第一预测分类及准确率;
步骤S6.2、根据所述第三列信息及业务规则划分表格分类和所述第一预测分类及准确率,对不同类型的表格及其业务规则重新预测分类,并去除准确率较低或无需标记的列预测,得到第二列预测分类;
步骤S6.2、将列头、所述第二列预测分类和行列号进行合并,再次结合业务规则,对所述第二列预测分类为单位、算量内容和规格型号的列重新预测分类,得到列头的预测分类结果。
在步骤S7,根据预测结果,输出包含不同分类区域及其起止位置的结构化json数据。
在一些实施例中,结构化数据内容包括:
1、EXCEL中SHEET工作表信息;
2、识别区域类型及区域在EXCEL中行、列的起止范围。
综上,本发明提出的方案能够自动识别各种类型算量表格,快速准确的输出结构化数据及将输出的结构化数据应实现由EXCEL表自动录入算量表操作。
本发明第二方面公开了一种算量表格识别系统。图3为根据本发明实施例的一种算量表格识别系统的结构图;如图3所示,所述系统100包括:
第一处理模块101,被配置为,获取算量表格的训练数据,应用所述训练数据训练识别模型,得到训练后的识别模型;
第二处理模块102,确定输入EXCEL数据的输入形式;
第三处理模块103,被配置为,对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置;
第四处理模块104,被配置为,根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;根据所述第一列信息和列头词向量,得到第二列信息;
第五处理模块105,被配置为,基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息;
第六处理模块106,被配置为,基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测;
第七处理模块107,被配置为,输出预测结果的结构化数据。
根据本发明第二方面的系统,所述第一处理模块101具体被配置为,根据业务规则及单元格内容,列头按照单元格、内容按照列划分为19种类型,分别为分部分项、部位、部位数量、起讫桩号、部位位置、属性名称、属性值、属性单位、算量内容、算量内容单位、编号/位置、规格型号、工程量、图号、说明、钢筋直径、单根长、根数和米重。
具体地,获取算量表格的训练数据,根据业务规则及单元格内容,列头按照单元格、内容按照列划分为19种类型,数据标注如图2所示,分别为_DIVISIONAL_WORK(分部分项)、PART_NAME(部位)、PART_COUNT(部位数量)、PART_STATION_NO(起讫桩号)、PART_POSITION(部位位置)、PROPERTY_NAME(属性名称)、PROPERTY_VALUE(属性值)、PROPERTY_UNIT(属性单位)、QUANTITY_NAME(算量内容)、QUANTITY_UNIT(算量内容单位)、ELEMENT_NAME(编号/位置)、SPEC(规格型号)、QUANTITY_VALUE(工程量)、BLUEPRINT_NO(图号)、REMARK(说明)、REBAR_DIAMETER(钢筋直径)、LENGTH_PER_STICK(单根长)STICK_COUNT(根数)和WEIGHT_PER_METER(米重),基于KFold将所有读入文件按照sheet划分为5个,将其中的一个作为测试其他的sheet中的labeled_columns进行训练及预测,得到训练后的识别模型。
根据本发明第二方面的系统,所述第二处理模块102具体被配置为,输入EXCEL数据,输入形式分为两种EXCEL的BASE64编码或EXCEL的路径地址。
根据本发明第二方面的系统,所述第三处理模块103具体被配置为,所述对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置的具体方法包括:
获取列头的起始位置:基于纵向单元格合并位置及当前行为空单元格占比是否超过当前行单元格总数的百分之二十,确定列头的起始位置;
获取列头的结束位置:基于对每列的每个单元格处理,确定列头的结束位置。
所述基于对每列的每个单元格处理,确定列头的结束位置的具体方法包括:
对SHEET中的所有列进行遍历,再遍历列中的每个单元格,确定每个单元格属性值类型(根据数据类型及特殊属性划分为8中类型);找到当前列非空单元格最后一次类型变化获取当前列列头的初始结束位置;此处忽略属性值为【总计、编制、复核、合计、小计、汇总】的单元格;
当前行单元格属性值为递增的整数或整型浮点数,且当前行为空单元格占比不超过当前行单元格总数的百分之二十,更新初始结束位置,得到更新后的结束位置;
当存在单元格合并函数,即merge_cells时,取出纵向合并行数量,与所述更新后的结束位置比较,若大于所述更新后的结束位置则再次更新结束位置。
根据本发明第二方面的系统,所述第四处理模块104具体被配置为,所述根据所述第一列信息和列头词向量,得到第二列信息的具体方法包括:
将所述列头词向量作为一个属性添加到所述第一列信息中,得到第二列信息。
具体地,根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,结合本产品使用的300维词汇语料库生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;将所述列头词向量作为一个属性添加到所述第一列信息中,得到第二列信息。
根据本发明第二方面的系统,所述第五处理模块105具体被配置为,所述根据所述第二列信息和列表示向量,得到第三列信息的具体方法包括:
将所述第二列信息中的所述列头词向量替换为列表示向量,得到第三列信息。
具体地,基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个309维的列表示向量,将所述第二列信息中的所述列头词向量替换为列表示向量,得到第三列信息。
根据本发明第二方面的系统,所述第六处理模块106具体被配置为,所述基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测的具体方法包括:
基于所述训练后的识别模型预测出每一列的第一预测分类及准确率;
根据所述第三列信息及业务规则划分表格分类和所述第一预测分类及准确率,对不同类型的表格及其业务规则重新预测分类,并去除准确率较低或无需标记的列预测,得到第二列预测分类;
将列头、所述第二列预测分类和行列号进行合并,再次结合业务规则,对所述第二列预测分类为单位、算量内容和规格型号的列重新预测分类,得到列头的预测分类结果。
根据本发明第二方面的系统,所述第七处理模块107具体被配置为,根据预测结果,输出包含不同分类区域及其起止位置的结构化json数据,如图3所示。
结构化数据内容包括:
1、EXCEL中SHEET工作表信息;
2、识别区域类型及区域在EXCEL中行、列的起止范围。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种算量表格识别方法中的步骤。
图4为根据本发明实施例的一种电子设备的结构图,如图4所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种算量表格识别方法中的步骤中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种算量表格识别方法,其特征在于,所述方法包括:
步骤S1、获取算量表格的训练数据,应用所述训练数据训练识别模型,得到训练后的识别模型;
步骤S2、确定输入EXCEL数据的输入形式;
步骤S3、对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置;
步骤S4、根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;根据所述第一列信息和列头词向量,得到第二列信息;
步骤S5、基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息;
步骤S6、基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测;
步骤S7、根据预测结果,输出包含不同分类区域及其起止位置的结构化数据。
2.根据权利要求1所述的一种算量表格识别方法,其特征在于,在所述步骤S3中,所述对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置的具体方法包括:
步骤S3.1、获取列头的起始位置:基于纵向单元格合并位置及当前行为空单元格占比是否超过当前行单元格总数的百分之二十,确定列头的起始位置;
步骤S3.2、获取列头的结束位置:基于对每列的每个单元格处理,确定列头的结束位置。
3.根据权利要求2所述的一种算量表格识别方法,其特征在于,在所述步骤S3中,所述基于对每列的每个单元格处理,确定列头的结束位置的具体方法包括:
步骤S3.2.1、对SHEET中的所有列进行遍历,再遍历列中的每个单元格,确定每个单元格属性值类型;找到当前列非空单元格最后一次类型变化获取当前列列头的初始结束位置;
步骤S3.2.2、当前行单元格属性值为递增的整数或整型浮点数,且当前行为空单元格占比不超过当前行单元格总数的百分之二十,更新初始结束位置,得到更新后的结束位置;
步骤S3.2.3、当存在单元格合并函数,即merge_cells时,取出纵向合并行数量,与所述更新后的结束位置比较,若大于所述更新后的结束位置则再次更新结束位置。
4.根据权利要求1所述的一种算量表格识别方法,其特征在于,在所述步骤S4中,所述根据所述第一列信息和列头词向量,得到第二列信息的具体方法包括:
将所述列头词向量作为一个属性添加到所述第一列信息中,得到第二列信息。
5.根据权利要求1所述的一种算量表格识别方法,其特征在于,在所述步骤S5中,所述根据所述第二列信息和列表示向量,得到第三列信息的具体方法包括:
将所述第二列信息中的所述列头词向量替换为列表示向量,得到第三列信息。
6.根据权利要求1所述的一种算量表格识别方法,其特征在于,在所述步骤S6中,所述基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测的具体方法包括:
步骤S6.1、基于所述训练后的识别模型预测出每一列的第一预测分类及准确率;
步骤S6.2、根据所述第三列信息及业务规则划分表格分类和所述第一预测分类及准确率,对不同类型的表格及其业务规则重新预测分类,并去除准确率较低或无需标记的列预测,得到第二列预测分类;
步骤S6.3、将列头、所述第二列预测分类和行列号进行合并,再次结合业务规则,对所述第二列预测分类为单位、算量内容和规格型号的列重新预测分类,得到列头的预测分类结果。
7.根据权利要求1所述的一种算量表格识别方法,其特征在于,在所述步骤S7中,根据业务规则及单元格内容,列头按照单元格、内容按照列划分为19种类型,分别为分部分项、部位、部位数量、起讫桩号、部位位置、属性名称、属性值、属性单位、算量内容、算量内容单位、编号/位置、规格型号、工程量、图号、说明、钢筋直径、单根长、根数和米重。
8.一种用于算量表格识别系统,其特征在于,所述系统包括:
第一处理模块,被配置为,获取算量表格的训练数据,应用所述训练数据训练识别模型,得到训练后的识别模型;
第二处理模块,确定输入EXCEL数据的输入形式;
第三处理模块,被配置为,对不同格式的EXCEL中的SHEET进行解析,获取列头的起始位置和结束位置;
第四处理模块,被配置为,根据所述列头的起始位置和结束位置,对每列的每行进行遍历,获取第一列信息;根据所述第一列信息,对列头进行分词处理,生成列头词向量;所述第一列信息包含:列头、列的所有属性值、列头的起始位置和结束位置、内容起止位置、分类向量、平均长度;根据所述第一列信息和列头词向量,得到第二列信息;
第五处理模块,被配置为,基于所述列头词向量和内容分类向量,再结合所述第二列信息,每列生成一个列表示向量,根据所述第二列信息和列表示向量,得到第三列信息;
第六处理模块,被配置为,基于所述训练后的识别模型、所述第三列信息及业务规则,对列的列头和内容进行预测;
第七处理模块,被配置为,输出预测结果的结构化数据。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至7中任一项所述的一种算量表格识别方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的一种算量表格识别方法中的步骤。
CN202210236897.2A 2022-03-11 2022-03-11 一种算量表格识别方法、系统、电子设备及存储介质 Active CN114595669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210236897.2A CN114595669B (zh) 2022-03-11 2022-03-11 一种算量表格识别方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210236897.2A CN114595669B (zh) 2022-03-11 2022-03-11 一种算量表格识别方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114595669A true CN114595669A (zh) 2022-06-07
CN114595669B CN114595669B (zh) 2022-09-27

Family

ID=81808815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210236897.2A Active CN114595669B (zh) 2022-03-11 2022-03-11 一种算量表格识别方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114595669B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005293527A (ja) * 2004-03-31 2005-10-20 Kozo Keikaku Engineering Inc 建築コストマネジメントシステム
JP2015011685A (ja) * 2013-07-02 2015-01-19 株式会社プリマジェスト ビジネスルール管理システム及びビジネスルール管理方法
US20170316068A1 (en) * 2016-04-27 2017-11-02 Accenture Global Solutions Limited Machine for generating unstructured syntax
CN110489424A (zh) * 2019-08-26 2019-11-22 北京香侬慧语科技有限责任公司 一种表格化信息提取的方法、装置、存储介质及电子设备
CN112000660A (zh) * 2020-07-03 2020-11-27 苏宁云计算有限公司 多报表数据处理方法、装置、计算机设备和存储介质
CN112286934A (zh) * 2020-10-29 2021-01-29 平安信托有限责任公司 数据库表导入方法、装置、设备及介质
CN112817561A (zh) * 2021-02-02 2021-05-18 山东省计算中心(国家超级计算济南中心) 软件需求文档的事务类功能点结构化抽取方法及系统
CN113486193A (zh) * 2021-07-26 2021-10-08 国网经济技术研究院有限公司 一种基于机器学习的电网基建工程数据知识图谱构建方法
CN113723278A (zh) * 2021-08-27 2021-11-30 上海云从汇临人工智能科技有限公司 表格信息提取模型的训练方法及装置
CN113761202A (zh) * 2021-08-30 2021-12-07 上海快确信息科技有限公司 一种将非结构金融Excel表格映射到数据库的优化系统
CN113936287A (zh) * 2021-10-20 2022-01-14 平安国际智慧城市科技股份有限公司 基于人工智能的表格检测方法、装置、电子设备及介质
CN114036598A (zh) * 2021-10-29 2022-02-11 中广核工程有限公司 一种工程项目的工程量计算方法、系统和电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005293527A (ja) * 2004-03-31 2005-10-20 Kozo Keikaku Engineering Inc 建築コストマネジメントシステム
JP2015011685A (ja) * 2013-07-02 2015-01-19 株式会社プリマジェスト ビジネスルール管理システム及びビジネスルール管理方法
US20170316068A1 (en) * 2016-04-27 2017-11-02 Accenture Global Solutions Limited Machine for generating unstructured syntax
CN110489424A (zh) * 2019-08-26 2019-11-22 北京香侬慧语科技有限责任公司 一种表格化信息提取的方法、装置、存储介质及电子设备
CN112000660A (zh) * 2020-07-03 2020-11-27 苏宁云计算有限公司 多报表数据处理方法、装置、计算机设备和存储介质
CN112286934A (zh) * 2020-10-29 2021-01-29 平安信托有限责任公司 数据库表导入方法、装置、设备及介质
CN112817561A (zh) * 2021-02-02 2021-05-18 山东省计算中心(国家超级计算济南中心) 软件需求文档的事务类功能点结构化抽取方法及系统
CN113486193A (zh) * 2021-07-26 2021-10-08 国网经济技术研究院有限公司 一种基于机器学习的电网基建工程数据知识图谱构建方法
CN113723278A (zh) * 2021-08-27 2021-11-30 上海云从汇临人工智能科技有限公司 表格信息提取模型的训练方法及装置
CN113761202A (zh) * 2021-08-30 2021-12-07 上海快确信息科技有限公司 一种将非结构金融Excel表格映射到数据库的优化系统
CN113936287A (zh) * 2021-10-20 2022-01-14 平安国际智慧城市科技股份有限公司 基于人工智能的表格检测方法、装置、电子设备及介质
CN114036598A (zh) * 2021-10-29 2022-02-11 中广核工程有限公司 一种工程项目的工程量计算方法、系统和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王庆华 等: "Excel VBA在钢筋算量中的应用", 《南通职业大学学报》 *
贾盈平: "基于BIM技术的工程结构钢筋算量系统研发", 《中国优秀硕士学位论文全文数据库工程科技II辑》 *

Also Published As

Publication number Publication date
CN114595669B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN110135427B (zh) 用于识别图像中的字符的方法、装置、设备和介质
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
CN108664574B (zh) 信息的输入方法、终端设备及介质
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN113064964A (zh) 文本分类方法、模型训练方法、装置、设备以及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN111651552B (zh) 结构化信息确定方法、装置和电子设备
CN115917613A (zh) 文档中文本的语义表示
CN111401065A (zh) 实体识别方法、装置、设备及存储介质
KR102110281B1 (ko) 자동화된 작성물 평가기
US11675966B2 (en) Table of contents generation
CN114595669B (zh) 一种算量表格识别方法、系统、电子设备及存储介质
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN115239214B (zh) 企业的评估处理方法、装置及电子设备
CN114708073B (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN113051396B (zh) 文档的分类识别方法、装置和电子设备
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN113779994A (zh) 一种要素抽取方法、装置、计算机设备和存储介质
CN113723114A (zh) 基于多意图识别的语义分析方法、装置、设备及存储介质
CN112765958A (zh) 代词消解方法、装置、电子设备及存储介质
CN112560437A (zh) 文本通顺度的确定方法、目标模型的训练方法及装置
CN112257400A (zh) 表格数据提取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant