CN113010503A - 一种基于深度学习的工程造价数据智能解析方法及系统 - Google Patents
一种基于深度学习的工程造价数据智能解析方法及系统 Download PDFInfo
- Publication number
- CN113010503A CN113010503A CN202110224622.2A CN202110224622A CN113010503A CN 113010503 A CN113010503 A CN 113010503A CN 202110224622 A CN202110224622 A CN 202110224622A CN 113010503 A CN113010503 A CN 113010503A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- header
- column
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000004458 analytical method Methods 0.000 title claims abstract description 14
- 238000010801 machine learning Methods 0.000 claims abstract description 41
- 238000004806 packaging method and process Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000010276 construction Methods 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000012856 packing Methods 0.000 claims description 2
- 230000001788 irregular Effects 0.000 abstract description 5
- 238000013145 classification model Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000007405 data analysis Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于深度学习的工程造价数据智能解析方法及系统,通过提取待解析表格中的数据得到待解析数据集;采用机器学习模型对待解析数据集进行表头分类得到若干表头分类数据集;以及,采用机器学习模型对每一表头分类数据集进行列分类,封装得到列分类数据集;对列分类数据集进行组装得到并返回标准JSON数据结构。本发明中,机器学习模型可依据表头、列数据、单元格数据等,对不规范的表格及数据进行识别、分类与清洗,提取得到标准化的标准JSON数据结构。相较传统的人工识别分类方式或人工编写的固定分类模型,机器学习模型具有极高的智能性与自动化程度,且随着处理数据量的增长,机器学习模型的分类准确率与处理效率将越来越高。
Description
技术领域
本发明涉及数据标准化技术领域,尤其涉及一种基于深度学习的工程造价数据智能解析方法及系统。
背景技术
Excel是一款适配于多种终端设备与操作系统的电子表格软件,可编辑生成xls或者xlsx数据格式的表格文件,因其泛用性而被普遍应用在业务流程中进行数据记录。在多部门、多节点协同的业务中,需要对大量表格文件进行汇总以进行数据统计工作,为了确保数据的准确性并提高工作效率,通常会向各部门下发对应于业务类型的标准表格供工作人员进行填写。
而在工程造价领域,由于数据来源繁杂,各部门的工作人员常会在编辑过程中改动标准表格(例如改动表头名称、sheet页名称、日期时间格式等),造成汇总时录入系统无法正常识别业务数据,此时需要对业务数据进行返工修改,造成工作进度延误;此外,在对历史数据表格进行统一录入时,同样需要对历史数据表格中的格式进行标准化修改,工作量巨大。可见,数据表格的标准化问题难以避免,若依靠人工进行数据清洗、数据标准化,其工作量巨大且效率低下。
发明内容
本发明的目的是解决现有技术的不足,提供了一种基于深度学习的工程造价数据智能解析方法及系统。
本发明实施例的第一方面提供了一种基于深度学习的工程造价数据智能解析方法,包括:
提取待解析表格中的数据,得到待解析数据集;
采用机器学习模型对所述待解析数据集进行表头分类,得到若干表头分类数据集;
采用机器学习模型对每一所述表头分类数据集进行列分类,封装得到列分类数据集;
对所述列分类数据集进行组装,得到标准JSON数据结构;
返回所述标准JSON数据结构。
作为一种可选的实施方式,在本发明实施例的第一方面中,所述采用机器学习对所述待解析数据集进行表头分类,得到表头分类数据集,包括:
提取每一所述待解析数据集中的表头字符及分划符号;
基于所述表头字符对所述待解析数据集进行一次分类,得到若干中间数据集;
基于所述分划符号对所述若干中间数据集进行二次分类,得到若干所述表头分类数据集,其中,每一所述表头分类数据集中数据的表头及分划符号一致。
作为一种可选的实施方式,在本发明实施例的第一方面中,采用机器学习模型对每一所述表头分类数据集进行列分类,封装得到列分类数据集,包括:
检测每一所述表头分类数据集的读取范围;
基于所述读取范围逐行读取每一所述表头分类数据集的行数据;
基于所述读取范围逐列读取每一所述表头分类数据集中每列所包含的单元格数据;
封装所述行数据及所述单元格数据,得到所述列分类数据集。
作为一种可选的实施方式,在本发明实施例的第一方面中,所述基于所述列分类数据集进行组装,得到标准JSON数据结构,包括:
基于数据格式对所述列分类数据集进行分类,得到若干格式分类数据集;
对所述格式分类数据集进行清洗、验证,筛除所述格式分类数据集中的待定数据;
对清洗完成的所述格式分类数据集进行值转换处理,得到数据格式一致的离散数据集;
对所述离散数据集进行数据关联,再依据所述表头、所述行数据及所述单元格数据进行层级分类,得到排版一致的所述标准JSON数据结构。
作为一种可选的实施方式,在本发明实施例的第一方面中,在所述基于所述列分类数据集进行组装,得到标准JSON数据结构之后,以及,在所述返回所述标准JSON数据结构之前,所述方法还包括:
分析所述表头、所述行数据及所述单元格数据,得到所述标准JSON数据结构之中的缺失数据;
提取所述标准JSON数据结构中的计算公式;
匹配每一所述缺失数据所对应的计算公式;
基于所述计算公式对应补齐每一所述缺失数据。
本发明实施例的第二方面提供了一种基于深度学习的工程造价数据智能解析系统,包括:
数据提取单元,用于提取待解析表格中的数据,得到待解析数据集;
表头分类单元,用于采用机器学习模型对所述待解析数据集进行表头分类,得到若干表头分类数据集;
列分类单元,用于采用机器学习模型对每一所述表头分类数据集进行列分类,封装得到列分类数据集;
组装单元,用于对所述列分类数据集进行组装,得到标准JSON数据结构;
数据返回单元,用于返回所述标准JSON数据结构。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述表头分类单元包括:
表头提取子单元,用于提取每一所述待解析数据集中的表头字符及分划符号;
一次分类子单元,用于基于所述表头字符对所述待解析数据集进行一次分类,得到若干中间数据集;
二次分类子单元,用于基于所述分划符号对所述若干中间数据集进行二次分类,得到若干所述表头分类数据集,其中,每一所述表头分类数据集中数据的表头及分划符号一致。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述列分类单元包括:
范围检测子单元,用于检测每一所述表头分类数据集的读取范围;
行读取子单元,用于基于所述读取范围逐行读取每一所述表头分类数据集的行数据;
单元读取子单元,用于基于所述读取范围逐列读取每一所述表头分类数据集中每列所包含的单元格数据;
封装子单元,用于封装所述行数据及所述单元格数据,得到所述列分类数据集。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述组装单元包括:
格式分类子单元,用于基于数据格式对所述列分类数据集进行分类,得到若干格式分类数据集;
清洗子单元,用于对所述格式分类数据集进行清洗、验证,筛除所述格式分类数据集中的待定数据;
值转换子单元,用于对清洗完成的所述格式分类数据集进行值转换处理,得到数据格式一致的离散数据集;
数据关联子单元,用于对所述离散数据集进行数据关联,再依据所述表头、所述行数据及所述单元格数据进行层级分类,得到排版一致的所述标准JSON数据结构。
作为一种可选的实施方式,在本发明实施例的第二方面中,所述组装单元还包括:
缺失分析子单元,用于分析所述表头、所述行数据及所述单元格数据,得到所述标准JSON数据结构之中的缺失数据;
公式提取子单元,用于提取所述标准JSON数据结构中的计算公式;
匹配子单元,用于匹配每一所述缺失数据所对应的计算公式;
数据填补子单元,用于基于所述计算公式对应补齐每一所述缺失数据。
本发明与现有技术相比具有以下优点:
本发明所涉及的基于深度学习的工程造价数据智能解析方法及系统,机器学习模型可依据表头、列数据、单元格数据等,对不规范的表格及其中的数据进行识别、分类与清洗,提取得到标准化的标准JSON数据结构,且随着处理数据量的增长,机器学习模型的准确率与处理效率将越来越高。
附图说明
图1是本发明所公开的一种基于深度学习的工程造价数据智能解析方法的流程示意图
图2是本发明所公开的一种基于深度学习的工程造价数据智能解析系统的结构示意图。
具体实施方式
为加深本发明的理解,下面将结合实施案例和附图对本发明作进一步详述。本发明可通过如下方式实施:
实施例一
参照图1,一种基于深度学习的工程造价数据智能解析方法,包括:
101、提取待解析表格中的数据,得到待解析数据集。
本发明实施例中,所获取得到的待解析表格可能为xls、xlsx等格式的文件,在此采用poi、jxl或者openxml等脚本对待解析表格中的数据进行读取,得到待解析数据集。
102、采用机器学习模型对待解析数据集进行表头分类,得到若干表头分类数据集。
本发明实施例中,表格中的表头用于指示各行各列的含义,从而根据表头可对待解析数据集进行初步分类。
作为一种可选的实施方式,提取每一待解析数据集中的表头字符及分划符号;基于表头字符对待解析数据集进行一次分类,得到若干中间数据集;基于分划符号对若干中间数据集进行二次分类,得到若干表头分类数据集,其中,每一表头分类数据集中数据的表头及分划符号一致。具体地,表头字符用于注明数据的具体内容,可认定表头字符一致的表格其业务功能也一致,据此,采用TensorFlow CNN(卷积神经网络)分析待解析数据集,通过设置梯度下降及损失函数,构造得到机器学习模型,对待解析数据集进行一次分类,得到若干以业务功能进行区分的中间数据集;分划符号用于指示各表头字符所对应的行或列,据此可将同类业务功能的表格依据不同布局样式进行二次分类,得到若干表头分类数据集。
103、采用机器学习模型对每一表头分类数据集进行列分类,封装得到列分类数据集。
本发明实施例中,对以业务功能与布局样式进行初步分类的表头分类数据集的基础上再进行细致分类。
作为一种可选的实施方式,检测每一表头分类数据集的读取范围;基于读取范围逐行读取每一表头分类数据集的行数据;基于读取范围逐列读取每一表头分类数据集中每列所包含的单元格数据;封装行数据及单元格数据,得到列分类数据集。具体地,在业务功能与布局样式一致的表头分类数据集的基础上,机器学习模型通过检测分析每一表头分类数据集的读取范围(即行数、每列的单元格数等),对其行数据与单元格数据进行读取,并将读取得到的行数据及单元格数据进行封装,可得到仅包含数据与数据格式的列分类数据集;此过程中,随着机器学习模型所处理待解析数据量的增多,其分类准确率将随着机器学习模型的数据迭代而逐渐升高,从而分类效果越来越好。
104、对列分类数据集进行组装,得到标准JSON(JavaScript Object Notation,JS对象简谱)数据结构。
本发明实施例中,将从列分类数据集中读取得到的数据组装为完整的JSON数据结构。
作为一种可选的实施方式,基于数据格式对列分类数据集进行分类,得到若干格式分类数据集;对格式分类数据集进行清洗、验证,筛除格式分类数据集中的待定数据;对清洗完成的格式分类数据集进行值转换处理,得到数据格式一致的离散数据集;对离散数据集进行数据关联,再依据表头、行数据及单元格数据进行层级分类,得到排版一致的标准JSON数据结构。具体地,基于数据格式对列分类数据集进行分类得到格式分类数据集,进而对格式分类数据集进行验证,将其中空缺、乱码等各种原因产生的待定数据进行筛除,此时再将每一格式分类数据集值转换处理为相同的预设数据格式,得到数据格式一致的离散数据集,从而可对离散数据集进行数据关联,此过程中,相同业务类型但分属不同部门的表格数据得到汇总,再依据表头、行数据及单元格数据进行层级分类,可使各表格中相同属性的数据排版一致,最终得到标准JSON数据结构。在标准JSON数据结构中,可通过表头、行数据、单元格数据等关键数据筛查得到汇总的所需的数据,从而实现数据的标准化。
作为又一种可选的实施方式,分析表头、行数据及单元格数据,得到标准JSON数据结构之中的缺失数据;提取标准JSON数据结构中的计算公式;匹配每一缺失数据所对应的计算公式;基于计算公式对应补齐每一缺失数据。具体地,标准JSON数据结构中存在因空缺、乱码等原因而被筛除的缺失数据,由于缺失数据可能给数据分析过程造成不良影响,在此提取标准JSON数据结构中的计算公式,并匹配出每一缺失数据所对应的计算公式,据此计算公式及缺失数据所在行、列的数据,可逆推出缺失数据的实际数值,在此以实际数据补齐标准JSON数据结构中的每一缺失数据,确保了数据的完整性与有效性。
105、返回标准JSON数据结构。
应当理解的是,本发明实施例中主要采用Java语言编写代码进行表格税局读取、数据清洗、验证及层级关联,并采用Python语言编写机器学习模型,以上计算机语言的选取基于开发环境与应用环境的实际需求,通过采用其它计算机语言来实现本发明实施例中所涉及方法的技术方案,亦属于本发明实施例的范畴。
可见,本发明实施例所描述的基于深度学习的工程造价数据智能解析方法,机器学习模型可依据表头、列数据、单元格数据等,对不规范的表格及其中的数据进行智能识别、分类与清洗,提取得到标准化的标准JSON数据结构。相较于传统的人工识别分类方式或者人工编写的固定分类模型,机器学习模型具有极高的智能性与自动化程度,且随着处理数据量的增长,机器学习模型的分类准确率与处理效率将越来越高。
实施例二
参照图2,图2是本发明实施例所涉及的一种基于深度学习的工程造价数据智能解析系统的结构示意图。
本发明实施例中,基于深度学习的工程造价数据智能解析系统包括:
数据提取单元201,用于提取待解析表格中的数据,得到待解析数据集;
表头分类单元202,用于采用机器学习模型对待解析数据集进行表头分类,得到若干表头分类数据集;
列分类单元203,用于采用机器学习模型对每一表头分类数据集进行列分类,封装得到列分类数据集;
组装单元204,用于对列分类数据集进行组装,得到标准JSON数据结构;
数据返回单元205,用于返回标准JSON数据结构;
其中,表头分类单元202包括:
表头提取子单元2021,用于提取每一待解析数据集中的表头字符及分划符号;
一次分类子单元2022,用于基于表头字符对待解析数据集进行一次分类,得到若干中间数据集;
二次分类子单元2023,用于基于分划符号对若干中间数据集进行二次分类,得到若干表头分类数据集,其中,每一表头分类数据集中数据的表头及分划符号一致;
以及,列分类单元203包括:
范围检测子单元2031,用于检测每一表头分类数据集的读取范围;
行读取子单元2032,用于基于读取范围逐行读取每一表头分类数据集的行数据;
单元读取子单元2033,用于基于读取范围逐列读取每一表头分类数据集中每列所包含的单元格数据;
封装子单元2034,用于封装行数据及所述单元格数据,得到列分类数据集。
此外,组装单元204包括:
格式分类子单元2041,用于基于数据格式对列分类数据集进行分类,得到若干格式分类数据集;
清洗子单元2042,用于对格式分类数据集进行清洗、验证,筛除格式分类数据集中的待定数据;
值转换子单元2043,用于对清洗完成的格式分类数据集进行值转换处理,得到数据格式一致的离散数据集;
数据关联子单元2044,用于对离散数据集进行数据关联,再依据表头、行数据及单元格数据进行层级分类,得到排版一致的标准JSON数据结构;
缺失分析子单元2045,用于分析表头、行数据及单元格数据,得到标准JSON数据结构之中的缺失数据;
公式提取子单元2046,用于提取标准JSON数据结构中的计算公式;
匹配子单元2047,用于匹配每一缺失数据所对应的计算公式;
数据填补子单元2048,用于基于计算公式对应补齐每一缺失数据。
作为一种可选的实施方式,表头提取子单元2021提取每一待解析数据集中的表头字符及分划符号;一次分类子单元2022基于表头字符对待解析数据集进行一次分类,得到若干中间数据集;二次分类子单元2023基于分划符号对若干中间数据集进行二次分类,得到若干表头分类数据集,其中,每一表头分类数据集中数据的表头及分划符号一致。具体地,表头字符用于注明数据的具体内容,可认定表头字符一致的表格其业务功能也一致,据此,采用TensorFlow CNN(卷积神经网络)分析待解析数据集,通过设置梯度下降及损失函数,构造得到机器学习模型,对待解析数据集进行一次分类,,得到若干以业务功能进行区分的中间数据集;分划符号用于指示各表头字符所对应的行或列,据此可将同类业务功能的表格依据不同布局样式进行二次分类,得到若干表头分类数据集。其中,机器学习模型基于人工处理所获得的表格信息进行学习构建,从而获得较好的分类效果,且分类准确率将随着机器学习模型在使用过程中的模型迭代而逐渐升高。
作为一种可选的实施方式,范围检测子单元2031检测每一表头分类数据集的读取范围;行读取子单元2032基于读取范围逐行读取每一表头分类数据集的行数据;单元读取子单元2033基于读取范围逐列读取每一表头分类数据集中每列所包含的单元格数据;封装子单元2034封装行数据及单元格数据,得到列分类数据集。具体地,在业务功能与布局样式一致的表头分类数据集的基础上,通过检测分析每一表头分类数据集的读取范围(即行数、每列的单元格数等),对其行数据与单元格数据进行读取,并将读取得到的行数据及单元格数据进行封装,可得到仅包含数据与数据格式的列分类数据集;此过程中,随着机器学习模型所处理待解析数据量的增多,其分类准确率将随着机器学习模型的数据迭代而逐渐升高,从而分类效果越来越好。
作为一种可选的实施方式,格式分类子单元2041基于数据格式对列分类数据集进行分类,得到若干格式分类数据集;清洗子单元2042对格式分类数据集进行清洗、验证,筛除格式分类数据集中的待定数据;值转换子单元2043对清洗完成的格式分类数据集进行值转换处理,得到数据格式一致的离散数据集;数据关联子单元2044对离散数据集进行数据关联,再依据表头、行数据及单元格数据进行层级分类,得到排版一致的标准JSON数据结构。具体地,基于数据格式对列分类数据集进行分类得到格式分类数据集,进而对格式分类数据集进行验证,将其中空缺、乱码等各种原因产生的待定数据进行筛除,此时再将每一格式分类数据集值转换处理为相同的预设数据格式,得到数据格式一致的离散数据集,从而可对离散数据集进行数据关联,此过程中,相同业务类型但分属不同部门的表格数据得到汇总,再依据表头、行数据及单元格数据进行层级分类,可使各表格中相同属性的数据排版一致,最终得到标准JSON数据结构。在标准JSON数据结构中,可通过表头、行数据、单元格数据等关键数据筛查得到汇总的所需的数据,从而实现数据的标准化。
作为又一种可选的实施方式,缺失分析子单元2045分析表头、行数据及单元格数据,得到标准JSON数据结构之中的缺失数据;公式提取子单元2046提取标准JSON数据结构中的计算公式;匹配子单元2047匹配每一缺失数据所对应的计算公式;数据填补子单元2048基于计算公式对应补齐每一缺失数据。具体地,标准JSON数据结构中存在因空缺、乱码等原因而被筛除的缺失数据,由于缺失数据可能给数据分析过程造成不良影响,在此提取标准JSON数据结构中的计算公式,并匹配出每一缺失数据所对应的计算公式,据此计算公式及缺失数据所在行、列的数据,可逆推出缺失数据的实际数值,在此以实际数据补齐标准JSON数据结构中的每一缺失数据,确保了数据的完整性与有效性。
可见,本发明实施例所描述的基于深度学习的工程造价数据智能解析系统,机器学习模型可依据表头、列数据、单元格数据等,对不规范的表格及其中的数据进行识别、分类与清洗,提取得到标准化的标准JSON数据结构。相较于传统的人工识别分类方式或者人工编写的固定分类模型,机器学习模型具有极高的智能性与自动化程度,且随着处理数据量的增长,机器学习模型的准确率与处理效率将越来越高。
Claims (10)
1.一种基于深度学习的工程造价数据智能解析方法,其特征在于,包括:
提取待解析表格中的数据,得到待解析数据集;
采用机器学习模型对所述待解析数据集进行表头分类,得到若干表头分类数据集;
采用机器学习模型对每一所述表头分类数据集进行列分类,封装得到列分类数据集;
对所述列分类数据集进行组装,得到标准JSON数据结构;
返回所述标准JSON数据结构。
2.根据权利要求1所述的方法,其特征在于,所述采用机器学习对所述待解析数据集进行表头分类,得到表头分类数据集,包括:
提取每一所述待解析数据集中的表头字符及分划符号;
基于所述表头字符对所述待解析数据集进行一次分类,得到若干中间数据集;
基于所述分划符号对所述若干中间数据集进行二次分类,得到若干所述表头分类数据集,其中,每一所述表头分类数据集中数据的表头及分划符号一致。
3.根据权利要求2所述的方法,其特征在于,所述采用机器学习模型对每一所述表头分类数据集进行列分类,封装得到列分类数据集,包括:
检测每一所述表头分类数据集的读取范围;
基于所述读取范围逐行读取每一所述表头分类数据集的行数据;
基于所述读取范围逐列读取每一所述表头分类数据集中每列所包含的单元格数据;
封装所述行数据及所述单元格数据,得到所述列分类数据集。
4.根据权利要求3所述的方法,其特征在于,所述基于所述列分类数据集进行组装,得到标准JSON数据结构,包括:
基于数据格式对所述列分类数据集进行分类,得到若干格式分类数据集;
对所述格式分类数据集进行清洗、验证,筛除所述格式分类数据集中的待定数据;
对清洗完成的所述格式分类数据集进行值转换处理,得到数据格式一致的离散数据集;
对所述离散数据集进行数据关联,再依据所述表头、所述行数据及所述单元格数据进行层级分类,得到排版一致的所述标准JSON数据结构。
5.根据权利要求4所述的方法,其特征在于,在所述基于所述列分类数据集进行组装,得到标准JSON数据结构之后,以及,在所述返回所述标准JSON数据结构之前,所述方法还包括:
分析所述表头、所述行数据及所述单元格数据,得到所述标准JSON数据结构之中的缺失数据;
提取所述标准JSON数据结构中的计算公式;
匹配每一所述缺失数据所对应的计算公式;
基于所述计算公式对应补齐每一所述缺失数据。
6.一种基于深度学习的工程造价数据智能解析系统,其特征在于,包括:
数据提取单元,用于提取待解析表格中的数据,得到待解析数据集;
表头分类单元,用于采用机器学习模型对所述待解析数据集进行表头分类,得到若干表头分类数据集;
列分类单元,用于采用机器学习模型对每一所述表头分类数据集进行列分类,封装得到列分类数据集;
组装单元,用于对所述列分类数据集进行组装,得到标准JSON数据结构;
数据返回单元,用于返回所述标准JSON数据结构。
7.根据权利要求6所述的系统,其特征在于,所述表头分类单元包括:
表头提取子单元,用于提取每一所述待解析数据集中的表头字符及分划符号;
一次分类子单元,用于基于所述表头字符对所述待解析数据集进行一次分类,得到若干中间数据集;
二次分类子单元,用于基于所述分划符号对所述若干中间数据集进行二次分类,得到若干所述表头分类数据集,其中,每一所述表头分类数据集中数据的表头及分划符号一致。
8.根据权利要求7所述的系统,其特征在于,所述列分类单元包括:
范围检测子单元,用于检测每一所述表头分类数据集的读取范围;
行读取子单元,用于基于所述读取范围逐行读取每一所述表头分类数据集的行数据;
单元读取子单元,用于基于所述读取范围逐列读取每一所述表头分类数据集中每列所包含的单元格数据;
封装子单元,用于封装所述行数据及所述单元格数据,得到所述列分类数据集。
9.根据权利要求8所述的系统,其特征在于,所述组装单元包括:
格式分类子单元,用于基于数据格式对所述列分类数据集进行分类,得到若干格式分类数据集;
清洗子单元,用于对所述格式分类数据集进行清洗、验证,筛除所述格式分类数据集中的待定数据;
值转换子单元,用于对清洗完成的所述格式分类数据集进行值转换处理,得到数据格式一致的离散数据集;
数据关联子单元,用于对所述离散数据集进行数据关联,再依据所述表头、所述行数据及所述单元格数据进行层级分类,得到排版一致的所述标准JSON数据结构。
10.根据权利要求9所述的系统,其特征在于,所述组装单元还包括:
缺失分析子单元,用于分析所述表头、所述行数据及所述单元格数据,得到所述标准JSON数据结构之中的缺失数据;
公式提取子单元,用于提取所述标准JSON数据结构中的计算公式;
匹配子单元,用于匹配每一所述缺失数据所对应的计算公式;
数据填补子单元,用于基于所述计算公式对应补齐每一所述缺失数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224622.2A CN113010503B (zh) | 2021-03-01 | 2021-03-01 | 一种基于深度学习的工程造价数据智能解析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224622.2A CN113010503B (zh) | 2021-03-01 | 2021-03-01 | 一种基于深度学习的工程造价数据智能解析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010503A true CN113010503A (zh) | 2021-06-22 |
CN113010503B CN113010503B (zh) | 2024-07-19 |
Family
ID=76387052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110224622.2A Active CN113010503B (zh) | 2021-03-01 | 2021-03-01 | 一种基于深度学习的工程造价数据智能解析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010503B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023088109A1 (en) * | 2021-11-18 | 2023-05-25 | International Business Machines Corporation | Erroneous cell detection using an artificial intelligence model |
CN116719866A (zh) * | 2023-05-09 | 2023-09-08 | 上海银满仓数字科技有限公司 | 一种多格式数据自适应分发方法及系统 |
Citations (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050240562A1 (en) * | 2004-04-26 | 2005-10-27 | Joerg Steinmann | Method, computer program product and device for importing a plurality of data sets into a system |
US20150095769A1 (en) * | 2013-09-27 | 2015-04-02 | Founder Apabi Technology Limited | Layout Analysis Method And System |
US20160104077A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | System and Method for Extracting Table Data from Text Documents Using Machine Learning |
US20170017899A1 (en) * | 2015-07-16 | 2017-01-19 | SparkBeyond Ltd. | Systems and methods for secondary knowledge utilization in machine learning |
CN106933899A (zh) * | 2015-12-30 | 2017-07-07 | 远光软件股份有限公司 | 表格处理方法及装置 |
CN107274291A (zh) * | 2017-06-21 | 2017-10-20 | 深圳泛态信息技术有限公司 | 跨平台的估值表解析方法、存储介质及应用服务器 |
JP2017201483A (ja) * | 2016-05-06 | 2017-11-09 | 日本電信電話株式会社 | 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム |
CN109447007A (zh) * | 2018-12-19 | 2019-03-08 | 天津瑟威兰斯科技有限公司 | 一种基于表格节点识别的表格结构补全算法 |
CN109522452A (zh) * | 2018-11-13 | 2019-03-26 | 南京烽火星空通信发展有限公司 | 一种海量半结构化数据的处理方法 |
CN110083639A (zh) * | 2019-04-25 | 2019-08-02 | 中电科嘉兴新型智慧城市科技发展有限公司 | 一种基于聚类分析的数据血缘智能溯源的方法及装置 |
CN110362620A (zh) * | 2019-07-11 | 2019-10-22 | 南京烽火星空通信发展有限公司 | 一种基于机器学习的表格数据结构化方法 |
CN110457302A (zh) * | 2019-07-31 | 2019-11-15 | 河南开合软件技术有限公司 | 一种结构化数据智能清洗方法 |
CN110502516A (zh) * | 2019-08-22 | 2019-11-26 | 深圳前海环融联易信息科技服务有限公司 | 表格数据解析方法、装置、计算机设备及存储介质 |
CN110558977A (zh) * | 2019-09-09 | 2019-12-13 | 西北大学 | 基于机器学习模糊特征选择的癫痫发作脑电信号分类方法 |
US20200019603A1 (en) * | 2018-07-13 | 2020-01-16 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved table identification using a neural network |
US20200089650A1 (en) * | 2018-09-14 | 2020-03-19 | Software Ag | Techniques for automated data cleansing for machine learning algorithms |
US20200151444A1 (en) * | 2018-11-14 | 2020-05-14 | Adobe Inc. | Table Layout Determination Using A Machine Learning System |
CN111190973A (zh) * | 2019-12-31 | 2020-05-22 | 税友软件集团股份有限公司 | 一种申报表的分类方法、装置、设备及存储介质 |
CN111209831A (zh) * | 2019-12-31 | 2020-05-29 | 上海犀语科技有限公司 | 一种基于分类算法的文档表格内容识别方法及装置 |
CN111258953A (zh) * | 2020-01-08 | 2020-06-09 | 中联财联网科技有限公司 | 一种财务数据转换成评估数据规范化的方法 |
CN111309819A (zh) * | 2020-01-19 | 2020-06-19 | 中国农业科学院农业信息研究所 | 训练表格指标抽取模型、表格指标抽取的方法及系统 |
CN111401010A (zh) * | 2020-03-25 | 2020-07-10 | 苏州机数芯微科技有限公司 | 一种基于机器学习的表格抽取方法 |
CN111523420A (zh) * | 2020-04-14 | 2020-08-11 | 南京烽火星空通信发展有限公司 | 基于多任务深度神经网络的表头分类与表头列语义识别方法 |
CN111625554A (zh) * | 2020-07-30 | 2020-09-04 | 武大吉奥信息技术有限公司 | 一种基于深度学习语义理解的数据查询方法及装置 |
US10789461B1 (en) * | 2019-10-24 | 2020-09-29 | Innovaccer Inc. | Automated systems and methods for textual extraction of relevant data elements from an electronic clinical document |
CN111782727A (zh) * | 2020-06-28 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 基于机器学习的数据处理方法及装置 |
CN111797356A (zh) * | 2020-07-06 | 2020-10-20 | 上海冰鉴信息科技有限公司 | 网页表格信息抽取方法及装置 |
CN111931460A (zh) * | 2020-07-02 | 2020-11-13 | 上海微亿智造科技有限公司 | 支持可变列Excel文件解析方法及系统 |
CN111949662A (zh) * | 2020-08-13 | 2020-11-17 | 北京字节跳动网络技术有限公司 | 数据展示方法和装置、存储介质和电子设备 |
KR20210011606A (ko) * | 2019-07-23 | 2021-02-02 | 한국과학기술원 | 문서 내 테이블 분석방법 및 장치 |
CN112328589A (zh) * | 2020-11-28 | 2021-02-05 | 河北省科学技术情报研究院(河北省科技创新战略研究院) | 一种电子表格数据颗粒化及指标标准化处理方法 |
-
2021
- 2021-03-01 CN CN202110224622.2A patent/CN113010503B/zh active Active
Patent Citations (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050240562A1 (en) * | 2004-04-26 | 2005-10-27 | Joerg Steinmann | Method, computer program product and device for importing a plurality of data sets into a system |
US20150095769A1 (en) * | 2013-09-27 | 2015-04-02 | Founder Apabi Technology Limited | Layout Analysis Method And System |
US20160104077A1 (en) * | 2014-10-10 | 2016-04-14 | The Trustees Of Columbia University In The City Of New York | System and Method for Extracting Table Data from Text Documents Using Machine Learning |
US20170017899A1 (en) * | 2015-07-16 | 2017-01-19 | SparkBeyond Ltd. | Systems and methods for secondary knowledge utilization in machine learning |
CN106933899A (zh) * | 2015-12-30 | 2017-07-07 | 远光软件股份有限公司 | 表格处理方法及装置 |
JP2017201483A (ja) * | 2016-05-06 | 2017-11-09 | 日本電信電話株式会社 | 表モチーフ抽出装置、分類器学習装置、表種類分類装置、方法、及びプログラム |
CN107274291A (zh) * | 2017-06-21 | 2017-10-20 | 深圳泛态信息技术有限公司 | 跨平台的估值表解析方法、存储介质及应用服务器 |
US20200019603A1 (en) * | 2018-07-13 | 2020-01-16 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved table identification using a neural network |
US20200089650A1 (en) * | 2018-09-14 | 2020-03-19 | Software Ag | Techniques for automated data cleansing for machine learning algorithms |
CN109522452A (zh) * | 2018-11-13 | 2019-03-26 | 南京烽火星空通信发展有限公司 | 一种海量半结构化数据的处理方法 |
US20200151444A1 (en) * | 2018-11-14 | 2020-05-14 | Adobe Inc. | Table Layout Determination Using A Machine Learning System |
CN109447007A (zh) * | 2018-12-19 | 2019-03-08 | 天津瑟威兰斯科技有限公司 | 一种基于表格节点识别的表格结构补全算法 |
CN110083639A (zh) * | 2019-04-25 | 2019-08-02 | 中电科嘉兴新型智慧城市科技发展有限公司 | 一种基于聚类分析的数据血缘智能溯源的方法及装置 |
CN110362620A (zh) * | 2019-07-11 | 2019-10-22 | 南京烽火星空通信发展有限公司 | 一种基于机器学习的表格数据结构化方法 |
KR20210011606A (ko) * | 2019-07-23 | 2021-02-02 | 한국과학기술원 | 문서 내 테이블 분석방법 및 장치 |
CN110457302A (zh) * | 2019-07-31 | 2019-11-15 | 河南开合软件技术有限公司 | 一种结构化数据智能清洗方法 |
CN110502516A (zh) * | 2019-08-22 | 2019-11-26 | 深圳前海环融联易信息科技服务有限公司 | 表格数据解析方法、装置、计算机设备及存储介质 |
CN110558977A (zh) * | 2019-09-09 | 2019-12-13 | 西北大学 | 基于机器学习模糊特征选择的癫痫发作脑电信号分类方法 |
US10789461B1 (en) * | 2019-10-24 | 2020-09-29 | Innovaccer Inc. | Automated systems and methods for textual extraction of relevant data elements from an electronic clinical document |
CN111209831A (zh) * | 2019-12-31 | 2020-05-29 | 上海犀语科技有限公司 | 一种基于分类算法的文档表格内容识别方法及装置 |
CN111190973A (zh) * | 2019-12-31 | 2020-05-22 | 税友软件集团股份有限公司 | 一种申报表的分类方法、装置、设备及存储介质 |
CN111258953A (zh) * | 2020-01-08 | 2020-06-09 | 中联财联网科技有限公司 | 一种财务数据转换成评估数据规范化的方法 |
CN111309819A (zh) * | 2020-01-19 | 2020-06-19 | 中国农业科学院农业信息研究所 | 训练表格指标抽取模型、表格指标抽取的方法及系统 |
CN111401010A (zh) * | 2020-03-25 | 2020-07-10 | 苏州机数芯微科技有限公司 | 一种基于机器学习的表格抽取方法 |
CN111523420A (zh) * | 2020-04-14 | 2020-08-11 | 南京烽火星空通信发展有限公司 | 基于多任务深度神经网络的表头分类与表头列语义识别方法 |
CN111782727A (zh) * | 2020-06-28 | 2020-10-16 | 平安医疗健康管理股份有限公司 | 基于机器学习的数据处理方法及装置 |
CN111931460A (zh) * | 2020-07-02 | 2020-11-13 | 上海微亿智造科技有限公司 | 支持可变列Excel文件解析方法及系统 |
CN111797356A (zh) * | 2020-07-06 | 2020-10-20 | 上海冰鉴信息科技有限公司 | 网页表格信息抽取方法及装置 |
CN111625554A (zh) * | 2020-07-30 | 2020-09-04 | 武大吉奥信息技术有限公司 | 一种基于深度学习语义理解的数据查询方法及装置 |
CN111949662A (zh) * | 2020-08-13 | 2020-11-17 | 北京字节跳动网络技术有限公司 | 数据展示方法和装置、存储介质和电子设备 |
CN112328589A (zh) * | 2020-11-28 | 2021-02-05 | 河北省科学技术情报研究院(河北省科技创新战略研究院) | 一种电子表格数据颗粒化及指标标准化处理方法 |
Non-Patent Citations (1)
Title |
---|
潘炜;刘丰威;: "基于深度学习的表格类型工单识别设计与实现", 数字技术与应用, no. 07, pages 132 - 133 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023088109A1 (en) * | 2021-11-18 | 2023-05-25 | International Business Machines Corporation | Erroneous cell detection using an artificial intelligence model |
CN116719866A (zh) * | 2023-05-09 | 2023-09-08 | 上海银满仓数字科技有限公司 | 一种多格式数据自适应分发方法及系统 |
CN116719866B (zh) * | 2023-05-09 | 2024-02-13 | 上海银满仓数字科技有限公司 | 一种多格式数据自适应分发方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113010503B (zh) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446072B (zh) | 网页内容的处理方法和装置 | |
CN110929580A (zh) | 一种基于ocr的财务报表信息快速提取方法及系统 | |
CN113010503B (zh) | 一种基于深度学习的工程造价数据智能解析方法及系统 | |
CN113255614A (zh) | 一种基于视频分析的rpa流程自动生成方法与系统 | |
US20070174761A1 (en) | Strategies for Processing Annotations | |
CN103473056B (zh) | 一种遥测配置文件自动生成方法 | |
US20110270858A1 (en) | File type recognition analysis method and system | |
CN102903136B (zh) | 一种手写笔迹电子化方法和系统 | |
CN106055618B (zh) | 一种基于网络爬虫与结构化存储的数据处理方法 | |
CN110543422B (zh) | 一种用于fpr的软件包代码缺陷数据处理方法、系统及介质 | |
CN103399848B (zh) | 发动机试验数据标准化特定格式导入处理方法 | |
CN103279455A (zh) | 电子表格的样式处理方法和装置 | |
CN113742357A (zh) | 一种跨平台设计数据自动归集并关联的方法和系统 | |
CN110543475A (zh) | 一种基于机器学习的财务报表数据自动识别和分析方法 | |
CN115713775A (zh) | 一种从文档中提取表格的方法、系统和计算机设备 | |
US9026482B2 (en) | Method and system for analyzing a legacy system based on trails through the legacy system | |
CN111291535B (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
CN112818655A (zh) | 一种基于模板和文件追加写的excel数据处理方法和工具 | |
CN115544975B (zh) | 一种日志格式转换方法及设备 | |
JP5766438B2 (ja) | 電子メディアにおけるクリックスルー機能に関する方法およびシステム | |
CN116402028A (zh) | Pdf文件的精简方法 | |
CN112668282B (zh) | 一种设备规程文档格式转换的方法及系统 | |
CN117291152A (zh) | 表格的提取方法和装置 | |
CN113239881A (zh) | 一种发票报销方法 | |
CN111258953A (zh) | 一种财务数据转换成评估数据规范化的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |