CN116205601A - 基于互联网的工程清单复核及数据统计方法与系统 - Google Patents
基于互联网的工程清单复核及数据统计方法与系统 Download PDFInfo
- Publication number
- CN116205601A CN116205601A CN202310175513.5A CN202310175513A CN116205601A CN 116205601 A CN116205601 A CN 116205601A CN 202310175513 A CN202310175513 A CN 202310175513A CN 116205601 A CN116205601 A CN 116205601A
- Authority
- CN
- China
- Prior art keywords
- data
- engineering
- engineering list
- statistics
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000003058 natural language processing Methods 0.000 claims abstract description 17
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 238000013136 deep learning model Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 23
- 238000012552 review Methods 0.000 claims description 21
- 230000007787 long-term memory Effects 0.000 claims description 16
- 230000006403 short-term memory Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 description 8
- 238000007405 data analysis Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于互联网的工程清单复核及数据统计方法与系统,其中方法包括以下步骤:S1.数据获取:获取需要进行复核和统计的工程清单数据,并对工程清单数据进行初步清洗和预处理;S2.数据识别:基于自然语言处理和/或图像识别对工程清单中的文本和图片进行自动识别和提取;S3.数据匹配:基于数据匹配算法来比对工程清单中的文本或图片是否与实际情况一致,若不一致,则自动标记错误;S4.数据统计:对数据匹配的结果进行统计,统计出符合要求的数据并生成报表或图表展示。本发明通过AI算法对工程清单进行自动识别,并将识别结果与实际情况进行比对,从而实现自动复核和统计,本发明可提高工程清单复核和统计的效率和准确性。
Description
技术领域
本发明涉及建筑工程技术领域,尤其涉及一种基于互联网的工程清单复核及数据统计方法与系统。
背景技术
在建筑、机械制造、航空航天等行业中,工程清单复核及数据统计是一项重要的工作。然而,传统的人工复核和统计方式效率低下,容易出现错误。
发明内容
为了解决上述问题,本发明提出一种基于互联网的工程清单复核及数据统计方法与系统,通过AI算法对工程清单进行自动识别,并将识别结果与实际情况进行比对,从而实现自动复核和统计,本发明可提高工程清单复核和统计的效率和准确性。
本发明采用的技术方案如下:
一种基于互联网的工程清单复核及数据统计方法,包括以下步骤:
S1.数据获取:获取需要进行复核和统计的工程清单数据,并对工程清单数据进行初步清洗和预处理;
S2.数据识别:基于自然语言处理和/或图像识别对工程清单中的文本和图片进行自动识别和提取;
S3.数据匹配:基于数据匹配算法来比对工程清单中的文本或图片是否与实际情况一致,若不一致,则自动标记错误;
S4.数据统计:对数据匹配的结果进行统计,统计出符合要求的数据并生成报表或图表展示。
进一步地,基于自然语言处理对工程清单中的文本和图片进行自动识别和提取的方法包括以下步骤:
S201.数据准备:将工程清单数据转换成数字化数据,并存储在数据库中;
S202.特征提取:使用图像处理技术提取工程清单中的特征;
S203.模型训练:采用深度学习模型进行训练,识别工程清单中的不同特征,所述深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络。
进一步地,所述特征提取所使用的模型包括词袋模型和TF-IDF模型。
进一步地,所述数据匹配包括:根据深度学习模型的预测结果,对工程清单进行复核和核对,自动识别出工程清单中的错误或缺失项。
进一步地,所述数据统计包括以下步骤:
S401.数据采集:收集工程清单中的数据,包括项目名称、工期、成本;
S402.数据预处理:对采集到的数据进行预处理,包括分词、词性标注、去除停用词;
S403.模型训练:使用深度学习模型进行训练实现自然语言处理和文本分类,所述深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络;
S404.数据统计:根据深度学习模型的预测结果,对工程清数据进行统计和分析,生成统计报表和图表。
一种基于互联网的工程清单复核及数据统计系统,包括:
数据获取模块,被配置为获取需要进行复核和统计的工程清单数据,并对工程清单数据进行初步清洗和预处理;
数据识别模块,被配置为基于自然语言处理和/或图像识别对工程清单中的文本和图片进行自动识别和提取;
数据匹配模块,被配置为基于数据匹配算法来比对工程清单中的文本或图片是否与实际情况一致,若不一致,则自动标记错误;
数据统计模块,被配置为对数据匹配的结果进行统计,统计出符合要求的数据并生成报表或图表展示。
进一步地,所述数据识别模块包括:
数据准备单元,被配置为将工程清单数据转换成数字化数据,并存储在数据库中;
特征提取单元,被配置为使用图像处理技术提取工程清单中的特征;
模型训练单元,被配置为采用深度学习模型进行训练,识别工程清单中的不同特征,所述深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络。
进一步地,所述特征提取单元所使用的模型包括词袋模型和TF-IDF模型。
进一步地,所述数据匹配模块能够根据深度学习模型的预测结果,对工程清单进行复核和核对,自动识别出工程清单中的错误或缺失项。
进一步地,所述数据统计模块包括:
数据采集单元,被配置为收集工程清单中的数据,包括项目名称、工期、成本;
数据预处理单元,被配置为对采集到的数据进行预处理,包括分词、词性标注、去除停用词;
模型训练单元,被配置为使用深度学习模型进行训练实现自然语言处理和文本分类,所述深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络;
数据统计单元,被配置为根据深度学习模型的预测结果,对工程清数据进行统计和分析,生成统计报表和图表。
本发明的有益效果在于:
(1)本发明采用了AI技术,能够自动识别和提取工程清单中的数据,避免了传统人工复核和统计的低效率和高错误率问题。
(2)本发明采用了数据匹配算法,能够自动比对清单中的数据与实际情况是否一致,避免了手动比对的繁琐工作。
(3)本发明采用了机器学习和数据挖掘算法,能够自动分析和统计数据,提高了统计结果的准确性和可信度。
(4)本发明提出的工程清单复核及数据统计方法及系统具有高度的灵活性和扩展性,可以适应不同的行业和应用场景。
附图说明
图1是本发明实施例1的一种基于互联网的工程清单复核及数据统计方法流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提供了一种基于互联网的工程清单复核及数据统计方法,包括以下步骤:
S1.数据获取:获取需要进行复核和统计的工程清单数据,这些数据可以通过电子表格或其他形式的数据文件进行输入。在输入过程中,需对这些数据进行初步清洗和预处理,以确保数据的完整性和准确性。
S2.数据识别:基于自然语言处理和/或图像识别对工程清单中的文本和图片进行自动识别和提取。例如,可以使用OCR技术将文本转化为计算机可读的数据,或者使用机器学习技术对图片进行自动识别和分类。
S3.数据匹配:基于数据匹配算法来比对工程清单中的文本或图片是否与实际情况一致。例如,可以使用文本匹配算法或图像匹配算法来比对工程清单中的文本或图片是否与实际情况一致,如果不一致,则自动标记错误,并提示操作员进行修正。
S4.数据统计:对数据匹配的结果进行统计,统计出符合要求的数据并生成报表或图表展示。在统计的过程中,可以使用各种数据挖掘和机器学习算法,以实现更准确的统计结果。
优选地,基于自然语言处理对工程清单中的文本和图片进行自动识别和提取的方法包括以下步骤:
S201.数据准备:将工程清单数据转换成数字化数据,并存储在数据库中;
S202.特征提取:使用图像处理技术提取工程清单中的特征,例如清单中的文字、表格、图像等;
S203.模型训练:采用深度学习模型进行训练,识别工程清单中的不同特征,深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络。
优选地,特征提取所使用的模型包括词袋模型和TF-IDF模型。
优选地,数据匹配包括:根据深度学习模型的预测结果,对工程清单进行复核和核对,自动识别出工程清单中的错误或缺失项。
优选地,数据统计包括以下步骤:
S401.数据采集:收集工程清单中的数据,包括项目名称、工期、成本;
S402.数据预处理:对采集到的数据进行预处理,包括分词、词性标注、去除停用词;
S403.模型训练:使用深度学习模型进行训练实现自然语言处理和文本分类,深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络;
S404.数据统计:根据深度学习模型的预测结果,对工程清数据进行统计和分析,生成统计报表和图表。
实施例2
本实施例在实施例1的基础上:
本实施例提供了另一种基于互联网的工程清单复核及数据统计方法,包括以下步骤:
S1.数据采集和处理
在数据采集方面,可以采用多种方法,如手动输入、自动抓取、数据库导入等。数据采集后需要进行清洗、去重、格式化等预处理,确保数据的规范性和质量。
S2.建立AI模型
S201.选择机器学习算法:根据数据特征和业务需求,选择合适的机器学习算法,如决策树、支持向量机、随机森林等。
S202.特征提取和降维处理:将文本和图像数据转换成数值向量,以便于机器学习算法的处理。常用的特征提取方法包括词袋模型、TF-IDF模型等;降维处理方法包括主成分分析(PCA)、线性判别分析(LDA)等。
S203.模型训练和参数调优:使用训练集对模型进行训练,并通过交叉验证等方法调整模型参数,提高模型的分类准确度。
S204.模型测试和评估:使用测试集对模型进行测试,并通过评估指标(如准确率、召回率、F1值等)评估模型的性能,选择合适的模型和参数。
S3.AI模型应用
将建立好的AI模型应用到工程清单的复核和数据统计中,需要将清单中的文本和图像数据输入到模型中进行处理,输出自动分类和识别的结果。具体步骤如下:
S301.自然语言处理:将清单中的文本数据进行分词、词性标注、去停用词等预处理,并通过模型进行自动分类和识别。
S302.计算机视觉:将清单中的图像数据进行预处理(如去噪、裁剪、缩放等),并通过模型进行自动分类和识别。
S303.数据导出:将自动分类和识别的结果导出到Excel表格中,以便于进行数据统计和分析。
S4.数据分析和应用
将导出的数据进行统计和分析,可以通过数据可视化、关联分析、趋势分析等方法,得出有意义的结论和洞见。同时,也可以将数据应用到业务流程中,例如通过数据分析结果进行工程清单审核和管理,提高效率和准确度。
综上所述,本实施例的基于互联网的工程清单复核及数据统计方法的详细实施方式需要进行数据采集和处理、建立AI模型、AI模型应用和数据分析和应用等步骤,根据具体业务需求和数据特征进行调整和优化。
实施例3
本实施例在实施例1的基础上:
本实施例提供了一种基于互联网的工程清单复核及数据统计系统,包括:
数据获取模块,被配置为获取需要进行复核和统计的工程清单数据,这些数据可以通过电子表格或其他形式的数据文件进行输入。在输入过程中,需对这些数据进行初步清洗和预处理,以确保数据的完整性和准确性。
数据识别模块,被配置为基于自然语言处理和/或图像识别对工程清单中的文本和图片进行自动识别和提取。例如,可以使用OCR技术将文本转化为计算机可读的数据,或者使用机器学习技术对图片进行自动识别和分类。
数据匹配模块,被配置为基于数据匹配算法来比对工程清单中的文本或图片是否与实际情况一致。例如,可以使用文本匹配算法或图像匹配算法来比对工程清单中的文本或图片是否与实际情况一致,如果不一致,则自动标记错误,并提示操作员进行修正。
数据统计模块,被配置为对数据匹配的结果进行统计,统计出符合要求的数据并生成报表或图表展示。在统计的过程中,可以使用各种数据挖掘和机器学习算法,以实现更准确的统计结果。
优选地,数据识别模块包括:
数据准备单元,被配置为将工程清单数据转换成数字化数据,并存储在数据库中;
特征提取单元,被配置为使用图像处理技术提取工程清单中的特征,例如清单中的文字、表格、图像等;
模型训练单元,被配置为采用深度学习模型进行训练,识别工程清单中的不同特征,深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络。
优选地,特征提取单元所使用的模型包括词袋模型和TF-IDF模型。
优选地,数据匹配模块能够根据深度学习模型的预测结果,对工程清单进行复核和核对,自动识别出工程清单中的错误或缺失项。
优选地,数据统计模块包括:
数据采集单元,被配置为收集工程清单中的数据,包括项目名称、工期、成本;
数据预处理单元,被配置为对采集到的数据进行预处理,包括分词、词性标注、去除停用词;
模型训练单元,被配置为使用深度学习模型进行训练实现自然语言处理和文本分类,深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络;
数据统计单元,被配置为根据深度学习模型的预测结果,对工程清数据进行统计和分析,生成统计报表和图表。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种基于互联网的工程清单复核及数据统计方法,其特征在于,包括以下步骤:
S1.数据获取:获取需要进行复核和统计的工程清单数据,并对工程清单数据进行初步清洗和预处理;
S2.数据识别:基于自然语言处理和/或图像识别对工程清单中的文本和图片进行自动识别和提取;
S3.数据匹配:基于数据匹配算法来比对工程清单中的文本或图片是否与实际情况一致,若不一致,则自动标记错误;
S4.数据统计:对数据匹配的结果进行统计,统计出符合要求的数据并生成报表或图表展示。
2.根据权利要求1所述的基于互联网的工程清单复核及数据统计方法,其特征在于,基于自然语言处理对工程清单中的文本和图片进行自动识别和提取的方法包括以下步骤:
S201.数据准备:将工程清单数据转换成数字化数据,并存储在数据库中;
S202.特征提取:使用图像处理技术提取工程清单中的特征;
S203.模型训练:采用深度学习模型进行训练,识别工程清单中的不同特征,所述深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络。
3.根据权利要求2所述的基于互联网的工程清单复核及数据统计方法,其特征在于,所述特征提取所使用的模型包括词袋模型和TF-IDF模型。
4.根据权利要求2所述的基于互联网的工程清单复核及数据统计方法,其特征在于,所述数据匹配包括:根据深度学习模型的预测结果,对工程清单进行复核和核对,自动识别出工程清单中的错误或缺失项。
5.根据权利要求1-4任一项所述的基于互联网的工程清单复核及数据统计方法,其特征在于,所述数据统计包括以下步骤:
S401.数据采集:收集工程清单中的数据,包括项目名称、工期、成本;
S402.数据预处理:对采集到的数据进行预处理,包括分词、词性标注、去除停用词;
S403.模型训练:使用深度学习模型进行训练实现自然语言处理和文本分类,所述深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络;
S404.数据统计:根据深度学习模型的预测结果,对工程清数据进行统计和分析,生成统计报表和图表。
6.一种基于互联网的工程清单复核及数据统计系统,其特征在于,包括:
数据获取模块,被配置为获取需要进行复核和统计的工程清单数据,并对工程清单数据进行初步清洗和预处理;
数据识别模块,被配置为基于自然语言处理和/或图像识别对工程清单中的文本和图片进行自动识别和提取;
数据匹配模块,被配置为基于数据匹配算法来比对工程清单中的文本或图片是否与实际情况一致,若不一致,则自动标记错误;
数据统计模块,被配置为对数据匹配的结果进行统计,统计出符合要求的数据并生成报表或图表展示。
7.根据权利要求6所述的基于互联网的工程清单复核及数据统计系统,其特征在于,所述数据识别模块包括:
数据准备单元,被配置为将工程清单数据转换成数字化数据,并存储在数据库中;
特征提取单元,被配置为使用图像处理技术提取工程清单中的特征;
模型训练单元,被配置为采用深度学习模型进行训练,识别工程清单中的不同特征,所述深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络。
8.根据权利要求7所述的基于互联网的工程清单复核及数据统计系统,其特征在于,所述特征提取单元所使用的模型包括词袋模型和TF-IDF模型。
9.根据权利要求7所述的基于互联网的工程清单复核及数据统计系统,其特征在于,所述数据匹配模块能够根据深度学习模型的预测结果,对工程清单进行复核和核对,自动识别出工程清单中的错误或缺失项。
10.根据权利要求6-9任一项所述的基于互联网的工程清单复核及数据统计系统,其特征在于,所述数据统计模块包括:
数据采集单元,被配置为收集工程清单中的数据,包括项目名称、工期、成本;
数据预处理单元,被配置为对采集到的数据进行预处理,包括分词、词性标注、去除停用词;
模型训练单元,被配置为使用深度学习模型进行训练实现自然语言处理和文本分类,所述深度学习模型包括卷积神经网络、循环神经网络、长短期记忆网络和双向长短期记忆网络;
数据统计单元,被配置为根据深度学习模型的预测结果,对工程清数据进行统计和分析,生成统计报表和图表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310175513.5A CN116205601B (zh) | 2023-02-27 | 2023-02-27 | 基于互联网的工程清单复核及数据统计方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310175513.5A CN116205601B (zh) | 2023-02-27 | 2023-02-27 | 基于互联网的工程清单复核及数据统计方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116205601A true CN116205601A (zh) | 2023-06-02 |
CN116205601B CN116205601B (zh) | 2024-04-05 |
Family
ID=86509147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310175513.5A Active CN116205601B (zh) | 2023-02-27 | 2023-02-27 | 基于互联网的工程清单复核及数据统计方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116205601B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170024466A1 (en) * | 2015-07-24 | 2017-01-26 | International Business Machines Corporation | System and method for natural language processing using synthetic text |
CN111709235A (zh) * | 2020-05-28 | 2020-09-25 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
CN112418155A (zh) * | 2020-12-07 | 2021-02-26 | 成都川哈工机器人及智能装备产业技术研究院有限公司 | 一种检测地铁车侧巡检图像上工件的位置和类型的方法 |
CN112669019A (zh) * | 2021-01-31 | 2021-04-16 | 四川沿江攀宁高速公路有限公司 | 一种基于工程量清单和质检资料关联互动的工程资料自动归档方法 |
CN113722492A (zh) * | 2021-09-09 | 2021-11-30 | 国网电子商务有限公司 | 一种意图识别方法及装置 |
CN113934909A (zh) * | 2021-10-08 | 2022-01-14 | 中电积至(海南)信息技术有限公司 | 基于预训练语言结合深度学习模型的金融事件抽取方法 |
US20220058589A1 (en) * | 2020-08-19 | 2022-02-24 | Yokogawa Electric Corporation | Methods, systems and computer program products for management of work shift handover reports in industrial plants |
CN114168716A (zh) * | 2022-02-11 | 2022-03-11 | 华南理工大学 | 基于深度学习的工程造价自动抽取和分析方法及装置 |
CN114239579A (zh) * | 2021-11-10 | 2022-03-25 | 国网福建省电力有限公司信息通信分公司 | 基于正则表达式和crf模型的电力可研文档提取方法及装置 |
CN114283429A (zh) * | 2021-11-15 | 2022-04-05 | 深圳市东信时代信息技术有限公司 | 素材工单数据处理方法、装置、设备及存储介质 |
WO2022105336A1 (zh) * | 2020-11-23 | 2022-05-27 | 北京达佳互联信息技术有限公司 | 图像分类方法及电子设备 |
CN114970458A (zh) * | 2022-05-11 | 2022-08-30 | 浪潮云信息技术股份公司 | 基于机器学习技术提取html文档内容的方法和装置 |
US20220277141A1 (en) * | 2021-02-26 | 2022-09-01 | Salesforce.Com, Inc. | Neural network based representation learning for natural language processing |
CN115017320A (zh) * | 2022-08-08 | 2022-09-06 | 杭州实在智能科技有限公司 | 结合词袋模型和深度学习模型的电商文本聚类方法及系统 |
WO2022227207A1 (zh) * | 2021-04-30 | 2022-11-03 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
-
2023
- 2023-02-27 CN CN202310175513.5A patent/CN116205601B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170024466A1 (en) * | 2015-07-24 | 2017-01-26 | International Business Machines Corporation | System and method for natural language processing using synthetic text |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN111709235A (zh) * | 2020-05-28 | 2020-09-25 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
CN111814722A (zh) * | 2020-07-20 | 2020-10-23 | 电子科技大学 | 一种图像中的表格识别方法、装置、电子设备及存储介质 |
US20220058589A1 (en) * | 2020-08-19 | 2022-02-24 | Yokogawa Electric Corporation | Methods, systems and computer program products for management of work shift handover reports in industrial plants |
WO2022105336A1 (zh) * | 2020-11-23 | 2022-05-27 | 北京达佳互联信息技术有限公司 | 图像分类方法及电子设备 |
CN112418155A (zh) * | 2020-12-07 | 2021-02-26 | 成都川哈工机器人及智能装备产业技术研究院有限公司 | 一种检测地铁车侧巡检图像上工件的位置和类型的方法 |
CN112669019A (zh) * | 2021-01-31 | 2021-04-16 | 四川沿江攀宁高速公路有限公司 | 一种基于工程量清单和质检资料关联互动的工程资料自动归档方法 |
US20220277141A1 (en) * | 2021-02-26 | 2022-09-01 | Salesforce.Com, Inc. | Neural network based representation learning for natural language processing |
WO2022227207A1 (zh) * | 2021-04-30 | 2022-11-03 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN113722492A (zh) * | 2021-09-09 | 2021-11-30 | 国网电子商务有限公司 | 一种意图识别方法及装置 |
CN113934909A (zh) * | 2021-10-08 | 2022-01-14 | 中电积至(海南)信息技术有限公司 | 基于预训练语言结合深度学习模型的金融事件抽取方法 |
CN114239579A (zh) * | 2021-11-10 | 2022-03-25 | 国网福建省电力有限公司信息通信分公司 | 基于正则表达式和crf模型的电力可研文档提取方法及装置 |
CN114283429A (zh) * | 2021-11-15 | 2022-04-05 | 深圳市东信时代信息技术有限公司 | 素材工单数据处理方法、装置、设备及存储介质 |
CN114168716A (zh) * | 2022-02-11 | 2022-03-11 | 华南理工大学 | 基于深度学习的工程造价自动抽取和分析方法及装置 |
CN114970458A (zh) * | 2022-05-11 | 2022-08-30 | 浪潮云信息技术股份公司 | 基于机器学习技术提取html文档内容的方法和装置 |
CN115017320A (zh) * | 2022-08-08 | 2022-09-06 | 杭州实在智能科技有限公司 | 结合词袋模型和深度学习模型的电商文本聚类方法及系统 |
Non-Patent Citations (2)
Title |
---|
宁凌;: "一种基于深度学习的PDM文档自动审核算法", 计算机与网络, no. 10, pages 57 - 61 * |
熊海涛;龚琴;唐小利;王辰;李杨;: "基于图像识别技术的电力缴费智能核查系统", 电子世界, no. 13, pages 161 - 162 * |
Also Published As
Publication number | Publication date |
---|---|
CN116205601B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112800113B (zh) | 一种基于数据挖掘分析技术的招投标审计方法及系统 | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
CN107886231B (zh) | 客服的服务质量评价方法与系统 | |
CN111460250A (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN108920677A (zh) | 问卷调查方法、调查系统及电子设备 | |
CN113450147B (zh) | 基于决策树的产品匹配方法、装置、设备及存储介质 | |
CN110196977A (zh) | 一种智能警情督导处理系统及方法 | |
CN110781333A (zh) | 一种基于机器学习的斜拉桥非结构化监测数据处理方法 | |
CN112116168B (zh) | 一种用户行为的预测方法、装置及电子设备 | |
CN107766560B (zh) | 客服服务流程的评价方法和系统 | |
CN112541077A (zh) | 一种用于电网用户服务评价的处理方法及系统 | |
CN116205601B (zh) | 基于互联网的工程清单复核及数据统计方法与系统 | |
CN115859128B (zh) | 一种基于档案数据交互相似度的分析方法和系统 | |
CN116452212B (zh) | 一种智能客服商品知识库信息管理方法及系统 | |
CN111105041B (zh) | 一种用于智慧数据碰撞的机器学习方法及装置 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN115357718B (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
CN114880471A (zh) | 一种基于文本分类算法的电子病历质量评估方法及系统 | |
KR20110026154A (ko) | 시맨틱 메타데이터를 통한 인터넷 상의 개인 특성 및 행위 분석 기술 | |
CN112633037A (zh) | 一种对象监测方法、装置、存储介质及电子设备 | |
CN114580982B (zh) | 一种工业设备的数据质量的评估方法、装置及设备 | |
CN115719495A (zh) | 一种基于ocr识别设备数据并生成数据表单的方法及系统 | |
CN107798480B (zh) | 客服的服务质量评价方法与系统 | |
CN117112791B (zh) | 一种未知日志分类决策系统、方法、装置及可读存储介质 | |
CN113850085B (zh) | 企业的等级评估方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |