CN115688729A - 一种输变电工程造价数据集成管理系统及其方法 - Google Patents
一种输变电工程造价数据集成管理系统及其方法 Download PDFInfo
- Publication number
- CN115688729A CN115688729A CN202211345225.1A CN202211345225A CN115688729A CN 115688729 A CN115688729 A CN 115688729A CN 202211345225 A CN202211345225 A CN 202211345225A CN 115688729 A CN115688729 A CN 115688729A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- cost data
- attribute
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种输变电工程造价数据集成管理系统及其方法,该方法包括:对16项数据源的文件格式进行规范化处理,得到word格式文件;基于混合索引结构,从word格式文件中定位出关键造价数据所属数据源文件;进一步基于检索技术搜索获取对应关键造价数据;基于XML的元数据标准,对关键造价数据进行数字标准化处理,得到标准化数据格式的造价数据;之后进行数据校验以及融合处理,最后将关键造价数据对应填充至设定的五类数据收集模板中。与现有技术相比,本发明能够对输变电工程造价数据进行标准化、数字化管理,并从这些数据中自动化识别和智能提取有效的关键造价数据,将其进行集成并自动填充进五类数据收集模板,从而提高五类数据收集模板的比对率。
Description
技术领域
本发明涉及电力数据处理技术领域,尤其是涉及一种输变电工程造价数据集成管理系统及其方法。
背景技术
工程造价数据种类繁多,5类数据模板中的数据繁多、来源多样、信息分散,且存在大量的多源异构非结构化数据,如图形数据、文本图像数据、图纸数据、审批流程数据、表格数据集、甚至包括语音数据等。以变电工程数据收集模板为例,里面数据项多达141项。另外,工程造价数据源头繁多,数据源文件格式多样,工程造价数据的数据源有16种,分别为可研批复、初设批复、初设概算、初设报告、工图预算、施工招标文件、中标通知书、施工中标文件、结算审价、大结算报告、财务竣工决算报告、现场签证、设计变更单、工程合同、施工组织设计和开竣工报告,且同一报告中对应多个不同类型表格,不易提取关键数据信息。如五类数据收集模板中的数据源文件包含ceb格式、excel格式、word格式、pdf格式、jpg格式、TIFE格式共6种文件格式,这些文件格式均来自16项数据源与ERP数据系统中,若要实现模板数据的自动与智能化采集,必然存在数据量大、技术难以突破的问题。
此外,工程造价数据标准化程度低,各个单位编制规则不一致;对于后续数据自动搜集和处理存在较大的障碍;工程各阶段数据格式标准、计量规则不统一,难以通过数据自动采集技术自动收集五算数据并分析校验;工程建设单位上报数据漏填报,或形式不规范,或造价数据标准、计量单位不统一等,造成检索不到所需的关键造价数据。
最后,财务决算数据由于公司运营性质,涉及一定保密性,数据自动同步存在一定风险性,五算数据难以贯通,无法实现造价数据的智能化采集。
以上种种原因,造成5类模板中造价数据比对率太低,仅达21%~35%。因此,如何对工程造价数据标准化、数字化,自动收集造价数据,并从这些数据中自动化识别和智能提取有效地关键数据,迫切需要深入的展开研究。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种输变电工程造价数据集成管理系统及其方法,能够对输变电工程造价数据进行标准化、数字化管理,并从这些数据中自动化识别和智能提取有效的关键造价数据,将其进行集成并自动填充进五类数据收集模板,从而提高五类数据收集模板的比对率。
本发明的目的可以通过以下技术方案来实现:一种输变电工程造价数据集成管理系统,包括依次连接的预处理模块、关键词检索模块、标准化模块、数据集成填报模块,所述预处理模块用于对16项数据源的文件格式进行相应处理,避免数据源文件中存在的图片文字识别问题;
所述关键词检索模块用于从收集的输变电工程造价数据中查询获得关键造价数据;
所述标准化模块用于对关键造价数据进行数字标准化处理,得到标准化数据格式的造价数据;
所述数据集成填报模块用于将标准化数据格式的造价数据对应填充至设定的数据收集模板中。
一种输变电工程造价数据集成管理方法,包括以下步骤:
S1、对16项数据源的文件格式进行规范化处理,包括图像处理、OCR文字识别、图片文字识别,得到word格式文件;
S2、基于混合索引结构,从word格式文件中定位出关键造价数据所属数据源文件;
S3、基于检索技术从定位出的数据源文件中搜索获取对应关键造价数据;
S4、基于XML的元数据标准,对关键造价数据进行数字标准化处理,得到标准化数据格式的造价数据;
S5、对标准化数据格式的造价数据进行数据校验以及融合处理,之后将关键造价数据对应填充至设定的五类数据收集模板中。
进一步地,所述步骤S2中混合索引结构具体为基于B+树与倒排索引技术的双层索引结构,包括第一层树形索引结构和第二层倒排表索引结构。
进一步地,所述第一层树形索引结构用于建立索引的数据队形所包含的属性,在该层索引中,数据的所有具体属性全部存储在非叶子结点中,而B+树的所有叶子结点中则存储三部分信息Ai、PType、Pointer,表示的含义分别为:
(1)Ai是索引对象的数据属性,其中n数据集中所包含的所有属性个数,i∈[1,n];
(2)PType为指针类型,具体类型有PType{Inverted_index,B+树};
(3)Pointer为指向第二层索引的指针,根据属性值的不同数据类型,该指针指向不同的索引结构,即指向倒排表表头或B+树的根结点。
进一步地,所述第二层倒排表索引结构用于建立第一层属性所对应数据值的索引,包括为数值型数据建立的B+树索引结构和为字符型数据建立的倒排表索引结构,其中,具体的数据值均存储在B+树索引结构的非叶子结点中,且叶子结点都是有序排列的且包含索引文件的三部分信息ARVS、Loc、Doc,分别表示的含义是:
(1)ARVS为第R个属性的第S个属性值,R∈[1,n2],s∈[1,p],n2为数据集中包含的数值属性的个数,P为第R个属性的属性值个数;
(2)Loc为包含此属性值的文件所在的位置信息;
(3)Doc为包含查询关键词的文件编号,Doc是唯一的;
倒排索引分为两个部分,一个是由不同的关键词组成的索引表,称为词典,其中保存了各种中文关键字以及这些词汇所对应的统计信息;另一个部分是由每个索引词出现过的文档集合,及其位置信息组成,也称为记录表,第二层的倒排索引结构中具体包含AiVj、Doc、Loc、F四部分信息,表示的含义分别为:
(1)AiVj为第i个属性的第j个属性值,i∈[1,n1]、j∈1,m],n1为字符属性的个数,m为第i个属性包含的属性值的个数;
(2)Doc为所查询条件的属性值所在的文件编号,每个文件编号唯一;
(3)Loc为包含查询关键词的文件所在的位置信息;
(4)F为查询关键词在文件中出现的频率。
进一步地,所述步骤S2具体包括以下步骤:
S21、创建索引;
S22、根据设定的查询条件,结合创建的索引,从word格式文件中定位出关键造价数据所属数据源文件。
进一步地,所述步骤S21具体过程为:
Step1、首先分析要为其建立索引的数据,如果已构建的索引中没有该数据,则在混合索引的第一层构建一个新的索引结点;
Step2、判断新添数据的属性值类型,若是数值型数据,则为其创建B+树索引;若是字符型属性则为其建立倒排索引结构;
Step3、重复执行Step1,之前构建的索引中如果存在当前属性,则不再向索引第一层增加新的结点,只把该属性的数据添加到第二层相应的索引中;
Step4、重复以上步骤,直到为所有的数据建立索引完成为止;
所述步骤S22具体过程为:首先分析查询条件得到关键词,将查询关键词转交给索引词典,如果索引标志位为Fales,则返回空值,表示索引文件中不存在所要查询的数据;
如果为True,则判断该查询词返回结果的数据类型,根据不同类型定位到不同索引,读取该词汇的编号以及包含词汇文档数目,通过这些得到查询条件的相关信息;
再根据词汇编号读取B+树索引或倒排索引中的内容,整合得到的检索内容,最后与查询条件进行相关性比较,对查询结果排序得到最终结果返回给用户。
进一步地,所述步骤S4具体包括以下步骤:
S41、针对输变电工程中变电工程和线路工程的录入数据进行分析,确定对应的录入指标类型;
S42、根据录入指标类型,基于XML的元数据标准,得到变电工程和线路工程对应的元数据模型;
S43、针对元数据模型中各造价数据的录入格式进行标准化处理,转换得到格式统一的结构化数据。
进一步地,所述步骤S5具体包括以下步骤:
S51、对标准化数据格式的造价数据依次进行完整性校验、正确性校验和逻辑性校验,得到校验通过的造价数据;
S52、对校验通过的造价数据进行融合处理,之后基于web页面的表格自动填充方法,将融合处理后的造价数据自动填充至设定的五类数据收集模板中。
进一步地,所述步骤S51具体包括以下步骤:
S511、完整性校验:依据数据标准化规则,验证已抽取数据中的关键数据项是否存在数据缺失;
S512、正确性校验:检查已抽取的数据项、数据类型、精度、范围、单位是否与设定的标准化规则要求一致;
S513、逻辑性校验:依据各数据源系统之间的业务关系,检查数据项是否符合对应的业务逻辑关系。
与现有技术相比,本发明针对输变电工程中造价数据繁多、来源多样、信息分散的特性,提出一种输变电工程造价数据集成管理方案,通过对16项数据源的文件格式进行标准化,避免数据源文件中存在的图片文字识别问题;为了实现从大量输变电工程造价数据中查询获得关键造价数据,提出了基于B+树与索引技术相结合的输变电工程数据检索方法;还通过对五类数据收集模板中录入指标的分析,将检索获得的造价数据进行标准化与集成处理,以实现五类数据收集模板的自动填充,由此能够有效高五类数据收集模板的比对率。
本发明针对造价数据的特点(数据类型复杂多样,数据来源广泛,给关键造价数据检索带来了相当大的困难与挑战),在设计索引结构时的考虑对不同数据类型的数据创建不同结构的索引,在传统索引的基础上,引入了层次化索引的思想,将造价数据集中的数据属性和属性值划分开来,构建双层索引结构。首先为集中数据的属性建立上层索引。其次对上层属性所对应的数据值建立索引,如果是数值型数据就构建B+树索引结构,如果是字符型数据就构建倒排索引。这样,不是所有数据都建立树型结构索引,能够有效减小由结点分裂所引起存储空间浪费的问题,除此之外,也减少了在结点分裂过程中所产生的临时结点所占的用额外存储空间,加快了构建索引的速率,提升了存储空间的利用率。当对数值型数据进行范围查询时,就会直接定位到下层的树形索引完成,减小数据查询时间和成本。
附图说明
图1为本发明的系统结构示意图;
图2为本发明的方法流程示意图;
图3为本发明中混合索引结构示意图;
图4为实施例中变电工程元数据模型示意图;
图5为实施例中数据集成过程示意图;
图中标记说明:1、预处理模块,2、关键词检索模块,3、标准化模块,4、数据集成填报模块。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种输变电工程造价数据集成管理系统,包括依次连接的预处理模块1、关键词检索模块2、标准化模块3、数据集成填报模块4,其中,预处理模块1用于对16项数据源的文件格式进行相应处理,避免数据源文件中存在的图片文字识别问题;
关键词检索模块2用于从收集的输变电工程造价数据中查询获得关键造价数据;
标准化模块3用于对关键造价数据进行数字标准化处理,得到标准化数据格式的造价数据;
数据集成填报模块4用于将标准化数据格式的造价数据对应填充至设定的数据收集模板中。
应用上述系统,以实现一种输变电工程造价数据集成管理方法,如图2所示,包括以下步骤:
S1、对16项数据源的文件格式进行规范化处理,包括图像处理、OCR文字识别、图片文字识别,得到word格式文件;
S2、基于混合索引结构,从word格式文件中定位出关键造价数据所属数据源文件;
S3、基于检索技术从定位出的数据源文件中搜索获取对应关键造价数据;
S4、基于XML的元数据标准,对关键造价数据进行数字标准化处理,得到标准化数据格式的造价数据;
S5、对标准化数据格式的造价数据进行数据校验以及融合处理,之后将关键造价数据对应填充至设定的五类数据收集模板中。
在步骤S2中,本技术方案考虑到输变电工程造价数据的数据类型复杂多样、数据来源广泛,给关键造价数据检索带来了相当大的困难与挑战。工程造价数据大多是浮点型、字符型,具有一定的时序性和结构化的特点,在数据检索时可能是对不同类型数据的联合查询,提高查询效率的一种重要手段是建立索引。现有的倒排索引不能对完成数值型数据的范围检索提供很好的支持,但因其实现相对简单、查询速度快,检索可以一次定位,对字符型数据的索引构建提供良好的支持。现有的B+树的叶子结点是有序的,这使得它在对数值型数据进行范围检索时具有明显的优势,能承受大量的工作负载,具有较为稳定的I/O开销。对此,本技术方案提出了结合B+树与索引技术的输变电工程造价数据检索方法。
针对造价数据的特点,在设计索引结构时的考虑的是对不同数据类型的数据创建不同结构的索引,在传统索引的基础上,引入了层次化索引的思想,将造价数据集中的数据属性和属性值划分开来,构建双层索引结构。首先为集中数据的属性建立上层索引。其次对上层属性所对应的数据值建立索引,如果是数值型数据就构建B+树索引结构,如果是字符型数据就构建倒排索引。这样,不是所有数据都建立树型结构索引,减小了由结点分裂所引起存储空间浪费的问题,除此之外,也减少了在结点分裂过程中所产生的临时结点所占的用额外存储空间,加快了构建索引的速率,提升了存储空间的利用率。当对数值型数据进行范围查询时,就会直接定位到下层的树形索引完成,减小数据查询时间和成本。
本技术方案设计的混合索引结合用并延续了B+树和倒排索引二者的优点,同时又避开了它们各自的缺点。提高索引构建的速度和存储利用率的同时还能实现了对数值型数据的范围查询功能。
图3所示为本技术方案设计的双层工程造价数据索引结构,第一层树形索引结构是为要建立索引的数据对象所包含的属性建立的,在该层索引中,数据的所有具体属性全部存储在非叶子结点中,而B+树的所有叶子结点中则存储三部分信息Ai、PType、Pointer,表示的含义分别为:
(1)Ai是索引对象的数据属性,其中n数据集中所包含的所有属性个数,i∈[1,n]。
(2)PType为指针类型,具体类型有PType{Inverted_index,B+树}。
(3)Pointer为指向第二层索引的指针,根据属性值的不同数据类型,该指针指向不同的索引结构,即指向倒排表表头或B+树的根结点。
第2层索引是为第1层的属性所对应的数据值所建立的索引,包括为数值型数据建立的B+树索引结构和为字符型数据建立的倒排表索引结构。其中,具体的数据值均存储在B+树索引结构的非叶子结点中,且叶子结点都是有序排列的且包含索引文件的三部分信息ARVS、Loc、Doc,分别表示的含义是:
(1)ARVS为第R个属性的第S个属性值,R∈[1,n2],s∈[1,p],n2为数据集中包含的数值属性的个数,P为第R个属性的属性值个数。
(2)Loc为包含此属性值的文件所在的位置信息。
(3)Doc为包含查询关键词的文件编号,Doc是唯一的。
倒排索引分为两个部分,一个是由不同的关键词组成的索引表,称为词典,其中保存了各种中文关键字以及这些词汇所对应的统计信息。另一个部分是由每个索引词出现过的文档集合,及其位置信息组成,也称为记录表。第二层的倒排索引结构中具体包含AiVj、Doc、Loc、F四部分信息,表示的含义分别为:
(1)AiVj为第i个属性的第j个属性值,i∈[1,n1]、j∈1,m],n1为字符属性的个数,m为第i个属性包含的属性值的个数。
(2)Doc为所查询条件的属性值所在的文件编号,每个文件编号唯一。
(3)Loc为包含查询关键词的文件所在的位置信息。
(4)F为查询关键词在文件中出现的频率。
在具体创建索引时,主要包括:
Step1:首先分析要为其建立索引的数据,如果已构建的索引中没有该数据,则在混合索引的第一层构建一个新的索引结点。
Step2:判断新添数据的属性值类型,若是数值型数据,则为其创建B+树索引;若是字符型属性则为其建立倒排索引结构。
Step3:重复执行Step1,之前构建的索引中如果存在当前属性,则不再向索引第一层增加新的结点,只把该属性的数据添加到第二层相应的索引中。
Step4:重复以上步骤,直到为所有的数据建立索引完成为止。
在具体执行索引查询时,首先分析查询条件得到关键词,把查询关键词转交给索引词典,如果索引标志位为Fales,返回空值,表示索引文件中不存在所要查询的数据,如果为True,则判断该查询词返回结果的数据类型,根据不同类型定位到不同索引,读取该词汇的编号以及包含词汇文档数目,通过这些得到查询条件的相关信息。再根据词汇编号读取B+树索引或倒排索引中的内容,整合得到的检索内容,最后与检索条件进行相关性比较,对查询结果排序得到最终结果返回给用户。将数据表中的键值term_id作为查询算法的输入值,输出为布尔值,具体过程如下:
1、将root、term_id、layer作为输入参数,调用查找函数treeSearch(root,term_id,layer),将查找结果赋值给叶子页记录record。
2、如果record为空,则直接返回空值;否则,返回真正的查找结果rid。
将当前页current Page作为查找函数tree Search的输入,key为查找键和layer为初始层数,可能包含查找键key的叶子记录leaf Record作为函数的输出,具体过程如下:
(1)如果当前所在的是叶子页,则采用二分查找算法查找key键,并给出查找结果。
(2)如果当前页不是叶子页,则执行步骤(3)到(6)。
(3)按current Page和key值,选择含有键值的子树,获得子节点的页号page No。
(4)在缓冲区中根据页号读出它所包含的子节点页sub Tree Page。
(5)如果找到的子节点页是叶子页,那么返回(1)。
(6)如果该子节点页为分支页,则将sub Tree Page、key、layer均减1作为新的输入,递归调用函数返回输出结果。
由此本技术方案能够从众多的16种数据源、ERP系统、财务系统等业务系统中的多种格式文件中,采用索引技术、B+树等技术准确定位关键造价数据所在的数据源文件,再用关键词检索或语义检索等方法从此数据源文件中智能化搜索获取5类造价数据收集模板所需的少量关键造价数据信息如工程名称、工程时间、初步设计批复概算、批复可研估算、施工图预算、竣工决算、建筑工程费及设备购置费等,进行智能化自动抽取。
在步骤S4中,数据标准化主要是对数据基本单元的标识、分类编码、含义、表示格式等各个方面进行规范和统一。经过标准化的数据是信息系统的基石,它可以确保各项业务以完整、有效、高效的方式运行。对数据进行标准化有利于数据的查询检索以及与其他用户的数据交换,可加强数据在系统间及环境间的实用性和共享性,提高数据的长期使用价值。可以说,数据标准化工作是信息化建设最基础的工作。本技术方案进行数据标准化的过程为:
首先是业务需求分析,包括流程分析、业务建模、收集相关数据,并确定数据需求。可以采用“自上而下”的方法,在业务流程和功能分析的基础上,通过建模分析,来确立关心“对象”。
其次是基本数据集设置,即确认数据需求确立的关心“对象”,通过对象类的特性以及相关表示的分析、归纳和整理,提出所需的数据元;将必需收集的数据按特性分成不同数据集,确定每个数据集中的数据项。
最后是数据元构建,即对抽象的数据元,可按对象类词、特性类词以及表示类词构建数据元。
本实施例首先进行输变电工程中录入数据指标分析,输变电工程中,五类数据收集模板中的变电工程和线路工程数据较多,通信工程的数据相对简单,因此主要对变电工程和线路工程的录入数据进行分析。五类数据收集模板主要包括工程基本情况、主要技术条件和工程费用。之后基于数据元标准进行造价数据录入格式标准化——根据输变电站工程的录入指标类型,得到输变电工程的变电工程的元数据模型(如图4所示),线路工程的元数据模型类似。在输变电工程造价数据管理中,数据种类繁多,在五类数据收集模板录入数据之前,必须对元数据模型中各造价数据的录入格式进行标准化,以变电工程为例,表1~表3为相应标准化结果示意。
表1工程基本情况部分属性表示例
序号 | 属性名称 | 英文名称 | 数据类型 |
1 | 工程名称 | Project Name | 文本型 |
2 | 工程编号 | Project Code | 文本型 |
3 | 所属地区 | District | 文本型 |
4 | 额定电压等级 | Voltage | 整型 |
5 | 工程说明 | Memo | 文本型 |
… | … | … | … |
表2主要技术条件部分属性示例
序号 | 属性名称 | 英文名称 | 数据类型 |
1 | 主变压器 | Name | 文本型 |
2 | 编号 | Code | 文本型 |
3 | 数量 | Amount | 整型 |
4 | 单价 | Price | 浮点型(小数位数) |
5 | 生产单位 | Factory | 文本型 |
6 | 采购人 | Purchaser | 文本型 |
7 | 说明 | Memo | 文本型 |
… | … | … | … |
表3主要费用属性示例
在步骤S5中,数据集成处理包括数据清洗、数据标准化、数据校验、数据集成环节(如图5所示)。关键造价数据从数据源抽取后,按照数据标准化规则,将数据转换成格式统一的结构化数据,再进行数据校验,即进行完整性校验、正确性校验和逻辑性校验,验证数据是否存在缺失、格式错误和违反基本业务逻辑等数据质量问题,为数据集成奠定基础。
1.完整性校验。依据数据标准化规则,验证已抽取数据中的关键数据项是否有数据。以变电工程数据校验为例,如主要技术条件中的主变压器台数、主变台数、配电型式等,工程费用中的建筑工程费、设备购置费、安装工程费等字段均为关键数据项。若存在为空的情况,则返回修改原数据后再进行校验;若均不为空,则校验通过,转入下一步正确性校验。
2.正确性校验。检查已抽取的数据项、数据类型、精度、范围、单位是否与标准化规则要求一致。例如变电站主变台数,要求其数据类型为整数型,数据精度为1位。若发现有非整数或者大于10的数据,则判定该数据不正确,需返回原数据进行修改后再进行校验;再如录入模板中竣工决算指标中的全站征地面积单位为”亩”:其数据源工程概况表中的单位为平方米,则需要进行单位换算。若均正确,则进入下一步逻辑性校验。
3.逻辑性校验。依据系统之间的业务关系,检查数据项是否符合业务逻辑关系。例如,录入模板中的工程时间中,可研评审时间、初设评审时间、主要设备招标时间、竣工时间具有先后顺序,假如出现竣工时间早于其他三个时间,则说明数据出现错误,需返回修改原数据后重新进行校验。
从数据源数据检索关键造价数据时,同一个造价数据可能从不同的文件中获得,即获得几个查询结果,因此还需要对集成的数据进行融合处理。再将融合处理后的造价数据自动填充进五类数据收集模板。
综上所述,本技术方案通过对源于五类数据收集模板中造价数据的现状分析,对输变电工程造价数据进行了有效梳理,研究了目前造价数据存在的多种问题,从而提出针对性的解决方案:对16项数据源的文件格式进行标准化,避免数据源文件中存在的图片文字识别问题;为了实现从大量输变电工程造价数据中查询获得少量的关键造价数据,提出了基于B+树与索引技术相结合的输变电工程数据检索方法;通过对五类数据收集模板中录入指标的分析,将检索获得的造价数据进行规范化,实现五类数据收集模板的自动填充,并提高了比对率。比如对于变电工程造价收集模板,共144项数据,不用填、难以获得或不确定的数据共43项,比对率可以达到70%。在电缆线路造价收集模板中,共207项数据待填,不用填、自动获得困难需人工填写、或有些需要合并计算后再进行分摊、或需要看图纸等的数据约120项,比对率可以达到42%。
Claims (10)
1.一种输变电工程造价数据集成管理系统,其特征在于,包括依次连接的预处理模块、关键词检索模块、标准化模块、数据集成填报模块,所述预处理模块用于对16项数据源的文件格式进行相应处理,避免数据源文件中存在的图片文字识别问题;
所述关键词检索模块用于从收集的输变电工程造价数据中查询获得关键造价数据;
所述标准化模块用于对关键造价数据进行数字标准化处理,得到标准化数据格式的造价数据;
所述数据集成填报模块用于将标准化数据格式的造价数据对应填充至设定的数据收集模板中。
2.一种输变电工程造价数据集成管理方法,其特征在于,包括以下步骤:
S1、对16项数据源的文件格式进行规范化处理,包括图像处理、OCR文字识别、图片文字识别,得到word格式文件;
S2、基于混合索引结构,从word格式文件中定位出关键造价数据所属数据源文件;
S3、基于检索技术从定位出的数据源文件中搜索获取对应关键造价数据;
S4、基于XML的元数据标准,对关键造价数据进行数字标准化处理,得到标准化数据格式的造价数据;
S5、对标准化数据格式的造价数据进行数据校验以及融合处理,之后将关键造价数据对应填充至设定的五类数据收集模板中。
3.根据权利要求2所述的一种输变电工程造价数据集成管理方法,其特征在于,所述步骤S2中混合索引结构具体为基于B+树与倒排索引技术的双层索引结构,包括第一层树形索引结构和第二层倒排表索引结构。
4.根据权利要求3所述的一种输变电工程造价数据集成管理方法,其特征在于,所述第一层树形索引结构用于建立索引的数据队形所包含的属性,在该层索引中,数据的所有具体属性全部存储在非叶子结点中,而B+树的所有叶子结点中则存储三部分信息Ai、PType、Pointer,表示的含义分别为:
(1)Ai是索引对象的数据属性,其中n数据集中所包含的所有属性个数,i∈[1,n];
(2)PType为指针类型,具体类型有PType{Inverted_index,B+树};
(3)Pointer为指向第二层索引的指针,根据属性值的不同数据类型,该指针指向不同的索引结构,即指向倒排表表头或B+树的根结点。
5.根据权利要求4所述的一种输变电工程造价数据集成管理方法,其特征在于,所述第二层倒排表索引结构用于建立第一层属性所对应数据值的索引,包括为数值型数据建立的B+树索引结构和为字符型数据建立的倒排表索引结构,其中,具体的数据值均存储在B+树索引结构的非叶子结点中,且叶子结点都是有序排列的且包含索引文件的三部分信息ARVS、Loc、Doc,分别表示的含义是:
(1)ARVS为第R个属性的第S个属性值,R∈[1,n2],s∈[1,p],n2为数据集中包含的数值属性的个数,P为第R个属性的属性值个数;
(2)Loc为包含此属性值的文件所在的位置信息;
(3)Doc为包含查询关键词的文件编号,Doc是唯一的;
倒排索引分为两个部分,一个是由不同的关键词组成的索引表,称为词典,其中保存了各种中文关键字以及这些词汇所对应的统计信息;另一个部分是由每个索引词出现过的文档集合,及其位置信息组成,也称为记录表,第二层的倒排索引结构中具体包含AiVj、Doc、Loc、F四部分信息,表示的含义分别为:
(1)AiVj为第i个属性的第j个属性值,i∈[1,n1]、j∈1,m],n1为字符属性的个数,m为第i个属性包含的属性值的个数;
(2)Doc为所查询条件的属性值所在的文件编号,每个文件编号唯一;
(3)Loc为包含查询关键词的文件所在的位置信息;
(4)F为查询关键词在文件中出现的频率。
6.根据权利要求5所述的一种输变电工程造价数据集成管理方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、创建索引;
S22、根据设定的查询条件,结合创建的索引,从word格式文件中定位出关键造价数据所属数据源文件。
7.根据权利要求6所述的一种输变电工程造价数据集成管理方法,其特征在于,所述步骤S21具体过程为:
Step1、首先分析要为其建立索引的数据,如果已构建的索引中没有该数据,则在混合索引的第一层构建一个新的索引结点;
Step2、判断新添数据的属性值类型,若是数值型数据,则为其创建B+树索引;若是字符型属性则为其建立倒排索引结构;
Step3、重复执行Step1,之前构建的索引中如果存在当前属性,则不再向索引第一层增加新的结点,只把该属性的数据添加到第二层相应的索引中;
Step4、重复以上步骤,直到为所有的数据建立索引完成为止;
所述步骤S22具体过程为:首先分析查询条件得到关键词,将查询关键词转交给索引词典,如果索引标志位为Fales,则返回空值,表示索引文件中不存在所要查询的数据;
如果为True,则判断该查询词返回结果的数据类型,根据不同类型定位到不同索引,读取该词汇的编号以及包含词汇文档数目,通过这些得到查询条件的相关信息;
再根据词汇编号读取B+树索引或倒排索引中的内容,整合得到的检索内容,最后与查询条件进行相关性比较,对查询结果排序得到最终结果返回给用户。
8.根据权利要求2所述的一种输变电工程造价数据集成管理方法,其特征在于,所述步骤S4具体包括以下步骤:
S41、针对输变电工程中变电工程和线路工程的录入数据进行分析,确定对应的录入指标类型;
S42、根据录入指标类型,基于XML的元数据标准,得到变电工程和线路工程对应的元数据模型;
S43、针对元数据模型中各造价数据的录入格式进行标准化处理,转换得到格式统一的结构化数据。
9.根据权利要求2所述的一种输变电工程造价数据集成管理方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、对标准化数据格式的造价数据依次进行完整性校验、正确性校验和逻辑性校验,得到校验通过的造价数据;
S52、对校验通过的造价数据进行融合处理,之后基于web页面的表格自动填充方法,将融合处理后的造价数据自动填充至设定的五类数据收集模板中。
10.根据权利要求9所述的一种输变电工程造价数据集成管理方法,其特征在于,所述步骤S51具体包括以下步骤:
S511、完整性校验:依据数据标准化规则,验证已抽取数据中的关键数据项是否存在数据缺失;
S512、正确性校验:检查已抽取的数据项、数据类型、精度、范围、单位是否与设定的标准化规则要求一致;
S513、逻辑性校验:依据各数据源系统之间的业务关系,检查数据项是否符合对应的业务逻辑关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211345225.1A CN115688729A (zh) | 2022-10-31 | 2022-10-31 | 一种输变电工程造价数据集成管理系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211345225.1A CN115688729A (zh) | 2022-10-31 | 2022-10-31 | 一种输变电工程造价数据集成管理系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115688729A true CN115688729A (zh) | 2023-02-03 |
Family
ID=85045607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211345225.1A Pending CN115688729A (zh) | 2022-10-31 | 2022-10-31 | 一种输变电工程造价数据集成管理系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115688729A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117875881A (zh) * | 2023-12-27 | 2024-04-12 | 广东艾博电力设计院(集团)有限公司 | 一种配电项目资料生成方法、系统、电子设备及存储介质 |
-
2022
- 2022-10-31 CN CN202211345225.1A patent/CN115688729A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117875881A (zh) * | 2023-12-27 | 2024-04-12 | 广东艾博电力设计院(集团)有限公司 | 一种配电项目资料生成方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291161A (zh) | 法律案件知识图谱查询方法、装置、设备及存储介质 | |
CN107679221B (zh) | 面向减灾任务的时空数据获取与服务组合方案生成方法 | |
CN111260413A (zh) | 一种基于矢量图形的电力主网工程施工图造价速算方法 | |
CN113342842A (zh) | 基于计量知识的语义查询方法、装置和计算机设备 | |
CN111552813A (zh) | 一种基于电网全业务数据的电力知识图谱构建方法 | |
CN115547466B (zh) | 基于大数据的医疗机构登记评审系统及其方法 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN114443855A (zh) | 一种基于图表示学习的知识图谱跨语言对齐方法 | |
CN115982329A (zh) | 一种工程施工方案编制依据的智能生成方法及系统 | |
CN115688729A (zh) | 一种输变电工程造价数据集成管理系统及其方法 | |
CN115827862A (zh) | 一种多元费用凭证数据关联采集方法 | |
CN111143394A (zh) | 知识数据处理方法、装置、介质及电子设备 | |
CN113190651B (zh) | 基于定额知识图谱技术的电力数据全局知识图谱补全方法 | |
CN113626571A (zh) | 答句生成方法、装置、计算机设备和存储介质 | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
CN112036150A (zh) | 电价政策条款解析方法、存储介质及计算机 | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
CN115952770A (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN116244421A (zh) | 项目名称匹配的方法、装置、设备及可读存储介质 | |
CN115309705A (zh) | 一种自动识别城市信息模型平台基础数据元素的数据集成分类系统及其分类方法 | |
CN113642291B (zh) | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 | |
CN115563968A (zh) | 水电运检知识自然语言人工智能系统及方法 | |
CN115965085A (zh) | 一种基于知识图谱技术的船舶静态属性推理方法及系统 | |
CN114880483A (zh) | 一种元数据知识图谱构建方法、存储介质及系统 | |
CN114417010A (zh) | 面向实时工作流的知识图谱构建方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |