CN117591594A - 一种站控层监控信息表规范化审查及比对校验方法及工具 - Google Patents
一种站控层监控信息表规范化审查及比对校验方法及工具 Download PDFInfo
- Publication number
- CN117591594A CN117591594A CN202311697152.7A CN202311697152A CN117591594A CN 117591594 A CN117591594 A CN 117591594A CN 202311697152 A CN202311697152 A CN 202311697152A CN 117591594 A CN117591594 A CN 117591594A
- Authority
- CN
- China
- Prior art keywords
- data
- monitoring information
- information table
- matching
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012795 verification Methods 0.000 title claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 238000013075 data extraction Methods 0.000 claims abstract description 30
- 230000010354 integration Effects 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000007689 inspection Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000007405 data analysis Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000007726 management method Methods 0.000 claims description 8
- 238000013499 data model Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000008439 repair process Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000013524 data verification Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000013179 statistical model Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 238000012550 audit Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种站控层监控信息表规范化审查及比对校验方法及工具,涉及数据比对和分析技术领域,解决了传统的对于电力系统监测数据的审查和校验方法存在手动工作量大、容易出错、不适应多样化标准且相对复杂的问题。本发明包括以下步骤:进行数据抽取和数据预处理;收集并集成多源数据,进而形成多源数据集成池;定义一组用于审核和比对的规则;设置数据匹配算法和容忍范围,所述容忍范围具体为待比对的两个值的偏离程度阈值;从多源数据集成池中选择需要审查和比对的多源数据,然后选择匹配算法对多源数据进行比对,如果差异在容忍范围内则认为其匹配,否则为不匹配。本发明能够提高数据质量、减少人工错误以及节省时间资源。
Description
技术领域
本发明设计数据比对和分析技术领域,特别涉及一种站控层监控信息表规范化审查及比对校验方法及工具。
背景技术
传统的审查和校验通常需要大量人工工作,包括数据提取、比对、分析和纠正。这会消耗大量时间和人力资源。而且,由于涉及大量手动操作,容易发生人为错误,导致数据校验不准确或遗漏。
随着电力系统监控数据量的增加,手动审查和校验变得更加困难和耗时。电力系统监控信息表可能包含大量参数和数据,涉及多种数据类型和格式,使得审查和校验变得复杂。此外,不同的电力系统站点可能使用不同的标准和规范,传统方法难以适应这种多样性。传统方法通常缺乏自动化工具的支持,无法利用先进的技术来简化和加速审查和校验任务。
综上所述,传统的对于电力系统监测数据的审查和校验方法存在手动工作量大、容易出错、不适应多样化标准且相对复杂的问题。
鉴于此,需要一种站控层监控信息表规范化审查及比对校验方法及工具。
发明内容
针对现有技术中对于电力系统监测数据的审查和校验方法存在手动工作量大、容易出错、不适应多样化标准且相对复杂的问题,本发明提供了一种站控层监控信息表规范化审查及比对校验方法及工具,能够进行数据抽取和预处理、且通过多源数据集成和自定义规则实现数据的匹配和差异分析,并且进行相应的记录。具体技术方案如下:
一种站控层监控信息表规范化审查及比对校验方法,包括以下步骤:
进行数据抽取和数据预处理,所述数据预处理包括数据格式标准化、数据清洗和校验、字段解析、数据转换和识别数据类型;
收集并集成多源数据,进而形成多源数据集成池,所述多源数据为多个经过所述数据预处理的数据的集合;
定义一组用于审核和比对的规则,所述用于审核和比对的规则包括需要比对的数据范围、数据验证规则、一致性检查规则和业务规则;
设置数据匹配算法和容忍范围,所述匹配算法包括绝对差异匹配、相对差异匹配和相似性分数匹配,所述容忍范围具体为待比对的两个值的偏离程度阈值;
从多源数据集成池中选择需要审查和比对的多源数据,然后选择匹配算法对多源数据进行比对,如果差异在容忍范围内则认为其匹配,否则为不匹配。
优选的,还包括产出结果记录报告,所述结果记录报告用于记录每对数据的匹配结果,所述结果记录报告中包括数据标识、匹配结果和差异值,所述匹配结果包括匹配和不匹配。
优选的,还包括结果的异常处理,所述结果的异常处理用于对未匹配或匹配差异超出容忍范围的数据执行异常处理操作,所述异常处理操作包括生成警报、记录错误、发送通知和进行进一步的调查。
优选的,所述数据抽取具体如下:
使用ETL工具自动连接到站控层监控系统数据库,以提取所需的监控信息表数据,在ETL工具中配置连接到站控层监控信息表的数据源,在连接后,根据数据源的类型提供表名、文件路径或查询条件,选择要抽取的监控信息表或文件,进而使用ETL工具的抽取功能,从数据源中提取监控信息表的数据。
优选的,所述数据格式标准化具体为将字段名称、单位标准、日期时间格式进行标准化处理;所述数据清洗和校验具体为检测是否存在缺失的数据、重复的数据、异常值或数据格式错误,并在检测到之后修复并提供警告;所述字段解析具体为将包含多个字段的监控信息表数据拆分为单独的字段,并将其映射到标准数据模型中;数据转换具体为将不同类型的监控信息表数据转换为标准的数据类型;所述识别数据类型具体为识别每个字段的数据类型,以正确解析和处理数据。
优选的,所述匹配算法还包括基于模型的匹配算法,所述基于模型的匹配算法具体为使用统计模型或机器学习模型来预测两个值之间的关系,并进行匹配。
一种站控层监控信息表规范化审查及比对校验工具,应用于如上所述的方法,包括数据抽取和预处理单元、多源数据集成单元、数据分析单元以及结果记录和报告生成单元;所述数据抽取和标准化单元、多源数据集成单元、数据分析单元以及结果记录和报告生成单元依次连接;
所述数据抽取和预处理单元包括数据抽取模块、数据格式标准化模块、数据清洗和校验模块、字段解析模块、数据转换模块和数据类型识别模块,所述数据抽取模块用于从数据源中提取监控信息表的数据,所述数据格式标准化模块用于将数据转换为统一的格式,所述数据清洗和校验模块用于检测和纠正数据中的错误或异常值,所述字段解析模块用于将包含多个字段的监控信息表数据拆分为单独的字段,并将其映射到标准数据模型中,所述数据转换模块用于将不同类型的监控信息表数据转换为标准的数据类型;所述识别数据类型模块用于识别每个字段的数据类型;
所述多源数据集成单元用于将所述数据抽取和预处理单元中处理完的数据进行集成和存储,形成多源数据集成池;
所述数据分析单元包括自定义规则引擎模块和数据匹配与差异分析模块;所述自定义规则引擎模块包括规则定义和管理模块和数据输入模块,所述规则定义和管理模块用于定义用于站控层监控信息表审核和比对的规则并且对定义的规则进行集成存储和维护,所述数据输入模块用于接收站控层监控信息表的数据作为输入;所述数据匹配与差异分析模块用于基于匹配算法和容忍范围进行数据的匹配和差异分析,进而输出每对数据的匹配结果;
所述结果记录和报告生成单元用于记录每对数据的匹配结果并生成匹配结果报告,所述匹配结果报告的内容包括数据标识、匹配结果和差异值。
一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行如上所述的站控层监控信息表规范化审查及比对校验方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上所述的站控层监控信息表规范化审查及比对校验方法。
与现有技术相比,本发明的有益效果为:
提高数据质量:本发明能够自动进行规范化审查和比对校验,确保站控层监控信息表的数据符合预定的规范和标准,从而提高了数据的质量和准确性。
减少人工错误:本发明自动化审查和比对校验减少了人工干预的需求,降低了由于人为错误而引入的数据问题的风险。
节省时间和资源:通过本方法和工具可以大大节省数据管理员和操作员的时间和资源,使他们能够专注于更复杂的数据管理任务。
规范一致性:本发明确保了站控层监控信息表数据的规范一致性,无论数据来自不同的源头,都能够按照相同的标准进行审查和校验。
快速发现问题:本发明能够及时发现数据不一致、缺失或异常,从而使问题能够在早期阶段被发现和解决,减少了潜在的风险。
数据历史记录:本发明具有数据历史记录功能,可以跟踪数据的变化和修复过程,以便进行审计和溯源。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明一种站控层监控信息表规范化审查及比对校验方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面结合图1,对本发明实施例做进一步详细说明。
首先说明本实施例要解决的问题,具体如下:
1.自动化数据抽取与预处理:需要能够自动从站控层监控信息表中提取数据,并进行预处理,包括数据清洗、格式标准化、数据字段解析等,以减少手动工作和数据准备时间。
2.多源数据集成:对于不同类型的监控信息表和数据源,需要支持多源数据集成,确保能够处理来自多个站点和标准的数据。
3.自定义规则引擎:需要具备灵活的自定义规则引擎,以允许用户定义和配置特定站点和标准的审查规则,满足不同需求。
4.数据匹配与差异分析:需要强大的数据匹配算法和差异分析功能,能够精确比对数据并生成详细的差异报告,包括值的差异、缺失数据和多余数据等。
5.历史记录和审查:需要建立完整的审查历史记录,以便审查结果的溯源和问题解决。
下面基于本实施例要解决的问题,简要说明本实施例的设计原理,具体如下:
自动化数据抽取与预处理:工具需要能够自动从站控层监控信息表中提取数据,并进行预处理,包括数据清洗、格式标准化、数据字段解析等,以减少手动工作和数据准备时间。
多源数据集成:对于不同类型的监控信息表和数据源,工具需要支持多源数据集成,确保能够处理来自多个站点和标准的数据。针对每个数据源,开发数据转换和映射规则,以将数据从原始格式转换为统一的格式,并映射到目标数据模型。
自定义规则引擎:具备灵活的自定义规则引擎,以允许用户定义和配置特定站点和标准的审查规则,满足不同需求。
数据匹配与差异分析:工具需要强大的数据匹配算法和差异分析功能,能够精确比对数据并生成详细的差异报告,包括值的差异、缺失数据和多余数据等。
下面进一步详细介绍本实施例的技术方案:
1.自动化数据抽取与预处理
数据抽取:使用ETL工具(Extract,Transform,Load),自动连接到站控层监控系统数据库,以提取所需的监控信息表数据。在ETL工具中配置连接到站控层监控信息表的数据源。在连接后,根据数据源的类型提供表名、文件路径或查询条件,选择要抽取的监控信息表或文件。使用ETL工具的抽取功能,从数据源中提取监控信息表的数据。工具将自动执行数据提取过程;
数据格式标准化:对于不同格式的监控信息表,可以开发数据格式标准化模块,将数据转换为统一的格式。这包括字段名称、单位标准、日期时间格式等的标准化;
数据清洗和校验:自动数据清洗和校验模块可以检测和纠正数据中的错误或异常值。例如,它可以检测到缺失的数据、重复的数据、异常值或数据格式错误,并尝试自动修复或提供警告;
字段解析:对于包含多个字段的监控信息表数据,字段解析模块可以自动将数据拆分为单独的字段,并将其映射到标准数据模型中;
数据转换:对于不同类型的监控信息表数据,数据转换模块可以将其转换为标准的数据类型。例如,将日期时间字段转换为统一的日期时间格式,将文本数据转换为数字数据等;
自动识别数据类型:使用自动数据类型识别技术,工具可以自动识别每个字段的数据类型,以便正确解析和处理数据。
2.自定义规则引擎设置
规则定义:首先,需要定义一组规则用于站控层监控信息表审核和比对。规则可以包括需要比对的数据范围、数据验证规则、一致性检查规则、业务规则等;
规则管理:使用自定义规则引擎的规则管理功能,创建、编辑和维护规则集。这些规则可以根据需求进行组织和分类;
数据输入:引擎需要接收站控层监控信息表的数据作为输入。这可以是批处理数据、实时流数据或定期导入的数据;
规则评估引擎:自定义规则引擎包含一个规则评估引擎,用于评估站控层监控信息表的数据是否符合定义的规则。引擎将数据与规则进行比对和验证。
3.数据匹配与差异分析
数据准备:首先,用户从多源数据集成池中选择需要审查和比对校验的监控信息表,数据集成池中的监控信息表都是进行过数据标准化的,包括单位转换、格式调整和数据清洗。
选择匹配算法:
绝对差异匹配:比较两个值的绝对差异是否在某个容忍范围内。
相对差异匹配:比较两个值的相对差异是否在某个容忍范围内,通常以百分比表示。
相似性分数匹配:使用相似性分数(如余弦相似度、皮尔逊相关系数等)来衡量两个数值之间的相似程度。
基于模型的匹配:使用统计模型或机器学习模型来预测两个值之间的关系,并进行匹配。
设置容忍范围:对于绝对差异匹配、相对差异匹配和固定百分比匹配等算法,设置容忍范围,即两个值可以偏离多少才被认为匹配。容忍范围的选择取决于您的具体应用和数据的特点。
执行匹配:对于每一对要比较的数据值,使用选择的匹配算法来比较它们。如果差异在容忍范围内,则认为它们匹配。
结果记录和报告:记录每对数据的匹配结果,通常包括数据标识、匹配结果和差异值。生成匹配结果报告,以便后续分析和处理。
异常处理:对于未匹配或匹配差异超出容忍范围的数据,可以执行相应的异常处理操作,例如生成警报、记录错误、发送通知或进行进一步的调查。
自动化:如果需要定期执行匹配任务,可以将上述步骤自动化,并设置定期调度任务以确保数据匹配的持续进行。
在本发明的一实施例中,还提供一种站控层监控信息表规范化审查及比对校验工具,应用于如上所述的方法,包括数据抽取和预处理单元、多源数据集成单元、数据分析单元以及结果记录和报告生成单元;所述数据抽取和标准化单元、多源数据集成单元、数据分析单元以及结果记录和报告生成单元依次连接;
所述数据抽取和预处理单元包括数据抽取模块、数据格式标准化模块、数据清洗和校验模块、字段解析模块、数据转换模块和数据类型识别模块,所述数据抽取模块用于从数据源中提取监控信息表的数据,所述数据格式标准化模块用于将数据转换为统一的格式,所述数据清洗和校验模块用于检测和纠正数据中的错误或异常值,所述字段解析模块用于将包含多个字段的监控信息表数据拆分为单独的字段,并将其映射到标准数据模型中,所述数据转换模块用于将不同类型的监控信息表数据转换为标准的数据类型;所述识别数据类型模块用于识别每个字段的数据类型;
所述多源数据集成单元用于将所述数据抽取和预处理单元中处理完的数据进行集成和存储,形成多源数据集成池;
所述数据分析单元包括自定义规则引擎模块和数据匹配与差异分析模块;所述自定义规则引擎模块包括规则定义和管理模块和数据输入模块,所述规则定义和管理模块用于定义用于站控层监控信息表审核和比对的规则并且对定义的规则进行集成存储和维护,所述数据输入模块用于接收站控层监控信息表的数据作为输入;所述数据匹配与差异分析模块用于基于匹配算法和容忍范围进行数据的匹配和差异分析,进而输出每对数据的匹配结果;
所述结果记录和报告生成单元用于记录每对数据的匹配结果并生成匹配结果报告,所述匹配结果报告的内容包括数据标识、匹配结果和差异值。
综上所述,本发明至少具备如下有益效果:
提高数据质量:本发明能够自动进行规范化审查和比对校验,确保站控层监控信息表的数据符合预定的规范和标准,从而提高了数据的质量和准确性。
减少人工错误:本发明自动化审查和比对校验减少了人工干预的需求,降低了由于人为错误而引入的数据问题的风险。
节省时间和资源:通过本方法和工具可以大大节省数据管理员和操作员的时间和资源,使他们能够专注于更复杂的数据管理任务。
规范一致性:本发明确保了站控层监控信息表数据的规范一致性,无论数据来自不同的源头,都能够按照相同的标准进行审查和校验。
快速发现问题:本发明能够及时发现数据不一致、缺失或异常,从而使问题能够在早期阶段被发现和解决,减少了潜在的风险。
数据历史记录:本发明具有数据历史记录功能,可以跟踪数据的变化和修复过程,以便进行审计和溯源。
由此可知,本发明技术方案足以解决背景技术中提出的问题。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元(或模块,下同),能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元可结合为一个单元,一个单元可拆分为多个单元,或一些特征可以忽略等。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-0nlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (9)
1.一种站控层监控信息表规范化审查及比对校验方法,其特征在于,包括以下步骤:
进行数据抽取和数据预处理,所述数据预处理包括数据格式标准化、数据清洗和校验、字段解析、数据转换和识别数据类型;
收集并集成多源数据,进而形成多源数据集成池,所述多源数据为多个经过所述数据预处理的数据的集合;
定义一组用于审核和比对的规则,所述用于审核和比对的规则包括需要比对的数据范围、数据验证规则、一致性检查规则和业务规则;
设置数据匹配算法和容忍范围,所述匹配算法包括绝对差异匹配、相对差异匹配和相似性分数匹配,所述容忍范围具体为待比对的两个值的偏离程度阈值;
从多源数据集成池中选择需要审查和比对的多源数据,然后选择匹配算法对多源数据进行比对,如果差异在容忍范围内则认为其匹配,否则为不匹配。
2.根据权利要求1所述的一种站控层监控信息表规范化审查及比对校验方法,其特征在于,还包括产出结果记录报告,所述结果记录报告用于记录每对数据的匹配结果,所述结果记录报告中包括数据标识、匹配结果和差异值,所述匹配结果包括匹配和不匹配。
3.根据权利要求1所述的一种站控层监控信息表规范化审查及比对校验方法,其特征在于,还包括结果的异常处理,所述结果的异常处理用于对未匹配或匹配差异超出容忍范围的数据执行异常处理操作,所述异常处理操作包括生成警报、记录错误、发送通知和进行进一步的调查。
4.根据权利要求1所述的一种站控层监控信息表规范化审查及比对校验方法,其特征在于,所述数据抽取具体如下:
使用ETL工具自动连接到站控层监控系统数据库,以提取所需的监控信息表数据,在ETL工具中配置连接到站控层监控信息表的数据源,在连接后,根据数据源的类型提供表名、文件路径或查询条件,选择要抽取的监控信息表或文件,进而使用ETL工具的抽取功能,从数据源中提取监控信息表的数据。
5.根据权利要求4所述的一种站控层监控信息表规范化审查及比对校验方法,其特征在于,所述数据格式标准化具体为将字段名称、单位标准、日期时间格式进行标准化处理;所述数据清洗和校验具体为检测是否存在缺失的数据、重复的数据、异常值或数据格式错误,并在检测到之后修复并提供警告;所述字段解析具体为将包含多个字段的监控信息表数据拆分为单独的字段,并将其映射到标准数据模型中;数据转换具体为将不同类型的监控信息表数据转换为标准的数据类型;所述识别数据类型具体为识别每个字段的数据类型,以正确解析和处理数据。
6.根据权利要求1所述的一种站控层监控信息表规范化审查及比对校验方法,其特征在于,所述匹配算法还包括基于模型的匹配算法,所述基于模型的匹配算法具体为使用统计模型或机器学习模型来预测两个值之间的关系,并进行匹配。
7.一种站控层监控信息表规范化审查及比对校验工具,其特征在于,应用于权利要求1至6任一所述的方法,包括数据抽取和预处理单元、多源数据集成单元、数据分析单元以及结果记录和报告生成单元;所述数据抽取和标准化单元、多源数据集成单元、数据分析单元以及结果记录和报告生成单元依次连接;
所述数据抽取和预处理单元包括数据抽取模块、数据格式标准化模块、数据清洗和校验模块、字段解析模块、数据转换模块和数据类型识别模块,所述数据抽取模块用于从数据源中提取监控信息表的数据,所述数据格式标准化模块用于将数据转换为统一的格式,所述数据清洗和校验模块用于检测和纠正数据中的错误或异常值,所述字段解析模块用于将包含多个字段的监控信息表数据拆分为单独的字段,并将其映射到标准数据模型中,所述数据转换模块用于将不同类型的监控信息表数据转换为标准的数据类型;所述识别数据类型模块用于识别每个字段的数据类型;
所述多源数据集成单元用于将所述数据抽取和预处理单元中处理完的数据进行集成和存储,形成多源数据集成池;
所述数据分析单元包括自定义规则引擎模块和数据匹配与差异分析模块;所述自定义规则引擎模块包括规则定义和管理模块和数据输入模块,所述规则定义和管理模块用于定义用于站控层监控信息表审核和比对的规则并且对定义的规则进行集成存储和维护,所述数据输入模块用于接收站控层监控信息表的数据作为输入;所述数据匹配与差异分析模块用于基于匹配算法和容忍范围进行数据的匹配和差异分析,进而输出每对数据的匹配结果;
所述结果记录和报告生成单元用于记录每对数据的匹配结果并生成匹配结果报告,所述匹配结果报告的内容包括数据标识、匹配结果和差异值。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至6中任意一项所述的站控层监控信息表规范化审查及比对校验方法。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的站控层监控信息表规范化审查及比对校验方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311697152.7A CN117591594A (zh) | 2023-12-12 | 2023-12-12 | 一种站控层监控信息表规范化审查及比对校验方法及工具 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311697152.7A CN117591594A (zh) | 2023-12-12 | 2023-12-12 | 一种站控层监控信息表规范化审查及比对校验方法及工具 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117591594A true CN117591594A (zh) | 2024-02-23 |
Family
ID=89920058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311697152.7A Pending CN117591594A (zh) | 2023-12-12 | 2023-12-12 | 一种站控层监控信息表规范化审查及比对校验方法及工具 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117591594A (zh) |
-
2023
- 2023-12-12 CN CN202311697152.7A patent/CN117591594A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287052B (zh) | 一种异常任务的根因任务确定方法及装置 | |
CN111027615B (zh) | 基于机器学习的中间件故障预警方法和系统 | |
CN109934268B (zh) | 异常交易检测方法及系统 | |
CN103227734A (zh) | 一种OpenStack云平台异常的检测方法 | |
EP3315465A1 (en) | Method and system for dynamically managing waste water treatment process for optimizing power consumption | |
CN114880312B (zh) | 一种可柔性设置的应用系统业务数据稽核方法 | |
CN112733147A (zh) | 设备安全管理方法及系统 | |
CN111078457A (zh) | 一种基于大数据的存储故障分析方法与装置 | |
CN111126970A (zh) | 一种基于数据一致性的运营管理系统及方法 | |
CN108306997B (zh) | 域名解析监控方法及装置 | |
CN112632330A (zh) | Atm设备的巡检方法、装置、计算机设备和存储介质 | |
CN111338876B (zh) | 一种故障模式与影响分析的决策方法、系统及存储介质 | |
CN117591594A (zh) | 一种站控层监控信息表规范化审查及比对校验方法及工具 | |
CN116467219A (zh) | 一种测试处理方法及装置 | |
CN111181785A (zh) | 基于反馈式链路的监控方法和装置 | |
CN116595353A (zh) | 一种调相机远程故障诊断及智能决策系统 | |
KR101984257B1 (ko) | 클라우드기반 빅데이터분석시스템 및 방법 | |
CN115147236A (zh) | 一种处理方法、处理装置和电子设备 | |
CN114245895A (zh) | 为至少两个日志文件生成一致表示的方法 | |
CN113591266A (zh) | 一种电能表故障概率的分析方法及系统 | |
CN112667469A (zh) | 一种多元化大数据统计报告自动生成方法、系统及可读介质 | |
CN111061580A (zh) | 计算机系统应急预案演练方法、服务器及系统 | |
CN116303380B (zh) | 一种监测业务中的数据质量校验方法、设备及介质 | |
CN117311777A (zh) | 自动化运维平台及方法 | |
CN117951128A (zh) | 一种基于人工智能的数据质量稽查方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |