CN117009837A - 一种基于多域数据的自动智能稽核系统及方法 - Google Patents
一种基于多域数据的自动智能稽核系统及方法 Download PDFInfo
- Publication number
- CN117009837A CN117009837A CN202311028615.0A CN202311028615A CN117009837A CN 117009837 A CN117009837 A CN 117009837A CN 202311028615 A CN202311028615 A CN 202311028615A CN 117009837 A CN117009837 A CN 117009837A
- Authority
- CN
- China
- Prior art keywords
- data
- unit
- domain
- domain data
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000002159 abnormal effect Effects 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims description 64
- 238000004140 cleaning Methods 0.000 claims description 17
- 238000012550 audit Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 13
- 230000005856 abnormality Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000013524 data verification Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 238000013450 outlier detection Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 238000013500 data storage Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 239000012141 concentrate Substances 0.000 abstract description 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 14
- 238000013461 design Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据分析技术领域,具体公开了一种基于多域数据的自动智能稽核系统及方法,系统包括数据采集模块、数据清洗模块、特征提取模块、规则匹配模块、异常检测模块和结果汇总模块。本发明通过自动化的数据稽核方式替代传统人工稽核方式进行多域数据的自动化稽核,减少人工处理和重复性工作,使稽核人员能够专注于更复杂的问题和异常情况,提高稽核效率。本发明可以检测出多域数据中的异常问题,发现人工稽核难以察觉的错误或潜在问题,提高稽核的准确性。本发明能够有效识别出可能的合规问题,更好地确保数据的合规性。本发明可以减少人力和时间投入,降低稽核成本。
Description
技术领域
本发明属于数据分析技术领域,具体涉及一种基于多域数据的自动智能稽核系统及方法。
背景技术
随着企业数字化转型发展,数据价值逐步体现,对跨系统、跨应用和跨平台间异构数据的交互需求呈现爆炸式增长,对企业内部各领域数据质量要求逐步提高,以为企业的长期发展提供决策依据。而在现有数据管理模式下,缺乏统一的数据模型管控和建立数据质量标准,通常由稽核人员对多域数据进行人工稽核,人力和时间成本较大,稽核效率和质量不高。因此,亟需一种自动化的稽核手段来实现数据的自动化稽核及修正,实现企业数据的持续治理。
发明内容
本发明的目的是提供一种基于多域数据的自动智能稽核系统及方法,用以解决现有技术中存在的上述问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面,提供一种基于多域数据的自动智能稽核系统,包括数据采集模块、数据清洗模块、特征提取模块、规则匹配模块、异常检测模块和结果汇总模块,其中:
数据采集模块,用于实时从多个数据源中采集多域数据,所述多域数据包括资源数据、配置数据、告警数据、性能数据、工单数据和/或日志数据;
数据清洗模块,用于对数据采集模块采集的多域数据进行数据清洗,得到清洗后的多域数据;
特征提取模块,用于对清洗后的多域数据进行特征提取,得到数据特征,所述数据特征包括数值特征、时间序列特征、领域专属特征和/或组合特征;
规则匹配模块,用于将数据特征输入预置的规则引擎,利用规则引擎对数据特征进行自定义规则的数据匹配和检测,得到数据检测结果;
异常检测模块,用于采用设定的异常数据检测方法对数据特征进行异常检测,得到异常检测结果;
结果汇总模块,用于汇总数据检测结果和异常检测结果,生成稽核报告。
在一个可能的设计中,所述数据采集模块包括API接口单元、数据库连接单元和文件传输单元,所述API接口单元用于通过应用程序编程接口采集多域数据,所述数据库连接单元用于通过数据库连接接口连接数据库采集多域数据,所述文件传输单元用于连接远程服务器通过文件传输协议采集多域数据。
在一个可能的设计中,所述数据清洗模块包括数据转换单元、数据去重单元、缺失值处理单元、一致性校验单元和数据验证单元,所述数据转换单元用于对多域数据进行格式转换处理,所述数据去重单元用于对多域数据进行去重处理,所述缺失值处理单元用于对多域数据进行缺失值数据删除或缺失值填充,所述一致性校验单元用于对多域数据进行数据一致性校验,所述数据验证单元用于对多域数据进行合规性验证。
在一个可能的设计中,所述特征提取模块包括特征选择单元、特征构建单元、特征缩放单元、特征降维单元、特征组合单元和特征验证单元,分别用于进行多域数据的特征选择处理、特征构建处理、特征缩放处理、特征降维处理、特征组合处理和特征验证处理。
在一个可能的设计中,所述规则匹配模块包括规则定义单元和规则优化单元,所述规则定义单元用于构建自定义规则,所述规则优化单元用于更新和优化自定义规则。
在一个可能的设计中,所述异常检测模块包括模型选择单元,所述模型选择单元用于进行异常数据检测方法的选择,所述异常数据检测方法包括基于统计的方法、基于聚类的方法以及基于离群点检测的方法。
在一个可能的设计中,所述结果汇总模块包括可视化单元,所述可视化单元用于可视化展示稽核报告。
在一个可能的设计中,所述系统还包括数据存储模块,所述数据存储模块用于结构化、半结构化和/或非结构化存储多域数据。
第二方面,提供一种基于多域数据的自动智能稽核方法,包括:
实时从多个数据源中采集多域数据,所述多域数据包括资源数据、配置数据、告警数据、性能数据、工单数据和/或日志数据;
对数据采集模块采集的多域数据进行数据清洗,得到清洗后的多域数据;
对清洗后的多域数据进行特征提取,得到数据特征,所述数据特征包括数值特征、时间序列特征、领域专属特征和/或组合特征;
将数据特征输入预置的规则引擎,利用规则引擎对数据特征进行自定义规则的数据匹配和检测,得到数据检测结果;
采用设定的异常数据检测方法对数据特征进行异常检测,得到异常检测结果;
汇总数据检测结果和异常检测结果,生成稽核报告进行存储及可视化展示。
第三方面,提供一种基于多域数据的自动智能稽核设备,包括:
存储器,用于存储指令;
处理器,用于读取所述存储器中存储的指令,并根据指令执行上述第二方面所述的方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行第二方面所述的方法。同时,还提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行第二方面所述的方法。
有益效果:本发明可以替代传统人工稽核方式进行多域数据的自动化稽核,减少人工处理和重复性工作,使稽核人员能够专注于更复杂的问题和异常情况,提高稽核效率。本发明可以检测出多域数据中的异常问题,发现人工稽核难以察觉的错误或潜在问题,提高稽核的准确性。本发明能够有效识别出可能的合规问题,更好地确保数据的合规性。本发明可以减少人力和时间投入,降低稽核成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中系统的构成示意图;
图2为本发明实施例2中方法的步骤示意图;
图3为本发明实施例3中设备的构成示意图。
具体实施方式
在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,除非另有明确的规定和限定,术语“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在实施例中的具体含义。
在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实施例中,可以不以非必要的细节来示出众所周知的过程、结构和技术,以避免使得实施例不清楚。
实施例1:
本实施例提供一种基于多域数据的自动智能稽核系统,如图1所示,包括数据采集模块、数据清洗模块、特征提取模块、规则匹配模块、异常检测模块和结果汇总模块,其中:
数据采集模块,用于实时从多个数据源中采集多域数据,所述多域数据包括资源数据、配置数据、告警数据、性能数据、工单数据和/或日志数据。所述数据采集模块包括API接口单元、数据库连接单元和文件传输单元,所述API接口单元用于通过应用程序编程接口采集多域数据,所述数据库连接单元用于通过数据库连接接口连接数据库采集多域数据,所述文件传输单元用于连接远程服务器通过文件传输协议采集多域数据。
数据清洗模块,用于对数据采集模块采集的多域数据进行数据清洗,得到清洗后的多域数据。所述数据清洗模块包括数据转换单元、数据去重单元、缺失值处理单元、一致性校验单元和数据验证单元,所述数据转换单元用于对多域数据进行格式转换处理,所述数据去重单元用于对多域数据进行去重处理,所述缺失值处理单元用于对多域数据进行缺失值数据删除或缺失值填充,所述一致性校验单元用于对多域数据进行数据一致性校验,所述数据验证单元用于对多域数据进行合规性验证。
特征提取模块,用于对清洗后的多域数据进行特征提取,得到数据特征,所述数据特征包括数值特征、时间序列特征、领域专属特征和/或组合特征。所述特征提取模块包括特征选择单元、特征构建单元、特征缩放单元、特征降维单元、特征组合单元和特征验证单元,分别用于进行多域数据的特征选择处理、特征构建处理、特征缩放处理、特征降维处理、特征组合处理和特征验证处理。
规则匹配模块,用于将数据特征输入预置的规则引擎,利用规则引擎对数据特征进行自定义规则的数据匹配和检测,得到数据检测结果。所述规则匹配模块包括规则定义单元和规则优化单元,所述规则定义单元用于构建自定义规则,所述规则优化单元用于更新和优化自定义规则。
异常检测模块,用于采用设定的异常数据检测方法对数据特征进行异常检测,得到异常检测结果。所述异常检测模块包括模型选择单元,所述模型选择单元用于进行异常数据检测方法的选择,所述异常数据检测方法包括基于统计的方法、基于聚类的方法以及基于离群点检测的方法。
结果汇总模块,用于汇总数据检测结果和异常检测结果,生成稽核报告。所述结果汇总模块包括可视化单元,所述可视化单元用于可视化展示稽核报告。
数据存储模块,所述数据存储模块用于结构化、半结构化和/或非结构化存储多域数据。
实施例2:
本实施例提供一种基于多域数据的自动智能稽核系统,如图2所示,包括以下步骤:
S1.实时从多个数据源中采集多域数据,所述多域数据包括资源数据、配置数据、告警数据、性能数据、工单数据和/或日志数据。
具体实施时,可利用API接口与周边系统进行交互,采集多域数据,API提供一组定义好的接口和协议,通过HTTP请求或其他协议与数据源进行通信,获取数据。对于存储在关系型数据库中的数据,可使用相应的数据库连接接口(如JDBC、ODBC)来对接获取。对于以文件形式存储在远程服务器上的数据,可以使用相应文件传输协议(如FTP、SFTP、SCP)来对接下载文件,得到所需多域数据。多域数据包括资源数据、配置数据、告警数据、性能数据、工单数据和/或日志数据。
S2.对数据采集模块采集的多域数据进行数据清洗,得到清洗后的多域数据。
具体实施时,需要对收集到的多域数据进行数据清洗,为后续的稽核和分析做好准备。数据清洗的目标包括处理数据缺失值、解决数据格式问题、确保数据的准确性和一致性等。涉及的主要过程包括:
数据格式转换:在数据清洗过程中,需要将数据转换为统一的格式,以便进行后续的分析和比对。
去除重复数据:通过比较数据的唯一标识符或关键属性,可以识别和去除重复数据,确保每条记录的唯一性。
处理缺失值:基于模型预测缺失值,删除缺失值较多的记录或进行插值填充。
数据一致性校验:通过关键属性,进行数据一致性校验,可以检查数据之间的逻辑关系和一致性约束,并进行修复或纠正。
数据验证和校验:验证数据的完整性、准确性和合法性,确保数据符合预期的格式和规范。
数据清洗是一个迭代的过程,可根据实际情况不断调整和改进清洗步骤和方法。
S3.对清洗后的多域数据进行特征提取,得到数据特征,所述数据特征包括数值特征、时间序列特征、领域专属特征和/或组合特征。
具体实施时,需要将清洗后的多域数据转换为可供后续稽核使用的有意义的特征表示,有助于揭示数据的内在模式、关系和特征。特征提取的处理过程可包括特征选择处理、特征构建处理、特征缩放处理、特征降维处理、特征组合处理和特征验证处理。提取的数据特征包括:
数值特征:对于数值型数据,可提取一系列统计特征,如均值、标准差、最大值、最小值、中位数等。这些统计特征能够描述数据的集中趋势、离散程度和分布形态。
时间序列特征:对于时间序列数据,可提取各种时间相关的特征。例如,可以计算时间序列的趋势、周期性、季节性、滞后相关等特征。
领域专属特征:针对特定领域的数据,需根据领域知识和业务规则提取特定的领域专属特征。
组合特征:通过组合多个原始特征,可以创建新的特征来捕捉数据之间的关系和交互。
在进行特征提取时,可根据具体问题和数据的特点选择适当的特征提取方法,同时,注意特征的选择和维度的管理。
S4.将数据特征输入预置的规则引擎,利用规则引擎对数据特征进行自定义规则的数据匹配和检测,得到数据检测结果。
具体实施时,自定义规则包括稽核规则或业务规则,可预先进行规则的构建,明确定义稽核规则或业务规则,这些规则描述了预期的数据状态、约束条件和业务逻辑,规则可以根据不同的稽核领域和问题需求进行制定,可以包括数据格式、范围、阈值、关联关系等方面的规则。在进行规则匹配时,根据预先定义的规则,将数据与规则进行匹配和检测,可以设定为简单的规则逻辑判断,也可以是复杂的规则组合和条件判断,规则匹配的过程可以通过规则引擎来实现。随着数据和业务的变化,稽核规则或业务规则需要进行更新和优化,以提高规则匹配的准确性和适应性。
S5.采用设定的异常数据检测方法对数据特征进行异常检测,得到异常检测结果。
异常检测是指识别数据中的异常或异常行为,数据异常检测可以帮助发现潜在的问题、异常模式或异常行为,从而支持稽核和风险管理的决策。涉及的主要检测方法包括:
基于统计的方法:统计方法基于数据的分布、均值、方差等统计特征来检测异常。
基于聚类的方法:聚类方法将数据点划分为不同的簇群,异常点通常与其他数据点不同簇或孤立簇。
基于离群点检测的方法:离群点检测方法专门用于识别数据集中的离群点,这些点与其他数据点的模式和行为明显不同。
在进行数据异常检测时,可根据数据类型、领域知识和具体问题选择适当的异常数据检测方法模型。综合多种方法的结果、阈值设置和领域专家的反馈可以提高异常检测的准确性。
S6.汇总数据检测结果和异常检测结果,生成稽核报告进行存储及可视化展示。
具体实施时,在完成相应的稽核分析处理后,即可汇总数据检测结果和异常检测结果,生成稽核报告,稽核报告可包含对整个稽核分析检测结果的总结和建议。稽核报告中可包含根据异常检测结果对异常数据的详细描述,以及对潜在问题和解决方案的分析和建议。对于发现的异常数据,可进行详细的描述和表征,包括异常的特征、异常的数据点或记录、异常的时间范围等信息。同时,可通过文本、图表、表格等方式可视化方式呈现稽核结果和分析建议,包括趋势图、柱状图、饼图等,以及数据分布图、相关性矩阵等。
通过整合企业内数据稽核的规则和方法,形成智能化的稽核方式,可助力企业内多域数据的质量提升,有效消除数据问题以及系统间的数据差异,保障数据完整率、数据合规率、关联一致率、数据准确率。
实施例3:
本实施例提供一种基于多域数据的自动智能稽核设备,如图3所示,在硬件层面,包括:
数据接口,用于建立处理器与外部数据端的数据对接;
存储器,用于存储指令;
处理器,用于读取所述存储器中存储的指令,并根据指令执行实施例2中的基于多域数据的自动智能稽核方法。
可选地,该设备还包括内部总线。处理器与存储器和数据接口可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
所述存储器可以但不限于包括随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、闪存(Flash Memory)、先进先出存储器(First InputFirst Output,FIFO)和/或先进后出存储器(First In Last Out,FILO)等。所述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
实施例4:
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行实施例2中的基于多域数据的自动智能稽核方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。
本实施例还提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行实施例2中的基于多域数据的自动智能稽核方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多域数据的自动智能稽核系统,其特征在于,包括数据采集模块、数据清洗模块、特征提取模块、规则匹配模块、异常检测模块和结果汇总模块,其中:
数据采集模块,用于实时从多个数据源中采集多域数据,所述多域数据包括资源数据、配置数据、告警数据、性能数据、工单数据和/或日志数据;
数据清洗模块,用于对数据采集模块采集的多域数据进行数据清洗,得到清洗后的多域数据;
特征提取模块,用于对清洗后的多域数据进行特征提取,得到数据特征,所述数据特征包括数值特征、时间序列特征、领域专属特征和/或组合特征;
规则匹配模块,用于将数据特征输入预置的规则引擎,利用规则引擎对数据特征进行自定义规则的数据匹配和检测,得到数据检测结果;
异常检测模块,用于采用设定的异常数据检测方法对数据特征进行异常检测,得到异常检测结果;
结果汇总模块,用于汇总数据检测结果和异常检测结果,生成稽核报告。
2.根据权利要求1所述的一种基于多域数据的自动智能稽核系统,其特征在于,所述数据采集模块包括API接口单元、数据库连接单元和文件传输单元,所述API接口单元用于通过应用程序编程接口采集多域数据,所述数据库连接单元用于通过数据库连接接口连接数据库采集多域数据,所述文件传输单元用于连接远程服务器通过文件传输协议采集多域数据。
3.根据权利要求1所述的一种基于多域数据的自动智能稽核系统,其特征在于,所述数据清洗模块包括数据转换单元、数据去重单元、缺失值处理单元、一致性校验单元和数据验证单元,所述数据转换单元用于对多域数据进行格式转换处理,所述数据去重单元用于对多域数据进行去重处理,所述缺失值处理单元用于对多域数据进行缺失值数据删除或缺失值填充,所述一致性校验单元用于对多域数据进行数据一致性校验,所述数据验证单元用于对多域数据进行合规性验证。
4.根据权利要求1所述的一种基于多域数据的自动智能稽核系统,其特征在于,所述特征提取模块包括特征选择单元、特征构建单元、特征缩放单元、特征降维单元、特征组合单元和特征验证单元,分别用于进行多域数据的特征选择处理、特征构建处理、特征缩放处理、特征降维处理、特征组合处理和特征验证处理。
5.根据权利要求1所述的一种基于多域数据的自动智能稽核系统,其特征在于,所述规则匹配模块包括规则定义单元和规则优化单元,所述规则定义单元用于构建自定义规则,所述规则优化单元用于更新和优化自定义规则。
6.根据权利要求1所述的一种基于多域数据的自动智能稽核系统,其特征在于,所述异常检测模块包括模型选择单元,所述模型选择单元用于进行异常数据检测方法的选择,所述异常数据检测方法包括基于统计的方法、基于聚类的方法以及基于离群点检测的方法。
7.根据权利要求1所述的一种基于多域数据的自动智能稽核系统,其特征在于,所述结果汇总模块包括可视化单元,所述可视化单元用于可视化展示稽核报告。
8.根据权利要求1所述的一种基于多域数据的自动智能稽核系统,其特征在于,所述系统还包括数据存储模块,所述数据存储模块用于结构化、半结构化和/或非结构化存储多域数据。
9.一种基于多域数据的自动智能稽核方法,其特征在于,包括:
实时从多个数据源中采集多域数据,所述多域数据包括资源数据、配置数据、告警数据、性能数据、工单数据和/或日志数据;
对数据采集模块采集的多域数据进行数据清洗,得到清洗后的多域数据;
对清洗后的多域数据进行特征提取,得到数据特征,所述数据特征包括数值特征、时间序列特征、领域专属特征和/或组合特征;
将数据特征输入预置的规则引擎,利用规则引擎对数据特征进行自定义规则的数据匹配和检测,得到数据检测结果;
采用设定的异常数据检测方法对数据特征进行异常检测,得到异常检测结果;
汇总数据检测结果和异常检测结果,生成稽核报告进行存储及可视化展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311028615.0A CN117009837A (zh) | 2023-08-15 | 2023-08-15 | 一种基于多域数据的自动智能稽核系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311028615.0A CN117009837A (zh) | 2023-08-15 | 2023-08-15 | 一种基于多域数据的自动智能稽核系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117009837A true CN117009837A (zh) | 2023-11-07 |
Family
ID=88576036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311028615.0A Pending CN117009837A (zh) | 2023-08-15 | 2023-08-15 | 一种基于多域数据的自动智能稽核系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009837A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118170857A (zh) * | 2024-05-15 | 2024-06-11 | 华东冶金地质勘查局测绘总队 | 一种地下空间二三维一体化成图建库方法及系统 |
CN118297739A (zh) * | 2024-06-03 | 2024-07-05 | 江西省通信产业服务有限公司 | 基于多元代理人模型的稽核分析方法及数据中台 |
-
2023
- 2023-08-15 CN CN202311028615.0A patent/CN117009837A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118170857A (zh) * | 2024-05-15 | 2024-06-11 | 华东冶金地质勘查局测绘总队 | 一种地下空间二三维一体化成图建库方法及系统 |
CN118297739A (zh) * | 2024-06-03 | 2024-07-05 | 江西省通信产业服务有限公司 | 基于多元代理人模型的稽核分析方法及数据中台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117009837A (zh) | 一种基于多域数据的自动智能稽核系统及方法 | |
CN106557991B (zh) | 电压监测数据平台 | |
CN104217004B (zh) | 一种交易系统的数据库热点的监控方法及装置 | |
CN117971606B (zh) | 基于ElasticSearch的日志管理系统及方法 | |
CN106951360B (zh) | 数据统计完整度计算方法和系统 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN109885607A (zh) | 一种工业海量非结构化数据处理方法及系统 | |
CN113468239A (zh) | 基于规则引擎实现物联网行业用量统计的方法和系统 | |
CN111291246A (zh) | 一种大数据快速分析系统 | |
CN117291575A (zh) | 设备检修方法、装置、计算机设备和存储介质 | |
CN111241145A (zh) | 一种基于大数据的自愈规则挖掘方法及装置 | |
CN115983582A (zh) | 一种数据分析方法和能耗管理系统 | |
CN114860759A (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
CN114049036A (zh) | 数据计算平台、方法、设备及存储介质 | |
CN111177188A (zh) | 一种基于聚合边与时序聚合边的快速海量时序数据处理方法 | |
CN111626586B (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
WO2024021603A1 (zh) | 故障处理方法、设备和存储介质 | |
XiaoYang et al. | Research on Data Cleaning Technology of Distribution Electrical Communication Network | |
CN118689945A (zh) | 一种用于数据血缘关系变迁的实时监测方法及系统 | |
CN118674031A (zh) | 主网设备标准的语义知识库构建方法 | |
CN115237917A (zh) | 数据中台的数据计算方法、装置、设备及可读存储介质 | |
CN111881173A (zh) | 一种基于Hive的数据修改方法、装置及存储介质 | |
CN115344629A (zh) | 数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |