CN113342939A - 数据质量监控方法、装置及相关设备 - Google Patents

数据质量监控方法、装置及相关设备 Download PDF

Info

Publication number
CN113342939A
CN113342939A CN202110706395.7A CN202110706395A CN113342939A CN 113342939 A CN113342939 A CN 113342939A CN 202110706395 A CN202110706395 A CN 202110706395A CN 113342939 A CN113342939 A CN 113342939A
Authority
CN
China
Prior art keywords
data
index
target
preset
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110706395.7A
Other languages
English (en)
Other versions
CN113342939B (zh
Inventor
曹红姣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110706395.7A priority Critical patent/CN113342939B/zh
Publication of CN113342939A publication Critical patent/CN113342939A/zh
Application granted granted Critical
Publication of CN113342939B publication Critical patent/CN113342939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本申请涉及数据处理技术,提供一种数据质量监控方法、装置、计算机设备与存储介质,包括:确定问题分析文本集;调用TF‑IDF算法对问题分析文本集进行权重计算,得到权重向量矩阵;选取权重靠前预设数量的问题指标作为目标问题指标,调整目标问题指标的权重,得到目标权重;根据目标问题指标值与目标权重得到新数据的健康指数;调用影响程度预测模型处理目标问题指标值,得到目标问题指标的影响程度,确定目标问题指标对应的指标值区间,并计算预设健康指数阈值;检测健康指数是否大于预设健康指数阈值;当检测结果为是时,根据数据质量评价结果清洗新数据,得到目标新数据。本申请能够保证数据质量监控的准确性,促进智慧城市的快速发展。

Description

数据质量监控方法、装置及相关设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据质量监控方法、装置、计算机设备及介质。
背景技术
企业在进行市场情报调研、客户关系维护、财务报表展现、战略决策支持等,都需要信息系统进行数据的搜集、分析、知识发现,为决策者提供充足且准确的情报和资料。数据质量问题是影响信息系统运行的关键因素,直接关系到信息系统建设的成败。根据“垃圾进,垃圾出”的原理,为了使信息系统建设取得预期效果,达到数据决策的目标,就要求信息系统提供的数据是可靠的,能够准确反应客观事实。
在实现本申请的过程中,发明人发现现有技术存在如下技术问题:现有的数据质量监控大多通过人为设置若干个质量考量指标及质量考量指标对应的权重,通过分析数据的质量考量指标值与权重得到数据的健康程度。而人为设置质量考量指标与权重,无法根据数据的实际情况动态调整质量考量指标与权重,从而导致数据质量监控的准确性较低。
因此,有必要提供一种数据质量监控方法,能够提高数据质量监控的准确性。
发明内容
鉴于以上内容,有必要提出一种数据质量监控方法、数据质量监控装置、计算机设备及介质,能够提高数据质量监控的准确性。
本申请实施例第一方面提供一种数据质量监控方法,用于监控预设数据供应端提供的数据质量,所述数据质量监控方法包括:
获取预设数据供应端提供的原始历史数据对应的问题指标集,并确定所述问题指标集对应的问题分析文本集;
调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵;
根据所述权重向量矩阵,选取权重靠前的预设数量的问题指标作为目标问题指标,并根据所述预设数量调整所述目标问题指标的权重,得到目标权重;
获取并解析所述预设数据供应端提供的新数据,得到目标问题指标值,并根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数;
调用预先训练好的影响程度预测模型处理所述目标问题指标值,得到所述目标问题指标的影响程度,根据所述影响程度确定所述目标问题指标对应的指标值区间,并根据所述指标值区间计算预设健康指数阈值,其中,所述影响程度与指标值区间存在映射关系;
检测所述健康指数是否大于预设健康指数阈值;
当检测结果为所述健康指数大于所述预设健康指数阈值时,调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果;
根据所述数据质量评价结果清洗所述新数据,得到目标新数据。
进一步地,在本申请实施例提供的上述数据质量监控方法中,所述调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵包括:
对所述问题分析文本集进行去停用词处理,得到第一问题分析文本集;
对所述第一问题分析文本集进行分词处理,得到问题分析文本特征词向量矩阵;
调用TF-IDF算法处理所述问题分析文本特征词向量矩阵,得到每一所述问题指标的词频与逆向文件频率;
按照预设数据模型处理所述词频与所述逆向文件频率,得到权重向量矩阵。
进一步地,在本申请实施例提供的上述数据质量监控方法中,所述根据所述预设数量调整所述目标问题指标的权重,得到目标权重包括:
获取预设数量的所述目标问题指标间的权重比;
根据所述权重比确定权重总份数以及每个所述目标问题指标的权重子份数;
计算所述权重子份数与所述权重总份数的占比,得到目标权重。
进一步地,在本申请实施例提供的上述数据质量监控方法中,所述根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数包括:
确定每一所述目标问题指标值对应的目标权重;
乘积处理每一所述目标指标值与对应的所述目标权重,得到第一健康指数;
求和处理所述第一健康指数,得到所述新数据的健康指数。
进一步地,在本申请实施例提供的上述数据质量监控方法中,所述根据所述影响程度确定所述目标问题指标对应的指标值区间包括:
获取所述影响程度;
确定预先设置的所述影响程度与指标值区间的目标映射关系;
根据所述影响程度遍历所述目标映射关系,得到所述影响程度对应的指标值区间。
进一步地,在本申请实施例提供的上述数据质量监控方法中,所述调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果包括:
获取与所述数据质量评价规则对应的预设评价模型;
基于所述预设评价模型处理所述新数据,得到初始数据质量评价结果;
按照预设数据格式处理所述初始数据质量评价结果,得到数据质量评价结果。
进一步地,在本申请实施例提供的上述数据质量监控方法中,所述根据所述数据质量评价结果清洗所述新数据,得到目标新数据包括:
解析所述数据质量评价结果,得到异常类型;
当所述异常类型为新数据存在缺失值时,启动相应的数据清洗规则进行填补或剔除处理;
当所述异常类型为新数据存在异常值时,启动相应的数据清洗规则对异常值进行过滤处理;
当所述异常类型为新数据存在重复值时,启动相应的数据清洗规则可以是对重复的数据进行清除处理。
本申请实施例第二方面还提供一种数据质量监控装置,所述数据质量监控装置包括:
文本确定模块,用于获取预设数据供应端提供的原始历史数据对应的问题指标集,并确定所述问题指标集对应的问题分析文本集;
权重计算模块,用于调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵;
权重调整模块,用于根据所述权重向量矩阵,选取权重靠前的预设数量的问题指标作为目标问题指标,并根据所述预设数量调整所述目标问题指标的权重,得到目标权重;
指数计算模块,用于获取并解析所述预设数据供应端提供的新数据,得到目标问题指标值,并根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数;
指标确定模块,用于调用预先训练好的影响程度预测模型处理目标问题指标值,得到所述目标问题指标的影响程度,根据所述影响程度确定所述目标问题指标对应的指标值区间,并根据所述指标值区间计算预设健康指数阈值,其中,所述影响程度与指标值区间存在映射关系;
阈值检测模块,用于检测所述健康指数是否大于预设健康指数阈值;
评价确定模块,用于当检测结果为所述健康指数大于所述预设健康指数阈值时,调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果;
数据清洗模块,用于根据所述数据质量评价结果清洗所述新数据,得到目标新数据。
本申请实施例第三方面还提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述数据质量监控方法。
本申请实施例第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述数据质量监控方法。
本申请实施例提供的上述数据质量监控方法、数据质量监控装置、计算机设备以及计算机可读存储介质,通过TF-IDF算法能够实现所述目标问题指标的动态调整,保证了数据质量监控的准确性;此外,本申请通过预先训练影响程度预测模型的方式,调用所述影响程度预测模型处理目标指标问题值,进而动态确定目标指标问题值对应的指标值区间,基于所处区间来确定是否发生数据异常,能够避免设置固定的指标值区间导致的误告警等问题,提高数据异常检测的准确性。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的数据质量监控模块等,能够促进智慧城市的快速发展。
附图说明
图1是本申请实施例一提供的数据质量监控方法的流程图。
图2是本申请实施例二提供的数据质量监控装置的结构图。
图3是本申请实施例三提供的计算机设备的结构示意图。
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本发明实施例提供的数据质量监控方法由计算机设备执行,相应地,数据质量监控装置运行于计算机设备中。
图1是本申请第一实施方式的数据质量监控方法的流程图。如图1所示,所述数据质量监控方法可以包括如下步骤,所述数据质量监控方法可用于监控预设数据供应端提供的数据质量,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取预设数据供应端提供的原始历史数据对应的问题指标集,并确定所述问题指标集对应的问题分析文本集。
在本申请的至少一实施例中,所述预设数据供应端是指提供各类数据的供应端,例如,所述预设数据供应端可以是指提供金融数据的万得供应端。所述预设数据供应端与若干个数据处理端连接,进行数据传输。所述原始历史数据可以是指所述预设数据供应端提供的未经清洗的历史金融数据。
其中,存储所述原始历史数据至数据池中,所述数据池是指用于存储数据的库。所述数据池的大小可以自主设定,采集的数据可以按照数据类型、数据采集时间等方式分类存放进数据池中。数据池可以提供读取接口(API),写入接口,更新接口,修改接口等供所述数据处理端调用。
在本申请的至少一实施例中,对于所述预设供应端提供的数据,可能存在:数据推送不定时、数据准确性低或者数据推送延迟等问题。对于上述问题,可以通过问题指标集的方式收集起来。所述问题指标集是指所述原始历史数据中能够存在的各项问题指标的集合,所述问题指标可以包括但不限于:数据范围问题指标、数据总数问题指标、阈值问题指标以及重复数据问题指标。
在本申请的至少一实施例中,对于上述问题指标集,可以建立与之对应的问题分析文本集,所述问题分析文本集可以是指对每一批原始历史数据中的各项问题指标进行问题分析的文本集合。示例性地,存在第1,2,3…n批原始历史数据,对于每一批次的原始历史数据,确定对应的问题指标集,对所述问题指标集中的每一问题指标进行问题分析,得到问题分析文本集。可以理解的是,存在n批次原始历史数据,即存在n个问题分析文本集。所述问题分析文本集可以是系统人员分析得到的,也可以通过机器学习的方式得到,在此不做限制。考虑到数据存储的隐私性与保密性,所述问题分析文本集可存储于区块链的目标节点中。
本申请通过获取对应原始历史数据的问题指标集,并建立所述问题指标集对应的问题分析文本集,调用TF-IDF算法对所述文本分析文本集进行权重分析,从而选取权重靠前的预设数量的问题指标作为目标问题指标。由于所述原始历史数据是周期性变化的,因此,所述问题指标集与所述问题分析文本集也可以为周期性变化的,进而,所述目标问题指标也可以为周期性变化的。通过TF-IDF算法能够实现所述目标问题指标的动态调整,保证了数据质量监控的准确性。
S12,调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵。
在本申请的至少一实施例中,TF-IDF算法是指词频-逆向文件频率算法,本质主要是以词频统计作为考虑依据,并赋予相应的权重。
可选地,所述调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵包括:
对所述问题分析文本集进行去停用词处理,得到第一问题分析文本集;
对所述第一问题分析文本集进行分词处理,得到问题分析文本特征词向量矩阵;
调用TF-IDF算法处理所述问题分析文本特征词向量矩阵,得到每一所述问题指标的词频与逆向文件频率;
按照预设数据模型处理所述词频与所述逆向文件频率,得到权重向量矩阵。
其中,对所述问题分析文本集进行去停用词处理以及对所述第一问题分析文本集进行分词处理的预处理技术属于现有技术,在此不做赘述。所述预设数据模型是指用于根据所述词频与所述逆向文件频率计算权重向量矩阵的数学模型,所述预设数据模型为系统人员预先训练的,在此不做限制。所述权重向量矩阵包括问题分析文本特征词及其对应的权重,所述权重向量矩阵中的问题分析文本特征词与其对应的权重按照一定的数据格式存储,所述问题分析文本特征词可以是指包含所述问题指标的特征词,所述问题指标包括但不限于:数据范围问题指标、数据总数问题指标、阈值问题指标以及重复数据问题指标。
S13,根据所述权重向量矩阵,选取权重靠前的预设数量的问题指标作为目标问题指标,并根据所述预设数量调整所述目标问题指标的权重,得到目标权重。
在本申请的至少一实施例中,所述预设数量是指预先设置的用于评价数据健康指数的数量,例如,所述预设数量可以为4个。将所述权重向量矩阵中的各个向量按照权重从大到小的顺序排列,并选取权重靠前的4个问题指标作为目标问题指标,所述目标问题指标对应的权重为目标权重。可以理解的是,当所述权重向量矩阵中包含的问题指标的数量大于4个,而只选取权重靠前的4个问题指标作为目标问题指标时,需要按照所述预设数量调整所述目标问题指标的权重,从而得到目标权重,以保证4个目标问题指标对应的权重之和为1。示例性地,所述数据范围问题指标对应的目标权重为5%,所述数据总数问题指标对应的目标权重为50%,所述阈值问题指标对应的目标权重为25%,所述重复数据问题指标对应的目标权重为20%。
可选地,所述根据所述预设数量调整所述目标问题指标的权重,得到目标权重包括:
获取预设数量的所述目标问题指标间的权重比;
根据所述权重比确定权重总份数以及每个所述目标问题指标的权重子份数;
计算所述权重子份数与所述权重总份数的占比,得到目标权重。
其中,按照所述预设数量调整所述目标问题指标的权重,得到目标权重,以保证所述预设数量的目标问题指标对应的权重之和为1。
S14,获取并解析所述预设数据供应端提供的新数据,得到目标问题指标值,并根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数。
在本申请的至少一实施例中,所述新数据是指所述预设数据供应端提供的最新数据,通过对所述新数据按照所述目标问题指标进行解析,得到目标问题指标值。
示例性地,对于所述目标问题指标为数据范围问题指标时,监控最大值和最小值,检测数据范围是否在一个合理的范围;如果在历史数据范围内,值为1*0.05,如果不在历史数据范围,值为0*0.05。
示例性地,对于所述目标问题指标为数据总数问题指标时,将数据总数加入数据的健康指数的统计因子,且可以作为整体数据同步实效的判断依据。此外,在实际处理过程中,由于国外指标、港股指标、A股指标节假日不同,同一时间数据更新状态不一样,这种特殊情况需要考虑进入预设算法本身,比如公共工作日指标总数是500,国外节假日国内工作日指标总数是400,所述预设算法是指预先设置的用于调用相应计算规则处理新数据以得到目标问题指标值的算法。
示例性地,对于所述目标问题指标为阈值问题指标时,筛选关键指标数据,按年统计年度均值,按照时间的远近调整权重大小,数据所处的置信区间处于95%之内。
示例性地,对于所述目标问题指标为重复数据问题指标时,对万得供应端的月份维度进行重复数据监控,取最近一年的历史数据且假设都是真实有效数据,统计每个月出现重复数据的次数分布。可以理解的是,如果新插入指标A后重复数据刷新了历史重复数值占比,则该指标的值存在风险,可能是错误数值。
在本申请的至少一实施例中,所述根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数也即将所述目标问题指标值与所述目标权重进行乘积处理,再将每个所述目标问题指标对应的乘积相加,即得到所述新数据的健康指数。
可选地,所述根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数包括:
确定每一所述目标问题指标值对应的目标权重;
乘积处理每一所述目标指标值与对应的所述目标权重,得到第一健康指数;
求和处理所述第一健康指数,得到所述新数据的健康指数。
S15,调用预先训练好的影响程度预测模型处理目标问题指标值,得到所述目标问题指标的影响程度,根据所述影响程度确定所述目标问题指标对应的指标值区间,并根据所述指标值区间计算预设健康指数阈值,其中,所述影响程度与指标值区间存在映射关系。
在本申请的至少一实施例中,不同影响程度对应不同的指标值区间,将不同问题指标的影响程度与对应的指标值区间预先进行关联,也即预先建立目标映射关系。可选地,所述根据所述影响程度确定所述目标问题指标对应的指标值区间包括:
获取所述影响程度;
确定预先设置的所述影响程度与指标值区间的目标映射关系;
根据所述影响程度遍历所述目标映射关系,得到所述影响程度对应的指标值区间。
本申请对目标问题指标的影响程度的确定方式可以根据不同时长间隔内目标问题指标的指标值与对应时长间隔内目标问题指标的预设告警阈值的比值来确定对应的影响度。例如,以万得供应端提供的一个星期内、五个工作日实际指标总数、对应的指标总数的预设告警阈值为1000的数据为例进行说明。比如从周一到周五,每一天的实际指标总数分别为100、100、500、500、800,则对应的指标值与目标问题指标的预设告警阈值的比值为0.1、0.1、0.5、0.5、0.8,则可以将比值小于0.3时,对应的影响程度设置为1;将比值大于0.3而小于0.7的影响程度设置为2,比值大于0.7而小于1的影响程度设置为3。本申请实施例对目标问题指标的影响程度的确定方式与表征方式不作限定,比如,在其他实施例中,还可以根据目标问题指标的指标值与目标问题指标的预设告警阈值的差值大小确定。
可选地,本申请基于指标值以及目标问题指标的影响程度,对机器学习模型进行训练,得到影响程度预测模型。示例性地,将得到的目标问题指标的指标值以及对应目标问题指标的影响程度分别作为机器学习模型的输入参数与输出参数,对机器学习模型进行训练,得到的影响度预测模型。所述影响程度预测模型可以实现根据不同的指标值,确定对应的目标问题指标的影响程度。所述机器学习模型可以采用逻辑回归模型训练得到,在此不做限制,模型训练的过程为现有技术,在此不做赘述。
可选地,一个所述目标问题指标对应一个指标值区间,当所述目标问题指标的数量为多个时,其对应的指标值区间的数量也为多个,此时根据所述指标值区间以及所述指标值区间对应的目标权重计算预设健康指数阈值。
本申请通过预先训练影响程程度预测模型的方式,调用所述影响程度预测模型处理目标指标问题值,进而动态确定目标指标问题值对应的指标值区间,基于所处区间来确定是否发生数据异常,能够避免设置固定的指标值区间导致的误告警等问题,提高数据异常检测的准确性。
S16,检测所述健康指数是否大于预设健康指数阈值,当检测结果为所述健康指数大于所述预设健康指数阈值时,执行步骤S17。
在本申请的至少一实施例中,所述预设健康指数阈值是指预先设置的用于评价数据质量的阈值,当检测结果为所述健康指数大于所述预设健康指数阈值时,确定所述新数据的数据质量符合要求;当检测结果为所述健康指数小于所述预设健康指数阈值时,确定所述新数据的数据质量不符合要求。当所述新数据的数据质量不符合要求时,清理所述新数据以避免不符合要求的新数据对数据分析结果产生负面影响,导致数据分析结果不正确。
S17,调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果。
在本申请的至少一实施例中,所述预先设置的数据质量评价规则可以包括数据完整性、数据一致性、数据及时性以及数据准确性。示例性地,所述数据完整性是指对于属性的完整性考量,则可以通过空值占比或无效值占比进行检查。指标包含数据表英文名、数据表中文名、日期、昨日有效指标个数、指标总量和上周同期环比以及同步时间,分别于9:00、14:00两个时点分别发出,通过指标总量和上周同期环比检视指标完整性,如果差异较大,需进一步分析偏差较大原因,是因为节假日,海内指标,还是数据服务商本身数据原因,还是自身接口原因等。
示例性地,所述数据一致性是指数据获取取值要在规定的取值范围,例如,以收益率为例,根据近5年的历史数据获取取值范围为-2<x<2,如果当日数据未及时更新,则为Null(也即空值);如果不在此范围,则该数据和上游数据不一致,通过计算该类数据的占比,定性该指标数据质量是否可靠。
示例性地,所述数据及时性是指通过观察监控报表的日增量数据,可以监控到数据接口是否正常运行。如果没有昨日增量数据,则大概率接口执行失败,提示开发同事去捡视服务器是否异常,接口服务是否异常,是否上游数据供应商问题等,及时发现问题,规避错误分析结论。
示例性地,所述数据准确性是指前期对指标特性进行分析,在数据对接环节完成规则校验,清洗垃圾数据。以收益率指标为例,该指标大概率连续两天数值不相同,如果连续两天收益率相同,说明数据异常,这些垃圾数据就直接清洗不入库。另一个场景,不同指标的收益率代表不同市场的表现,因此很多时候需要做指标间的相关性分析,这些指标间的频次需保持一致,如10个指标都需要有2020-01-10的数据,如果某一天某一个指标缺失则会导致数据分析结果不准确,因此在指标计算环节设置了阈值,如果不在阈值范围内的数据直接清洗,不做数据处理及结果展示。同时,这些规则需要后续数据的表现做调整,比如调整数据阈值范围等。
可选地,所述调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果包括:
获取与所述数据质量评价规则对应的预设评价模型;
基于所述预设评价模型处理所述新数据,得到初始数据质量评价结果;
按照预设数据格式处理所述初始数据质量评价结果,得到数据质量评价结果。
其中,所述预设评价模型是指系统人员基于所述数据质量评价规则设置的用于对新数据进行处理的模型。所述预设数据格式是指预先设置的,用于组合若干个所述初始数据质量评价结果的数据格式。
S18,根据所述数据质量评价结果清洗所述新数据,得到目标新数据。
在本申请的至少一实施例中,所述质量评价结果可以包括新数据存在缺失值、新数据存在异常值及新数据存在重复值等异常类型,针对不同的质量评价结果,可以设置对应的数据清洗机制。示例性地,当所述质量评价结果为所述新数据存在缺失值时,则需要启动相应的数据清洗规则进行填补或剔除处理;例如,若缺失的数据较少时,可以直接进行剔除处理,若缺失的数据较多时,可以采用线性插值的方法补全。当所述质量评价结果为所述新数据存在异常值时,则启动的数据清洗规则对异常值进行过滤处理。当所述质量评价结果为所述新数据存在重复值时,则存在完全相同的两个或多个数据,则启动的数据清洗规则可以是对重复的数据进行清除处理。
可选地,所述根据所述数据质量评价结果清洗所述新数据,得到目标新数据包括:
解析所述数据质量评价结果,得到异常类型;
当所述异常类型为新数据存在缺失值时,启动相应的数据清洗规则进行填补或剔除处理;
当所述异常类型为新数据存在异常值时,启动相应的数据清洗规则对异常值进行过滤处理;
当所述异常类型为新数据存在重复值时,启动相应的数据清洗规则可以是对重复的数据进行清除处理。
其中,所述数据质量评价结果是按照预设数据格式存储的信息,所述数据质量评价结果中存在异常类型,所述异常类型包括但不限于新数据存在缺失值、新数据存在异常值及新数据存在重复值。通过对所述数据质量评价结果进行解析,能够得到预设位置处的关键信息作为所述异常类型,其中,所述预设位置可通过添加标记的方式标识,所述标记可以为数字标记、颜色标记或字母标记等。
本申请实施例提供的上述数据质量监控方法,通过TF-IDF算法能够实现所述目标问题指标的动态调整,保证了数据质量监控的准确性;此外,本申请通过预先训练影响程度预测模型的方式,调用所述影响程度预测模型处理目标指标问题值,进而动态确定目标指标问题值对应的指标值区间,基于所处区间来确定是否发生数据异常,能够避免设置固定的指标值区间导致的误告警等问题,提高数据异常检测的准确性。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中,比如智慧政务的数据质量监控模块等,能够促进智慧城市的快速发展。
图2是本申请实施例二提供的数据质量监控装置的结构图。
在一些实施例中,所述数据质量监控装置20可以包括多个由计算机程序段所组成的功能模块。所述数据质量监控装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)数据质量监控的功能。
本实施例中,所述数据质量监控装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:文本确定模块201、权重计算模块202、权重调整模块203、指数计算模块204、指标确定模块205、阈值检测模块206、评价确定模块207以及数据清洗模块208。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
文本确定模块201用于获取预设数据供应端提供的原始历史数据对应的问题指标集,并确定所述问题指标集对应的问题分析文本集。
在本申请的至少一实施例中,所述预设数据供应端是指提供各类数据的供应端,例如,所述预设数据供应端可以是指提供金融数据的万得供应端。所述预设数据供应端与若干个数据处理端连接,进行数据传输。所述原始历史数据可以是指所述预设数据供应端提供的未经清洗的历史金融数据。
其中,存储所述原始历史数据至数据池中,所述数据池是指用于存储数据的库。所述数据池的大小可以自主设定,采集的数据可以按照数据类型、数据采集时间等方式分类存放进数据池中。数据池可以提供读取接口(API),写入接口,更新接口,修改接口等供所述数据处理端调用。
在本申请的至少一实施例中,对于所述预设供应端提供的数据,可能存在:数据推送不定时、数据准确性低或者数据推送延迟等问题。对于上述问题,可以通过问题指标集的方式收集起来。所述问题指标集是指所述原始历史数据中能够存在的各项问题指标的集合,所述问题指标可以包括但不限于:数据范围问题指标、数据总数问题指标、阈值问题指标以及重复数据问题指标。
在本申请的至少一实施例中,对于上述问题指标集,可以建立与之对应的问题分析文本集,所述问题分析文本集可以是指对每一批原始历史数据中的各项问题指标进行问题分析的文本集合。示例性地,存在第1,2,3…n批原始历史数据,对于每一批次的原始历史数据,确定对应的问题指标集,对所述问题指标集中的每一问题指标进行问题分析,得到问题分析文本集。可以理解的是,存在n批次原始历史数据,即存在n个问题分析文本集。所述问题分析文本集可以是系统人员分析得到的,也可以通过机器学习的方式得到,在此不做限制。考虑到数据存储的隐私性与保密性,所述问题分析文本集可存储于区块链的目标节点中。
本申请通过获取对应原始历史数据的问题指标集,并建立所述问题指标集对应的问题分析文本集,调用TF-IDF算法对所述文本分析文本集进行权重分析,从而选取权重靠前的预设数量的问题指标作为目标问题指标。由于所述原始历史数据是周期性变化的,因此,所述问题指标集与所述问题分析文本集也可以为周期性变化的,进而,所述目标问题指标也可以为周期性变化的。通过TF-IDF算法能够实现所述目标问题指标的动态调整,保证了数据质量监控的准确性。
权重计算模块202用于调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵。
在本申请的至少一实施例中,TF-IDF算法是指词频-逆向文件频率算法,本质主要是以词频统计作为考虑依据,并赋予相应的权重。
可选地,所述调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵包括:
对所述问题分析文本集进行去停用词处理,得到第一问题分析文本集;
对所述第一问题分析文本集进行分词处理,得到问题分析文本特征词向量矩阵;
调用TF-IDF算法处理所述问题分析文本特征词向量矩阵,得到每一所述问题指标的词频与逆向文件频率;
按照预设数据模型处理所述词频与所述逆向文件频率,得到权重向量矩阵。
其中,对所述问题分析文本集进行去停用词处理以及对所述第一问题分析文本集进行分词处理的预处理技术属于现有技术,在此不做赘述。所述预设数据模型是指用于根据所述词频与所述逆向文件频率计算权重向量矩阵的数学模型,所述预设数据模型为系统人员预先训练的,在此不做限制。所述权重向量矩阵包括问题分析文本特征词及其对应的权重,所述权重向量矩阵中的问题分析文本特征词与其对应的权重按照一定的数据格式存储,所述问题分析文本特征词可以是指包含所述问题指标的特征词,所述问题指标包括但不限于:数据范围问题指标、数据总数问题指标、阈值问题指标以及重复数据问题指标。
权重调整模块203用于根据所述权重向量矩阵,选取权重靠前的预设数量的问题指标作为目标问题指标,并根据所述预设数量调整所述目标问题指标的权重,得到目标权重。
在本申请的至少一实施例中,所述预设数量是指预先设置的用于评价数据健康指数的数量,例如,所述预设数量可以为4个。将所述权重向量矩阵中的各个向量按照权重从大到小的顺序排列,并选取权重靠前的4个问题指标作为目标问题指标,所述目标问题指标对应的权重为目标权重。可以理解的是,当所述权重向量矩阵中包含的问题指标的数量大于4个,而只选取权重靠前的4个问题指标作为目标问题指标时,需要按照所述预设数量调整所述目标问题指标的权重,从而得到目标权重,以保证4个目标问题指标对应的权重之和为1。示例性地,所述数据范围问题指标对应的目标权重为5%,所述数据总数问题指标对应的目标权重为50%,所述阈值问题指标对应的目标权重为25%,所述重复数据问题指标对应的目标权重为20%。
可选地,所述根据所述预设数量调整所述目标问题指标的权重,得到目标权重包括:
获取预设数量的所述目标问题指标间的权重比;
根据所述权重比确定权重总份数以及每个所述目标问题指标的权重子份数;
计算所述权重子份数与所述权重总份数的占比,得到目标权重。
其中,按照所述预设数量调整所述目标问题指标的权重,得到目标权重,以保证所述预设数量的目标问题指标对应的权重之和为1。
指数计算模块204用于获取并解析所述预设数据供应端提供的新数据,得到目标问题指标值,并根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数。
在本申请的至少一实施例中,所述新数据是指所述预设数据供应端提供的最新数据,通过对所述新数据按照所述目标问题指标进行解析,得到目标问题指标值。
示例性地,对于所述目标问题指标为数据范围问题指标时,监控最大值和最小值,检测数据范围是否在一个合理的范围;如果在历史数据范围内,值为1*0.05,如果不在历史数据范围,值为0*0.05。
示例性地,对于所述目标问题指标为数据总数问题指标时,将数据总数加入数据的健康指数的统计因子,且可以作为整体数据同步实效的判断依据。此外,在实际处理过程中,由于国外指标、港股指标、A股指标节假日不同,同一时间数据更新状态不一样,这种特殊情况需要考虑进入预设算法本身,比如公共工作日指标总数是500,国外节假日国内工作日指标总数是400,所述预设算法是指预先设置的用于调用相应计算规则处理新数据以得到目标问题指标值的算法。
示例性地,对于所述目标问题指标为阈值问题指标时,筛选关键指标数据,按年统计年度均值,按照时间的远近调整权重大小,数据所处的置信区间处于95%之内。
示例性地,对于所述目标问题指标为重复数据问题指标时,对万得供应端的月份维度进行重复数据监控,取最近一年的历史数据且假设都是真实有效数据,统计每个月出现重复数据的次数分布。可以理解的是,如果新插入指标A后重复数据刷新了历史重复数值占比,则该指标的值存在风险,可能是错误数值。
在本申请的至少一实施例中,所述根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数也即将所述目标问题指标值与所述目标权重进行乘积处理,再将每个所述目标问题指标对应的乘积相加,即得到所述新数据的健康指数。
可选地,所述根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数包括:
确定每一所述目标问题指标值对应的目标权重;
乘积处理每一所述目标指标值与对应的所述目标权重,得到第一健康指数;
求和处理所述第一健康指数,得到所述新数据的健康指数。
指标确定模块205用于调用预先训练好的影响程度预测模型处理目标问题指标值,得到所述目标问题指标的影响程度,根据所述影响程度确定所述目标问题指标对应的指标值区间,并根据所述指标值区间计算预设健康指数阈值,其中,所述影响程度与指标值区间存在映射关系。
在本申请的至少一实施例中,不同影响程度对应不同的指标值区间,将不同问题指标的影响程度与对应的指标值区间预先进行关联,也即预先建立目标映射关系。可选地,所述根据所述影响程度确定所述目标问题指标对应的指标值区间包括:
获取所述影响程度;
确定预先设置的所述影响程度与指标值区间的目标映射关系;
根据所述影响程度遍历所述目标映射关系,得到所述影响程度对应的指标值区间。
本申请对目标问题指标的影响程度的确定方式可以根据不同时长间隔内目标问题指标的指标值与对应时长间隔内目标问题指标的预设告警阈值的比值来确定对应的影响度。例如,以万得供应端提供的一个星期内、五个工作日实际指标总数、对应的指标总数的预设告警阈值为1000的数据为例进行说明。比如从周一到周五,每一天的实际指标总数分别为100、100、500、500、800,则对应的指标值与目标问题指标的预设告警阈值的比值为0.1、0.1、0.5、0.5、0.8,则可以将比值小于0.3时,对应的影响程度设置为1;将比值大于0.3而小于0.7的影响程度设置为2,比值大于0.7而小于1的影响程度设置为3。本申请实施例对目标问题指标的影响程度的确定方式与表征方式不作限定,比如,在其他实施例中,还可以根据目标问题指标的指标值与目标问题指标的预设告警阈值的差值大小确定。
可选地,本申请基于指标值以及目标问题指标的影响程度,对机器学习模型进行训练,得到影响程度预测模型。示例性地,将得到的目标问题指标的指标值以及对应目标问题指标的影响程度分别作为机器学习模型的输入参数与输出参数,对机器学习模型进行训练,得到的影响度预测模型。所述影响程度预测模型可以实现根据不同的指标值,确定对应的目标问题指标的影响程度。所述机器学习模型可以采用逻辑回归模型训练得到,在此不做限制,模型训练的过程为现有技术,在此不做赘述。
可选地,一个所述目标问题指标对应一个指标值区间,当所述目标问题指标的数量为多个时,其对应的指标值区间的数量也为多个,此时根据所述指标值区间以及所述指标值区间对应的目标权重计算预设健康指数阈值。
本申请通过预先训练影响程程度预测模型的方式,调用所述影响程度预测模型处理目标指标问题值,进而动态确定目标指标问题值对应的指标值区间,基于所处区间来确定是否发生数据异常,能够避免设置固定的指标值区间导致的误告警等问题,提高数据异常检测的准确性。
阈值检测模块206用于检测所述健康指数是否大于预设健康指数阈值。
在本申请的至少一实施例中,所述预设健康指数阈值是指预先设置的用于评价数据质量的阈值,当检测结果为所述健康指数大于所述预设健康指数阈值时,确定所述新数据的数据质量符合要求;当检测结果为所述健康指数小于所述预设健康指数阈值时,确定所述新数据的数据质量不符合要求。当所述新数据的数据质量不符合要求时,清理所述新数据以避免不符合要求的新数据对数据分析结果产生负面影响,导致数据分析结果不正确。
评价确定模块207用于当检测结果为所述健康指数大于所述预设健康指数阈值时,调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果。
在本申请的至少一实施例中,所述预先设置的数据质量评价规则可以包括数据完整性、数据一致性、数据及时性以及数据准确性。示例性地,所述数据完整性是指对于属性的完整性考量,则可以通过空值占比或无效值占比进行检查。指标包含数据表英文名、数据表中文名、日期、昨日有效指标个数、指标总量和上周同期环比以及同步时间,分别于9:00、14:00两个时点分别发出,通过指标总量和上周同期环比检视指标完整性,如果差异较大,需进一步分析偏差较大原因,是因为节假日,海内指标,还是数据服务商本身数据原因,还是自身接口原因等。
示例性地,所述数据一致性是指数据获取取值要在规定的取值范围,例如,以收益率为例,根据近5年的历史数据获取取值范围为-2<x<2,如果当日数据未及时更新,则为Null(也即空值);如果不在此范围,则该数据和上游数据不一致,通过计算该类数据的占比,定性该指标数据质量是否可靠。
示例性地,所述数据及时性是指通过观察监控报表的日增量数据,可以监控到数据接口是否正常运行。如果没有昨日增量数据,则大概率接口执行失败,提示开发同事去捡视服务器是否异常,接口服务是否异常,是否上游数据供应商问题等,及时发现问题,规避错误分析结论。
示例性地,所述数据准确性是指前期对指标特性进行分析,在数据对接环节完成规则校验,清洗垃圾数据。以收益率指标为例,该指标大概率连续两天数值不相同,如果连续两天收益率相同,说明数据异常,这些垃圾数据就直接清洗不入库。另一个场景,不同指标的收益率代表不同市场的表现,因此很多时候需要做指标间的相关性分析,这些指标间的频次需保持一致,如10个指标都需要有2020-01-10的数据,如果某一天某一个指标缺失则会导致数据分析结果不准确,因此在指标计算环节设置了阈值,如果不在阈值范围内的数据直接清洗,不做数据处理及结果展示。同时,这些规则需要后续数据的表现做调整,比如调整数据阈值范围等。
可选地,所述调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果包括:
获取与所述数据质量评价规则对应的预设评价模型;
基于所述预设评价模型处理所述新数据,得到初始数据质量评价结果;
按照预设数据格式处理所述初始数据质量评价结果,得到数据质量评价结果。
其中,所述预设评价模型是指系统人员基于所述数据质量评价规则设置的用于对新数据进行处理的模型。所述预设数据格式是指预先设置的,用于组合若干个所述初始数据质量评价结果的数据格式。
数据清洗模块208用于根据所述数据质量评价结果清洗所述新数据,得到目标新数据。
在本申请的至少一实施例中,所述质量评价结果可以包括新数据存在缺失值、新数据存在异常值及新数据存在重复值等异常类型,针对不同的质量评价结果,可以设置对应的数据清洗机制。示例性地,当所述质量评价结果为所述新数据存在缺失值时,则需要启动相应的数据清洗规则进行填补或剔除处理;例如,若缺失的数据较少时,可以直接进行剔除处理,若缺失的数据较多时,可以采用线性插值的方法补全。当所述质量评价结果为所述新数据存在异常值时,则启动的数据清洗规则对异常值进行过滤处理。当所述质量评价结果为所述新数据存在重复值时,则存在完全相同的两个或多个数据,则启动的数据清洗规则可以是对重复的数据进行清除处理。
可选地,所述根据所述数据质量评价结果清洗所述新数据,得到目标新数据包括:
解析所述数据质量评价结果,得到异常类型;
当所述异常类型为新数据存在缺失值时,启动相应的数据清洗规则进行填补或剔除处理;
当所述异常类型为新数据存在异常值时,启动相应的数据清洗规则对异常值进行过滤处理;
当所述异常类型为新数据存在重复值时,启动相应的数据清洗规则可以是对重复的数据进行清除处理。
其中,所述数据质量评价结果是按照预设数据格式存储的信息,所述数据质量评价结果中存在异常类型,所述异常类型包括但不限于新数据存在缺失值、新数据存在异常值及新数据存在重复值。通过对所述数据质量评价结果进行解析,能够得到预设位置处的关键信息作为所述异常类型,其中,所述预设位置可通过添加标记的方式标识,所述标记可以为数字标记、颜色标记或字母标记等。
本申请通过根据所述数据质量评价结果指出的异常类型确定数据清洗规则,并根据数据清洗规则对异常数据进行数据清洗,从而实现了对新数据的数据清洗,提高了数据清洗的清洗效果和清洗效率。
参阅图3所示,为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的数据质量监控方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的数据质量监控方法的全部或者部分步骤;或者实现数据质量监控装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (10)

1.一种数据质量监控方法,用于监控预设数据供应端提供的数据质量,其特征在于,所述数据质量监控方法包括:
获取预设数据供应端提供的原始历史数据对应的问题指标集,并确定所述问题指标集对应的问题分析文本集;
调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵;
根据所述权重向量矩阵,选取权重靠前的预设数量的问题指标作为目标问题指标,并根据所述预设数量调整所述目标问题指标的权重,得到目标权重;
获取并解析所述预设数据供应端提供的新数据,得到目标问题指标值,并根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数;
调用预先训练好的影响程度预测模型处理所述目标问题指标值,得到所述目标问题指标的影响程度,根据所述影响程度确定所述目标问题指标对应的指标值区间,并根据所述指标值区间计算预设健康指数阈值,其中,所述影响程度与指标值区间存在映射关系;
检测所述健康指数是否大于预设健康指数阈值;
当检测结果为所述健康指数大于所述预设健康指数阈值时,调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果;
根据所述数据质量评价结果清洗所述新数据,得到目标新数据。
2.根据权利要求1所述的数据质量监控方法,其特征在于,所述调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵包括:
对所述问题分析文本集进行去停用词处理,得到第一问题分析文本集;
对所述第一问题分析文本集进行分词处理,得到问题分析文本特征词向量矩阵;
调用TF-IDF算法处理所述问题分析文本特征词向量矩阵,得到每一所述问题指标的词频与逆向文件频率;
按照预设数据模型处理所述词频与所述逆向文件频率,得到权重向量矩阵。
3.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述预设数量调整所述目标问题指标的权重,得到目标权重包括:
获取预设数量的所述目标问题指标间的权重比;
根据所述权重比确定权重总份数以及每个所述目标问题指标的权重子份数;
计算所述权重子份数与所述权重总份数的占比,得到目标权重。
4.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数包括:
确定每一所述目标问题指标值对应的目标权重;
乘积处理每一所述目标指标值与对应的所述目标权重,得到第一健康指数;
求和处理所述第一健康指数,得到所述新数据的健康指数。
5.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述影响程度确定所述目标问题指标对应的指标值区间包括:
获取所述影响程度;
确定预先设置的所述影响程度与指标值区间的目标映射关系;
根据所述影响程度遍历所述目标映射关系,得到所述影响程度对应的指标值区间。
6.根据权利要求1所述的数据质量监控方法,其特征在于,所述调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果包括:
获取与所述数据质量评价规则对应的预设评价模型;
基于所述预设评价模型处理所述新数据,得到初始数据质量评价结果;
按照预设数据格式处理所述初始数据质量评价结果,得到数据质量评价结果。
7.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述数据质量评价结果清洗所述新数据,得到目标新数据包括:
解析所述数据质量评价结果,得到异常类型;
当所述异常类型为新数据存在缺失值时,启动相应的数据清洗规则进行填补或剔除处理;
当所述异常类型为新数据存在异常值时,启动相应的数据清洗规则对异常值进行过滤处理;
当所述异常类型为新数据存在重复值时,启动相应的数据清洗规则可以是对重复的数据进行清除处理。
8.一种数据质量监控装置,其特征在于,所述数据质量监控装置包括:
文本确定模块,用于获取预设数据供应端提供的原始历史数据对应的问题指标集,并确定所述问题指标集对应的问题分析文本集;
权重计算模块,用于调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵;
权重调整模块,用于根据所述权重向量矩阵,选取权重靠前的预设数量的问题指标作为目标问题指标,并根据所述预设数量调整所述目标问题指标的权重,得到目标权重;
指数计算模块,用于获取并解析所述预设数据供应端提供的新数据,得到目标问题指标值,并根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数;
指标确定模块,用于调用预先训练好的影响程度预测模型处理目标问题指标值,得到所述目标问题指标的影响程度,根据所述影响程度确定所述目标问题指标对应的指标值区间,并根据所述指标值区间计算预设健康指数阈值,其中,所述影响程度与指标值区间存在映射关系;
阈值检测模块,用于检测所述健康指数是否大于预设健康指数阈值;
评价确定模块,用于当检测结果为所述健康指数大于所述预设健康指数阈值时,调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果;
数据清洗模块,用于根据所述数据质量评价结果清洗所述新数据,得到目标新数据。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述数据质量监控方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述数据质量监控方法。
CN202110706395.7A 2021-06-24 2021-06-24 数据质量监控方法、装置及相关设备 Active CN113342939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110706395.7A CN113342939B (zh) 2021-06-24 2021-06-24 数据质量监控方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110706395.7A CN113342939B (zh) 2021-06-24 2021-06-24 数据质量监控方法、装置及相关设备

Publications (2)

Publication Number Publication Date
CN113342939A true CN113342939A (zh) 2021-09-03
CN113342939B CN113342939B (zh) 2023-02-07

Family

ID=77478657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110706395.7A Active CN113342939B (zh) 2021-06-24 2021-06-24 数据质量监控方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN113342939B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204609A (zh) * 2022-06-20 2022-10-18 成都飞机工业(集团)有限责任公司 数控加工工艺程编质量评价方法、装置、设备及介质
CN117171157A (zh) * 2023-10-31 2023-12-05 青岛场外市场清算中心有限公司 基于数据分析的清算数据采集清洗方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956734A (zh) * 2016-04-15 2016-09-21 广东轩辕网络科技股份有限公司 动态设置it设备的性能的指标阈值的方法及系统
US20180180657A1 (en) * 2016-12-23 2018-06-28 Sanil Electric Co., Ltd. Transformer condition-based risk management system and method
CN109062912A (zh) * 2018-08-08 2018-12-21 科大讯飞股份有限公司 一种翻译质量评价方法及装置
CN110471910A (zh) * 2019-07-15 2019-11-19 联动优势科技有限公司 一种数据质量报警方法、装置及设备
CN110535864A (zh) * 2019-08-30 2019-12-03 北京达佳互联信息技术有限公司 服务异常检测方法、装置、设备及存储介质
CN112395862A (zh) * 2020-11-27 2021-02-23 西南交通大学 一种基于数据挖掘的环境风险感知评价方法
CN112685295A (zh) * 2020-12-25 2021-04-20 北京达佳互联信息技术有限公司 数据分析方法、装置、电子设备及存储介质
CN112990689A (zh) * 2021-03-10 2021-06-18 华泰证券股份有限公司 一种资讯数据质量检测方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956734A (zh) * 2016-04-15 2016-09-21 广东轩辕网络科技股份有限公司 动态设置it设备的性能的指标阈值的方法及系统
US20180180657A1 (en) * 2016-12-23 2018-06-28 Sanil Electric Co., Ltd. Transformer condition-based risk management system and method
CN109062912A (zh) * 2018-08-08 2018-12-21 科大讯飞股份有限公司 一种翻译质量评价方法及装置
CN110471910A (zh) * 2019-07-15 2019-11-19 联动优势科技有限公司 一种数据质量报警方法、装置及设备
CN110535864A (zh) * 2019-08-30 2019-12-03 北京达佳互联信息技术有限公司 服务异常检测方法、装置、设备及存储介质
CN112395862A (zh) * 2020-11-27 2021-02-23 西南交通大学 一种基于数据挖掘的环境风险感知评价方法
CN112685295A (zh) * 2020-12-25 2021-04-20 北京达佳互联信息技术有限公司 数据分析方法、装置、电子设备及存储介质
CN112990689A (zh) * 2021-03-10 2021-06-18 华泰证券股份有限公司 一种资讯数据质量检测方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204609A (zh) * 2022-06-20 2022-10-18 成都飞机工业(集团)有限责任公司 数控加工工艺程编质量评价方法、装置、设备及介质
CN115204609B (zh) * 2022-06-20 2024-04-16 成都飞机工业(集团)有限责任公司 数控加工工艺程编质量评价方法、装置、设备及介质
CN117171157A (zh) * 2023-10-31 2023-12-05 青岛场外市场清算中心有限公司 基于数据分析的清算数据采集清洗方法
CN117171157B (zh) * 2023-10-31 2024-01-16 青岛场外市场清算中心有限公司 基于数据分析的清算数据采集清洗方法

Also Published As

Publication number Publication date
CN113342939B (zh) 2023-02-07

Similar Documents

Publication Publication Date Title
CN106933956B (zh) 数据挖掘方法和装置
CN113342939B (zh) 数据质量监控方法、装置及相关设备
CN113592019A (zh) 基于多模型融合的故障检测方法、装置、设备及介质
CN112016905B (zh) 基于审批流程的信息展示方法、装置、电子设备及介质
CN114519524A (zh) 基于知识图谱的企业风险预警方法、装置及存储介质
CN109461067A (zh) 一种外汇报价异常数据的检测方法、装置及系统
CN112463530A (zh) 微服务系统的异常检测方法、装置、电子设备及存储介质
CN116383198A (zh) 基于大数据的决策分析方法及系统
CN114201328A (zh) 基于人工智能的故障处理方法、装置、电子设备及介质
CN115471215B (zh) 一种业务流程处理方法及装置
CN113835947A (zh) 一种基于异常识别结果确定异常原因的方法和系统
CN111190817B (zh) 软件缺陷的处理方法及装置
US20230177443A1 (en) Systems and methods for automated modeling of processes
Puzis et al. A particle swarm model for estimating reliability and scheduling system maintenance
CN115617670A (zh) 软件测试管理方法、存储介质及系统
CN114757482A (zh) 用户组电量使用趋势的分析方法、系统、设备和介质
CN115204501A (zh) 企业评估方法、装置、计算机设备和存储介质
CN113627692A (zh) 投诉量预测方法、装置、设备及存储介质
CN114819721A (zh) 一种营业网点的评估方法、装置、电子设备及存储介质
CN114781855A (zh) 基于dea模型的物流传输效率分析方法、装置、设备及介质
CN113987351A (zh) 基于人工智能的智能推荐方法、装置、电子设备及介质
CN115330103A (zh) 城市运行状态智能分析方法、装置、计算机设备及存储介质
CN114254857A (zh) 电力设备库存情况评价方法及服务器
Goosen A system to quantify industrial data quality
CN112288338B (zh) 用户活动监测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant