CN110908982A - 一种基于指标权重的数据质量科学算分评价方法及系统 - Google Patents
一种基于指标权重的数据质量科学算分评价方法及系统 Download PDFInfo
- Publication number
- CN110908982A CN110908982A CN201911010912.6A CN201911010912A CN110908982A CN 110908982 A CN110908982 A CN 110908982A CN 201911010912 A CN201911010912 A CN 201911010912A CN 110908982 A CN110908982 A CN 110908982A
- Authority
- CN
- China
- Prior art keywords
- data
- evaluation
- index
- service data
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于指标权重的数据质量科学算分评价方法及系统,获取业务数据的评价指标,并对业务数据的评价指标进行综合评分,根据定义的评价指标计算业务数据的权重,根据各评价指标的权重对业务数据的评价指标进行综合评分得到质量评价结果,能够智能的对企业级数据的结构化数据与非结构化数据进行质量分析,并反馈给数据维护人员,对非结构化数据的容错性很好,数据质量分析的识别率高。
Description
技术领域
本公开数据处理技术领域,具体涉及一种基于指标权重的数据质量科学算分评价方法及系统。
背景技术
随着大数据与人工智能的普及,对数据质量要求越来越高,错误的数据将会对企业的运营、决策造成严重的不良后果,因此如何快速提升企业数据质量成为企业信息化建设中至关重要的环节。当企业数据出现质量问题时通常采用配置规则进行评价指标,通过规则校验校验出问题数据,并对问题数据进行问题数据整改,从而提升企业数据质量。然而企业级数据数据存储数据库类型众多、数据量大、数据结构复杂。因此,很难对企业级数据的结构化数据与非结构化数据进行质量分析,从而进行过滤与筛选掉其中的脏数据、低价值的数据,从而选取出其中有价值的数据。
发明内容
为解决上述问题,本公开提供一种基于指标权重的数据质量科学算分评价方法及系统的技术方案,获取业务数据的评价指标,并对业务数据的评价指标进行综合评分,根据定义的评价指标计算业务数据的权重,根据各评价指标的权重对业务数据的评价指标进行综合评分得到质量评价结果。
为了实现上述目的,根据本公开的一方面,提供一种基于指标权重的数据质量科学算分评价方法,所述方法包括以下步骤:
S100,获取业务数据,所述业务数据的类型包括结构化数据与非结构化数据;
S200,获取业务数据的评价指标,并对业务数据的评价指标进行综合评分;
S300,根据定义的评价指标计算业务数据的权重;
S400,根据各评价指标的权重对业务数据的评价指标进行综合评分得到质量评价结果;
S500,对业务数据实际质量评价结果进行统计分析,包括对业务数据运行趋势及业务数据的各类评价指标对比情况;
S600,将统计分析结果以报告的形式反馈给数据维护人员。
进一步地,在S100中,业务数据为根据实际的业务需求对数据进行整理分类的数据,如:资产、营销、人资、财务、生产等数据。
进一步地,在S200中,评价指标为定义业务数据中某数据区域中数据的特征或定义数据质量关键指标,通过评价指标映射业务数据;定义数据质量关键指标为通过评价指标映射业务数据的数据结果的满意程度或业务数据的使用频率。
进一步地,在S200中,对业务数据的评价指标进行综合评分的方法为:评价指标通过对数据结果的满意程度来形容数据质量的优劣。最常见的方式是用户对各个影响因素打分,将满意程度分为若干等级,用户选择对某项评价指标的满意程度的等级;将满意程度等级分为[A]非常满意、[B]满意、[C]一般、[D]差、[E]很差五个等级,则评价指标的满意程度等级得分为:[A]得分为5分,[B]得分为4分,[C]得分为3分,[D]得分为2分,[E]得分为1分。
进一步地,在S300中,计算业务数据的权重的方法为:业务数据的权重=业务数据类型*评价指标的满意程度等级得分;业务数据类型包括结构化数据为2,非结构化数据为1。
根据各评价指标的权重对业务数据的评价指标进行综合评分,其中,x为各项输入的评价指标,minU(x)为综合评分函数求得的最小值,fj(x)为多目标函数的第j个分量,wj为业务数据的权重wj≥0(j=1,2,…,P),j为业务数据类型,P为业务数据类型的总数,业务数据类型为资产、营销、人资、财务、生产等数据的预定编号,(例如资产为1、营销为2、人资为3、财务为4、生产为5),x∈X,X为评价指标的映射关系中的凸集,fj(x)为X上的凸函数,即多目标函数的第j个分量。
本发明还提供了一种基于指标权重的数据质量科学算分评价系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据获取单元,用于获取业务数据;
指标评分单元,用于获取业务数据的评价指标,并对业务数据的评价指标进行综合评分;
权重计算单元,用于根据定义的评价指标计算业务数据的权重;
质量评价单元,用于根据各评价指标的权重对业务数据的评价指标进行综合评分得到质量评价结果;
统计分析单元,用于对业务数据实际质量评价结果进行统计分析,包括对业务数据运行趋势及业务数据的各类评价指标对比情况;
结果反馈单元,用于将统计分析结果以报告的形式反馈给数据维护人员。
本公开的有益效果为:本发明提供一种基于指标权重的数据质量科学算分评价方法及系统,能够智能的对企业级数据的结构化数据与非结构化数据进行质量分析,并反馈给数据维护人员,对非结构化数据的容错性很好,质量分析的识别率高。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为一种基于指标权重的数据质量科学算分评价方法的流程图;
图2所示为一种基于指标权重的数据质量科学算分评价系统结构图。
具体实施方式
以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示为根据本公开的一种基于指标权重的数据质量科学算分评价方法的流程图,下面结合图1来阐述根据本公开的实施方式的一种基于指标权重的数据质量科学算分评价方法。
本公开提出一种基于指标权重的数据质量科学算分评价方法,具体包括以下步骤:
S100,获取业务数据,所述业务数据的类型包括结构化数据与非结构化数据;
业务数据为根据实际的业务需求对数据进行整理分类的数据,如:资产、营销、人资、财务、生产等数据。
S200,获取业务数据的评价指标,并对业务数据的评价指标进行综合评分;
评价指标为定义业务数据中某数据区域中数据的特征或定义数据质量关键指标,通过评价指标映射业务数据;定义数据质量关键指标为通过评价指标映射业务数据的数据结果的满意程度或业务数据的使用频率。
评价指标通过对数据结果的满意程度来形容数据质量的优劣。最常见的方式是用户对各个影响因素打分,将满意程度分为若干等级,用户选择对某项评价指标的满意程度的等级;将满意程度等级分为[A]非常满意、[B]满意、[C]一般、[D]差、[E]很差五个等级,则评价指标的满意程度等级得分为:[A]得分为5分,[B]得分为4分,[C]得分为3分,[D]得分为2分,[E]得分为1分。
评价指标文件内部结构使用XML树形元素结构,其内部定义了一系列评价指标,这些评价指标是对校验规则的组合和封装,是在实际业务中关注的关键业务指标项。评价指标彼此间存在的关联关系,使用指标关联逻辑部分进行描述。同时,在评价指标文件结构内部也定义了其与评价指标文件中定义评价指标的映射关系,其映射关系描述了数据评价指标对实际评价指标规则的定义和利用情况。
进一步地,评价指标的映射关系可参见公告号为:CN105550511B的专利公告文本的说明书[0129]~[0131]段。
S300,根据定义的评价指标计算业务数据的权重;
计算业务数据的权重的方法为:业务数据的权重=业务数据类型*评价指标的满意程度等级得分;
业务数据类型包括结构化数据为2,非结构化数据为1。
S400,根据各评价指标的权重对业务数据的评价指标进行综合评分得到质量评价结果;
根据各评价指标的权重对业务数据的评价指标进行综合评分,其中,x为各项输入的评价指标,minU(x)为综合评分函数求得的最小值,fj(x)为多目标函数的第j个分量,wj为业务数据的权重wj≥0(j=1,2,…,P),j为业务数据类型,P为业务数据类型的总数,业务数据类型为资产、营销、人资、财务、生产等数据的预定编号,(例如资产为1、营销为2、人资为3、财务为4、生产为5),x∈X,X为评价指标的映射关系中的凸集,fj(x)为X上的凸函数,即多目标函数的第j个分量。
S500,对业务数据实际质量评价结果进行统计分析,包括对业务数据运行趋势及业务数据的各类评价指标对比情况。
S600,将业务数据的质量评价结果以质量评分报告及评价指标报告的形式反馈给数据维护人员。
本公开的实施例提供的一种基于指标权重的数据质量科学算分评价系统,如图2所示为本公开的一种基于指标权重的数据质量科学算分评价系统结构图,该实施例的一种基于指标权重的数据质量科学算分评价系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于指标权重的数据质量科学算分评价系统实施例中的步骤。
所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据获取单元,用于获取业务数据;
指标评分单元,用于获取业务数据的评价指标,并对业务数据的评价指标进行综合评分;
权重计算单元,用于根据定义的评价指标计算业务数据的权重;
质量评价单元,用于根据各评价指标的权重对业务数据的评价指标进行综合评分得到质量评价结果;
统计分析单元,用于对业务数据实际质量评价结果进行统计分析,包括对业务数据运行趋势及业务数据的各类评价指标对比情况;
结果反馈单元,用于将统计分析结果以报告的形式反馈给数据维护人员。
所述一种基于指标权重的数据质量科学算分评价系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种基于指标权重的数据质量科学算分评价系统,可运行的系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种基于指标权重的数据质量科学算分评价系统的示例,并不构成对一种基于指标权重的数据质量科学算分评价系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种基于指标权重的数据质量科学算分评价系统还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种基于指标权重的数据质量科学算分评价系统运行系统的控制中心,利用各种接口和线路连接整个一种基于指标权重的数据质量科学算分评价系统可运行系统的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种基于指标权重的数据质量科学算分评价系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。
Claims (7)
1.一种基于指标权重的数据质量科学算分评价方法,其特征在于,所述方法包括以下步骤:
S100,获取业务数据;
S200,获取业务数据的评价指标,并对业务数据的评价指标进行综合评分;
S300,根据定义的评价指标计算业务数据的权重;
S400,根据各评价指标的权重对业务数据的评价指标进行综合评分得到质量评价结果;
S500,对业务数据实际质量评价结果进行统计分析,包括对业务数据运行趋势及业务数据的各类评价指标对比情况;
S600,将统计分析结果以报告的形式反馈给数据维护人员。
2.根据权利要求1所述的一种基于指标权重的数据质量科学算分评价方法,其特征在于,在S100中,业务数据为根据实际的业务需求对数据进行整理分类的数据,业务数据的类型包括结构化数据与非结构化数据。
3.根据权利要求2所述的一种基于指标权重的数据质量科学算分评价方法,其特征在于,在S200中,评价指标为定义业务数据中某数据区域中数据的特征或定义数据质量关键指标,通过评价指标映射业务数据;定义数据质量关键指标为通过评价指标映射业务数据的数据结果的满意程度或业务数据的使用频率。
4.根据权利要求3所述的一种基于指标权重的数据质量科学算分评价方法,其特征在于,在S200中,对业务数据的评价指标进行综合评分的方法为:评价指标通过对数据结果的满意程度来形容数据质量的优劣;通过用户对各个影响因素打分,将满意程度分为若干等级,用户选择对某项评价指标的满意程度的等级;将满意程度等级分为[A]非常满意、[B]满意、[C]一般、[D]差、[E]很差五个等级,则评价指标的满意程度等级得分为:[A]得分为5分,[B]得分为4分,[C]得分为3分,[D]得分为2分,[E]得分为1分。
5.根据权利要求4所述的一种基于指标权重的数据质量科学算分评价方法,其特征在于,在S300中,计算业务数据的权重的方法为:业务数据的权重=业务数据类型*评价指标的满意程度等级得分;业务数据类型包括结构化数据为2,非结构化数据为1。
7.一种基于指标权重的数据质量科学算分评价系统,其特征在于,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:
数据获取单元,用于获取业务数据;
指标评分单元,用于获取业务数据的评价指标,并对业务数据的评价指标进行综合评分;
权重计算单元,用于根据定义的评价指标计算业务数据的权重;
质量评价单元,用于根据各评价指标的权重对业务数据的评价指标进行综合评分得到质量评价结果;
统计分析单元,用于对业务数据实际质量评价结果进行统计分析,包括对业务数据运行趋势及业务数据的各类评价指标对比情况;
结果反馈单元,用于将统计分析结果以报告的形式反馈给数据维护人员。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911010912.6A CN110908982A (zh) | 2019-10-23 | 2019-10-23 | 一种基于指标权重的数据质量科学算分评价方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911010912.6A CN110908982A (zh) | 2019-10-23 | 2019-10-23 | 一种基于指标权重的数据质量科学算分评价方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110908982A true CN110908982A (zh) | 2020-03-24 |
Family
ID=69814999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911010912.6A Pending CN110908982A (zh) | 2019-10-23 | 2019-10-23 | 一种基于指标权重的数据质量科学算分评价方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110908982A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949642A (zh) * | 2020-08-13 | 2020-11-17 | 中国工商银行股份有限公司 | 数据质量管控的方法及装置 |
CN112561293A (zh) * | 2020-12-08 | 2021-03-26 | 爱信诺征信有限公司 | 采购商对供应商进行评价的系统以及电子设备 |
CN112686527A (zh) * | 2020-12-28 | 2021-04-20 | 山东众阳健康科技集团有限公司 | 一种业务数据质量核查方法及系统 |
CN117973924A (zh) * | 2024-01-10 | 2024-05-03 | 苔花科迈(西安)信息技术有限公司 | 矿山智能常态化能力成熟度评价方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550511A (zh) * | 2015-12-11 | 2016-05-04 | 北京锐软科技股份有限公司 | 一种基于数据校验技术的数据质量测评系统及方法 |
CN106502878A (zh) * | 2016-11-15 | 2017-03-15 | 北京中电普华信息技术有限公司 | 一种基于相对成熟度的业务系统评价方法及装置 |
CN108256710A (zh) * | 2016-12-28 | 2018-07-06 | 上海大唐移动通信设备有限公司 | 一种用户感知评估方法及装置 |
JP2019040308A (ja) * | 2017-08-23 | 2019-03-14 | 株式会社 三友システムアプレイザル | 事業性評価システム及び事業性評価方法 |
-
2019
- 2019-10-23 CN CN201911010912.6A patent/CN110908982A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550511A (zh) * | 2015-12-11 | 2016-05-04 | 北京锐软科技股份有限公司 | 一种基于数据校验技术的数据质量测评系统及方法 |
CN106502878A (zh) * | 2016-11-15 | 2017-03-15 | 北京中电普华信息技术有限公司 | 一种基于相对成熟度的业务系统评价方法及装置 |
CN108256710A (zh) * | 2016-12-28 | 2018-07-06 | 上海大唐移动通信设备有限公司 | 一种用户感知评估方法及装置 |
JP2019040308A (ja) * | 2017-08-23 | 2019-03-14 | 株式会社 三友システムアプレイザル | 事業性評価システム及び事業性評価方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111949642A (zh) * | 2020-08-13 | 2020-11-17 | 中国工商银行股份有限公司 | 数据质量管控的方法及装置 |
CN112561293A (zh) * | 2020-12-08 | 2021-03-26 | 爱信诺征信有限公司 | 采购商对供应商进行评价的系统以及电子设备 |
CN112686527A (zh) * | 2020-12-28 | 2021-04-20 | 山东众阳健康科技集团有限公司 | 一种业务数据质量核查方法及系统 |
CN112686527B (zh) * | 2020-12-28 | 2024-03-26 | 众阳健康科技集团有限公司 | 一种业务数据质量核查方法及系统 |
CN117973924A (zh) * | 2024-01-10 | 2024-05-03 | 苔花科迈(西安)信息技术有限公司 | 矿山智能常态化能力成熟度评价方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110908982A (zh) | 一种基于指标权重的数据质量科学算分评价方法及系统 | |
US10504120B2 (en) | Determining a temporary transaction limit | |
CN111222556B (zh) | 一种基于决策树算法识别用电类别的方法及系统 | |
CN109685635A (zh) | 金融业务的风险评估方法、风控服务端及存储介质 | |
US9536201B2 (en) | Identifying associations in data and performing data analysis using a normalized highest mutual information score | |
CN110119877B (zh) | 一种目标员工的选取方法及设备 | |
CN110866782B (zh) | 一种客户分类方法、系统以及电子设备 | |
CN109242002A (zh) | 高维数据分类方法、装置及终端设备 | |
CN113379301A (zh) | 通过决策树模型对用户进行分类的方法、装置和设备 | |
CN114119058B (zh) | 用户画像模型的构建方法、设备及存储介质 | |
CN111507470A (zh) | 一种异常账户的识别方法及装置 | |
CN112559900B (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN111126442B (zh) | 一种物品关键属性生成方法、物品分类方法和装置 | |
CN110969172A (zh) | 一种文本的分类方法以及相关设备 | |
CN113934851A (zh) | 用于文本分类的数据增强方法、装置及电子设备 | |
Bulysheva et al. | Segmentation modeling algorithm: a novel algorithm in data mining | |
Chang | The application of machine learning models in company bankruptcy prediction | |
CN107274043B (zh) | 预测模型的质量评价方法、装置及电子设备 | |
Shashidhar et al. | Customer segmentation of bank based on data mining–security value based heuristic approach as a replacement to K-means segmentation | |
CN116737373A (zh) | 负载均衡方法、装置、计算机设备、存储介质 | |
CN116976712A (zh) | 异常指标的根因确定方法、装置、设备以及存储介质 | |
CN114121204A (zh) | 基于患者主索引的患者记录匹配方法、存储介质及设备 | |
CN110264306B (zh) | 基于大数据的产品推荐方法、装置、服务器及介质 | |
CN109783816B (zh) | 短文本聚类方法及终端设备 | |
CN113239034A (zh) | 一种基于人工智能的大数据资源整合方法、系统及云平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200324 |
|
RJ01 | Rejection of invention patent application after publication |