CN111400365B - 基于标准sql下的业务系统数据质量检测方法 - Google Patents

基于标准sql下的业务系统数据质量检测方法 Download PDF

Info

Publication number
CN111400365B
CN111400365B CN202010119671.5A CN202010119671A CN111400365B CN 111400365 B CN111400365 B CN 111400365B CN 202010119671 A CN202010119671 A CN 202010119671A CN 111400365 B CN111400365 B CN 111400365B
Authority
CN
China
Prior art keywords
data
sql
business
data quality
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010119671.5A
Other languages
English (en)
Other versions
CN111400365A (zh
Inventor
许一南
柳遵梁
刘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Meichuang Technology Co ltd
Original Assignee
Hangzhou Meichuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Meichuang Technology Co ltd filed Critical Hangzhou Meichuang Technology Co ltd
Priority to CN202010119671.5A priority Critical patent/CN111400365B/zh
Publication of CN111400365A publication Critical patent/CN111400365A/zh
Application granted granted Critical
Publication of CN111400365B publication Critical patent/CN111400365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2445Data retrieval commands; View definitions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Abstract

本发明公开了一种基于标准SQL下的业务系统数据质量检测方法,包括如下步骤:进行业务数据和业务规则的基础配置,生成可执行SQL语句;执行生成的SQL语句,获取数据的中间结果;过滤异常数据,进行数据合并和统计。本发明具有如下有益效果:配置管理的优化;本发明能够有效的合并几十乃至几百的数据校验规则,实现一条SQL语句检测一个数据视图上的多个数据质量规则,提高了数据质量检测的速度;(3)本发明通过对数据视图执行标准SQL的方式,在数据质量校验字段上添加相关检测逻辑规则,执行SQL后在SQL语句返回结果的基础上,过滤及分解相关检测逻辑判定有异常的数据,实现对业务系统数据质量校验和异常数据的分离。

Description

基于标准SQL下的业务系统数据质量检测方法
技术领域
本发明涉及数据库数据质量控制技术领域,尤其是涉及一种能够提高数据质量检测效率,实现业务系统数据质量校验和异常数据分离的基于标准SQL下的业务系统数据质量检测方法。
背景技术
随着企事业单位数字化程度的提高和企事业单位信息系统的广泛应用,信息系统业务数据的质量问题也日益凸现。数据质量问题轻则影响业务事务的一般处理和统计分析的准确性,重则影响企事业单位决策、客户关系、流程质量,甚至影响行业发展。近年来,数据二次应用的研究在企事业单位广泛展开。通过数据挖掘、数据仓库、在线分析等技术,对业务系统内存储的数据进行提取和分析,为企事业单位管理决策和业务执行提供支持。在数据二次应用中,数据质量问题的影响同样十分严重,因其不但无法再更正,更会造成分析错误,影响企事业单位管理和业务执行决策。
目前现有的一些针对数据库数据表单质量检测的解决方案,其主要实现方式也是基于SQL的处理方式,不过不同的地方在于,其主要的规则校验逻辑实现在SQL的WHERE子句层面,这就意味着每个SQL的配置只能满足一个业务规则的校验,伴随着整个业务层面的规则增加和修改,需要为每个规则都配置一个SQL语句并进行维护,同时为了获取数据质量的总体情况,需要对每个SQL都执行一次,大大增加了整个数据质量规则检测的运行时间。
发明内容
本发明为了克服现有技术中存在的每个SQL的配置只能满足一个业务规则的校验,整个数据质量规则检测的运行时间长的不足,提供了一种能够提高数据质量检测效率,实现业务系统数据质量校验和异常数据分离的基于标准SQL下的业务系统数据质量检测方法。
为了实现上述目的,本发明采用了以下技术方案:
一种基于标准SQL下的业务系统数据质量检测方法,包括如下步骤:
(1-1)进行业务数据和业务规则的基础配置,生成可执行SQL语句;
(1-2)执行生成的SQL语句,获取数据的中间结果;
(1-3)过滤异常数据,进行数据合并和统计。
本发明首先对业务数据进行模块化,把相互关联的业务校验需求进行合并,并在这个模块化的基础上,为每个模块建立对象的数据视图;接着进行数据业务规则代码化,把用业务描述的规则变更为可通过SQL执行的等价逻辑;最后以SQL执行的返回结果作为基础,对异常数据进行过滤提取,并进行异常数据的合并和输出显示。
作为优选,步骤(1-1)的具体步骤如下:
(2-1)将多个数据表格关联,生成数据视图;
(2-2)定义业务模块名称和数据视图名称;
(2-3)制定若干个数据质量校验业务规则,完成“业务模块”,“数据视图”和“业务规则”三者之间的映射;
(2-4)根据数据视图以及制定的各个数据质量校验业务规则,生成可执行SQL语句,完成“业务规则”和“可执行SQL语句”之间的映射。
数据模块抽象形成数据视图,更好的划分和归类质量检测的内容,同时能够有效的合并几十乃至几百的数据校验规则,实现一条SQL语句检测一个数据视图上的多个数据质量规则,提高了数据质量检测的速度
作为优选,步骤(1-2)的具体步骤如下:
(3-1)执行生成的SQL语句,基于数据视图进行各个业务规则的计算,返回数值,其中,1表示违反规则,0表示不违反规则,即得到数据的中间结果。
作为优选,步骤(1-3)的具体步骤如下:
(4-1)将每条数据的多个业务规则的计算结果进行拼接;
(4-2)对拼接后的结果数据进行过滤,获得异常数据;
(4-3)解析每条数据,提取中间结果为1的数据信息;
(4-4)将提取的异常数据信息输出显示。
本发明通过对数据视图执行标准SQL的方式,在数据质量校验字段上添加相关检测逻辑规则,执行SQL后在SQL语句返回结果的基础上,过滤及分解相关检测逻辑判定有异常的数据,实现对业务系统数据质量校验和异常数据的分离。
作为优选,基于数据视图的各个业务规则的计算方法为列值计算。
作为优选,数据信息包括业务数据关键信息和违反的数据质量校验业务规则信息。
因此,本发明具有如下有益效果:(1)配置管理的优化,管理人员只需要负责业务规则逻辑到SQL可执行代码逻辑的转换;(2)数据模块抽象形成数据视图,更好的划分和归类质量检测的内容,同时能够有效的合并几十乃至几百的数据校验规则,实现一条SQL语句检测一个数据视图上的多个数据质量规则,提高了数据质量检测的速度;(3)本发明通过对数据视图执行标准SQL的方式,在数据质量校验字段上添加相关检测逻辑规则,执行SQL后在SQL语句返回结果的基础上,过滤及分解相关检测逻辑判定有异常的数据,实现对业务系统数据质量校验和异常数据的分离。
附图说明
图1是本发明的一种流程图。
具体实施方式
下面结合附图与具体实施方式对本发明做进一步描述:
如图1所示的实施例是一种基于标准SQL下的业务系统数据质量检测方法,包括如下步骤:
步骤100,进行业务数据和业务规则的基础配置,生成可执行SQL语句;
步骤101,将多个数据表格关联,生成数据视图;
EPI_YMJZJL数据视图由PATION_INFO(病人基本信息),YMJZ_INFO(疫苗接种信息),ORGAN_INFO(机构信息))三张表格关联生成,关联条件可描述为:“病人基本信息”表单通过PATION_ID跟“疫苗接种信息”关联,“疫苗接种信息”表单通过USTATIONCODE跟“机构信息”表单的CODE关联;
关联代码如下:
CREATE VIEW EPI_YMJZJL AS
SELECT
T.PK,
T.MC_NAME,
T.MC_IDCARD,
T.MC_BIRTHDATE,
T.MC_SEX,
T.MC_ID,
T.DATA_SOURCE,
T.DATA_ORG,
T.DATA_DEPT,
T.DATA_STAFF,
T.BUS_DATE,
T2.HOSPITAL_ID,
T2.HOSPITAL_NAME,
T1.DEPT_CODE,
T1.DOCTOR_CODE,
T1.CHILDNO,
T1.FCHILDNO,
T1.FBACTID,
T1.FSHOTDATED,
T1.FENTERPNO,
T1.YMPH,
T1.JZYS,
T1.REASON,
T1.CANCELDATE,
T1.USTATIONCODE,
T2.USTATIONNAME,
T1.YMMC,
T1.YMMC2,
T1.ZC,
T1.LEIXING
FROM PATIENT_INFO T,YMJZ_INFO T1,ORGAN_INFO T2
WHERE T.PATION_ID=T1.PATION_ID
AND T1.USTATIONCODE=T2.CODE
步骤102,定义业务模块名称和数据视图名称;
将业务模块名称定为“预防接种服务”,数据视图名称定义为“疫苗接种信息表”;
步骤103,制定若干个数据质量校验业务规则,完成“业务模块”,“数据视图”和“业务规则”三者之间的映射;
步骤104,根据数据视图以及制定的各个数据质量校验业务规则,生成可执行SQL语句,完成“业务规则”和“可执行SQL语句”之间的映射;
最终映射关系如表1所示;
表1
生成的SQL具体内容主要分为两部分:
1.内层SQL主要功能从采用列值计算的方式,从数据视图中进行计算规则计算返回数值:1-违反规则,0-不违反规则;
2.外层SQL主要功能为统计单条数据违反的规则总数;
具体SQL内容如下:
步骤200,执行生成的SQL语句,获取数据的中间结果;
步骤201,执行生成的SQL语句,基于数据视图采用列值计算对各个业务规则进行计算,返回数值,其中,1表示违反规则,0表示不违反规则,即得到数据的中间结果;
获取中间结果的代码如下:
其中,SQL_01:参数引用,即可执行SQL语句;
GROUP BY:为了避免数据视图存在数据重复的情况而做的按主键分组;
MAX():针对主键相同的数据的规则判定结果分别取MAX,实现数据唯一;
步骤300,过滤异常数据,进行数据合并和统计;
步骤301,将每条数据的多个业务规则的计算结果进行拼接;
var RULE
RULE=RULE1+';'+
RULE2+';'+
RULE3+';'
RULE=replace(RULE,';null',”)
通过上述代码进行结果拼接;
步骤302,对拼接后的结果进行过滤,获得异常数据;
对拼接后的结果进行过滤,过滤条件为RULE_COUNT>0,RULE_COUNT值由可执行SQL中获取;
步骤303,解析每条数据,提取中间结果为1的异常数据信息;
通过上述代码获得中间结果为1的数据信息;
步骤304,将提取的数据信息输出显示;其中,数据信息包括业务数据关键信息和违反的数据质量校验业务规则信息;具体如表2和表3所示。
表2
表3
应理解,本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (5)

1.一种基于标准SQL下的业务系统数据质量检测方法,其特征在于,包括如下步骤:
(1-1)进行业务数据的基础配置,将多个数据表格关联,生成数据视图,定义业务模块名称和数据视图名称;进行业务规则的基础配置,制定若干个数据质量校验业务规则,生成一条可执行SQL语句,完成若干个“业务规则”和一条“可执行SQL语句”之间的映射;
(1-2)执行生成的单条可执行SQL语句,获取数据的中间结果;
(1-3)过滤异常数据,进行数据合并和统计。
2.根据权利要求1所述的基于标准SQL下的业务系统数据质量检测方法,其特征在于,步骤(1-2)的具体步骤如下:
(2-1)执行生成的SQL语句,基于数据视图进行各个业务规则的计算,返回数值,其中,1表示违反规则,0表示不违反规则,即得到数据的中间结果。
3.根据权利要求2所述的基于标准SQL下的业务系统数据质量检测方法,其特征在于,步骤(1-3)的具体步骤如下:
(3-1)将每条数据的多个业务规则的计算结果进行拼接;
(3-2)对拼接后的结果数据进行过滤,获得异常数据;
(3-3)解析每条数据,提取中间结果为1的异常数据信息;
(3-4)将提取的异常数据信息输出显示。
4.根据权利要求2所述的基于标准SQL下的业务系统数据质量检测方法,其特征在于,基于数据视图的各个业务规则的计算方法为列值计算。
5.根据权利要求3所述的基于标准SQL下的业务系统数据质量检测方法,其特征在于,数据信息包括业务数据关键信息和违反的数据质量校验业务规则信息。
CN202010119671.5A 2020-02-26 2020-02-26 基于标准sql下的业务系统数据质量检测方法 Active CN111400365B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010119671.5A CN111400365B (zh) 2020-02-26 2020-02-26 基于标准sql下的业务系统数据质量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010119671.5A CN111400365B (zh) 2020-02-26 2020-02-26 基于标准sql下的业务系统数据质量检测方法

Publications (2)

Publication Number Publication Date
CN111400365A CN111400365A (zh) 2020-07-10
CN111400365B true CN111400365B (zh) 2023-09-19

Family

ID=71431997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010119671.5A Active CN111400365B (zh) 2020-02-26 2020-02-26 基于标准sql下的业务系统数据质量检测方法

Country Status (1)

Country Link
CN (1) CN111400365B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052138A (zh) * 2020-08-31 2020-12-08 平安科技(深圳)有限公司 业务数据质量检测方法、装置、计算机设备及存储介质
CN113760681A (zh) * 2021-03-10 2021-12-07 中科天玑数据科技股份有限公司 一种基于统一sql的多源异构数据质量校验方法和系统
CN113268553A (zh) * 2021-07-21 2021-08-17 国网汇通金财(北京)信息科技有限公司 一种数据审计方法、系统、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914616A (zh) * 2014-03-18 2014-07-09 清华大学深圳研究生院 一种应急数据质量控制系统及方法
US9158805B1 (en) * 2013-03-12 2015-10-13 Amazon Technologies, Inc. Statistical data quality determination for storage systems
CN105976120A (zh) * 2016-05-17 2016-09-28 全球能源互联网研究院 一种电力运营监控数据质量评估系统及方法
CN106202110A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 数据质量检测的方法和装置
CN106528828A (zh) * 2016-11-22 2017-03-22 山东浪潮云服务信息科技有限公司 一种基于多维度校验规则的数据质量检测方法
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN108073686A (zh) * 2016-11-18 2018-05-25 埃森哲环球解决方案有限公司 具有通用元数据存储库的闭环统一元数据架构
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
CN110162516A (zh) * 2019-05-27 2019-08-23 浪潮软件集团有限公司 一种基于海量数据处理的数据治理的方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9372671B2 (en) * 2011-08-30 2016-06-21 Sybase, Inc. Modeling and code generation for SQL-based data transformations
US20130254156A1 (en) * 2012-03-24 2013-09-26 Syed Asim H. Abbasi Algorithm and System for Automated Enterprise-wide Data Quality Improvement
GB201322057D0 (en) * 2013-12-13 2014-01-29 Qatar Foundation Descriptive and prescriptive data cleaning

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9158805B1 (en) * 2013-03-12 2015-10-13 Amazon Technologies, Inc. Statistical data quality determination for storage systems
CN103914616A (zh) * 2014-03-18 2014-07-09 清华大学深圳研究生院 一种应急数据质量控制系统及方法
CN106202110A (zh) * 2015-05-06 2016-12-07 阿里巴巴集团控股有限公司 数据质量检测的方法和装置
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN105976120A (zh) * 2016-05-17 2016-09-28 全球能源互联网研究院 一种电力运营监控数据质量评估系统及方法
CN108073686A (zh) * 2016-11-18 2018-05-25 埃森哲环球解决方案有限公司 具有通用元数据存储库的闭环统一元数据架构
CN106528828A (zh) * 2016-11-22 2017-03-22 山东浪潮云服务信息科技有限公司 一种基于多维度校验规则的数据质量检测方法
CN109491990A (zh) * 2018-09-17 2019-03-19 武汉达梦数据库有限公司 一种检测数据质量的方法以及检测数据质量的装置
CN110162516A (zh) * 2019-05-27 2019-08-23 浪潮软件集团有限公司 一种基于海量数据处理的数据治理的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于Geo-SQL语言的数字地形图质检规则库设计与实现";符彦 等;《测绘技术装备》;第19卷(第03期);84-87 *
"基于规则驱动的城市更新基础数据库质量检查软件的设计与实现";蚁群川 等;《矿山测量》;第48卷(第01期);44-48 *

Also Published As

Publication number Publication date
CN111400365A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111400365B (zh) 基于标准sql下的业务系统数据质量检测方法
CN110383319B (zh) 大规模异构数据摄取和用户解析
JP6066927B2 (ja) データパターン情報の生成
AU2009308206B2 (en) Fuzzy data operations
EP2608074A2 (en) Systems and methods for merging source records in accordance with survivorship rules
CN112801488B (zh) 临床试验质量实时管控优化方法和系统
CN112036997B (zh) 预测纳税人中的非正常户的方法及装置
CN110335641B (zh) 一种四个体组合亲缘关系鉴定方法及装置
JP2017068293A (ja) テストdbデータ生成方法及び装置
CN111221873A (zh) 基于关联网络的企业间同名人识别方法及系统
CN110321556A (zh) 一种医生诊疗医保控费智能推荐方案的方法及其系统
Quezada-Sánchez et al. Implementation and validation of a probabilistic linkage method for population databases without identification variables
Ashoori et al. A model to predict the sequential behavior of healthy blood donors using data mining
US20240152818A1 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
CN113642669B (zh) 基于特征分析的防欺诈检测方法、装置、设备及存储介质
Maldonado et al. A platform for exploration into chaining of web services for clinical data transformation and reasoning
CN114169686A (zh) 一种上市公司esg评价方法
CN112966901A (zh) 面向检察业务协同流程的世系数据质量分析与验证方法
CN117252715B (zh) 基于规则引擎的保险核保检查方法、系统
AU2015249134B2 (en) Fuzzy data operations
CN112765964B (zh) 一种健康体检大数据文本资料不合法词清洗的方法
Bender et al. Combined Proactive Risk Assessment: Unifying Proactive and Reactive Risk Assessment Techniques In Health Care
US20230072607A1 (en) Data augmentation and enrichment
Jaleel et al. Ontology construction from relational database
Li et al. ASTA: Learning Analytical Semantics over Tables for Intelligent Data Analysis and Visualization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 103-27, Building 19, No. 1399 Liangmu Road, Cangqian Street, Yuhang District, Hangzhou City, Zhejiang Province, 310011

Applicant after: Hangzhou Meichuang Technology Co.,Ltd.

Address before: 12 / F, building 7, Tianxing International Center, 508 Fengtan Road, Gongshu District, Hangzhou City, Zhejiang Province 310011

Applicant before: HANGZHOU MEICHUANG TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant