CN111400365B - 基于标准sql下的业务系统数据质量检测方法 - Google Patents
基于标准sql下的业务系统数据质量检测方法 Download PDFInfo
- Publication number
- CN111400365B CN111400365B CN202010119671.5A CN202010119671A CN111400365B CN 111400365 B CN111400365 B CN 111400365B CN 202010119671 A CN202010119671 A CN 202010119671A CN 111400365 B CN111400365 B CN 111400365B
- Authority
- CN
- China
- Prior art keywords
- data
- sql
- business
- data quality
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/244—Grouping and aggregation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2445—Data retrieval commands; View definitions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
Abstract
本发明公开了一种基于标准SQL下的业务系统数据质量检测方法,包括如下步骤:进行业务数据和业务规则的基础配置,生成可执行SQL语句;执行生成的SQL语句,获取数据的中间结果;过滤异常数据,进行数据合并和统计。本发明具有如下有益效果:配置管理的优化;本发明能够有效的合并几十乃至几百的数据校验规则,实现一条SQL语句检测一个数据视图上的多个数据质量规则,提高了数据质量检测的速度;(3)本发明通过对数据视图执行标准SQL的方式,在数据质量校验字段上添加相关检测逻辑规则,执行SQL后在SQL语句返回结果的基础上,过滤及分解相关检测逻辑判定有异常的数据,实现对业务系统数据质量校验和异常数据的分离。
Description
技术领域
本发明涉及数据库数据质量控制技术领域,尤其是涉及一种能够提高数据质量检测效率,实现业务系统数据质量校验和异常数据分离的基于标准SQL下的业务系统数据质量检测方法。
背景技术
随着企事业单位数字化程度的提高和企事业单位信息系统的广泛应用,信息系统业务数据的质量问题也日益凸现。数据质量问题轻则影响业务事务的一般处理和统计分析的准确性,重则影响企事业单位决策、客户关系、流程质量,甚至影响行业发展。近年来,数据二次应用的研究在企事业单位广泛展开。通过数据挖掘、数据仓库、在线分析等技术,对业务系统内存储的数据进行提取和分析,为企事业单位管理决策和业务执行提供支持。在数据二次应用中,数据质量问题的影响同样十分严重,因其不但无法再更正,更会造成分析错误,影响企事业单位管理和业务执行决策。
目前现有的一些针对数据库数据表单质量检测的解决方案,其主要实现方式也是基于SQL的处理方式,不过不同的地方在于,其主要的规则校验逻辑实现在SQL的WHERE子句层面,这就意味着每个SQL的配置只能满足一个业务规则的校验,伴随着整个业务层面的规则增加和修改,需要为每个规则都配置一个SQL语句并进行维护,同时为了获取数据质量的总体情况,需要对每个SQL都执行一次,大大增加了整个数据质量规则检测的运行时间。
发明内容
本发明为了克服现有技术中存在的每个SQL的配置只能满足一个业务规则的校验,整个数据质量规则检测的运行时间长的不足,提供了一种能够提高数据质量检测效率,实现业务系统数据质量校验和异常数据分离的基于标准SQL下的业务系统数据质量检测方法。
为了实现上述目的,本发明采用了以下技术方案:
一种基于标准SQL下的业务系统数据质量检测方法,包括如下步骤:
(1-1)进行业务数据和业务规则的基础配置,生成可执行SQL语句;
(1-2)执行生成的SQL语句,获取数据的中间结果;
(1-3)过滤异常数据,进行数据合并和统计。
本发明首先对业务数据进行模块化,把相互关联的业务校验需求进行合并,并在这个模块化的基础上,为每个模块建立对象的数据视图;接着进行数据业务规则代码化,把用业务描述的规则变更为可通过SQL执行的等价逻辑;最后以SQL执行的返回结果作为基础,对异常数据进行过滤提取,并进行异常数据的合并和输出显示。
作为优选,步骤(1-1)的具体步骤如下:
(2-1)将多个数据表格关联,生成数据视图;
(2-2)定义业务模块名称和数据视图名称;
(2-3)制定若干个数据质量校验业务规则,完成“业务模块”,“数据视图”和“业务规则”三者之间的映射;
(2-4)根据数据视图以及制定的各个数据质量校验业务规则,生成可执行SQL语句,完成“业务规则”和“可执行SQL语句”之间的映射。
数据模块抽象形成数据视图,更好的划分和归类质量检测的内容,同时能够有效的合并几十乃至几百的数据校验规则,实现一条SQL语句检测一个数据视图上的多个数据质量规则,提高了数据质量检测的速度
作为优选,步骤(1-2)的具体步骤如下:
(3-1)执行生成的SQL语句,基于数据视图进行各个业务规则的计算,返回数值,其中,1表示违反规则,0表示不违反规则,即得到数据的中间结果。
作为优选,步骤(1-3)的具体步骤如下:
(4-1)将每条数据的多个业务规则的计算结果进行拼接;
(4-2)对拼接后的结果数据进行过滤,获得异常数据;
(4-3)解析每条数据,提取中间结果为1的数据信息;
(4-4)将提取的异常数据信息输出显示。
本发明通过对数据视图执行标准SQL的方式,在数据质量校验字段上添加相关检测逻辑规则,执行SQL后在SQL语句返回结果的基础上,过滤及分解相关检测逻辑判定有异常的数据,实现对业务系统数据质量校验和异常数据的分离。
作为优选,基于数据视图的各个业务规则的计算方法为列值计算。
作为优选,数据信息包括业务数据关键信息和违反的数据质量校验业务规则信息。
因此,本发明具有如下有益效果:(1)配置管理的优化,管理人员只需要负责业务规则逻辑到SQL可执行代码逻辑的转换;(2)数据模块抽象形成数据视图,更好的划分和归类质量检测的内容,同时能够有效的合并几十乃至几百的数据校验规则,实现一条SQL语句检测一个数据视图上的多个数据质量规则,提高了数据质量检测的速度;(3)本发明通过对数据视图执行标准SQL的方式,在数据质量校验字段上添加相关检测逻辑规则,执行SQL后在SQL语句返回结果的基础上,过滤及分解相关检测逻辑判定有异常的数据,实现对业务系统数据质量校验和异常数据的分离。
附图说明
图1是本发明的一种流程图。
具体实施方式
下面结合附图与具体实施方式对本发明做进一步描述:
如图1所示的实施例是一种基于标准SQL下的业务系统数据质量检测方法,包括如下步骤:
步骤100,进行业务数据和业务规则的基础配置,生成可执行SQL语句;
步骤101,将多个数据表格关联,生成数据视图;
EPI_YMJZJL数据视图由PATION_INFO(病人基本信息),YMJZ_INFO(疫苗接种信息),ORGAN_INFO(机构信息))三张表格关联生成,关联条件可描述为:“病人基本信息”表单通过PATION_ID跟“疫苗接种信息”关联,“疫苗接种信息”表单通过USTATIONCODE跟“机构信息”表单的CODE关联;
关联代码如下:
CREATE VIEW EPI_YMJZJL AS
SELECT
T.PK,
T.MC_NAME,
T.MC_IDCARD,
T.MC_BIRTHDATE,
T.MC_SEX,
T.MC_ID,
T.DATA_SOURCE,
T.DATA_ORG,
T.DATA_DEPT,
T.DATA_STAFF,
T.BUS_DATE,
T2.HOSPITAL_ID,
T2.HOSPITAL_NAME,
T1.DEPT_CODE,
T1.DOCTOR_CODE,
T1.CHILDNO,
T1.FCHILDNO,
T1.FBACTID,
T1.FSHOTDATED,
T1.FENTERPNO,
T1.YMPH,
T1.JZYS,
T1.REASON,
T1.CANCELDATE,
T1.USTATIONCODE,
T2.USTATIONNAME,
T1.YMMC,
T1.YMMC2,
T1.ZC,
T1.LEIXING
FROM PATIENT_INFO T,YMJZ_INFO T1,ORGAN_INFO T2
WHERE T.PATION_ID=T1.PATION_ID
AND T1.USTATIONCODE=T2.CODE
步骤102,定义业务模块名称和数据视图名称;
将业务模块名称定为“预防接种服务”,数据视图名称定义为“疫苗接种信息表”;
步骤103,制定若干个数据质量校验业务规则,完成“业务模块”,“数据视图”和“业务规则”三者之间的映射;
步骤104,根据数据视图以及制定的各个数据质量校验业务规则,生成可执行SQL语句,完成“业务规则”和“可执行SQL语句”之间的映射;
最终映射关系如表1所示;
表1
生成的SQL具体内容主要分为两部分:
1.内层SQL主要功能从采用列值计算的方式,从数据视图中进行计算规则计算返回数值:1-违反规则,0-不违反规则;
2.外层SQL主要功能为统计单条数据违反的规则总数;
具体SQL内容如下:
步骤200,执行生成的SQL语句,获取数据的中间结果;
步骤201,执行生成的SQL语句,基于数据视图采用列值计算对各个业务规则进行计算,返回数值,其中,1表示违反规则,0表示不违反规则,即得到数据的中间结果;
获取中间结果的代码如下:
其中,SQL_01:参数引用,即可执行SQL语句;
GROUP BY:为了避免数据视图存在数据重复的情况而做的按主键分组;
MAX():针对主键相同的数据的规则判定结果分别取MAX,实现数据唯一;
步骤300,过滤异常数据,进行数据合并和统计;
步骤301,将每条数据的多个业务规则的计算结果进行拼接;
var RULE
RULE=RULE1+';'+
RULE2+';'+
RULE3+';'
RULE=replace(RULE,';null',”)
通过上述代码进行结果拼接;
步骤302,对拼接后的结果进行过滤,获得异常数据;
对拼接后的结果进行过滤,过滤条件为RULE_COUNT>0,RULE_COUNT值由可执行SQL中获取;
步骤303,解析每条数据,提取中间结果为1的异常数据信息;
通过上述代码获得中间结果为1的数据信息;
步骤304,将提取的数据信息输出显示;其中,数据信息包括业务数据关键信息和违反的数据质量校验业务规则信息;具体如表2和表3所示。
表2
表3
应理解,本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
Claims (5)
1.一种基于标准SQL下的业务系统数据质量检测方法,其特征在于,包括如下步骤:
(1-1)进行业务数据的基础配置,将多个数据表格关联,生成数据视图,定义业务模块名称和数据视图名称;进行业务规则的基础配置,制定若干个数据质量校验业务规则,生成一条可执行SQL语句,完成若干个“业务规则”和一条“可执行SQL语句”之间的映射;
(1-2)执行生成的单条可执行SQL语句,获取数据的中间结果;
(1-3)过滤异常数据,进行数据合并和统计。
2.根据权利要求1所述的基于标准SQL下的业务系统数据质量检测方法,其特征在于,步骤(1-2)的具体步骤如下:
(2-1)执行生成的SQL语句,基于数据视图进行各个业务规则的计算,返回数值,其中,1表示违反规则,0表示不违反规则,即得到数据的中间结果。
3.根据权利要求2所述的基于标准SQL下的业务系统数据质量检测方法,其特征在于,步骤(1-3)的具体步骤如下:
(3-1)将每条数据的多个业务规则的计算结果进行拼接;
(3-2)对拼接后的结果数据进行过滤,获得异常数据;
(3-3)解析每条数据,提取中间结果为1的异常数据信息;
(3-4)将提取的异常数据信息输出显示。
4.根据权利要求2所述的基于标准SQL下的业务系统数据质量检测方法,其特征在于,基于数据视图的各个业务规则的计算方法为列值计算。
5.根据权利要求3所述的基于标准SQL下的业务系统数据质量检测方法,其特征在于,数据信息包括业务数据关键信息和违反的数据质量校验业务规则信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010119671.5A CN111400365B (zh) | 2020-02-26 | 2020-02-26 | 基于标准sql下的业务系统数据质量检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010119671.5A CN111400365B (zh) | 2020-02-26 | 2020-02-26 | 基于标准sql下的业务系统数据质量检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111400365A CN111400365A (zh) | 2020-07-10 |
CN111400365B true CN111400365B (zh) | 2023-09-19 |
Family
ID=71431997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010119671.5A Active CN111400365B (zh) | 2020-02-26 | 2020-02-26 | 基于标准sql下的业务系统数据质量检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111400365B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052138A (zh) * | 2020-08-31 | 2020-12-08 | 平安科技(深圳)有限公司 | 业务数据质量检测方法、装置、计算机设备及存储介质 |
CN113760681A (zh) * | 2021-03-10 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种基于统一sql的多源异构数据质量校验方法和系统 |
CN113268553A (zh) * | 2021-07-21 | 2021-08-17 | 国网汇通金财(北京)信息科技有限公司 | 一种数据审计方法、系统、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914616A (zh) * | 2014-03-18 | 2014-07-09 | 清华大学深圳研究生院 | 一种应急数据质量控制系统及方法 |
US9158805B1 (en) * | 2013-03-12 | 2015-10-13 | Amazon Technologies, Inc. | Statistical data quality determination for storage systems |
CN105976120A (zh) * | 2016-05-17 | 2016-09-28 | 全球能源互联网研究院 | 一种电力运营监控数据质量评估系统及方法 |
CN106202110A (zh) * | 2015-05-06 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 数据质量检测的方法和装置 |
CN106528828A (zh) * | 2016-11-22 | 2017-03-22 | 山东浪潮云服务信息科技有限公司 | 一种基于多维度校验规则的数据质量检测方法 |
CN106708909A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 数据质量的检测方法和装置 |
CN108073686A (zh) * | 2016-11-18 | 2018-05-25 | 埃森哲环球解决方案有限公司 | 具有通用元数据存储库的闭环统一元数据架构 |
CN109491990A (zh) * | 2018-09-17 | 2019-03-19 | 武汉达梦数据库有限公司 | 一种检测数据质量的方法以及检测数据质量的装置 |
CN110162516A (zh) * | 2019-05-27 | 2019-08-23 | 浪潮软件集团有限公司 | 一种基于海量数据处理的数据治理的方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9372671B2 (en) * | 2011-08-30 | 2016-06-21 | Sybase, Inc. | Modeling and code generation for SQL-based data transformations |
US20130254156A1 (en) * | 2012-03-24 | 2013-09-26 | Syed Asim H. Abbasi | Algorithm and System for Automated Enterprise-wide Data Quality Improvement |
GB201322057D0 (en) * | 2013-12-13 | 2014-01-29 | Qatar Foundation | Descriptive and prescriptive data cleaning |
-
2020
- 2020-02-26 CN CN202010119671.5A patent/CN111400365B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9158805B1 (en) * | 2013-03-12 | 2015-10-13 | Amazon Technologies, Inc. | Statistical data quality determination for storage systems |
CN103914616A (zh) * | 2014-03-18 | 2014-07-09 | 清华大学深圳研究生院 | 一种应急数据质量控制系统及方法 |
CN106202110A (zh) * | 2015-05-06 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 数据质量检测的方法和装置 |
CN106708909A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 数据质量的检测方法和装置 |
CN105976120A (zh) * | 2016-05-17 | 2016-09-28 | 全球能源互联网研究院 | 一种电力运营监控数据质量评估系统及方法 |
CN108073686A (zh) * | 2016-11-18 | 2018-05-25 | 埃森哲环球解决方案有限公司 | 具有通用元数据存储库的闭环统一元数据架构 |
CN106528828A (zh) * | 2016-11-22 | 2017-03-22 | 山东浪潮云服务信息科技有限公司 | 一种基于多维度校验规则的数据质量检测方法 |
CN109491990A (zh) * | 2018-09-17 | 2019-03-19 | 武汉达梦数据库有限公司 | 一种检测数据质量的方法以及检测数据质量的装置 |
CN110162516A (zh) * | 2019-05-27 | 2019-08-23 | 浪潮软件集团有限公司 | 一种基于海量数据处理的数据治理的方法及系统 |
Non-Patent Citations (2)
Title |
---|
"基于Geo-SQL语言的数字地形图质检规则库设计与实现";符彦 等;《测绘技术装备》;第19卷(第03期);84-87 * |
"基于规则驱动的城市更新基础数据库质量检查软件的设计与实现";蚁群川 等;《矿山测量》;第48卷(第01期);44-48 * |
Also Published As
Publication number | Publication date |
---|---|
CN111400365A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111400365B (zh) | 基于标准sql下的业务系统数据质量检测方法 | |
CN110383319B (zh) | 大规模异构数据摄取和用户解析 | |
JP6066927B2 (ja) | データパターン情報の生成 | |
AU2009308206B2 (en) | Fuzzy data operations | |
EP2608074A2 (en) | Systems and methods for merging source records in accordance with survivorship rules | |
CN112801488B (zh) | 临床试验质量实时管控优化方法和系统 | |
CN112036997B (zh) | 预测纳税人中的非正常户的方法及装置 | |
CN110335641B (zh) | 一种四个体组合亲缘关系鉴定方法及装置 | |
JP2017068293A (ja) | テストdbデータ生成方法及び装置 | |
CN111221873A (zh) | 基于关联网络的企业间同名人识别方法及系统 | |
CN110321556A (zh) | 一种医生诊疗医保控费智能推荐方案的方法及其系统 | |
Quezada-Sánchez et al. | Implementation and validation of a probabilistic linkage method for population databases without identification variables | |
Ashoori et al. | A model to predict the sequential behavior of healthy blood donors using data mining | |
US20240152818A1 (en) | Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact | |
CN113642669B (zh) | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 | |
Maldonado et al. | A platform for exploration into chaining of web services for clinical data transformation and reasoning | |
CN114169686A (zh) | 一种上市公司esg评价方法 | |
CN112966901A (zh) | 面向检察业务协同流程的世系数据质量分析与验证方法 | |
CN117252715B (zh) | 基于规则引擎的保险核保检查方法、系统 | |
AU2015249134B2 (en) | Fuzzy data operations | |
CN112765964B (zh) | 一种健康体检大数据文本资料不合法词清洗的方法 | |
Bender et al. | Combined Proactive Risk Assessment: Unifying Proactive and Reactive Risk Assessment Techniques In Health Care | |
US20230072607A1 (en) | Data augmentation and enrichment | |
Jaleel et al. | Ontology construction from relational database | |
Li et al. | ASTA: Learning Analytical Semantics over Tables for Intelligent Data Analysis and Visualization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 103-27, Building 19, No. 1399 Liangmu Road, Cangqian Street, Yuhang District, Hangzhou City, Zhejiang Province, 310011 Applicant after: Hangzhou Meichuang Technology Co.,Ltd. Address before: 12 / F, building 7, Tianxing International Center, 508 Fengtan Road, Gongshu District, Hangzhou City, Zhejiang Province 310011 Applicant before: HANGZHOU MEICHUANG TECHNOLOGY CO.,LTD. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |