CN112966901B

CN112966901B - 面向检察业务协同流程的世系数据质量分析与验证方法

Info

Publication number: CN112966901B
Application number: CN202110153069.8A
Authority: CN
Inventors: 卢暾; 杨宝平; 王先朋; 吴瀚煜
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2023-02-10
Anticipated expiration: 2041-02-04
Also published as: CN112966901A

Abstract

本发明属于数据质量技术领域，具体为一种面向检察业务协同流程的世系数据质量分析与验证方法。针对检察业务场景，本发明方法包括：检察业务协同流程中数据的数据质量维度提取分析，定性分析检察业务流程执行过程中所产生的流程数据的数据质量；设计检察业务协同流程中的数据质量约束提取和验证方法，通过对检务数据的分析提取出相应数据质量约束，采用约束组对检察业务协同流程中的数据质量进行定量验证，使用数据世系存储和采集历史数据质量信息，进行数据质量评估。本发明方法以服务的形式封装到流程系统的服务端中。本发明可以满足检察业务场景下检察业务世系数据的数据质量分析和验证需求。

Description

面向检察业务协同流程的世系数据质量分析与验证方法

技术领域

本发明属于数据质量技术领域，具体为一种面向检察业务协同流程的世系数据质量分析与验证方法。

背景技术

业务协同流程中产生的业务数据对于企业具有重要意义，是企业非常依赖的新型资产。数据质量的好坏会直接影响到信息的精准度，对业务协同流程的稳定性，流畅度起到关键作用。所以协同业务流程中的数据质量问题至关重要。

现有的数据质量分析和验证技术主要包括以下几种：1.通过在流程系统中添加数据质量节点来对阶段性的数据质量进行验证；2.通过监控日志信息来监控数据质量，使用规则引擎洞察，关联，处理关键信息；3.通过数据巡逻周期性的进行数据质量验证。第一种方法有实时性强，灵活性高的特点，但是只能关注到当前流程中数据的数据质量，无法使用历史数据进行分析，并且数据质量分析节点由于效率问题不能进行过于具体的质量分析；第二种方法能够对数据质量进行深度的，全方位的分析，但是由于日志粒度不够细的问题，有可能会缺失某些关键信息，并且日志分析中存在数据质量模型缺失，模型重复的问题，可能会形成信息孤岛；第三种方法能够对数据质量进行全面的验证，但是这种方法是离线的，与实时的业务协同流程分离，影响性，关联性不足，可能造成数据质量衡量标准缺失，数据校验滞后等问题。

在检察业务领域，目前使用一套统一业务流程系统进行办案，办案过程中涉及案卡填写，文书编写，流程流转等多个过程。而且一个案件通常需要不同的部门甚至多个组织单位进行分工合作，例如公安机关，法院，监狱等。使用数据世系可以记录这个过程中产生的数据和操作，实现了对数据的追踪溯源。然而，在办案过程中可能会有异常的操作或者错误的案卡填写，比如案卡错填，迟填，漏填等，在流程流转的过程中也可能造成数据的异常或者丢失。检务场景中还存在一些特殊的数据质量需求，比如并案过程中的数据冲突，分案过程导致数据完整性问题，未检中存在的数据特殊数据一致性需求等。

发明内容

本发明的目的在于提出一种基于数据世系的检察业务协同流程数据质量分析与验证方法；本发明使用统计分析建立统一的数据质量维度，通过启发式方法对于一列数据进行自动化数据质量约束提取，使用约束组来定量表达数据质量，结合世系信息进行相应指标的计算，以保证检察业务协同流程中的数据质量，实现高效的，实时的，精确的数据质量分析和验证。本发明的技术方案具体介绍如下。

一种面向检察业务协同流程的世系数据质量分析与验证方法，其是基于现有检察院统一业务办案流程系统实现的；该方法包含以下步骤：

S1.检务场景下的数据质量维度分析和构建

采用统计分析，质性分析，编码树的方法构建并定义了检务场景下的数据质量维度：完整性，一致性和准确性；

S2.检务场景下的数据质量约束提取方法

通过数据驱动的方法，基于对数据的单列分析结果，使用结合检务场景特点和数据特点的启发式规则，提取数据质量约束；

S3.基于数据世系的数据质量验证方法

基于步骤1中得到的数据质量维度，使用一组数据质量约束来对其进行定量验证，采用约束组来对特定列的数据质量进行验证；结合数据世系信息和历史数据质量约束组及验证结果，为约束组中约束赋权，计算相对的数据质量分数，以此对数据质量进行评估。

本发明中，步骤S1中，构建检务场景下的数据质量维度的方法具体为：

首先对统一业务系统中的案卡表项进行分类统计，得到其中所有的数据类别和权重，并为每个数据类别分配基础数据质量维度；然后，根据每类数据的案卡填写规则和具体业务场景，对每类数据的数据质量维度进行编码，添加特定的数据质量维度，得到数据质量维度编码树；最后，根据数据世系采集方法对编码树进行再编码，得到每类数据所对应的数据质量维度和权重。

本发明中，步骤S1中，完整性表示实体包含描述真实世界对象所需数据的程度；一致性表示数据违反一组语义规则的程度；准确性表示数据正确的程度，通过语法和语义两个维度来衡量，语法准确性将值与其定义域进行比较，语义准确性判断值是否合乎真实世界的规则。

本发明中，步骤S2中，采用如下数据质量约束模板构建具体数据质量约束；该数据质量约束模板主要分为两部分：通用约束和业务约束；通用约束为流程业务数据领域的数据质量约束在检务场景下的适配和特化，主要包括数据列约束和数据值约束两类，数据列约束包括数据的完整度，清晰度，数据类型和数据统计约束，数据值约束包括数据的值范围，匹配值，预测值和唯一值约束；业务约束为检务流程系统中特殊数据规则的总结和抽象，表示检务场景中业务直接关联的数据质量约束，业务约束包括数据模式约束、案卡规则约束、业务规则约束、字典约束、元组兼容性约束和知识库约束。

本发明中，步骤S2中，分析方法具体为：

1)计算数据大小，数据类型检测，完整度计算，不同值计数；

2)在确定数据类型的列上，计算包括最大值，最小值，平均值和标准差在内的统计信息；

3)按需求进行数据元组模式匹配和兼容性约束匹配。

本发明中，步骤S2中，启发式规则包括：

1)基于数据统计分析结果的规则；

2)结合统一业务案卡填写标准和检务数据标准的规则。

本发明中，步骤S2中，启发式规则如下：

R.1如果当前列是完整的，则进行非空约束；

R.2如果当前列不完整，则进行完整度约束，通过对是否存在值作为伯努利分布的随机变量进行建模，估计其概率的置信区间，然后将区间的起始值作为完整性的下限；

R.3如果当前列的类型不是字符串，则对检测到的类型进行哈希一致性类型约束；

R.4采用“唯一行比率”来验证唯一性，如果当前列的行数和不同值的近似数量的比率大于阈值，则进行唯一性约束；

R.5如果一列为数字而且值在某个范围内，则建议进行数据值约束；

R.6如果列中的不同值的数量低于特定阈值，则该列具有代码类型，则进行类别约束来判断值是否在已观测到的集合中；

R.7如果当前业务中含有特定业务，则进行业务约束；

R.8如果一列中超过阈值比率的数据单元符合特定数据模式，则进行数据模式约束；

R.9如果某一元组与知识库中的数据表模式匹配，则进行知识库约束。

和现有技术相比，本发明的有益效果在于：本发明提出了一种基于数据世系的检察业务协同流程数据质量分析与验证方法。本方法使用数据世系来记录关键元数据和数据质量模型的关键信息，并能够对其进行溯源，同时结合世系信息进行数据质量约束验证，解决了日志分析中粒度不足和信息孤岛等问题，数据巡逻中离线和数据模型缺失的问题；使用统计分析的方法，基于检察业务流程场景，建立了统一的数据质量维度，解决了数据质量模型重复的问题；采用启发式的数据质量约束提取方法，解决了数据校验滞后，数据质量模型与数据关联性不足的问题。

附图说明

图1为本发明流程图示。

图2为数据质量约束提取结果图示。

图3为数据质量配置结果图示。

图4为数据质量约束验证结果图示。

具体实施方式

为了使本发明所要解决的技术问题，技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行详细的说明。应当说明的是，此处所描述的实施例仅用以解释本发明，并不用于限定本发明。

本发明提出的面向检察业务协同系统中数据的数据质量分析和验证方法，是基于现有检察院的统一业务系统和数据世系实现的：包括根据检察院业务场景和办案过程中使用到的案卡分析制定数据质量维度，定制启发式规则对具体的数据进行数据质量约束提取，结合具体的业务场景和检务数据标准以及检务协同流程系统中的案卡填写规则构建数据质量约束，通过约束组来量化验证数据质量。具体步骤为：

(一)检务场景下数据质量维度分析

为了实现对于检务场景下世系数据的定性分析，本发明基于具体业务场景、统一业务系统中的案卡表项、统一业务系统中的案卡填写规则、世系数据采集方法，采用统计分析的方法分析制定了检务场景下数据的数据质量维度。首先对统一业务系统中的案卡表项进行分类统计，得到其中所有的数据类别和权重，并为每个数据类别分配基础数据质量维度。然后，根据每类数据的案卡填写规则和具体业务场景，对每类数据的数据质量维度进行编码，添加特定的数据质量维度，得到数据质量维度编码树。最后，根据数据世系采集方法对编码树进行再编码，得到每类数据所对应的数据质量维度和权重。得到检务场景下的数据质量维度如下：

D.1完整性：完整性表示实体包含描述真实世界对象所需数据的程度。在关系型数据库系统的表中，完整性可以通过空值的存在来衡量，通常空值对应于缺失值。在检务场景下完整性的分析和完整性所对应的上下文信息的确认非常重要，需要在正确的上下文中验证完整性，例如，嫌疑人性别的值缺失与案件审理情况无关。所以要在属性适用于上下文的情况下来验证完整性。完整性对应于案卡漏填或数据丢失问题，在已填数据的比率大于阈值的情况下会建议进行完整性分析，如果有标准值则进行值的建议。

D.2一致性：一致性表示数据违反一组语义规则的程度。内部关系约束定义了一系列允许值，例如特殊的数据类型，数值列的值域或类别列的值集合。例如，如果列嫌疑人基本信息表中的学历信息，则值的集合为{小学，初中，高中，本科，硕士，博士}。这种约束可能会涉及到数据表中的多个列，例如，在多个嫌疑人的案件中案件基本信息表中的嫌疑人姓名会包含所有给定的嫌疑人基本信息表中的值。

D.3准确性：准确性表示数据正确的程度，可以通过两个维度来衡量，语法和语义。语法准确性将值与其定义域进行比较，语义准确性判断值是否合乎真实世界的规则。例如，嫌疑人基本信息中的性别，即使正确的值为女，但是也可将男视作语法上的准确，而未成年则在语法和语义上都不准确。准确性对应于案卡错填问题，在检务场景中主要通过类别分析，规则分析，时序分析等方式来判别其准确性。

(二)数据质量约束及提取

结合上述数据质量维度分析结果，以及检务场景下的数据特点和数据类型，本发明采用如下数据质量约束模板构建具体数据质量约束。该数据质量约束模板主要分为两部分：通用约束和业务约束。通用约束为检务场景中各个业务所通用的数据质量约束，对应于通用案卡填写规则和定量的数据值约束；业务约束为检务场景中特定业务所包含的特殊数据质量约束。

检务场景中的数据质量约束模板如下：D表示数据集，其中包含N条数据。在每次操作过程中，令v表示数据集D中特定数据v，V表示D中特定列的集合。

通用约束(General Constraints)：通用约束为流程业务数据领域的数据质量约束在检务场景下的适配和特化，主要包括数据列约束和数据值约束两类。

C.1数据列约束：包括数据的完整度，清晰度，数据类型和数据统计等约束，在检务场景下，数据列约束对应于案卡中具有统计意义的数据字段。例如：案件基本信息、嫌疑人基本信息等案卡中的移送单位，涉案案由，承办单位，受教育情况名称等字段。形式化表示如下：

C.column＝|{d∈D|Constraint(d)}|/N

C.2数据值约束：包括数据的值范围，匹配值，预测值，唯一值等约束，在检务场景下，数据值约束对应于检务流程系统中对数据值有特殊要求的字段。例如：是否或者代码类型等有明确取值范围的字段；年龄、涉案金额等有明确数值范围的字段；统一受案号、部门受案号等具有唯一值的字段等。形式化表示如下：

检务场景中具体通用约束如表1所示。

业务约束(Bussiness Constraints)：业务约束为检务流程系统中特殊数据规则的总结和抽象，表示检务场景中业务直接关联的数据质量约束。不同的检察业务会包含不同的业务约束，本发明只提出其中部分作为示例。

C.3数据模式约束：包括检务场景中具有明确数据模式的字段，例如：统一受案号，部门受案号，单位代码，日期，电话号码等字段。形式化表示如下：

|{d∈D|pattern(d，″PATTERN-D″)}|/N

C.4案卡规则约束：包括由检务流程系统中案卡填写规则抽象得到数据质量约束，主要包括：必填字段约束，例如公诉业务中的案件基本信息表中，如果共同犯罪性质字段填写为“一般共同犯罪”，那么共同犯罪人数必填；应填字段约束，例如当是否涉外案件字段填写为是时，嫌疑人基本信息中国籍字段应填外国；不填字段约束，例如：民行业务中是否提审字段填写则是否指令再审字段不能填写；不能填字段约束，例如：公诉业务中二次退查理由不能与一次退查理由相同。形式化表示如下：

|{d∈D|case_rule(d)}|/N

C.5业务规则约束：表示检务场景中特殊业务规则抽象得到的数据质量约束，主要包括：数据一致约束，同一业务流程不同流程节点的相同数据字段应该一致；办案时序约束，例如同一案件的一审公诉和二审上诉的受理日期应该存在明显的先后关系。形式化表示如下：

|{d∈D|bussiness_rule(d)}|/N

C.6字典约束：表示案卡数据项与外部字典相匹配的约束。字典主要包括：文书、卷宗、检察业务数据代码表等。例如，嫌疑人基本信息表中的姓名，性别等字段，应与卷宗相应内容相匹配；罪名等字段应能够匹配到罪名代码表中的字段。形式化表示如下：

|{d∈D|dict(d，″DICT_NAME″)}|/N

C.7元组兼容性约束：表示检察业务中包含相同属性的不同元组间的数据兼容性。例如，在公诉业务中，一审公诉案件中的嫌疑人基本信息表和同一案件的二审上诉流程中的被告人基本情况表中具有相同的描述嫌疑人的元组。那么对于元组{姓名，城市，区，邮编}，如果两张表中元组中的城市和区相同那么邮编应该相同。本发明采用兼容性约束ComplianceConstraint(CC)来形式化表达此种约束：

|{d₁，d₂∈D|CC(d₁，d₂)}|/N

C.8知识库约束：知识库通常以实体关系的形式存储，表达了数据库中的表模式、数据模式和关系等信息。检察业务知识库包括犯罪构成，案件要素，证据要求等大量检察领域的专业知识。例如，C(嫌疑人)表示在知识库中属性为C的单元K_1为嫌疑人，L(作案地点)表示在知识库中属性为L的单元K_2为作案地点。那么就在两个节点存在一条直接的边，表示两个属性间的关系“‘嫌疑人’在‘作案点’作案”。本法名使用知识库约束来标记出违反知识库中实体关系的元组。例如，张三在昨天作案，对于上述作案地点知识库将被识别为约束冲突。形式化表示如下：

KB：{(entity₁，relationship，entity₂)}

表1 检务数据通用数据质量约束表

本发明设计了自动化的约束提取机制，结合数据集的数据类型向用户建议潜在的约束条件，用户可以此为基础来设计数据集的约束从而验证和分析数据质量，定位检察业务协同系统中的数据质量问题。这种自动化的约束提取方法使用基于单列分析的启发式方法来进行约束建议，通过数据的统计信息作为基础提出数据质量约束集合来表达数据质量维度。对于大规模的检务协同流程系统，本方法能够快速的构建基础数据质量约束组，结合专业人员的专业知识对其进行修改和调整，形成数据质量约束组，对单列数据的数据质量进行验证，定位到有问题的数据列和数据列中可能存在的问题反馈给业务人员。

自动化约束提取机制的输入为检察业务协同系统中的一张表，和需要分析的列名。对输入的数据进行两次单列分析得到约束集合1，分析过程如下：

1)首先计算数据的大小，在每列上进行数据类型检测，然后进行完整度计算和不同值计数。

2)在确定的数值类型的列上，计算包括最小值，最大值，平均值，标准差等在内的统计信息，再对按需求对输入的数据进行元组分析得到约束集合2，将两个约束集合进行并集操作得到建议数据质量约束集合。

结合上述分析结果，基于检察业务具体场景和检察院案卡填录标准及统一业务系统数据规范，制定了启发式规则来提取检察业务协同系统中数据的数据质量约束,启发式规则如下：

R.1如果当前列是完整的，则进行非空约束；

R.7如果当前业务中含有特定业务，则进行业务约束；

(三)数据质量验证方法

本发明采用数据质量约束进行数据质量验证，对于每个数据质量维度都使用一组数据质量约束进行定量表达。在系统中可以灵活配置这些约束，通过约束提取方法得到的约束结合用户根据具体业务场景自定义的约束，选取约束组进行数据质量验证，定位到有问题的数据列。

基于通过上述数据质量约束提取方法提取出的数据质量约束，办案人员可以结合具体业务对以及参考数据世系中存储的数据来源信息和历史数据质量约束组及验证结果，为某一列添加或者删除对应约束，修改约束中的参数和阈值，

具体的约束组会被应用到对应的数据列上进行数据质量验证，结果会以csv或json的格式进行输出。输出的结果会被用作识别有问题的数据列和计算最终的数据质量分数作为总体的数据质量评估结果。如果符合对应约束会输出验证成功，此时的数据质量分数记为1。如果不符合约束会输出具体的计算结果，根据结果和阈值的偏差来计算数据质量分数，取值范围为(0,1)。其中不符合约束的数据列会被标注为问题数据列，办案人员可基于验证结果对对应的数据列进行查阅和分析，对当前问题数据进行修复，提高数据质量；也可通过数据世系对问题数据进行溯源，查询到所有跟问题数据相关的流程节点和数据节点找到数据质量问题的来源。

根据约束验证中得到的数据质量分数，结合历史数据质量约束组的统计结果，可为每一个约束分配一定的权值。将这些数据质量约束的验证结果进行加权平均后可以得到当前数据列的数据质量分数，作为评估系统数据质量情况的一个指标来进行之后的数据质量管理工作。

(四)数据质量分析与验证工具

基于上述数据质量维度，数据质量约束提取和数据质量验证方法，数据质量分析与验证工具主要分为三个部分，分别是数据质量约束提取服务，数据质量约束配置服务和数据质量验证服务；

数据质量约束提取服务主要负责提取数据列中的数据质量约束。维度提取服务通过shouldBeApplied接口来判断是判断是否要对某一个特定的列应用对应约束，通过candidate接口来生成提取出的约束，在shouldBeApplied接口返回的约束上添加数据列名称和约束名称，按照字符串或者表格格式输出相应地建议结果。

数据质量约束配置服务主要负责添加或删除约束组中的数据质量约束，使用者会从数据约束的多选项中选择想要实施的数据质量约束，并能够调整数据质量约束中的参数和阈值。

数据质量验证服务主要负责将数据质量约束组应用到数据之上，对各个数据质量约束进行定量的计算，判断其是否符合约束或者阈值，并计算相对数据质量分数。将这些结果转化为csv或者json文件存储到硬盘中，并将约束组和验证信息存储到数据世系中，通过在数据世系中添加质量节点来记录数据质量信息。

本发明实施例中提供了一种数据质量验证方法，参见图1，该方法包括：S1.通过对检务场景的数据质量维度分析，构建数据质量约束模板和约束提取规则。其中，数据质量维度包括结合检务场景定义的数据的完整性，一致性，准确性；数据质量约束模板包括：通用数据质量约束和业务数据质量约束；约束提取规则包括上述九条启发式规则；S2.对一审公诉业务中的嫌疑人基本信息表数据进行两次单列分析，结合检务场景下的数据质量约束提取规则获取基础数据质量约束，部分数据质量约束提取结果示例参考图2，由列名、约束名和对应配置代码组成。然后根据约束提取结果和数据质量约束模板，构建当前业务的数据质量约束组，约束组具体配置参考图3；

S3.使用上述数据质量约束组，在给定数据集上进行数据质量验证，数据质量验证结果参考图4，由验证名称，验证级别，验证状态，约束，约束状态和约束信息组成。如果符合约束则约束状态为success，不符合约束则约束状态为failure，并输出具体约束失败信息；

S4.根据历史数据质量约束结果，为当前数据质量约束分配权值，进行数据质量评估。

Claims

1.一种面向检察业务协同流程的世系数据质量分析与验证方法，其是基于现有检察院统

一业务办案流程系统实现的，该方法包含以下步骤：

S1.检务场景下的数据质量维度分析和构建

S2.检务场景下的数据质量约束提取方法

S3.基于数据世系的数据质量验证方法

基于步骤1中得到的数据质量维度，使用一组数据质量约束来对其进行定量验证，采用约束组来对特定列的数据质量进行验证；结合数据世系信息和历史数据质量约束组及验证结果，为约束组中约束赋权，计算相对的数据质量分数，以此对数据质量进行评估；

其中：

步骤S1中，构建检务场景下的数据质量维度的方法具体为：

首先对统一业务系统中的案卡表项进行分类统计，得到其中所有的数据类别和权重，并为每个数据类别分配基础数据质量维度；然后，根据每类数据的案卡填写规则和具体业务场景，对每类数据的数据质量维度进行编码，添加特定的数据质量维度，得到数据质量维度编码树；最后，根据数据世系采集方法对编码树进行再编码，得到每类数据所对应的数据质量维度和权重；

步骤S1中，完整性表示实体包含描述真实世界对象所需数据的程度；一致性表示数据违反一组语义规则的程度；准确性表示数据正确的程度，通过语法和语义两个维度来衡量，语法准确性将值与其定义域进行比较，语义准确性判断值是否合乎真实世界的规则；

步骤S2中，采用如下数据质量约束模板构建具体数据质量约束；该数据质量约束模板主要分为两部分：通用约束和业务约束；通用约束为流程业务数据领域的数据质量约束在检务场景下的适配和特化，主要包括数据列约束和数据值约束两类，数据列约束包括数据的完整度，清晰度，数据类型和数据统计约束，数据值约束包括数据的值范围，匹配值，预测值和唯一值约束；业务约束为检务流程系统中特殊数据规则的总结和抽象，表示检务场景中业务直接关联的数据质量约束，业务约束包括数据模式约束、案卡规则约束、业务规则约束、字典约束、元组兼容性约束和知识库约束；

步骤S2中，分析方法具体为：

1）计算数据大小，数据类型检测，完整度计算，不同值计数；

2）在确定数据类型的列上，计算包括最大值，最小值，平均值和标准差在内的统计信息；

3）按需求进行数据元组模式匹配和兼容性约束匹配；

步骤S2中，启发式规则包括：

1）基于数据统计分析结果的规则；

2）结合统一业务案卡填写标准和检务数据标准的规则；

3）结合具体检察业务的规则；

步骤S2中，启发式规则如下：

R.1如果当前列是完整的，则进行非空约束；

R.7如果当前业务中含有特定业务，则进行业务约束；