CN107861965A

CN107861965A - 数据智能识别方法及系统

Info

Publication number: CN107861965A
Application number: CN201710678130.4A
Authority: CN
Inventors: 李青海; 侯大勇; 简宋全; 邹立斌
Original assignee: Guangdong Fine Point Data Polytron Technologies Inc
Current assignee: Guangdong Fine Point Data Polytron Technologies Inc
Priority date: 2017-05-19
Filing date: 2017-08-09
Publication date: 2018-03-30

Abstract

本发明公开了一种无需要求企业的所有生产系统的数据都按照统一的规范进行定义，可实现数据的快速识别的数据智能识别方法，包括以下内容：a、建立数据识别时作为参考的数据规则，并将该规则存储到数据库中；b、选定数据表或者字段，调取数据库中的数据规则，以调取的数据规则为识别标准，对选定的数据表或者字段按规则一一进行识别匹配，分别得出识别结果；c、在所有的数据表或者字段与所有的数据规则进行匹配之后，计算这一数据表或者字段所有数据符合数据规则的百分比，确定数据的实际业务含义。本发明还公开了一种基于上述方法的系统。

Description

数据智能识别方法及系统

技术领域

本发明涉及数据识别技术领域，具体涉及数据智能识别方法及系统。

背景技术

随着信息技术的快速发展，互联网的浪潮在推动传统企业的加速转型方面起到了至关重要的作用。随着企业从传统的经营管理模式向网络化、信息化、互联网化转变，企业的业务模式越来越复杂，积累的数据量越来越大，支持分析决策的统计分析也越来越复杂。数据经过大量的转换应用之后，企业如何快速识别所呈现的数据的含义，如何提升数据的准确性，如何对数据保持高度的信任，如何对数据的决策支撑作用保持高度的信任，是企业面临的重要挑战，也是大数据互联网时代，数据分析所面临的重要考验。

在记录追踪数据含义方面，传统的做法是建立统一模型、建立词汇库、建立指标库、建立业务模型的方式，从根源上把握数据的原始含义以及转换后的业务含义，这个方法能够完整的记录数据从产生到使用其含义的变化过程，帮助企业实现数据溯源。但是，这个实现方式需要从企业产品的生产周期最底层就建立一个统一的数据规范，要求生产周期所有的数据都按照统一的规范进行定义，并且整个数据的管理过程贯穿了数据产生、采集、处理、应用等全生命周期，涉及的内容范围非常庞大，导致难以管理，实施成本非常高。因此，急需一种不必要求企业的所有生产系统都按照统一的规范进行定义，也可以实现数据的快速识别的方法和系统。

发明内容

本发明的目的之一是提供一种无需要求企业的所有生产系统的数据都按照统一的规范进行定义，可实现数据的快速识别的数据智能识别方法。

本方案中的数据智能识别方法，包括以下内容：

a、建立数据识别时作为参考的数据规则，并将该规则存储到数据库中；

b、选定数据表或者字段，调取数据库中的数据规则，以调取的数据规则为识别标准，对选定的数据表或者字段按规则一一进行识别匹配，分别得出识别结果；

c、在所有的数据表或者字段与所有的数据规则进行匹配之后，计算这一数据表或者字段所有数据符合数据规则的百分比，确定数据的实际业务含义。

有益效果：采用本方法无需要求企业的所有生产系统的数据都按照统一的规范进行定义，即可实现数据的快速自动智能识别，可大大降低企业数据的管理成本。

进一步，在a中，同时建立数据检查结果表，并将该数据检查结果表存储到数据库中。

进一步，在b中，将各个识别结果存储到数据检查结果表。

建立的数据检查结果表，方便将检查后的数据结果以规范的格式存储到数据检查结果表中，有利于快速确定原始数据的业务含义。

本发明的目的之二是提供一种无需要求企业的所有生产系统的数据都按照统一的规范进行定义，可实现数据的快速识别数据智能识别系统。

数据智能识别系统，包括数据库，还包括数据识别准备模块以及数据识别模块；

所述的数据识别准备模块，用于建立数据识别时作为参考的数据规则；

所述的数据库，用于存储所述数据识别准备模块建立的数据规则；

所述的数据识别模块，以数据识别准备模块中建立的数据规则为识别标准，对选定的数据表或者字段按规则进行一一识别匹配，得出识别结果，在所有的数据表或者字段与所有的数据规则进行匹配之后，将数据识别结果的符合度进行对比，确定数据的实际业务含义。

进一步，所述的数据识别准备模块包括建立数据检查结果表单元，所述的建立数据检查结果表单元用于在数据库中创建数据识别结果表。

进一步，所述的数据识别模块包括提取数据规则单元，所述提取数据规则单元用于提取存储在数据库中的数据规则；

选择数据单元，用于选择待识别的数据表或者字段；

数据规则匹配单元，将通过选择数据单元选择的每一个数据表或者字段，与提取数据规则单元提取的每一个数据规则进行匹配；

检查结果更新单元，用于将数据规则匹配单元的识别结果存入数据识别结果表；

确定数据识别结果单元，用于在所有的数据表或者字段与所有的数据规则进行匹配之后，计算这一数据表或者字段所有数据符合数据规则的百分比，确定数据的实际业务含义。

通过本系统，由于事先建立了数据识别时作为参考的数据规则，在数据识别时，以建立的数据规则为识别标准，对选定的数据表或者字段按规则进行一一识别匹配，得出识别结果，在所有的数据表或者字段与所有的数据规则进行匹配之后，将数据识别结果的符合度进行对比，来确定数据的实际业务含义，因此无需从数据源头上要求企业的所有生产系统的数据都按照统一的规范进行定义，即可实现数据的快速自动智能识别，可大大降低企业的数据管理成本。

附图说明

图1为本发明实施例的示意性框图。

具体实施方式

下面通过具体实施方式对本发明作进一步详细的说明：

如附图1所示，本实施例数据智能识别系统，包括数据库、数据识别准备模,10 以及数据识别模块20；

所述的数据识别准备模块，包括建立数据规则单元，用于建立数据识别时作为参考的数据规则，建立数据检查结果表单元，用于在数据库中创建数据识别结果表；

所述的数据识别模块，以数据识别准备模块中建立的数据规则为识别标准，对选定的数据表或者字段按规则进行一一识别匹配，得出识别结果，在所有的数据表或者字段与所有的数据规则进行匹配之后，将数据识别结果的符合度进行对比，确定数据的实际业务含义；具体包括：提取数据规则单元，所述提取数据规则单元用于提取存储在数据库中的数据规则；选择数据单元，用于选择待识别的数据表或者字段；数据规则匹配单元，将通过选择数据单元选择的每一个数据表或者字段，与提取数据规则单元提取的每一个数据规则进行匹配；检查结果更新单元，用于将数据规则匹配单元的识别结果存入数据识别结果表；确定数据识别结果单元，用于在所有的数据表或者字段与所有的数据规则进行匹配之后，计算这一数据表或者字段所有数据符合数据规则的百分比，确定数据的实际业务含义。

所述的数据库，用于存储所述数据识别准备模块建立的数据规则、数据识别结果表以及最终识别出的数据实际业务含义。

本实施例基于上述系统的数据智能识别方法，包括以下内容：

a、建立数据识别时作为参考的数据规则，并将该规则存储到数据库中，同时建立数据检查结果表，并将该数据检查结果表存储到数据库中；

b、选定数据表或者字段，调取数据库中的数据规则，以调取的数据规则为识别标准，对选定的数据表或者字段按规则一一进行识别匹配，分别得出识别结果，将各个识别结果存储到数据检查结果表；

下面进一步通过具体的实例阐述本发明的数据智能识别系统和方法。

本实例以数据表为例，待识别的数据表如表4所示，根据表中字段名称不能明确字段的实际业务含义，数据规则表如表2所示，建立的数据检查结果表如表 3所示，本实例的目的在于利用已有的表2的数据规则表检查表4的数据表，确定每个字段的实际含义，最终生成如表5的数据检查结果表。

S1:通过建立数据规则单元11，根据固有的数据格式，总结所有的有规律的数据规则，将规则名称、数据规则、数据含义和最低符合度要求等存放到数据库的数据规则表Data_Rule中，如表2所示：

表2：Table:Data_Rule

目前数据规则包含身份证号和手机号码。

身份证号的规则名称为ID_Card_NBR，长度为18个字符，第7到10位的四个字符代表年份，对于当前的日期来说年份值应该介于1900到2017之间；第 11到12位代表月份，值应该介于1到12之间；第13到14位代表日，值应该介于1到31之间。待检查的数据如果80％以上都符合上述规则，则可以认为该字段为身份证号。

手机号码的规则名称为Phone_NBR，长度为11位，第一位的值应该为1，第二位的值应该为3、5、8之中的一个。待检查的数据如果90％以上都符合上述规则，则可以认为该字段为手机号码。

数据规则表由用户进行维护，定期或不定期更新表内的规则。

S2：通过建立数据检查结果表单元12创建数据检查结果表Data_Result，如表3所示：

表:3：建立数据检查结果表TABLE:Data_Result

Id	表	字段	检查规则	符合度	是否规则字段

包含字段Id、表、字段、检查规则、符合度、是否规则字段等，表是指检查的数据表，字段是指数据表中检查的字段，检查规则是指用到的数据规则表中的规则名称，符合度是指对当前字段所有的数据满足检查规则的百分比，是否规则字段是指当前字段是否就是检查标准中的规则名称。

S3：用户通过选择数据单元21选择待识别数据的数据表，本实例中待识别的数据为Cust表，如表4所示：

表4：TABLE:Cust

Id	Col1	Col2	Col3	Col4	Col5
						01	Jack	30	13411231332	510302199812010100	天河区
02	Jane	19	18620230158	510302199509134832	越秀区
						03	Tom	19	18620230159	510302198408145721	海珠区
04	Lee	19	12345678910	510302198007185009	南沙区
						05	Lin	19	18620230132	510302198106192874	黄浦区
06	Wong	19	18620230198	510302199004079372	荔湾区
						07	Kong	19	15858817463	510302199203038742	天河区
08	Red	19	15858817221	510302199702096205	越秀区
						09	Andy	19	13720230158	510302201805277623	白云区
10	Lewis	19	13401760158	510302200108246682	越秀区

S4：通过提取数据规则单元22从数据库中把数据规则表Data_Rule提取出来。

S5：通过数据规则匹配检查单元23对Cust表中的每个字段利用Data_Rule 中的每个规则进行匹配。

S5.1：对于Cust表中的字段Col1进行数据识别。

S5.1.1：提取Data_Rule中的第一个规则ID_Card_NBR，利用规则“Length (字段)＝18&substr(字段,7,10)介于1900～2017&substr(字段,11,12)介于 1～12&substr(字段,13,14)介于1～31”去匹配Cust中Col1的所有数据，10条数据均不符合规则要求，即符合度为0％，Col1不是身份证号字段。

S5.1.2：提取Data_Rule中的第二个规则Phone_NBR，利用规则“Length(字段)＝11&substr(字段,1,1)＝’1’&substr(字段,2,1)in(3,5,8)”去匹配Cust中Col1的所有数据，10条数据均不符合规则要求，即符合度为0％，Col1不是手机号码字段。

S5.1.3：对于Col1所有的数据规则均已匹配完成。

S5.2：对于Cust表中的字段Col2进行数据识别，结果同S5.1，即Col2不是身份证号字段，也不是手机号码字段。

S5.3：对于Cust表中的字段Col3进行数据识别。

S5.3.1：提取Data_Rule中的第一个规则ID_Card_NBR，利用规则“Length (字段)＝18&substr(字段,7,10)介于1900～2017&substr(字段,11,12)介于 1～12&substr(字段,13,14)介于1～31”去匹配Cust中Col3的所有数据，其10条数据均不符合规则要求，即符合度为0％，Col3不是身份证号字段。

S5.3.2：提取Data_Rule中的第一个规则Phone_NBR，利用规则“Length(字段)＝11&substr(字段,1,1)＝’1’&substr(字段,2,1)in(3,5,8)”去匹配Cust中Col3的所有数据，其中Id为04的数据“12345678910”不符合规则要求，即符合度为 90％，在Data_Rule中Phone_NBR的最低符合度要求为90％，当前字段数据的符合度为90％，则Col3是手机号码字段。

S5.3.3：对于Col3所有的数据规则均已匹配完成。

S5.4：对于Cust表中的字段Col4进行数据识别。

S5.4.1：提取Data_Rule中的第一个规则ID_Card_NBR,利用规则“Length(字段)＝18&substr(字段,7,10)介于1900～2017&substr(字段,11,12)介于1～12&substr(字段,13,14)介于1～31”去匹配Cust中Col4的所有数据，其中Id为09的数据“510302201805277623”不符合规则要求，即符合度为90％，在Data_Rule中 ID_Card_NBR的最低符合度要求为80％，当前字段数据的符合度为90％，则Col4 是身份证号字段。

S5.4.2：提取Data_Rule中的第一个规则Phone_NBR,利用规则“Length(字段)＝11&substr(字段,1,1)＝’1’&substr(字段,2,1)in(3,5,8)”去匹配Cust中Col3的所有数据，其10条数据均不符合规则要求，即符合度为0％，则Col4不是手机号码字段。

S5.4.3：对于Col4所有的数据规则均已匹配完成。

S5.5：对于Cust表中的字段Col5进行数据识别，结果同S5.2，即Col5不是身份证号字段，也不是手机号码字段。

S6：通过检查结果更新单元24将S5步骤所有的检查结果，包括表、字段、检查规则、符合度，写入数据检查结果表Data_Result中，更新后的结果表如表 5所示：

表5：更新数据后的检擦结果表:Data_Result

Id	表	字段	检查规则	符合度	是否规则字段
						01	Cust	Col1	ID_Card_NBR	0％	N
02	Cust	Col1	Phone_NBR	0％	N
						03	Cust	Col2	ID_Card_NBR	0％	N
04	Cust	Col2	Phone_NBR	0％	N
						05	Cust	Col3	ID_Card_NBR	0％	N
06	Cust	Col3	Phone_NBR	90％	Y
						07	Cust	Col4	ID_Card_NBR	90％	Y
08	Cust	Col4	Phone_NBR	0％	N
						09	Cust	Col5	ID_Card_NBR	0％	N
10	Cust	Col5	Phone_NBR	0％	N

S7：通过确定数据识别结果单元对数据检查结果表的数据进行整理识别，确定每个字段最终的业务含义，如果一个字段对应多个符合度满足要求的检查规则，则需要人工干预，确定一个规则，将结果写入Data_Result表的“是否规则字段”列中，数据的实际业务含义以“是否规则字段列”中“Y”为准。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.数据智能识别方法，其特征在于，包括以下内容：

2.根据权利要求1所述的数据智能识别方法，其特征在于：在a中，同时建立数据检查结果表，并将该数据检查结果表存储到数据库中。

3.根据权利要求2所述的数据智能识别方法，其特征在于：在b中，将各个识别结果存储到数据检查结果表。

4.数据智能识别系统，包括数据库，其特征在于：还包括数据识别准备模块以及数据识别模块；

5.根据权利要求6所述的数据智能识别系统，其特征在于：所述的数据识别准备模块包括建立数据检查结果表单元，所述的建立数据检查结果表单元用于在数据库中创建数据识别结果表。

6.根据权利要求7所述的数据智能识别系统，其特征在于：所述的数据识别模块包括提取数据规则单元，所述提取数据规则单元用于提取存储在数据库中的数据规则；

选择数据单元，用于选择待识别的数据表或者字段；