CN116186000A - 数据治理的方法、装置及存储介质 - Google Patents
数据治理的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116186000A CN116186000A CN202210179899.2A CN202210179899A CN116186000A CN 116186000 A CN116186000 A CN 116186000A CN 202210179899 A CN202210179899 A CN 202210179899A CN 116186000 A CN116186000 A CN 116186000A
- Authority
- CN
- China
- Prior art keywords
- data
- type
- data set
- pattern
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/86—Mapping to a database
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本申请公开了一种数据治理的方法、装置及存储介质,属于通信领域。所述方法包括:从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据;获取第一数据集合的至少一个数据模式,所述第一数据集合包括所述存储文件保存的属于同一业务的数据,所述至少一个数据模式用于指示所述第一数据集合包括的各数据的结构;基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征;基于所述至少一个数据特征获取第一数据标准,所述第一数据标准用于约束所述第一数据集合包括的各数据的规范性。本申请能够提高获取数据标准的效率和精度。
Description
本申请要求于2021年11月26日提交的申请号为202111422755.7、发明名称为“一种数据处理方法和计算机”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机领域,特别涉及一种数据治理(data governance)的方法、装置及存储介质。
背景技术
数据库表往往包括至少一列,每列用于存储至少一个数据。数据库表中的任一列数据可以与数据标准关联,该数据标准用于对需要保存到该列中的数据进行规范性约束。例如,该数据标准定义能够保存到该列的数据的格式、类型和/或长度等。
目前技术人员可以手动为数据库表中的任一列数据生成数据标准,将数据库表中的该列数据与该数据标准关联。或者,技术人员从已生成的大量数据标准中手动为数据库表中的任一列数据选择数据标准,并将选择的数据标准与数据库表中的该列数据关联。
目前与数据库表中的任一列数据关联的数据标准,要么是技术人员手动生成的,要么是技术人员手动选择的,导致获取数据标准的效率和精度都较低。
发明内容
本申请提供了一种数据治理的方法、装置及存储介质,以提高获取数据标准的效率和精度。所述技术方案如下:
第一方面,本申请提供了一种数据治理的方法,在所述方法中,从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据。获取第一数据集合的至少一个数据模式,第一数据集合包括所述存储文件保存的属于同一业务的数据,该至少一个数据模式用于指示第一数据集合包括的各数据的结构。基于该至少一个数据模式获取第一数据集合的至少一个数据特征。基于该至少一个数据特征获取第一数据标准,第一数据标准用于约束第一数据集合包括的各数据的规范性。这样获取第一数据集合的至少一个数据模式,基于该至少一个数据模式自动获取第一数据集合关联的第一数据标准,从而提高获取数据标准的效率和精度。
在一种可能的实现方式中,存储文件为结构化数据文件,结构化数据文件采用列表形式保存属于至少一个业务的数据,属于同一业务的数据保存在结构化数据文件的同一列中。这样直接从存储文件中获取一列数据组成第一数据集合,简化获取第一数据集合的复杂度。
在一种可能的实现方式中,存储文件为半结构化数据文件,半结构化数据文件采用标签块形式保存属于至少一个业务的数据,属于同一业务的数据存储在半结构化数据文件的同一标签块中。这样直接从存储文件中获取位于同一个标签块中的数据组成第一数据集合,简化获取第一数据集合的复杂度。
在另一种可能的实现方式中,该至少一个数据模式包括基础数据模式,基础数据模式用于指示第一数据集合包括的各数据的基础结构,该基础结构包括如下一种或多种:英文数字混合结构、整数结构、浮点数结构、布尔型结构、地址结构、标识结构或者日期结构。由于基础数据模式用于指示第一数据集合包括的各数据的基础结构,从而基于第一数据集合的数据模式能够获取第一数据标准。
在另一种可能的实现方式中,基于指定的至少一个正则表达式,识别第一数据集合中的每个数据,得到基础数据模式。
在另一种可能的实现方式中,该至少一个数据模式还包括前缀数据模式,该前缀数据模式用于指示所述第一数据集合中包括第一前缀的多个数据,第一前缀是该多个数据的最长共同前缀,该多个数据中的每个数据中除第一前缀之外的部分对应的基础数据模式相同。
在另一种可能的实现方式中,从第一数据集合中,获取与第一数据模式对应的各数据,至少一个数据模式包括第一数据模式。基于获取的各数据,获取第一数据模式对应的数据出现数量和/或数据出现频率,该至少一个数据特征包括第一数据模式对应的数据出现数量和/或数据出现频率。如此实现基于数据模式获取数据特征,且数据特征包括数据模式对应的分布特征,丰富了数据特征的内容。
在另一种可能的实现方式中,基于至少一个数据模式,获取第一数据集合中的数据的类型。基于第一数据集合中的数据的类型,获取第一数据集合的至少一个数据特征。如此实现基于数据模式获取数据类型,通过数据类型得到数据特征,丰富了获取数据特征的方式。
在另一种可能的实现方式中,第一数据集合包括第一数据,第一数据的类型包括如下一个或多个:第一数据的基础类型或技术类型,该基础类型用于描述第一数据的数据成分,该技术类型用于描述第一数据实现的功能。如此丰富数据类型的内容。
在另一种可能的实现方式中,第一数据的基础类型为整型、浮点数或布尔型,第一数据的技术类型为代码类型、编码类型、标志类型、类别类型、描述类型或度量类型,如此丰富数据类型的内容。
在另一种可能的实现方式中,基于第一数据集合包括的属于第一类型的各数据获取统计特征,该统计特征包括属于第一类型的各数据中的最大值、最小值、平均值、偏差、方差、中位数、百分位数和/或标准差,第一类型包括整型、浮点数、度量类型和/或编码类型,至少一个数据特征包括该统计特征。和/或,基于第一数据集合包括的属于第二类型的各数据获取分布特征,该分布特征包括属于第二类型的各数据的出现数量和/或出现频率,第二类型包括标志类型、布尔型、类别类型和/或代码类型,至少一个数据特征包括该分布特征。如此实现基于数据类型获取数据特征,通过数据类型得到数据特征,丰富了获取数据特征的方式。
在另一种可能的实现方式中,第一数据集合包括第二数据,第二数据的数据结构是英文数字混合结构,属于第一类型的各数据包括第二数据中的数字部分,属于第二类型的各数据包括第二数据中的英文部分。如此,能够丰富数据特征的内容。
在另一种可能的实现方式中,第一数据集合的数据特征包括至少一个分词,至少一个分词是对第三数据进行分词并去除停用词后得到的,第三数据包括第一数据集合对应的业务属性描述信息和/或第一数据集合中的描述类型的数据。如此,能够丰富数据特征的内容,另外,去除停用词,避免停用词对获取数据标准的精度产生影响。
在另一种可能的实现方式中,第一数据集合的数据特征包括第一语言对应的数据出现数量和/或数据出现频率,第一数据集合中的描述类型的数据属于的语言包括第一语言。如此,能够丰富数据特征的内容。
在另一种可能的实现方式中,基于至少一个数据特征,确定第一数据集合属于的连通图,该连通图中的每个节点为不同的数据集合,第一数据集合的邻居节点与第一数据集合之间的相似度超过指定阈值。基于该连通图包括的数据集合,获取第一数据标准。由于该连通图中的数据集合之间相似,这样基于该连通图包括的数据集合,可以准确地归纳总结出数据标准,提高获取数据标准的精度。
在另一种可能的实现方式中,基于该至少一个数据特征和第一数据集合中的数据的业务类型,确定第一数据集合属于的连通图,数据的业务类型为日期、地区、IP地址或标识。由于确定连通图时加入业务类型,从而提高确定连通图的精度。
在另一种可能的实现方式中,获取至少一个数据标准,该至少一个数据标准包括与该连通图中除第一数据集合之外的其他数据集合关联的数据标准。基于该至少一个数据标准中的各数据标准的关联频率,从该至少一个数据标准中选择一个数据标准作为第一数据标准。这样通过关联频率,可以提高获取第一数据标准的精度。
在另一种可能的实现方式中,将与该其他数据集合关联的数据标准更新为第一数据标准。其中其他数据集合关联的数据标准与第一数据标准重复,将与该其他数据集合关联的数据标准更新为第一数据标准,可以去除重复的数据标准。
在另一种可能的实现方式中,基于所述连通图中的每个数据集合的至少一个数据模式和/或至少一个数据特征,生成第一数据标准,如此实现自动化生成数据标准,提高生成数据标准的效率和精度。
在另一种可能的实现方式中,规范性包括数据完整性、数据一致性和/或数据准确性,第一数据标准包括第一标准内容、第二标准内容和/或第三标准内容,第一标准内容用于约束第一数据集合的数据完整性,第二标准内容用于约束第一数据集合的数据一致性,第三标准内容用于约束第一数据集合的数据准确性。
在另一种可能的实现方式中,基于每个数据集合中的数据的分布特征,生成第一标准内容;和/或,基于每个数据集合的至少一个数据模式,生成第二标准内容;和/或,基于每个数据集合中的数据的分布特征和/或统计特征,生成第三标准内容。如此实现自动化生成数据标准,提高生成数据标准的效率和精度。
第二方面,本申请提供了一种数据治理的装置,用于执行第一方面或第一方面的任意一种可能的实现方式中的方法。具体地,所述装置包括用于执行第一方面或第一方面的任意一种可能的实现方式中的方法的单元。
第三方面,本申请提供了一种计算机设备,包括至少一个处理器和存储器,所述至少一个处理器用于与存储器耦合,读取并执行所述存储器中的指令,以实现第一方面或第一方面的任意一种可能的实现方式中的方法。
第四方面,本申请提供了一种计算机程序产品,所述计算机程序产品包括在计算机可读存储介质中存储的计算机程序,并且所述计算程序通过处理器进行加载来实现上述第一方面或第一方面任意可能的实现方式的方法。
第五方面,本申请提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序通过处理器进行加载来执行上述第一方面或第一方面任意可能的实现方式的方法。
第六方面,本申请提供了一种芯片,包括存储器和处理器,存储器用于存储计算机指令,处理器用于从存储器中调用并运行该计算机指令,以执行上述第一方面或第一方面任意可能的实现方式的方法。
附图说明
图1是本申请实施例提供的一种网络架构示意图;
图2是本申请实施例提供的另一种网络架构示意图;
图3是本申请实施例提供的一种数据标准示意图;
图4是本申请实施例提供的一种数据治理的方法流程图;
图5是本申请实施例提供的另一种数据治理的方法流程图;
图6是本申请实施例提供的一种显示界面的示意图;
图7是本申请实施例提供的一种获取数据类型的方法流程图;
图8是本申请实施例提供的一种连通图;
图9是本申请实施例提供的另一种连通图;
图10是本申请实施例提供的另一种显示界面的示意图;
图11是本申请实施例提供的一种数据治理的装置结构示意图;
图12是本申请实施例提供的另一种计算机设备结构示意图。
具体实施方式
下面将结合附图对本申请实施方式作进一步地详细描述。
参见图1,本申请实施例提供了一种网络架构100,包括:
管理设备101和数据库服务器102,管理设备101与数据库服务器102通信。
在一些实施例中,数据库服务器102的数量大于或等于1,即该网络架构100包括至少一个数据库服务器102。管理设备101和该至少一个数据库服务器102连接到通信网络中,管理设备101通过通信网络与每个数据库服务器102通信。
在一些实施例中,每个数据库服务器102包括数据库,每个数据库服务器102用于存储数据。对于每个数据库服务器102,该数据库服务器102中的数据库包括至少一个存储文件,该存储文件用于存储数据。该存储文件用于存储属于至少一个业务的数据。可选地,该存储文件用于存储至少一个数据集合,每个数据集合包括属于同一业务的数据。
在一些实施例中,管理设备101用于管理该至少一个数据库服务器102。
例如,参见图2,该至少一个数据库服务器102包括数据湖、结构化查询语言(structured query language,SQL)服务器和/或Oracle服务器等,Oracle是一种关系数据库管理系统。数据湖、SQL服务器和Oracle服务器均是用于存储数据的数据库服务器,管理设备101用于管理数据湖、SQL服务器和Oracle服务器等。
对于任一个数据库服务器102,该数据库服务器102中的存储文件包括结构化数据文件和/或半结构化数据文件,结构化数据文件和半结构化数据文件均是用于存储数据的文件。
该结构化数据文件用于采用列表形式来存储数据,该结构化数据文件中的每列用于保存一个业务的数据,即每列为一个数据集合。可选地,该结构化数据文件为数据库表等,例如,参见下表1所示的结构化数据文件,该结构化数据文件使用列表存储数据。表1所示的结构化数据文件为数据库表,该数据库表包括四列数据,该四列数据为四个不同的数据集合。第一列保存的数据属于的业务为客户编码,即第一列用于保存客户编码;第二列保存的数据属于的业务为合同号,即第二列用于保存合同号;第三列保存的数据属于的业务为客户简介,即第三列用于保存客户简介;第四列保存的数据属于的业务为客户名称,即第四列用于保存客户名称。
表1:客户信息列表
该半结构化数据文件用于采用标签块形式来存储数据,该半结构化数据文件是非列表形式的存储文件,在该半结构化数据文件中采用标签块集中存储属于同一业务的数据,即一个数据集合中的每个数据集中存储在该半结构化数据文件中的一个标签块中。可选地,该结构化数据文件为可扩展标记语言(extensible markup language,xml)文件等,例如,如下所示的半结构化数据文件1,属于客户编码的数据“KH000001”、“KH000002”、“AH100001”、“AH200002”、……、“KH100001”集中存储在该xml文件中的一个标签块中,其中<客户编码>为该标签块的起始标签,</客户编码>为该标签块的结束标签;属于合同号的数据“SG1234”、“SG1235”、“SG1278”、“SG1456”、……、“SG1689”集中存储在该xml文件中的一个标签块中,其中<合同号>为该标签块的起始标签,</合同号>为该标签块的结束标签;属于客户简介的数据“成立于1991年专业从事专利业务的大型企业”、“是一家经营川菜企业”、“主营门窗水泥”、“全球领先的ICT基础设施和智能终端提供商”、……、“主营游戏开发和社交服务”集中存储在该xml文件中的一个标签块中,其中<客户简介>为该标签块的起始标签,</客户简介>为该标签块的结束标签;属于客户名称的数据“企业1”、“企业2”、“企业3”、“企业4”、……、“企业100”集中存储在该xml文件中的一个标签块中,其中<客户名称>为该标签块的起始标签,</客户名称>为该标签块的结束标签。
也就是说,该如下所示的半结构化数据文件1包括四个数据集合,分别为数据集合1、数据集合2、数据集合3和数据集合4。数据集合1包括如下客户编码“KH000001”、“KH000002”、“AH100001”、“AH200002”、……、“KH100001”;数据集合2包括如下合同号“SG1234”、“SG1235”、“SG1278”、“SG1456”、……、“SG1689”;数据集合3包括如下客户简介“成立于1991年专业从事专利业务的大型企业”、“是一家经营川菜企业”、“主营门窗水泥”、“全球领先的ICT基础设施和智能终端提供商”、……、“主营游戏开发和社交服务”;数据集合4包括如下客户名称“企业1”、“企业2”、“企业3”、“企业4”、……、“企业100”。
半结构化数据文件1:
<title>客户信息</title>
<客户编码>(数据集合1)
KH000001;
KH000002;
AH100001;
AH200002;
……
KH100001;
</客户编码>
<合同号>(数据集合2)
SG1234;
SG1235;
SG1278;
SG1456;
……
SG1689;
</合同号>
<客户简介>(数据集合3)
成立于1991年专业从事专利业务的大型企业;
是一家经营川菜企业;
主营门窗水泥;
全球领先的ICT基础设施和智能终端提供商;
……
主营游戏开发和社交服务;
</客户简介>
<客户名称>(数据集合4)
企业1;
企业2;
企业3;
企业4;
……
企业100;
</客户名称>
<a/>
其中,需要说明的是:对于表1所示的结构化数据文件中的任一列中的某行数据,该行数据可能是空值,该空值表示用户未向该列该行存储数据,数据库系统自动向该列该行存储预设的空值。同理,数据库系统也可以在半结构化数据文件中存储空值。
对于上述任一个服务器102包括的存储文件,对于该存储文件包括的任一个数据集合,该数据集合与数据标准关联。该数据标准用于约束该数据集合包括的每个数据的规范性。也就是说,在向该数据集合存储数据时,该数据需要符合该数据标准指示的规范性,在该数据符合该数据标准指示的规范性的情况,才能够将该数据保存到该数据集合中。
在一些实施例中,该规范性包括数据完整性、数据一致性和/或数据准确性。该数据标准包括第一标准内容、第二标准内容和/或第三标准内容,第一标准内容用于约束该数据集合的数据完整性,第二标准内容用于约束该数据集合的数据一致性,第三标准内容用于约束该数据集合的数据准确性。可选地,该数据标准还包括标准名称和/或标准编号等其他内容。
例如,参见图3,对于包括客户编码的数据集合1,与该数据集合1关联的数据标准1如下所示。该数据标准1中的第一标准内容包括数据长度“8位”,对于能够保存到数据集合1的待保存数据,第一标准内容定义了待保存数据的长度为8位,从而对待保存数据的完整性进行约束,可选地,第一标准内容还指示是否允许向数据集合1输入空值。该数据标准1中的第二标准内容包括前缀数据模式“KH{数字}[6位],AH{数字}[6位]”、通用模式“{英文大小}[2位]{数字}[6位]”和数据类型“字符型”,第二标准内容定义了待保存数据由“KH”和6位数字组成或者由“AH”和6位数字组成,从而对待保存数据的一致性进行约束。该数据标准1中的第三标准内容包括取值范围“KH[000000-999999],AH[000000-999999]”,第三标准内容定义了待保存数据中的6位数字大于或等于000000且小于或等于999999,从而对待保存数据的准确性进行约束。
数据标准1
对于图3中的数据标准2的含义,可以参照上述对数据标准1的描述,在此不再列举说明。
对于服务器102中的任一个数据集合,管理设备101可以为该数据集合获取数据标准,将该数据标准与该数据集合关联。这样在向该数据集合中保存数据时,该服务器102先判断该数据是否符合该数据标准定义的规范性,如果该数据符合该数据标准定义的规范性,则将该数据保存到该数据集合中,如果该数据不符合该数据标准定义的规范性,则丢弃该数据,或者,对该数据进行提示以让用户修改。
参见图4和图5,本申请提供了一种数据治理的方法400,所述方法400应用于图1或图2所示的网络架构100,所述方法400的执行主体为上述图1或图2所示网络架构100中的管理设备101。所述方法400,包括:
步骤401:从数据库服务器中读取存储文件,该存储文件用于存储属于至少一个业务的数据,从该存储文件中获取第一数据集合。
在步骤401中,从数据库服务器中获取存储文件,从该存储文件中获取一个数据集合作为第一数据集合,第一数据集合包括属于同一业务的数据。可选地,第一数据集合是该存储文件中还未关联数据标准的数据集合,或者,第一数据集合是该存储文件中已关联数据标准的数据集合。
参见图1或图2,管理设备与至少一个服务器通信,每个服务器中包括用于存储数据的存储文件。管理设备从任一个服务器中读取该服务器中保存的存储文件,从该存储文件中获取第一数据集合。
例如,参见图2,管理设备从数据湖、SQL服务器或Oracle服务器中获取存储文件。该存储文件可能是结构化存储文件,例如该存储文件是一个数据库表;或者,该存储文件可能是半结构化存储文件,例如该存储文件是一个xml文件。假设该存储文件是一个数据库表,管理设备从该数据库表中获取一列数据作为第一数据集合。
在一些实施例中,管理设备还显示该存储文件,并在该存储文件中突出显示第一数据集合。例如,参见图6,假设管理设备从数据湖中获取存储文件,该存储文件为如表1所示的数据库表,第一数据集合是数据库表中一列数据(如为表1所示的数据库表中的第一列数据,第一列数据为客户编码),管理设备显示该数据库表,并在该数据库表中加粗显示该列数据,以实现突出显示第一数据集合,以便于技术人员浏览。
在一些实施例中,该存储文件为结构化数据文件,从该结构化数据文件中获取未关联数据标准的一列数据作为第一数据集合,或者,从该结构化数据文件中获取已关联数据标准的一列数据作为第一数据集合。例如,参见上述表1所示的结构化数据文件,假设该结构化数据文件中的四列数据均未与数据标准关联。从该结构化数据文件中读取第一列数据作为第一数据集合,即第一数据集合包括客户编码“KH000001”、“KH000002”、“AH100001”、“AH200002”、……、“KH100001”。
在一些实施例中,该存储文件为半结构化数据文件,从该半结构化数据文件中获取未关联数据标准的一个数据集合作为第一数据集合,或者,从该结构化数据文件中获取已关联数据标准的一列数据作为第一数据集合。例如,参见上述半结构化数据文件1,假设结构化数据文件1中的四个数据集合均未与数据标准关联。从结构化数据文件1中读取数据集合1作为第一数据集合,即第一数据集合包括客户编码“KH000001”、“KH000002”、“AH100001”、“AH200002”、……、“KH100001”。
步骤402:获取第一数据集合的至少一个数据模式,该至少一个数据模式用于指示第一数据集合包括的数据的结构。
其中,该至少一个数据模式包括基础数据模式。可选地,基础数据模式用于指示第一数据集合包括的各数据的基础结构。可选地,该基础结构包括如下一种或多种:英文数字混合结构、整数结构、浮点数结构、文本结构、布尔型结构、IP地址结构、标识结构或者日期结构。
在一些实施例中,管理设备包括指定的至少一个正则表达式。在步骤402中,基于指定的至少一个正则表达式,识别第一数据集合中的每个数据,得到第一数据集合对应的至少一个基础数据模式。
例如,管理设备包括数字的正则表达式“\d”,英文小写的正则表达式“[a-z]”,英文大写的正则表达式“[A-Z]”、地区的正达表达式“^中国$|^英国$...”和/或日期的正则表达式“^(19|20)\d\d(0[1-9]|1[0-2])(0[1-9]|[1-2]\d|3[0-1])$”等。
在步骤402中,针对第一数据集合中的任一个数据,为了便于说明,将该数据称为第一数据,通过至少一个正则表达式中的每个正则表达式,对第一数据进行识别,得到至少一个基础数据模式,该至少一个基础数据模式包括第一数据对应的基础数据模式。可选地,该至少一个基础数据模式还包括第一数据中的每个子数据对应的基础数据模式。
其中,第一数据可能包括至少一个子数据,针对每个子数据,该子数据包括连续的至少一个数据元素,该子数据中的每个数据元素是同类型的数据元素。
例如,假设第一数据为“KH000001”,第一数据“KH000001”包括第一子数据和第二子数据,第一子数据为“KH”,第二子数据为“000001”。第一子数据包括两个数据元素,分别为“K”和“H”,该两个数据元素均为英文大写。第二子数据包括六个数据元素,该六个数据元素包括五个数据无数元素“0”和一个数据元素“1”,该六个数据元素均为数字。通过至少一个正则表达式,对第一数据“KH000001”进行识别,得到三个基础数据模式,该三个基础数据模式包括第一数据“KH000001”对应的基础数据模式1,第一子数据“KH”对应的基础数据模式2和第二子数据“000001”对应的基础数据模式3。
基础数据模式1为{英文大写}[2位]{数字}[6位],基础数据模式1表示第一数据“KH000001”由两位英文大写的数据元素和六位数字的数据元素组成,共八位数据元素。基础数据模式2为{英文大写}[2位],基础数据模式2表示第一子数据“KH”由两位英文大写的数据元素组成。基础数据模式3为{数字}[6位],基础数据模式3表示第二子数据“000001”由六位数据元素组成。
再例如,假设第一数据为“全球领先的ICT基础设施和智能终端提供商”,第一数据包括第三子数据、第四子数据和第五子数据,第三子数据为“全球领先的”,第四子数据为“ICT”、第五子数据为“基础设施和智能终端提供商”。第三子数据“全球领先的”包括五个数据元素,该五个数据元素均为中文汉字。第四子数据“ICT”包括三个数据元素,该三个数据元素均为大写英文字母。第五子数据“基础设施和智能终端提供商”包括12个数据元素,该12个数据元素均为中文汉字。通过至少一个正则表达式,对第一数据进行识别,得到四个基础数据模式,该四个基础数据模式包括第一数据对应的基础数据模式4,第三子数据对应的基础数据模式5、第四子数据对应的基础数据模式6和第五子数据对应的基础数据模式7。
基础数据模式4为{中文}[5位]{英文大写}[3位]{中文}[12位],基础数据模式4表示第一数据由5位中文汉字的数据元素、3位大写英文字母的数据元素和12位中文汉字的数据元素组成,共20位数据元素。基础数据模式5为{中文}[5位],基础数据模式5表示第三子数据由5位中文汉字的数据元素组成。基础数据模式6为{英文大写}[3位],基础数据模式6表示第四子数据由3位大写英文字母的数据元素组成。基础数据模式7为{中文}[12位],基础数据模式7表示第五子数据由12位中文汉字的数据元素组成。
其中,如果第一数据对应的基础数据模式指示第一数据包括一种类型的数据元素,例如,假设第一数据对应的基础数据模式指示第一数据包括数字的数据元素,则第一数据的基础结构为整数结构。假设第一数据对应的基础数据模式指示第一数据包括数字的数据元素和英文的数据元素,则第一数据的基础结构为英文数字混合结构。假设第一数据对应的基础数据模式指示第一数据包括数字的数据元素和小数点的数据元素,且在小数点前后的数据元素均为数字,则第一数据的基础结构为浮点数结构。假设第一数据对应的基础数据模式指示第一数据为“true或false”,则第一数据的基础结构为布尔型结构。假设第一数据对应的基础数据模式指示第一数据为日期类型,则第一数据的基础结构为日期结构。假设第一数据对应的基础数据模式指示第一数据为地址,则第一数据的基础结构为地址结构。假设第一数据对应的基础数据模式指示第一数据为标识,则第一数据的基础结构为标识结构。
在一些实施例中,该至少一个数据模式还可能包括前缀数据模式,该前缀数据模式用于指示第一数据集合中包括第一前缀的多个数据,第一前缀是该多个数据的最长共同前缀,该多个数据中的每个数据中除第一前缀之外的部分对应的基础数据模式相同。该前缀数据模式包括第一前缀和该基础数据模式。
第一数据集合对应的前缀数据模式可能包括一个或多个前缀数据模式,每个前缀数据模式对应不同的前缀。可选地,基于上述至少一个基础数据模式,在第一数据集合中确定出包括相同前缀的多个数据,为了便于说明将该多个数据包括的最长共同前缀称为第一前缀,该多个数据中的每个数据中除第一前缀之外的部分对应的基础数据模式相同。
例如,假设第一数据集合包括“KH000001”、“KH000002”、……、“KH100001”等多个数据。基于上述基础数据模式1、基础数据模式2和基础数据模式3,在第一数据集合中确定出包括第一前缀“KH”的“KH000001”、“KH000002”、……、“KH100001”。其中,第一前缀“KH”为“KH000001”、“KH000002”、……、“KH100001”中的最长共同前缀,每个数据中除“KH”之外的数据对应的基础数据模式为{数字}[6位]。所以用于指示“KH000001”、“KH000002”、……、“KH100001”的前缀数据模式1为KH{数字}[6位],即前缀数据模式1包括第一前缀“KH”和每个数据除第一前缀“KH”外的数据对应的基础数据模式“{数字}[6位]”。同理,从第一数据集合中还得到前缀数据模式2,前缀数据模式2为AH{数字}[6位]。
在一些实施例中,对于任一个前缀数据模式对应的多个数据,还能够按每个数据的后缀对该前缀数据模式进行更细粒度地划分,得到更细粒度的数据模式,即得到该前缀数据模式对应的多个细粒度数据模式。对于该前缀数据模式对应的多个数据,该多个数据中包括每个细粒度数据模式对应的数据,任一个细粒度数据模式对应的数据包括第一后缀,第一后缀是该细粒度数据模式对应的数据包括的最长共同后缀。
综上所述,第一数据的数据模式包括第一数据对应的基础数据模式、第一数据中的各子数据对应的基础数据模式、第一数据对应的前缀数据模式和/或第一数据对应的细粒度数据模式等。以及,第一数据集合的至少一个数据模式包括第一数据集合中的各数据对应的数据模式。第一数据集合中的各数据对应的数据模式可能相同,或者,第一数据集合中的部分数据对应的数据模式相同。
步骤403:基于该至少一个数据模式,获取第一数据集合的至少一个数据特征。
第一数据集合的至少一个数据特征包括不同的数据特征,不同的数据特征采用不同方式获取,接下来分如下情况详细说明获取数据特征的过程。
第一,该至少一个数据特征包括第一数据集合的数据模式对应的统计特征,对于第一数据集合的任一个数据模式,为了便于说明称该数据模式为第一数据模式,第一数据模式对应的统计特征用于反映第一数据模式对应的数据在第一数据集合中的统计情况。可选地,第一数据模式对应的统计特征包括第一数据模式对应的数据出现数量和/或数据出现频率。
在一些实施例中,对于第一数据模式对应的数据出现数量和/或数据出现频率,从第一数据集合中,获取与第一数据模式对应的各数据。基于该各数据,获取第一数据模式对应的数据出现数量和/或数据出现频率。可选地,统计该各数据的数量,得到第一数据模式对应的数据出现数量,基于该各数据的数量与第一数据集合包括的数据总数量,计算第一数据模式对应的数据出现频率。
第一数据模式包括至少一个基础数据模式、至少一个前缀数据模式和/或至少一个细粒度数据模式。所以第一数据模式对应的统计特征包括每个基础数据模式对应的数据出现数量和/或数据出现频率,每个前缀数据模式对应的数据出现数量和/或数据出现频率,和/或,每个细粒度数据模式对应的数据出现数量和/或数据出现频率。
例如,假设第一数据集合包括100个客户编码,该100个客户编码分别为“KH000001”、“KH000002”、“AH100001”、“AH200002”、……、“KH100001”。第一数据集合的至少一个数据模式包括基础数据模式1“{英文大小}[2位]{数字}[6位]”,基础数据模式2“{英文大小}[2位]”,基础数据模式3“{数字}[6位]”、前缀数据模式1“KH{数字}[6位]”和前缀数据模式2“AH{数字}[6位]”。基础数据模式1对应的数据包括上述100个客户编码,所以基础数据模式1对应的数据出现数量为100,基础数据模式1对应的数据出现频率为100%。该100客户编码均包括基础数据模式2对应的数据,例如“KH000001”包括基础数据模式2对应的数据“KH”,“AH100001”包括基础数据模式2对应的数据“AH”,所以基础数据模式2对应的数据出现数量为100,基础数据模式2对应的数据出现频率为100%。该100客户编码均包括基础数据模式3对应的数据,例如“KH000001”包括基础数据模式3对应的数据“000001”,“AH100001”包括基础数据模式3对应的数据“100001”,所以基础数据模式3对应的数据出现数量为100,基础数据模式3对应的数据出现频率为100%。假设前缀数据模式1对应的数据包括80个客户编码,所以前缀数据模式1对应的数据出现数量为80,前缀数据模式1对应的数据出现频率为80%;前缀数据模式2对应的数据包括20个客户编码,所以前缀数据模式2对应的数据出现数量为20,前缀数据模式2对应的数据出现频率为20%。
第二、该至少一个数据特征包括第一数据集合中的数据的分布特征和/或统计特征。
在一些实施例中,采用如下4031-4032的操作,获取第一数据集合的至少一个数据特征,即获取第一数据集合中的数据的分布特征和/或统计特征。
4031:基于第一数据集合的至少一个数据模式,获取第一数据集合中的数据的类型。
仍将第一数据集合包括的任一数据称为第一数据,第一数据的类型包括如下一个或多个:第一数据的基础类型或技术类型。
第一数据的基础类型用于描述第一数据的数据成分,第一数据的基础类型为整型、浮点数、字符型或布尔型等。第一数据的技术类型用于描述第一数据实现的功能,第一数据的技术类型为代码类型、编码类型、标志类型、类别类型、描述类型或度量类型。
该代码类型表示第一数据用于指示某个对象,例如,第一数据可能为地区的电话区号,电话区号为代码类型的数据,用于指示该地区。如北京的电话区号为“010”,用于指示北京,所以“010”为代码类型的数据。
该编码类型表示第一数据是某个对象的编号,例如ID列,00001用于表示第一行的数据,00002用于表示第二行的数据等,00001为第一行的唯一编号,00002为第二行的唯一编号。
该标志类型的第一数据为二分类数据,包括“真”、“假”、“是”或“否”等。
该描述类型的第一数据用于描述某个对象,例如,上述列举的数据“成立于1991年专业从事专利业务的大型企业”是描述类型的数据,用于描述企业1。
度量类的第一数据用于衡量某个对象。例如,度量类的第一数据可能为身高或体重等,用于对人的身体进行衡量。
在一些实施例中,第一数据的类型还包括业务类型,业务类型用于描述第一数据属于的业务。第一数据的业务类型为日期类型、地区、IP地址或标识等。该标识可能为通用唯一识别码(universally unique identifier,UUID)等。
参见图7,在4031中,通过如下1-10的操作,获取第一数据的类型,该1-10的操作分别为。
1.基于至少一个数据模式,得出第一数据的类型是日期类型、还是布尔型,或者是其他类型,其他类型即为除日期类型和布尔型之外的类型。
该至少一个数据模式包括第一数据对应的基础数据模式和/或第一数据中的各子数据对应的基础数据模式。日期类型的数据对应的基础数据模式和布尔型的数据对应的基础数据模式均是固定的指定模式,因此基于至少一个数据模式,可以得出第一数据的类型是日期类型、还是布尔型,或者是其他类型。
布尔型是标志类型的一种,即布尔型为标志类型。也就是说,如果第一数据是布尔型的数据,确定第一数据的类型为标志类型。
如果第一数据的类型是其他类型,接下来通过如下2-10的操作确定第一数据的具体类型。
2.如果第一数据的类型为其他类型,基于第一数据的基础数据模式确定第一数据的结构。
第一数据可能是空值,英文数字混合结构、整数结构、文本结构或浮点数结构等。
3.如果第一数据的结构是英文数字混合结构,判断第一数据中的数字部分的长度,如果该长度超过N,则确定第一数据的类型为编码类型,结束,如果该长度未超过N,则确定第一数据的类型为代码类型,结束。
N为第一阈值,N为大于1的整数,例如,N=4、5或6等值。如果第一数据中的数字部分的长度超过N位,则确定第一数据的类型为编码类型,如果第一数据中的数字部分的长度未超过N位,则确定第一数据的类型为代码类型。
4.如果第一数据为整数结构,判断第一数据的长度,如果第一数据的长度为1位,执行操作5,如果第一数据的长度超过1位,执行操作6。
第一数据为整数结构,可以确定第一数据的类型为整型。
5.如果第一数据为0或1,则确定第一数据的类型为标志类型,结束;如果第一数据为2-9中的任一数值,则确定第一数据的类型为代码类型,结束。
如果第一数据为0或1,即可能使用1或0来表示是或否,或者,可能使用1或0来表示真或假等,所以如果第一数据为0或1,则确定第一数据的类型为标志类型。
6.获取第一数据在第一数据集合中的出现频率,如果第一数据的出现频率超过第二阈值且第一数据的长度不超过M,则确定第一数据的类型为代码类型,M为第三阈值且M为大于1的整数,如果第一数据的出现频率未超过第二阈值或第一数据的长度超过M,执行操作7。
可选地,M=3、4或5等。
如果第一数据的出现频率超过第二阈值且第一数据的长度不超过M,则表明第一数据是频繁出现且长度较短的数据,所以确定第一数据的类型为代码类型。例如,电话区号往往是频繁出现且长度较短的数据,所以电话区号是代码类型。
7.基于第一数据集合对应的业务属性描述信息,确定第一数据的类型,结束。
如果第一数据集合为一列数据,则第一数据集合对应的业务属性描述信息为该列数据的列名和/或该列数据所在的数据库表的表名。从用于存储第一数据集合的结构化数据文件中读取第一数据集合对应的业务属性描述信息。
如果第一数据集合为半结构化数据文件中属于同一业务的数据,则半结构化数据文件包括一个用于存储第一数据集合的标签块,该标签块的起始标签和/结束标签包括第一数据集合对应的业务属性描述信息,从该半结构化数据文件中的该标签块的起始标签或结束标签中读取第一数据集合对应的业务属性描述信息。
在操作7中,如果第一数据集合对应的业务属性描述信息包括指定关键词,则确定第一数据的类型为度量类型,如果第一数据集合对应的业务属性描述信息不包括指定关键词,则确定第一数据的类型为编码类型。可选地,指定关键词是用于衡量对象的数据的名称,包括身高、体重和长度等。
8.如果第一数据的结构是浮点数结构,则确定第一数据的类型为度量类,结束。
9.如果第一数据的结构是文本结构,则获取第一数据的出现频率,如果第一数据的出现频率未超过Q,Q为第四阈值,Q为大于0的整数,则确定第一数据的类型为描述类型。如果第一数据的出现频率超过Q,则执行操作10。
Q=1、2或3等。
如果第一数据的出现频率未超过Q,则表示第一数据出现频次较低,又由于第一数据是文本结构,从而确定第一数据是描述某个对象的描述信息,即第一数据的类型为描述类型。
如果第一数据的出现频率超过Q,则第一数据出现频次较高,表明第一数据可能是标志类型(如是或否,真或假等),或者,表明第一数据可能是代码类型。
10.判断二分类数据对应的数据范围是否包括第一数据,如果该数据范围包括第一数据,确定第一数据的类型为标志类型,如果不包括第一数据,确定第一数据的类型为代码类型。
二分类数据对应的数据范围包括是,否、真、假,不是,正确,不正确等。
在一些实施例中,在得到第一数据的类型后,将第一数据和第一数据的类型组成一个训练样本。可以按上述操作1-10的过程得到多个不同的训练样本,也可以人工设置多个训练样本,然后使用该多个训练样本训练智能算法,得到类型识别模型。这样当需要获取数据的类型时,将该数据输入到该类型识别模型中,使该类型识别模型对该数据的类型进行识别,获取该类型识别模型输出的该数据的类型。
4032:基于第一数据集合中的数据的类型,获取第一数据集合的至少一个数据特征。
在4032中,从第一数据集合中获取属于第一类型的各数据,基于属于第一类型的各数据获取第一数据集合中的数据的统计特征,该统计特征包括属于第一类型的各数据中的最大值、最小值、平均值、偏差、方差、中位数、百分位数和/或标准差,第一类型包括整型、浮点数、度量类型和/或编码类型,该至少一个数据特征包括第一数据集合中的数据的统计特征。和/或,
从第一数据集合中获取属于第二类型的各数据,基于属于第二类型的各数据获取第一数据集合中的数据的分布特征,该分布特征包括属于第二类型的各数据的出现数量和/或出现频率,第二类型包括标志类型、布尔型、类别类型和/或代码类型,该至少一个数据特征包括第一数据集合中的数据的分布特征。
在一些实施例中,第一数据集合中可能包括英文数字混合结构的数据,为了便于说明,将该数据称为第二数据,即第二数据的数据结构是英文数字混合结构,属于第一类型的各数据包括第二数据中的数字部分,属于第二类型的各数据包括第二数据中的英文部分。
例如,假设第二数据为“KH000001”,则属于第一类型的各数据包括第二数据中的数字部分“000001”,属于第二类型的各数据包括第二数据中的英文部分“KH”。
第三、该至少一个数据特征包括至少一个分词,该至少一个分词是对第三数据进行分词并去除停用词后得到的,第三数据包括第一数据集合对应的业务属性描述信息和/或第一数据集合中的描述类型的数据。
在一些实施例中,对第三数据进行分词,得到多个分词,从该多个分词中去除属于停用词表中的停用词,将剩余的分词作为第一数据集合的数据特征。
对于停用词,可以对确定出文本类型的数据进行分词,统计每个分词的出现频率,选择出现频率超过出现频率阈值的分词,基于选择的分词获取停用词表。可选地,显示选择的分词,以让技术人过滤掉非停用词,将剩下的分词组成停用词表。
第四、该至少一个数据特征包括第一语言对应的统计特征,该统计特征用于反应第一语言对应的数据的统计情况。可选地,该统计特征包括第一语言对应的数据出现数量和/或数据出现频率,第一数据集合中的描述类型的数据属于的语言包括第一语言。
对于第一数据集合中的任一个描述类型的数据,该数据包括英文字母、中文汉字和/或日文文字等,也就是说该数据包括一种或多种语言的文字。例如,对于上述列举的数据“全球领先的ICT基础设施和智能终端提供商”,该数据包括英文字母和中文汉字,该数据与英文和中文两种语言相对应,也就是说,该数据属于的语言包括英文和中文。
在第一数据集合中识别出每个描述类型的数据属于的一种或多种语言,得到第一数据集合中的描述类型的数据属于的语言。针对任一种语言,为了便于说明,将该语言称为第一语言,在第一数据集合中获取第一语言对应的数据,统计获取的数据的数量,得到第一语言对应的数据出现数量,和/或,基于统计的数量和第一数据集合包括的数据总数量,计算第一语言对应的数据出现频率。
综上所述,第一数据集合的至少一个数据特征包括第一数据集合的数据模式对应的统计特征(该数据模式对应的数据出现数量和/或数据出现频率),第一数据集合中的数据的分布特征,第一数据集合中的数据的统计特征,至少一个分词,和/或,第一数据集合中的语言对应的统计特征(该语言对应的数据出现数量和/或数据出现频率)等。
步骤404:基于该至少一个数据特征,确定第一数据集合属于的连通图,该连通图中的每个节点为不同的数据集合,第一数据集合的邻居节点与第一数据集合之间的相似度超过指定阈值。
该连通图中的任意相邻两节点之间的相似度超过指定阈值,该相邻两个节点之间有一条边相连。
在一些实施例中,基于该至少一个数据特征和第一数据集合中的数据的业务类型,确定第一数据集合属于的连通图。
在步骤404中,通过如下4041-4044的操作确定第一数据集合属于的连通图,该4041-4044的操作分别为。
4041,获取第一数据集合的至少一个特征集合,每个特征集合包括相同特征类型的数据特征。
例如,将第一数据集合中的数据的统计特征、第一数据集合的数据模式对应的统计特征和/或第一数据集合的语言对应的统计特征组成一个特征集合,将第一数据集合中的数据的分布特征组成一个特征集合、和/或、将上述至少一个分词组成特征集合。
在一些实施例中,还将第一数据集合中的数据的业务类型组成一个特征集合,如此实现基于该至少一个数据特征和第一数据集合中的数据的业务类型,确定第一数据集合属于的连通图。
在一些实施例中,每个特征集合为一个特征向量或者特征矩阵,每个特征集合对应不同的特征类型。例如,将第一数据集合中的数据的统计特征作为矩阵的第一行内容,将第一数据集合的数据模式对应的统计特征作为矩阵的第二行内容,将第一数据集合的语言对应的统计特征作为矩阵的第三行内容,这样得到的特征集合为一个三行特征矩阵。再例如,将第一数据集合中的数据的分布特征组成一个特征向量、和/或、将上述至少一个分词组成一个特征向量,组成的两个特征向量为两个不同的特征集合。
其中,在本申请实施例中,可能存在至少一个连通图,也可能不存在连通图。在不存在连通图的情况,直接将第一数据集合作为一个连通图中的节点,然后从上述步骤401重新开始执行,即获取其他数据集合,从上述步骤401开始对其他数据集合进行处理,得到该其他数据集合的至少一个特征集合,将该其他数据集合作为第二数据集合。在存在至少一个连通图的情况,每个连通图中的节点均为数据集合,例如,参见5,管理设备已存在三个连通图,分别为连通图1、连通图2和连通图3,该三个连通图中的每个节点为不同的数据集合。对于任一个连通图中的数据集合,为了便于说明称该数据集合为第二数据集合,且在将第二数据集合添加到该连通图之前,已按上述步骤401-404的操作获取第二数据集合的至少一个特征集合,第二数据集合与第一数据集合不同。第一数据集合和第二数据集合可能是同一存储文件中的两个不同的数据集合,也可能是两个不同存储文件中的数据集合。
第二数据集合可能已与某一数据标准关联,或者,第二数据集合也可能没有与数据标准关联。也就是说,对于任一个连通图,该连通图中的任一个数据集合可能与数据标准关联,也可能没有与数据标准关联。
4042:基于第一数据集合的至少一个特征集合和第二数据集合的至少一个特征集合,获取第一数据集合和第二数据集合之间的相似度。
在4042中,从第一数据集合的至少一个特征集合选择一个特征集合,从第二数据集合的至少一个特征集合中选择一个特征集合,选择的两个特征集合是相同特征类型的两个特征集合。基于该两个特征集合,通过该特征类型对应的相似度算法获取该特征类型对应的相似度。按上述方式可以得出至少一个特征类型对应的相似度,基于每个特征类型对应的相似度和每个特征类型对应的权重,获取第一数据集合和第二数据集合之间的相似度。
参见图5,例如,该两个数据集合对应的特征类型均为该两个数据集合中的数据的统计特征,采用的相似度算法包括Kmeans(一种欧氏距离的距离算法)或Kmeans+等聚类算法。再例如,该两个数据集合对应的特征类型为该两个数据集合中的数据的分布特征,数据模式对应的分布特征和/或语言对应的分布特征,采用的相似度算法包括马氏距离或杰卡德距离(Jaccard distance)等特征相似性距离测算算法。还例如,该两个数据集合对应的特征类型为分词和/数据的业务类型,采用的相似度算法包括编辑距离或模糊匹配等文本相似性测算算法。
在一些实施例中,基于同义词表,确定第一数据集合对应的业务属性描述信息包括的分词和第二数据集合对应的业务属性描述信息包括的分词中是否存在同义词,如果存在同义词,基于该同义词的个数增加第一数据集合和第二数据集合之间的相似度。
在一些实施例中,基于反义词表,确定第一数据集合对应的业务属性描述信息包括的分词和第二数据集合对应的业务属性描述信息包括的分词中是否存在反义词,如果存在反义词,基于该反义词的个数减少第一数据集合和第二数据集合之间的相似度。
同义词表和反义词表为预设的词表。
重复上述4041-4042的过程,还可以获取第一数据集合与该至少一个连通图中的其他数据集合之间的相似度。
4043:在该至少一个连通图中确定至少一个目标节点,第一数据集合与每个目标节点之间的相似度超过指定相似度阈值。
在4043中,在该至少一个连通图中选择与第一数据集合之间的相似度超过指定相似度阈值的至少一个节点,该至少一个节点均为目标节点。
4044:连接第一数据集合对应的节点与每个目标节点,确定第一数据集合对应的节点所在的连通图。
连接第一数据集合对应的节点与每个目标节点,实现将第一数据集合对应的节点添加到某个连通图中。
例如,参见图5,假设在连通图1、连通图2和连通图3中选择与第一数据集合之间的相似度超过指定相似度阈值的至少一个节点,该至少一个节点是连通图2中的三个节点,该三个节点分别为节点1、节点2和节点3。参见图8,将第一数据集合对应的节点与该三个节点相连,从而将第一数据集合对应的节点添加到连通图2中。
在一些实施例中,显示第一数据集合对应的节点所在的连通图以及该至少一个目标节点。
显示后技术人员可能调整第一数据集合对应的节点与连通图中的某一个或多个目标节点之间的连接关系。这样基于被技术人员调整的目标节点和调整前的该至少一个目标节点,调整上述第一阈值、第二阈值、第三阈值和/第四阈值的大小。
例如,显示图8所示的连通图2。参见图9,技术人员可以将第一数据集合对应的节点与节点3之间的连接关系取消,并连接第一数据集合对应的节点与节点4。管理设备基于调整的节点3和节点4,以及调整前的节点1、节点2和节点3,调整上述第一阈值、第二阈值、第三阈值和/第四阈值的大小。
步骤405:基于该连通图包括的数据集合,获取第一数据标准,关联第一数据标准与第一数据集合。
在一些实施例中,在关联第一数据标准和第一数据集合之前,还显示第一数据标准。在接收到技术人员触发的确认关联第一数据标准和第一数据集合的命令时,关联第一数据标准和第一数据集合。
例如,参见图6,管理设备显示数据标准,即向技术人员推荐标准编号为DB0001的数据标准。技术人员通过点击确认按钮触发确认关联第一数据标准和第一数据集合的命令。管理设备在接收该命令时,将关联该数据标准和第一数据集合(即关联DB0001的数据标准和客户编码所在的列)。可选地,技术人员也可以修改显示的数据标准,然后再点击该确认按钮。
该连通图中的每个数据集合可能均没有与数据标准关联,或者,该连通图中的有部分数据集合已与数据标准关联。
在该连通图中的有部分数据集合已与数据标准关联的情况,在步骤405中,获取至少一个数据标准,该至少一个数据标准包括与该连通图中除第一数据集合之外的其他数据集合关联的数据标准;基于该至少一个数据标准中的各数据标准的关联频率,从至少一个数据标准中选择一个数据标准作为第一数据标准。
在一些实施例中,该连通图中的存在一个或多个数据集合与一个数据标准关联,该数据标准的关联频率包括与该数据标准关联的数据集合数量。可以从该至少一个数据标准中选择关联频率最大的一个数据标准作为第一数据标准,将第一数据标准与第一数据集合关联。
同一连通图中的各数据集合相似,从而可以得出该至少一个数据标准是重复的数据标准,为了避免数据标准重复,可以对该至少一个数据标准进行去重数据。在实现时,
将该连通图中除第一数据集合之外的每个数据集合关联的数据标准更新为第一数据标准,这样使该连通图中的每个数据集合与第一数据标准关联,从而去除重复冗余的数据标准。
参见图10,管理设备还可以显示该连通图中的各数据集合以及显示该连通图中的数据集合关联的数据标准的编号。对于关联频率最大的第一数据标准,管理设备使用标记将第一数据标准与其他数据标准进行区分显示,以让技术人员知道哪个数据标准是第一数据标准,哪些数据标准是与第一数据标准重复的数据标准。
在一些实施例中,对于该连通图中未与数据标准关联的数据集合,也将该数据集合与第一数据标准关联。
在一些实施例中,在该连通图中的每个数据集合均没有与数据标准关联的情况,在步骤405中,基于该连通图中的每个数据集合的至少一个数据模式和/或至少一个数据特征,生成第一数据标准,将该连通图中的每个数据集合与第一数据标准关联。
参见图5,在实现时,基于该连通图中的每个数据集合中的数据的分布特征,生成第一标准内容;基于该连通图中的每个数据集合的至少一个数据模式,生成第二标准内容;和/或,基于该连通图中的每个数据集合中的数据的分布特征和/或统计特征,生成第三标准内容,从而得到第一数据标准。
在一些实施例中,对于第一标准内容,基于每个数据集合中的空值对应的出现频率,计算第一频率均值。在第一频率均值超过第一频率阈值时,确定第一标准内容用于指示允许向第一数据集合中输入空值,在第一频率均值未超过第一频率阈值时,确定第一标准内容用于指示不允许向第一数据集合中输入空值。
在一些实施例中,第一数据集合的至少一个数据模式中包括第一数据集合中的各数据对应的基础数据模式和/或第一数据集合对应的一个或多个前缀数据模式。这样对于任一个数据的基础数据模式,基于每个数据集合的该基础数据模式对应的数据出现频率,计算该基础数据模式对应的数据出现频率均值,如此得到至少一个基础数据模式对应的数据出现频率均值。对于任一个前缀数据模式,基于每个数据集合的该前缀数据模式对应的数据出现频率,计算该前缀数据模式对应的数据出现频率均值,如此得到至少一个前缀数据模式对应的数据出现频率均值。选择数据出现频率均值超过第二频率阈值的基础数据模式作为第二标准内容中的通用模式,以及选择数据出现频率均值超过第三频率阈值的前缀数据模式作为第二标准内容中的前缀数据模式。
在一些实施例中,基于选择的基础数据模式指示的基础结构确定数据类型,第一数据标准还包括该数据类型。例如在该基础数据模式指示的基础结构为英文数字混合结构或文本结构时,确定的数据类型为字符型。再例如,在该基础数据模式指示的基础结构为整数结构时,确定的数据类型为整型。还例如,在该基础数据模式指示的基础结构为浮点数结构时,确定的数据类型为浮点型。
在一些实施例中,基于第二标准内容中的通用模式(选择的基础数据模式),确定数据长度,第一标准内容还包括该数据长度。例如,选择的基础数据模式为{英文大写}[2位]{数字}[6位],则确定的数据长度为8位。
对于第三标准内容,从每个数据集合中的数据的最大值中选择一个最大的最大值作为取值范围的上限值,从每个数据集合中的数据的最小值中选择一个最小的最小值作为取值范围的下限值,从而得到第三标准内容中的取值范围。
其中,上述第一标准内容、第二标准内容和第三标准内容还可能包括其他内容,该其他内容可以基于连通图中的各数据集合的数据模式和数据特征等内容得到。
在一些实施例中,对于第一数据标准的标准名称,该连通图中的每个数据集合对应的业务属性描述信息包括多个分词。对于每个分词,基于每个数据集合对应的该分词的出现频率,计算该分词的平均出现频率。从该多个分词中选择平均出现频率最大的一个或多个作为第一数据标准的标准名称。
在一些实施例中,在该连通图中的数据集合中包括浮点数,统计各浮点数的小数位长度,从统计的小数位长度中选择最长小数位长度,将该最长小数位长度作为第一数据标准包括的数据精度。例如,假设最长小数位长度为2,表示允许向第一数据集合存入的数据的小数位长度不得超过2位。在该连通图中的各数据集合中不包括浮点数,则第一数据标准包括的数据精度为无。
其中,在步骤401管理设备从服务器中获取到存储文件,可选地,在管理设获取到第一数据标准后,管理设备向该服务器发送关联信息,该关联信息包括该存储文件的文件标识、第一数据集合的集合标识和第一数据标准。服务器接收该关联信息,基于该关联信息将第一数据标准与该存储文件中的第一数据集合关联,然后使用第一数据标准对向该存储文件包括的第一数据集合中待存储的数据进行规范性约束。
例如,管理设备从数据湖中获取到如表1所示的数据库表,管理设备将该数据库表中的第一列数据(第一列数据为客户编码)作为第一数据集合,在关联第一数据集合和第一数据标准后,管理设备向数据湖发送关联信息,该关联信息包括该存储文件的文件标识(例如可以为该存储文件的文件名和/或存储路径等)、第一数据集合的集合标识(例如可以为该列数据的列名和/或列编号等)和第一数据标准。数据湖接收该关联信息,基于该关联信息,在将如表1所示的数据库表中将第一列数据与第一数据标准关联。
当数据源接收到需要向表1所示的数据库表中存储的一个客户编码时,数据湖使用第一数据标准,检测该客户编码是否满足第一数据标准约束的规范性。如果该客户编码满足第一数据标准约束的规范性,数据湖将该客户编码保存到表1所示的数据库表中的第一列。如果该客户编码不满足第一数据标准约束的规范性,数据湖丢弃该客户编码或提示用户对该客户编码进行修改。
在一些实施例中,在将第一数据集合与第一数据标准关联后,服务器基于第一数据标准检测第一数据集合的各数据,如果检测出不符合第一数据标准指示规范性的数据,清除检测出的数据或者对检测的数据进行转换,转换后的数据符合第一数据标准指示规范性。
在本申请实施例中,获取第一数据集合的至少一个数据模式,基于该至少一个数据模式获取第一数据集合的至少一个数据特征。该至少一个数据特征包括第一数据集合中的数据的分布特征和/或统计特征和第一数据集合的数据模式对应的分布特征等内容,如此丰富了该至少一个数据特征的内容,这样通过该至少一个数据特征,可以自动确定第一数据集合所在的连通图。由于该连通图中的各数据集合相似,所以在该连通图中存在数据集合与数据标准关联,获取与该连通图中的数据集合关联的至少一个数据标准,该至少一个数据标准是相似的数据标准。基于每个数据标准的关联频率,选择一个数据标准作为第一数据标准,提高获取第一数据标准的精度,将该连通图中的每个数据集合与第一数据标准关联,去除重复的数据标准。在该连通图中产存在数据集合与数据标准关联,由于该连通图中的各数据集合相似,这样基于该连通图中的每个数据集合的数据模式和数据特征,自动生成第一数据标准,提高生成第一数据标准的精度和效率。
参见图11,本申请实施例提供了一种数据治理的装置1100,所述装置1100可以部署在上述任意实施例中的管理设备上。例如所述装置1100部署在图1或图2所示网络架构100中的管理设备101上,或部署在图4所示方法400的管理设备上。所述装置1100包括。
文件读取模块1101,用于从数据库服务器中读取存储文件,该存储文件用于存储属于至少一个业务的数据;
模式获取模块1102,用于获取第一数据集合的至少一个数据模式,第一数据集合包括该存储文件保存的属于同一业务的数据,该至少一个数据模式用于指示第一数据集合包括的各数据的结构;
特征获取模块1103,用于基于该至少一个数据模式获取第一数据集合的至少一个数据特征;
标准获取模块1104,还用于基于该至少一个数据特征获取第一数据标准,第一数据标准用于约束第一数据集合包括的各数据的规范性。
可选地,文件读取模块1101读取存储文件的详细实现过程,参见图4所示方法400的步骤401中的相关内容,在此不再详细说明。
可选地,模式获取模块1102获取至少一个数据模式的详细实现过程,参见图4所示方法400的步骤402中的相关内容,在此不再详细说明。
可选地,特征获取模块1103获取至少一个数据特征的详细实现过程,参见图4所示方法400的步骤403中的相关内容,在此不再详细说明。
可选地,标准获取模块1104获取第一数据标准的详细实现过程,参见图4所示方法400的步骤404-405中的相关内容,在此不再详细说明。
可选地,该存储文件为结构化数据文件,结构化数据文件采用列表形式保存属于至少一个业务的数据,属于同一业务的数据保存在结构化数据文件的同一列中。
可选地,该存储文件为半结构化数据文件,半结构化数据文件采用标签块形式保存属于至少一个业务的数据,属于同一业务的数据存储在半结构化数据文件的同一标签块中。
可选地,该至少一个数据模式包括基础数据模式,基础数据模式用于指示第一数据集合包括的各数据的基础结构,基础结构包括如下一种或多种:英文数字混合结构、整数结构、浮点数结构、布尔型结构、地址结构、标识结构或者日期结构。
可选地,模式获取模块1102,用于基于指定的至少一个正则表达式,识别第一数据集合中的每个数据,得到基础数据模式。
可选地,模式获取模块1102获取基础数据模式的详细实现过程,参见图4所示方法400的步骤402中的相关内容,在此不再详细说明。
可选地,该至少一个数据模式还包括前缀数据模式,该前缀数据模式用于指示第一数据集合中包括第一前缀的多个数据,第一前缀是该多个数据的最长共同前缀,该多个数据中的每个数据中除第一前缀之外的部分对应的基础数据模式相同。
可选地,特征获取模块1103,用于:
从第一数据集合中,获取与第一数据模式对应的各数据,该至少一个数据模式包括第一数据模式;
基于获取的各数据,获取第一数据模式对应的数据出现数量和/或数据出现频率,该至少一个数据特征包括第一数据模式对应的数据出现数量和/或数据出现频率。
可选地,特征获取模块1103获取第一数据模式对应的数据出现数量和/或数据出现频率的详细实现过程,参见图4所示方法400的步骤403中的相关内容,在此不再详细说明。
可选地,特征获取模块1103,用于:
基于该至少一个数据模式,获取第一数据集合中的数据的类型;
基于第一数据集合中的数据的类型,获取第一数据集合的至少一个数据特征。
可选地,特征获取模块1103获取第一数据集合中的数据的类型的详细实现过程,参见图4所示方法400的步骤4031中的相关内容,在此不再详细说明。
可选地,特征获取模块1103获取至少一个数据特征的详细实现过程,参见图4所示方法400的步骤4032中的相关内容,在此不再详细说明。
可选地,第一数据集合包括第一数据,第一数据的类型包括如下一个或多个:第一数据的基础类型或技术类型,基础类型用于描述第一数据的数据成分,技术类型用于描述第一数据实现的功能。
可选地,第一数据的基础类型为整型、浮点数或布尔型,第一数据的技术类型为代码类型、编码类型、标志类型、类别类型、描述类型或度量类型。
可选地,特征获取模块1103,用于:
基于第一数据集合包括的属于第一类型的各数据获取统计特征,该统计特征包括属于第一类型的各数据中的最大值、最小值、平均值、偏差、方差、中位数、百分位数和/或标准差,第一类型包括整型、浮点数、度量类型和/或编码类型,该至少一个数据特征包括该统计特征;和/或,
基于第一数据集合包括的属于第二类型的各数据获取分布特征,该分布特征包括属于第二类型的各数据的出现数量和/或出现频率,第二类型包括标志类型、布尔型、类别类型和/或代码类型,该至少一个数据特征包括该分布特征。
可选地,特征获取模块1103获取统计特征的详细实现过程,参见图4所示方法400的步骤4032中的相关内容,在此不再详细说明。
可选地,特征获取模块1103获取分布特征的详细实现过程,参见图4所示方法400的步骤4032中的相关内容,在此不再详细说明。
可选地,第一数据集合包括第二数据,第二数据的数据结构是英文数字混合结构,属于第一类型的各数据包括第二数据中的数字部分,属于第二类型的各数据包括第二数据中的英文部分。
可选地,第一数据集合的数据特征包括至少一个分词,该至少一个分词是对第三数据进行分词并去除停用词后得到的,第三数据包括第一数据集合对应的业务属性描述信息和/或第一数据集合中的描述类型的数据。
可选地,第一数据集合的数据特征包括第一语言对应的数据出现数量和/或数据出现频率,第一数据集合中的描述类型的数据属于的语言包括第一语言。
可选地,标准获取模块1104,用于:
基于该至少一个数据特征,确定第一数据集合属于的连通图,该连通图中的每个节点为不同的数据集合,第一数据集合的邻居节点与第一数据集合之间的相似度超过指定阈值;
基于该连通图包括的数据集合,获取第一数据标准。
可选地,标准获取模块1104确定连通图的详细实现过程,参见图4所示方法400的步骤404中的相关内容,在此不再详细说明。
可选地,标准获取模块1104获取第一数据标准的详细实现过程,参见图4所示方法400的步骤405中的相关内容,在此不再详细说明。
可选地,标准获取模块1104,用于基于至少一个数据特征和第一数据集合中的数据的业务类型,确定第一数据集合属于的连通图,数据的业务类型为日期、地区、地址或标识。
可选地,标准获取模块1104,用于:
获取至少一个数据标准,该至少一个数据标准包括与连通图中除第一数据集合之外的其他数据集合关联的数据标准;
基于至少一个数据标准中的各数据标准的关联频率,从至少一个数据标准中选择一个数据标准作为第一数据标准。
可选地,标准获取模块1104获取至少一个数据标准以及从该至少一个数据标准中选择第一数据标准的详细实现过程,参见图4所示方法400的步骤405中的相关内容,在此不再详细说明。
可选地,标准获取模块1104,用于将与该其他数据集合关联的数据标准更新为第一数据标准。
可选地,标准获取模块1104,用于基于该连通图中的每个数据集合的至少一个数据模式和/或至少一个数据特征,生成第一数据标准。
可选地,标准获取模块1104生成第一数据标准的详细实现过程,参见图4所示方法400的步骤405中的相关内容,在此不再详细说明。
可选地,规范性包括数据完整性、数据一致性和/或数据准确性,第一数据标准包括第一标准内容、第二标准内容和/或第三标准内容,第一标准内容用于约束第一数据集合的数据完整性,第二标准内容用于约束第一数据集合的数据一致性,第三标准内容用于约束第一数据集合的数据准确性。
可选地,标准获取模块1104,用于:
基于每个数据集合中的数据的分布特征,生成第一标准内容;和/或,
基于每个数据集合的至少一个数据模式,生成第二标准内容;和/或,
基于每个数据集合中的数据的分布特征和/或统计特征,生成第三标准内容。
在本申请实施例中,获取单元获取第一数据集合的至少一个数据模式,第一数据集合包括属于同一业务的数据,该至少一个数据模式用于指示第一数据集合包括的各数据的结构。处理单元基于该至少一个数据模式获取第一数据标准,第一数据标准用于约束第一数据集合包括的各数据的规范性。这样获取单元获取第一数据集合的至少一个数据模式,处理单元基于该至少一个数据模式自动获取第一数据集合关联的第一数据标准,从而提高获取数据标准的效率和精度。
参见图12,本申请实施例提供了一种计算机设备1200示意图。该计算机设备1200可以是上述任意实施例中的管理设备。例如该装置1200可以是上述图1或图2所示网络架构100中的管理设备101,或者,是上述图4所示方法400中的管理设备。该装置1200包括至少一个处理器1201,内部连接1202,存储器1203以及至少一个收发器1204。
该装置1200是一种硬件结构的装置,可以用于实现图11所述的装置1100中的功能模块。例如,本领域技术人员可以想到图11所示的装置1100中的文件读取模块1101,图11所示的装置1100中的文件读取模块1101可以通过该至少一个收发器1204来实现。模式获取模块1102、特征获取模块1103和标准获取模块1104可以通过该至少一个处理器1201调用存储器1203中的代码来实现。
可选的,该装置1200还可用于实现上述任一实施例中管理设备的功能。
可选的,上述处理器1201可以是一个通用中央处理器(central processingunit,CPU),网络处理器(network processor,NP),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
上述内部连接1202可包括一通路,在上述组件之间传送信息。可选的,内部连接1202为单板或总线等。
上述收发器1204,用于与其他设备或通信网络通信。
上述存储器1203可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器1203用于存储执行本申请方案的应用程序代码,并由处理器1201来控制执行。处理器1201用于执行存储器1203中存储的应用程序代码,以及配合至少一个收发器1204,从而使得该装置1200实现本专利方法中的功能。
在具体实现中,作为一种实施例,处理器1201可以包括一个或多个CPU,例如图12中的CPU0和CPU1。
在具体实现中,作为一种实施例,该装置1200可以包括多个处理器,例如图12中的处理器1201和处理器1207。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (28)
1.一种数据治理的方法,其特征在于,所述方法包括:
从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据;
获取第一数据集合的至少一个数据模式,所述第一数据集合包括所述存储文件保存的属于同一业务的数据,所述至少一个数据模式用于指示所述第一数据集合包括的各数据的结构;
基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征;
基于所述至少一个数据特征获取第一数据标准,所述第一数据标准用于约束所述第一数据集合包括的各数据的规范性。
2.如权利要求1所述的方法,其特征在于,所述存储文件为结构化数据文件,所述结构化数据文件采用列表形式保存属于所述至少一个业务的数据,属于同一业务的数据保存在所述结构化数据文件的同一列中;或者,
所述存储文件为半结构化数据文件,所述半结构化数据文件采用标签块形式保存属于所述至少一个业务的数据,属于同一业务的数据存储在所述半结构化数据文件的同一标签块中。
3.如权利要求1或2所述的方法,其特征在于,所述至少一个数据模式包括基础数据模式,所述基础数据模式用于指示所述第一数据集合包括的各数据的基础结构,所述基础结构包括如下一种或多种:英文数字混合结构、整数结构、浮点数结构、布尔型结构、地址结构、标识结构或者日期结构。
4.如权利要求3所述的方法,其特征在于,所述获取第一数据集合的至少一个数据模式,包括:
基于指定的至少一个正则表达式,识别所述第一数据集合中的每个数据,得到所述基础数据模式。
5.如权利要求3或4所述的方法,其特征在于,所述至少一个数据模式还包括前缀数据模式,所述前缀数据模式用于指示所述第一数据集合中包括第一前缀的多个数据,所述第一前缀是所述多个数据的最长共同前缀,所述多个数据中的每个数据中除所述第一前缀之外的部分对应的基础数据模式相同。
6.如权利要求1-5任一项所述的方法,其特征在于,所述基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征,包括:
从所述第一数据集合中,获取与第一数据模式对应的各数据,所述至少一个数据模式包括所述第一数据模式;
基于所述获取的各数据,获取所述第一数据模式对应的数据出现数量和/或数据出现频率,所述至少一个数据特征包括所述第一数据模式对应的数据出现数量和/或数据出现频率。
7.如权利要求1-5任一项所述的方法,其特征在于,所述基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征,包括:
基于所述至少一个数据模式,获取所述第一数据集合中的数据的类型;
基于所述第一数据集合中的数据的类型,获取所述第一数据集合的至少一个数据特征。
8.如权利要求7所述的方法,其特征在于,所述第一数据集合包括第一数据,所述第一数据的类型包括如下一个或多个:所述第一数据的基础类型或技术类型,所述基础类型用于描述所述第一数据的数据成分,所述技术类型用于描述所述第一数据实现的功能。
9.如权利要求8所述的方法,其特征在于,所述第一数据的基础类型为整型、浮点数或布尔型,所述第一数据的技术类型为代码类型、编码类型、标志类型、类别类型、描述类型或度量类型。
10.如权利要求7-9任一项所述的方法,其特征在于,所述基于所述第一数据集合中的数据的类型获取所述第一数据集合的至少一个数据特征,包括:
基于所述第一数据集合包括的属于第一类型的各数据获取统计特征,所述统计特征包括属于所述第一类型的各数据中的最大值、最小值、平均值、偏差、方差、中位数、百分位数和/或标准差,所述第一类型包括整型、浮点数、度量类型和/或编码类型,所述至少一个数据特征包括所述统计特征;和/或,
基于所述第一数据集合包括的属于第二类型的各数据获取分布特征,所述分布特征包括属于所述第二类型的各数据的出现数量和/或出现频率,所述第二类型包括标志类型、布尔型、类别类型和/或代码类型,所述至少一个数据特征包括所述分布特征。
11.如权利要求10所述的方法,其特征在于,所述第一数据集合包括第二数据,所述第二数据的数据结构是英文数字混合结构,属于所述第一类型的各数据包括所述第二数据中的数字部分,属于所述第二类型的各数据包括所述第二数据中的英文部分。
12.如权利要求1-11任一项所述的方法,其特征在于,所述第一数据集合的数据特征包括至少一个分词,所述至少一个分词是对第三数据进行分词并去除停用词后得到的,所述第三数据包括所述第一数据集合对应的业务属性描述信息和/或所述第一数据集合中的描述类型的数据。
13.如权利要求1-12任一项所述的方法,其特征在于,所述第一数据集合的数据特征包括第一语言对应的数据出现数量和/或数据出现频率,所述第一数据集合中的描述类型的数据属于的语言包括所述第一语言。
14.如权利要求1-13任一项所述的方法,其特征在于,所述基于所述至少一个数据特征获取第一数据标准,包括:
基于所述至少一个数据特征,确定所述第一数据集合属于的连通图,所述连通图中的每个节点为不同的数据集合,所述第一数据集合的邻居节点与所述第一数据集合之间的相似度超过指定阈值;
基于所述连通图包括的数据集合,获取第一数据标准。
15.如权利要求14所述的方法,其特征在于,所述基于所述至少一个数据特征,确定所述第一数据集合属于的连通图,包括:
基于所述至少一个数据特征和所述第一数据集合中的数据的业务类型,确定所述第一数据集合属于的连通图,数据的业务类型为日期、地区、地址或标识。
16.如权利要求14或15所述的方法,其特征在于,所述基于所述连通图包括的数据集合,获取第一数据标准,包括:
获取至少一个数据标准,所述至少一个数据标准包括与所述连通图中除所述第一数据集合之外的其他数据集合关联的数据标准;
基于所述至少一个数据标准中的各数据标准的关联频率,从所述至少一个数据标准中选择一个数据标准作为所述第一数据标准。
17.如权利要求16所述的方法,其特征在于,所述方法还包括:
将与所述其他数据集合关联的数据标准更新为所述第一数据标准。
18.如权利要求14或15所述的方法,其特征在于,所述基于所述连通图包括的数据集合,获取第一数据标准,包括:
基于所述连通图中的每个数据集合的至少一个数据模式和/或至少一个数据特征,生成所述第一数据标准。
19.如权利要求18所述的方法,其特征在于,所述规范性包括数据完整性、数据一致性和/或数据准确性,所述第一数据标准包括第一标准内容、第二标准内容和/或第三标准内容,所述第一标准内容用于约束所述第一数据集合的数据完整性,所述第二标准内容用于约束所述第一数据集合的数据一致性,所述第三标准内容用于约束所述第一数据集合的数据准确性。
20.如权利要求19所述的方法,其特征在于,所述基于所述连通图中的每个数据集合的至少一个数据模式和/或至少一个数据特征,生成所述第一数据标准,包括:
基于所述每个数据集合中的数据的分布特征,生成所述第一标准内容;和/或,
基于所述每个数据集合的至少一个数据模式,生成所述第二标准内容;和/或,
基于所述每个数据集合中的数据的分布特征和/或统计特征,生成所述第三标准内容。
21.一种数据治理的装置,其特征在于,所述装置包括:
文件读取模块,用于从数据库服务器中读取存储文件,所述存储文件用于存储属于至少一个业务的数据;
模式获取模块,用于获取第一数据集合的至少一个数据模式,所述第一数据集合包括所述存储文件保存的属于同一业务的数据,所述至少一个数据模式用于指示所述第一数据集合包括的各数据的结构;
特征获取模块,用于基于所述至少一个数据模式获取所述第一数据集合的至少一个数据特征;
标准获取模块,用于基于所述至少一个数据特征获取第一数据标准,所述第一数据标准用于约束所述第一数据集合包括的各数据的规范性。
22.如权利要求21所述的装置,其特征在于,所述存储文件为结构化数据文件,所述结构化数据文件采用列表形式保存属于所述至少一个业务的数据,属于同一业务的数据保存在所述结构化数据文件的同一列中;或者,
所述存储文件为半结构化数据文件,所述半结构化数据文件采用标签块形式保存属于所述至少一个业务的数据,属于同一业务的数据存储在所述半结构化数据文件的同一标签块中。
23.如权利要求21或22所述的装置,其特征在于,所述至少一个数据模式包括基础数据模式,所述基础数据模式用于指示所述第一数据集合包括的各数据的基础结构,所述基础结构包括如下一种或多种:英文数字混合结构、整数结构、浮点数结构、布尔型结构、地址结构、标识结构或者日期结构。
24.如权利要求21-23任一项所述的装置,其特征在于,所述特征获取模块,用于:
从所述第一数据集合中,获取与第一数据模式对应的各数据,所述至少一个数据模式包括所述第一数据模式;
基于所述获取的各数据,获取所述第一数据模式对应的数据出现数量和/或数据出现频率,所述至少一个数据特征包括所述第一数据模式对应的数据出现数量和/或数据出现频率。
25.如权利要求21-24任一项所述的装置,其特征在于,所述标准获取模块,用于:
基于所述至少一个数据特征,确定所述第一数据集合属于的连通图,所述连通图中的每个节点为不同的数据集合,所述第一数据集合的邻居节点与所述第一数据集合之间的相似度超过指定阈值;
基于所述连通图包括的数据集合,获取第一数据标准。
26.一种计算机设备,其特征在于,包括至少一个处理器,所述至少一个处理器用于与存储器耦合,读取并执行所述存储器中的指令,以实现如权利要求1-20任一项所述的方法。
27.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时,实现如权利要求1-20任一项所述的方法。
28.一种计算机程序产品,其特征在于,所述计算机程序产品包括在计算机可读存储介质中存储的计算机程序,并且所述计算程序通过处理器进行加载来实现如权利要求1-20任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2022/091791 WO2023092954A1 (zh) | 2021-11-26 | 2022-05-09 | 数据治理的方法、装置及存储介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111422755 | 2021-11-26 | ||
CN2021114227557 | 2021-11-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116186000A true CN116186000A (zh) | 2023-05-30 |
Family
ID=86446746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210179899.2A Pending CN116186000A (zh) | 2021-11-26 | 2022-02-25 | 数据治理的方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116186000A (zh) |
WO (1) | WO2023092954A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080177719A1 (en) * | 2007-01-24 | 2008-07-24 | Richard Dean Dettinger | Methods and systems for retrieving query results based on a data standard specification |
CN105138609B (zh) * | 2015-08-04 | 2019-07-30 | 广东瑞德智能科技股份有限公司 | 一种基于xml语言的家电设备描述方法 |
CN109408502A (zh) * | 2018-11-14 | 2019-03-01 | 成都四方伟业软件股份有限公司 | 一种数据标准处理方法、装置及其存储介质 |
CN111488327B (zh) * | 2019-01-29 | 2023-08-22 | 卓望数码技术(深圳)有限公司 | 一种数据标准管理方法和系统 |
CN111752936B (zh) * | 2020-06-30 | 2024-04-26 | 中国科学院西北生态环境资源研究院 | 数据检测管理方法、装置、服务器及可读存储介质 |
-
2022
- 2022-02-25 CN CN202210179899.2A patent/CN116186000A/zh active Pending
- 2022-05-09 WO PCT/CN2022/091791 patent/WO2023092954A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023092954A1 (zh) | 2023-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5306359B2 (ja) | 複数言語によるデータ記録を関連付ける方法およびシステム | |
US7181680B2 (en) | Method and mechanism for processing queries for XML documents using an index | |
US7440954B2 (en) | Index maintenance for operations involving indexed XML data | |
US8321393B2 (en) | Parsing information in data records and in different languages | |
WO2021068547A1 (zh) | 日志模板提取方法及装置 | |
CN111627552B (zh) | 一种医疗流式数据血缘关系分析、存储方法及装置 | |
US20070250527A1 (en) | Mechanism for abridged indexes over XML document collections | |
CN114091426A (zh) | 一种处理数据仓库中字段数据的方法和装置 | |
CN113722600A (zh) | 应用于大数据的数据查询方法、装置、设备及产品 | |
CN115357286B (zh) | 一种程序文件对比方法、装置、电子设备及存储介质 | |
CN115952770A (zh) | 一种数据标准化的处理方法、装置、电子设备及存储介质 | |
CN116186000A (zh) | 数据治理的方法、装置及存储介质 | |
CN115905885A (zh) | 数据识别方法、设备、存储介质及程序产品 | |
CA3144052A1 (en) | Method and apparatus for recognizing new sql statements in database audit systems | |
US20110270874A1 (en) | Apparatus and method for searching information | |
CN113868138A (zh) | 测试数据的获取方法、系统、设备及存储介质 | |
CN117972123B (zh) | 一种基于5g消息的客服信息系统、方法、设备及介质 | |
CN113779193B (zh) | 文本引用方法、装置及电子设备 | |
US20160335230A1 (en) | Information processing device and non-transitory computer readable medium | |
CN116957354A (zh) | 一种政策演化路径分析方法、装置以及电子设备 | |
CN115952459A (zh) | 报错识别方法、装置、设备及存储介质 | |
CN115965011A (zh) | 企业实体对齐方法、装置及可读存储介质 | |
CN114970531A (zh) | 基于即时通信消息的意图识别与命名实体提取方法及装置 | |
CN114791879A (zh) | 关键字筛查方法及数据处理方法 | |
CN115204155A (zh) | 一种配置异常检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |