CN110704699A - 数据画像的构建方法、装置、计算机设备及存储介质 - Google Patents
数据画像的构建方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110704699A CN110704699A CN201910843336.7A CN201910843336A CN110704699A CN 110704699 A CN110704699 A CN 110704699A CN 201910843336 A CN201910843336 A CN 201910843336A CN 110704699 A CN110704699 A CN 110704699A
- Authority
- CN
- China
- Prior art keywords
- data
- node
- target
- nodes
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 74
- 230000008569 process Effects 0.000 claims abstract description 48
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 239000008280 blood Substances 0.000 claims description 23
- 210000004369 blood Anatomy 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000006378 damage Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000003672 processing method Methods 0.000 description 8
- 238000011144 upstream manufacturing Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000012216 screening Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据画像的构建方法、装置、计算机设备及存储介质,所述方法包括:根据目标数据与预设的数据源得到相关数据及其层次结构,其中,所述数据源来源于企业内部的各类系统数据;生成包含若干信息节点的拓扑关系图;将所述相关数据与所述目标数据之间的数据处理过程或所述相关数据之间的数据处理过程标注在所述拓扑关系图上,形成数据画像;将所述数据画像输出至用户界面。本发明所提出的数据画像的构建方法、装置、计算机设备及存储介质,通过数据匹配追溯目标数据的源头数据及基于其继续演变的数据,并通过直观图像的形式输出至用户界面,使用户可迅速获知与目标数据相关数据的来龙去脉,为评估目标数据的价值及其影响提供基础。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据画像的构建方法、装置、计算机设备及存储介质。
背景技术
企业运营过程中会产生大量数据,数据源经过长途跋涉,经过大量的处理和重组来传递,最终呈现在业务用户面前,企业在做数仓过程中经常会碰到的几类问题:(1)两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因。(2)基础数据表因某种原因需要修改字段,需要评估其对数仓的影响,费时费力,然后在做方案。当前对数据进行回溯需要耗费大量的人力,较为困难。
发明内容
有鉴于此,本发明提出一种数据画像的构建方法、装置、计算机设备及存储介质,能够方便用户对数据进行回溯,进而为评估目标数据的价值及其影响提供基础。
首先,为实现上述目的,本发明提出一种数据画像的构建方法,所述方法包括:
根据目标数据与预设的数据源得到相关数据及其层次结构,其中,所述数据源来源于企业内部的各类系统数据;
生成包含若干信息节点的拓扑关系图,其中,所述信息节点包含主节点与若干相关节点,所述主节点包含所述目标数据及其层次结构,每个所述相关节点包含一相关数据及其层次结构;
将所述相关数据与所述目标数据之间的数据处理过程或所述相关数据之间的数据处理过程标注在所述拓扑关系图上,形成数据画像;
将所述数据画像输出至用户界面。
进一步地,所述根据目标数据与预设的数据源得到相关数据及其层次结构包括:
对所述目标数据进行语意分析,提取其中的关键词和/或数据引用信息;
根据所述关键词和/或数据引用信息对所述数据源中的数据进行查询匹配得到相关数据及其层次结构。
进一步地,所述生成包含若干信息节点的拓扑关系图包括:
根据所述目标数据及相关数据分别生成不同的信息节点;
根据所述相关数据与目标数据的创建时间或数据引用信息生成所述信息节点之间的血缘关系;
将具有父子血缘关系的信息节点通过数据流转线路连接。
进一步地,所述将具有父子血缘关系的信息节点通过数据流转线路连接之前还包括:
根据血缘关系将所有信息节点进行图像排列,使得具有父子血缘关系的信息节点在同一流转方向上按序排列。
进一步地,所述将所述相关数据与所述目标数据之间的数据处理过程或所述相关数据之间的数据处理过程标注在所述拓扑关系图上,形成数据画像包括:
对所述数据处理过程进行分类;
根据所述数据处理过程的类型生成对应的处理规则节点,其中,所述处理规则节点包括抽取规则节点、清洗规则节点、转换规则节点以及数据销毁规则节点;
将各处理规则节点标注至对应的数据流转线路上。
进一步地,所述将所述数据画像输出至用户界面之后还包括:
计算所述目标数据的数据价值。
进一步地,计算所述目标数据的数据价值包括:
获取源头数据的质量值以及各数据处理过程的合理度值;
根据预设算法计算所述目标数据的数据价值。
为实现上述目的,本发明还提供一种数据画像的构建装置,包括:
匹配模块,适于根据目标数据与预设的数据源得到相关数据及其层次结构,其中,所述数据源来源于企业内部的各类系统数据;
生成模块,适于生成包含若干信息节点的拓扑关系图,其中,所述信息节点包含主节点与若干相关节点,所述主节点包含所述目标数据及其层次结构,每个所述相关节点包含一相关数据及其层次结构;
标注模块,适于将所述相关数据与所述目标数据之间的数据处理过程或所述相关数据之间的数据处理过程标注在所述拓扑关系图上,形成数据画像;
输出模块,适于将所述数据画像输出至用户界面。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据画像的构建方法。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据画像的构建方法。
相较于现有技术,本发明所提出的数据画像的构建方法、装置、计算机设备及存储介质,通过数据匹配追溯目标数据的源头数据及基于其继续演变的数据,并通过直观图像的形式输出至用户界面,使用户可迅速获知与目标数据相关数据的来龙去脉,为评估目标数据的价值及其影响提供基础。
附图说明
图1是本发明实施例一之数据画像的构建方法的流程图;
图2是本发明实施例之根据目标数据与预设的数据源得到相关数据及其层次结构的流程图;
图3是本发明实施例之生成包含若干信息节点的拓扑关系图的流程图;
图4是本发明实施例之将数据处理过程标注在所述拓扑关系图形成数据画像的流程图;
图5是本发明实施例之计算所述目标数据的数据价值的流程图;
图6是本发明实施例二之数据画像的构建装置的程序模块示意图;
图7是本发明实施例三之计算机设备的硬件结构示意图。
附图标记
数据画像的构建装置 | 600、704 |
匹配模块 | 601 |
生成模块 | 602 |
标注模块 | 603 |
输出模块 | 604 |
计算机设备 | 700 |
存储器 | 701 |
处理器 | 702 |
网络接口 | 703 |
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例一
参阅图1,示出了本发明实施例一之数据画像的构建方法的流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以数据画像的构建装置为执行主体进行示例性描述,所述数据画像的构建装置可以应用于服务器中。具体如下:
步骤S101,根据目标数据与预设的数据源得到相关数据及其层次结构,其中,所述数据源来源于企业内部的各类系统数据;
本步骤中,目标数据即为需要追溯来源以及后续演变的数据,其类型可以是任何一种适于数据库存储或文件服务器存储的各类型数据,其中存储在数据库中的数据的层次结构包含所有者、数据库、表以及字段,其中所有者表示数据的归属,其体现了数据的提供方与需求方,数据库、表以及字段是数据的存储结构,其体现了数据的来龙去脉,存储在文件服务器中的数据的层次结构包含所有者、文件服务器、文件目录以及文件,同理,其中所有者表示文件服务器的归属,文件服务器、文件目录以及文件是数据的存储结构。通过数据的层次结构可以了解数据的流转方向。
在本发明的一实施例中,参阅图2,所述根据目标数据与预设的数据源得到相关数据及其层次结构包括如下步骤:
步骤S201,对所述目标数据进行语意分析,提取其中的关键词和/或数据引用信息;
其中,提取的关键词可以但不限于是关键字、词、句或者关键字集或者运算符集,所述数据引用信息包含了该数据的数据来源信息与数据处理方式信息。
步骤S202,根据所述关键词和/或数据引用信息对所述数据源中的数据进行查询匹配得到相关数据及其层次结构。
其中,所述相关数据为与目标数据具有血缘关系的数据,即目标数据是由相关数据直接或间接经过一定的数据处理方式转变而成,或者相关数据是由目标数据直接或间接经过一定的数据处理方式转变而成。相关数据可以由数据引用信息直接从数据源中匹配得到,也可以是根据关键词从数据源中检索得到,当关键词为关键字集时,可通过将目标数据与对比数据进行比对,通过判断对比数据中关键字集的分布密度是否高于设定阈值判断对比数据是否为相关数据。
请回到图1,步骤S102,生成包含若干信息节点的拓扑关系图,其中,所述信息节点包含主节点与若干相关节点,所述主节点包含所述目标数据及其层次结构,每个所述相关节点包含一相关数据及其层次结构;
本步骤中,信息节点由数据本身以及数据的层次结构构成,在信息节点的拓扑关系上,信息节点之间主要通过相互之间的直接血缘关系进行连接,当一项数据由另一项数据直接通过转变、组合等方式生成,这两项数据之间构成父子血缘关系,在拓扑关系图上,这两项数据之间通过数据流转线路进行连接,所述数据流转线路具有方向性,在其方向的上游的信息节点为父节点,在其方向下游的信息节点为子节点;其中,相关节点包含数据流出节点与数据流入节点,数据流出节点为处于主节点上游的信息节点,其对应的相关数据经过一定的数据处理方式直接或间接生成了目标节点,数据流入节点为主节点的下游节点,其对应的相关数据由目标数据经过一定的数据处理方法转换而成。参阅图3,所述生成包含若干信息节点的拓扑关系图具体包括如下步骤:
步骤S301,根据所述目标数据及相关数据分别生成不同的信息节点;
步骤S302,根据所述相关数据与目标数据的创建时间或数据引用信息生成所述信息节点之间的血缘关系;
本步骤的具体过程如下述步骤A1-A4所示:
步骤A1,根据步骤S202的查询匹配顺序,生成第一关联表;其中,第一关联表注明以层级的方式表明了数据之间的来源关系;
本步骤中,目标数据处于最高层级,由目标数据直接匹配得到的相关数据处于第二层级;由第二层级中的相关数据再次匹配得到的相关数据处于第三层级,依此类推,可生成层级分明的第一关联表。
举例说明如下:若关联数据为M1,由M1通过关键词或数据引用信息匹配到的第二层级数据有M2、M3、M4、M5、M6、M7,其中,由第二层级数据M2匹配到的第三层级数据有M5、M6以及M8,由第二层级数据M4匹配到的相关数据有M7;由第三层级数据M6匹配到的第四层级数据有M8、M9。
步骤A2,比对从第二层级开始的所有层级中所包含的所有目标数据是否有重复,当高一层级的目标数据与低一层级的目标数据有重复,则删除高一层级中的相关目标数据及与该目标数据相关的低层级数据,生成第二关联表;
对于上述案例,继续说明如下:由于第三层级数据与第二层级数据对比具有重复的相关数据M5、M6、M7,因此从第二层级中将M5、M6、M7分别删除;由于第三层级数据与第四层级数据对比具有重复的相关数据M8,因此从第三层级中将相关数据M8删除;
步骤A3,判断同一层级中是否有某几个相关数据的相似度超过设定阈值,若有,查询相似度超过设定阈值的这些相关数据的创建时间,并对这些相关数据按照创建时间进行排列,将创建时间较晚的相关数据留在当前层级,将创建时间较晚的数据及其下面几级相关数据分别降一层级,生成第三关联表;
对于上述案例,继续说明如下:若匹配到M4与M3的数据关联度超过设定阈值60%,由于M4的创建时间早于M3,因此将M3保留在当前层级,将M4下放到第三层级,并将M4下一层级的数据M7下放到第四层级。
步骤A4,根据第三关联表确定各节点的父子关系。
对于上述案例,继续说明如下:根据第三关联表,可确定的具有父子血缘关系的信息节点如下,第四层级的相关数据M8与M9是第三层级相关数据M6的父节点,第四层级相关数据M7是第三层级相关数据M4的父节点,第三层级的相关数据M5、M6是第二层级相关数据M2的父节点,第三层级的相关数据M4是第二层级相关数据M3的父节点,第二层级相关数据M3与M2是目标数据M1的父节点。
步骤S303,将具有父子血缘关系的信息节点通过数据流转线路连接。
可选地,在步骤S303之前还包括如下步骤:根据血缘关系将所有信息节点进行图像排列,使得具有父子血缘关系的信息节点在同一流转方向上按序排列。这样可使生成的拓扑关系图的来龙去脉一目了然。
请回到图1,步骤S103,将所述相关数据与所述目标数据之间的数据处理过程或所述相关数据之间的数据处理过程标注在所述拓扑关系图上,形成数据画像;
相关的所述数据处理过程可来源于数据引用信息,对于无法追溯的数据处理过程,可由用户进行补充,参阅图4,本步骤具体包含如下步骤:
步骤S401,对所述数据处理过程进行分类;
步骤S402,根据所述数据处理过程的类型生成对应的处理规则节点,其中,所述处理规则节点包括抽取规则节点、清洗规则节点、转换规则节点以及数据销毁规则节点;
本步骤中,抽取规则节点用来说明具有父子血缘关系的两个数据之间子节点是如何从父节点抽取数据的,例如,一种抽取规则节点为:子节点抽取了父节点中数据表的“日期”、“姓名”、“业务类型”、“联系方式”四个数据项。清洗规则节点用来说明具有父子血缘关系的两个数据之间转化过程的筛选标准,例如:一种清洗规则节点的形式为:筛除父节点对应的数据中的空值数据项。转换规则节点用来说明具有父子血缘关系的两个数据之间的转换关系,常见的转换关系如截取数据表中具体数据项的某几位、将数据表中的数据项按值的区间进行归类后记录至新的数据表中。数据销毁规则节点表明数据失去了使用价值,需要作归档或者销毁处理,需要归档或销毁的信息节点没有子节点。
步骤S403,将各处理规则节点标注至对应的数据流转线路上。
本步骤中,同一数据流转线路上可能有多个处理规则节点,代表该数据流转线路连接的两个信息节点之间经过了多种处理方式进行处理,多个处理规则节点在数据流转线路按实际的处理顺序依次排列。
请回到图1,步骤S104,将所述数据画像输出至用户界面。
在另一实施例中,在步骤S104之后还包括如下步骤:计算所述目标数据的数据价值。
具体地,参阅图5,所述计算所述目标数据的数据价值包括如下步骤:
步骤S501,获取源头数据的质量值以及各数据处理过程的合理度值;
其中源头数据为数据流转线路上最上游的相关数据,即源头数据对应的信息节点没有父节点。源头数据的质量值以及可数据处理过程的合理度值均可由用户进行输入,数据画像的构建装置接收用户输入的对应于各源头数据的质量值以及数据处理过程的合理度值。
步骤S502,根据预设算法计算所述目标数据的数据价值。
在一实施例中,数据处理过程的合理度值均为处于[0,1]区间的数值,预设算法可以是在源头数据的质量值的基础上依次乘以各数据处理过程的合理度值得到目标数据的数据价值。
此外,用户还可根据数据画像获知目标数据的下游相关数据(即数据流入节点对应的相关数据)的情况,判断目标数据对下游相关数据的影响度,从而判断修改目标数据对数据库内数据的影响大小。
实施例二
请参阅图6,示出了本发明实施例二之数据画像的构建装置600的程序模块示意图。在本实施例中,数据画像的构建装置600可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述数据画像的构建方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述数据画像的构建方法在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
匹配模块601,适于根据目标数据与预设的数据源得到相关数据及其层次结构,其中,所述数据源来源于企业内部的各类系统数据;
本步骤中,目标数据即为需要追溯来源以及后续演变的数据,其类型可以是任何一种适于数据库存储或文件服务器存储的各类型数据,其中存储在数据库中的数据的层次结构包含所有者、数据库、表以及字段,其中所有者表示数据的归属,其体现了数据的提供方与需求方,数据库、表以及字段是数据的存储结构,其体现了数据的来龙去脉,存储在文件服务器中的数据的层次结构包含所有者、文件服务器、文件目录以及文件,同理,其中所有者表示文件服务器的归属,文件服务器、文件目录以及文件是数据的存储结构。通过数据的层次结构可以了解数据的流转方向。
在本发明的一实施例中,参阅图2,匹配模块601根据目标数据与预设的数据源得到相关数据及其层次结构的过程包括如下步骤:
步骤S201,匹配模块601对所述目标数据进行语意分析,提取其中的关键词和/或数据引用信息;
其中,匹配模块601提取的关键词可以但不限于是关键字、词、句或者关键字集或者运算符集,所述数据引用信息包含了该数据的数据来源信息与数据处理方式信息。
步骤S202,匹配模块601根据所述关键词和/或数据引用信息对所述数据源中的数据进行查询匹配得到相关数据及其层次结构。
其中,所述相关数据为与目标数据具有血缘关系的数据,即目标数据是由相关数据直接或间接经过一定的数据处理方式转变而成,或者相关数据是由目标数据直接或间接经过一定的数据处理方式转变而成。相关数据可以由数据引用信息直接从数据源中匹配得到,也可以是根据关键词从数据源中检索得到。
请回到图6,生成模块602,适于生成包含若干信息节点的拓扑关系图,其中,所述信息节点包含主节点与若干相关节点,所述主节点包含所述目标数据及其层次结构,每个所述相关节点包含一相关数据及其层次结构;
其中,所述相关数据为与目标数据具有血缘关系的数据,即目标数据是由相关数据直接或间接经过一定的数据处理方式转变而成,或者相关数据是由目标数据直接或间接经过一定的数据处理方式转变而成。相关数据可以由数据引用信息直接从数据源中匹配得到,也可以是根据关键词从数据源中检索得到,当关键词为关键字集时,可通过将目标数据与对比数据进行比对,通过判断对比数据中关键字集的分布密度是否高于设定阈值判断对比数据是否为相关数据。
请回到图1,步骤S102,生成包含若干信息节点的拓扑关系图,其中,所述信息节点包含主节点与若干相关节点,所述主节点包含所述目标数据及其层次结构,每个所述相关节点包含一相关数据及其层次结构;
其中,信息节点由数据本身以及数据的层次结构构成,在信息节点的拓扑关系上,信息节点之间主要通过相互之间的直接血缘关系进行连接,当一项数据由另一项数据直接通过转变、组合等方式生成,这两项数据之间构成父子血缘关系,在拓扑关系图上,这两项数据之间通过数据流转线路进行连接,所述数据流转线路具有方向性,在其方向的上游的信息节点为父节点,在其方向下游的信息节点为子节点;其中,相关节点包含数据流出节点与数据流入节点,数据流出节点为处于主节点上游的信息节点,其对应的相关数据经过一定的数据处理方式直接或间接生成了目标节点,数据流入节点为主节点的下游节点,其对应的相关数据由目标数据经过一定的数据处理方法转换而成。参阅图3,所述生成包含若干信息节点的拓扑关系图具体包括如下步骤:
步骤S301,根据所述目标数据及相关数据分别生成不同的信息节点;
步骤S302,根据所述相关数据与目标数据的创建时间或数据引用信息生成所述信息节点之间的血缘关系;
本步骤的具体过程如下述步骤A1-A4所示:
步骤A1,根据步骤S202的查询匹配顺序,生成第一关联表;其中,第一关联表注明以层级的方式表明了数据之间的来源关系;
本步骤中,目标数据处于最高层级,由目标数据直接匹配得到的相关数据处于第二层级;由第二层级中的相关数据再次匹配得到的相关数据处于第三层级,依此类推,可生成层级分明的第一关联表。
举例说明如下:若关联数据为M1,由M1通过关键词或数据引用信息匹配到的第二层级数据有M2、M3、M4、M5、M6、M7,其中,由第二层级数据M2匹配到的第三层级数据有M5、M6以及M8,由第二层级数据M4匹配到的相关数据有M7;由第三层级数据M6匹配到的第四层级数据有M8、M9。
步骤A2,比对从第二层级开始的所有层级中所包含的所有目标数据是否有重复,当高一层级的目标数据与低一层级的目标数据有重复,则删除高一层级中的相关目标数据及与该目标数据相关的低层级数据,生成第二关联表;
对于上述案例,继续说明如下:由于第三层级数据与第二层级数据对比具有重复的相关数据M5、M6、M7,因此从第二层级中将M5、M6、M7分别删除;由于第三层级数据与第四层级数据对比具有重复的相关数据M8,因此从第三层级中将相关数据M8删除;
步骤A3,判断同一层级中是否有某几个相关数据的相似度超过设定阈值,若有,查询相似度超过设定阈值的这些相关数据的创建时间,并对这些相关数据按照创建时间进行排列,将创建时间较晚的相关数据留在当前层级,将创建时间较晚的数据及其下面几级相关数据分别降一层级,生成第三关联表;
对于上述案例,继续说明如下:若匹配到M4与M3的数据关联度超过设定阈值60%,由于M4的创建时间早于M3,因此将M3保留在当前层级,将M4下放到第三层级,并将M4下一层级的数据M7下放到第四层级。
步骤A4,根据第三关联表确定各节点的父子关系。
对于上述案例,继续说明如下:根据第三关联表,可确定的具有父子血缘关系的信息节点如下,第四层级的相关数据M8与M9是第三层级相关数据M6的父节点,第四层级相关数据M7是第三层级相关数据M4的父节点,第三层级的相关数据M5、M6是第二层级相关数据M2的父节点,第三层级的相关数据M4是第二层级相关数据M3的父节点,第二层级相关数据M3与M2是目标数据M1的父节点。
步骤S303,将具有父子血缘关系的信息节点通过数据流转线路连接。
可选地,在步骤S303之前还包括如下步骤:根据血缘关系将所有信息节点进行图像排列,使得具有父子血缘关系的信息节点在同一流转方向上按序排列。这样可使生成的拓扑关系图的来龙去脉一目了然。
请回到图6,标注模块603,适于将所述相关数据与所述目标数据之间的数据处理过程或所述相关数据之间的数据处理过程标注在所述拓扑关系图上,形成数据画像;
相关的所述数据处理过程可来源于数据引用信息,对于无法追溯的数据处理过程,可由用户进行补充,参阅图4,本步骤具体包含如下步骤:
步骤S401,标注模块603对所述数据处理过程进行分类;
步骤S402,标注模块603根据所述数据处理过程的类型生成对应的处理规则节点,其中,所述处理规则节点包括抽取规则节点、清洗规则节点、转换规则节点以及数据销毁规则节点;
本步骤中,抽取规则节点用来说明具有父子血缘关系的两个数据之间子节点是如何从父节点抽取数据的,例如,一种抽取规则节点为:子节点抽取了父节点中数据表的“日期”、“姓名”、“业务类型”、“联系方式”四个数据项。清洗规则节点用来说明具有父子血缘关系的两个数据之间转化过程的筛选标准,例如:一种清洗规则节点的形式为:筛除父节点对应的数据中的空值数据项。转换规则节点用来说明具有父子血缘关系的两个数据之间的转换关系,常见的转换关系如截取数据表中具体数据项的某几位、将数据表中的数据项按值的区间进行归类后记录至新的数据表中。数据销毁规则节点表明数据失去了使用价值,需要作归档或者销毁处理,需要归档或销毁的信息节点没有子节点。
步骤S403,标注模块603将各处理规则节点标注至对应的数据流转线路上。
本步骤中,同一数据流转线路上可能有多个处理规则节点,代表该数据流转线路连接的两个信息节点之间经过了多种处理方式进行处理,多个处理规则节点在数据流转线路按实际的处理顺序依次排列。
请回到图6,输出模块604,适于将所述数据画像输出至用户界面。
在另一实施例中,在输出模块604将所述数据画像输出至用户界面之后还包括如下步骤:计算所述目标数据的数据价值。
具体地,参阅图5,所述计算所述目标数据的数据价值包括如下步骤:
步骤S501,获取源头数据的质量值以及各数据处理过程的合理度值;
其中源头数据为数据流转线路上最上游的相关数据,即源头数据对应的信息节点没有父节点。源头数据的质量值以及可数据处理过程的合理度值均可由用户进行输入,数据画像的构建装置接收用户输入的对应于各源头数据的质量值以及数据处理过程的合理度值。
步骤S502,根据预设算法计算所述目标数据的数据价值。
在一实施例中,数据处理过程的合理度值均为处于[0,1]区间的数值,预设算法可以是在源头数据的质量值的基础上依次乘以各数据处理过程的合理度值得到目标数据的数据价值。
此外,用户还可根据数据画像获知目标数据的下游相关数据(即数据流入节点对应的相关数据)的情况,判断目标数据对下游相关数据的影响度,从而判断修改目标数据对数据库内数据的影响大小。
实施例三
参阅图7,是本发明实施例三之计算机设备700的硬件架构示意图。在本实施例中,所述计算机设备700是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。如图所示,所述计算机设备700至少包括,但不限于,可通过系统总线相互通信连接存储器701、处理器702、网络接口703、以及数据画像的构建装置704。其中:
本实施例中,存储器701至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器701可以是计算机设备700的内部存储单元,例如该计算机设备700的硬盘或内存。在另一些实施例中,存储器701也可以是计算机设备700的外部存储设备,例如该计算机设备700上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器701还可以既包括计算机设备700的内部存储单元也包括其外部存储设备。本实施例中,存储器701通常用于存储安装于计算机设备700的操作系统和各类应用软件,例如数据画像的构建装置704的程序代码等。此外,存储器701还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器702在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器702通常用于控制计算机设备700的总体操作。本实施例中,处理器702用于运行存储器701中存储的程序代码或者处理数据,例如运行数据画像的构建装置704,以实现实施例一中的数据画像的构建方法。
所述网络接口703可包括无线网络接口或有线网络接口,该网络接口703通常用于在所述计算机设备700与其他电子装置之间建立通信连接。例如,所述网络接口703用于通过网络将所述计算机设备700与外部终端相连,在所述计算机设备700与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图7仅示出了具有部件701-704的计算机设备700,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器701中的所述数据画像的构建装置704还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器701中,并由一个或多个处理器(本实施例为处理器702)所执行,以完成本发明数据画像的构建方法。
实施例四
本实施例提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现上述的数据画像的构建方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据画像的构建方法,其特征在于,所述方法包括:
根据目标数据与预设的数据源得到相关数据及其层次结构,其中,所述数据源来源于企业内部的各类系统数据;
生成包含若干信息节点的拓扑关系图,其中,所述信息节点包含主节点与若干相关节点,所述主节点包含所述目标数据及其层次结构,每个所述相关节点包含一相关数据及其层次结构;
将所述相关数据与所述目标数据之间的数据处理过程或所述相关数据之间的数据处理过程标注在所述拓扑关系图上,形成数据画像;
将所述数据画像输出至用户界面。
2.由权利要求1所述的数据画像的构建方法,其特征在于,所述根据目标数据与预设的数据源得到相关数据及其层次结构包括:
对所述目标数据进行语意分析,提取其中的关键词和/或数据引用信息;
根据所述关键词和/或数据引用信息对所述数据源中的数据进行查询匹配得到相关数据及其层次结构。
3.由权利要求2所述的数据画像的构建方法,其特征在于,所述生成包含若干信息节点的拓扑关系图包括:
根据所述目标数据及相关数据生成不同的信息节点;
根据所述相关数据与目标数据的创建时间或数据引用信息生成所述信息节点之间的血缘关系;
将具有父子血缘关系的信息节点通过数据流转线路连接。
4.由权利要求3所述的数据画像的构建方法,其特征在于,所述将具有父子血缘关系的信息节点通过数据流转线路连接之前还包括:
根据血缘关系将所有信息节点进行图像排列,使得具有父子血缘关系的信息节点在同一流转方向上按序排列。
5.由权利要求3所述的数据画像的构建方法,其特征在于,所述将所述相关数据与所述目标数据之间的数据处理过程或所述相关数据之间的数据处理过程标注在所述拓扑关系图上,形成数据画像包括:
对所述数据处理过程进行分类;
根据所述数据处理过程的类型生成对应的处理规则节点,其中,所述处理规则节点包括抽取规则节点、清洗规则节点、转换规则节点以及数据销毁规则节点;
将各处理规则节点标注至对应的数据流转线路上。
6.由权利要求1所述的数据画像的构建方法,其特征在于,所述将所述数据画像输出至用户界面之后还包括:
计算所述目标数据的数据价值。
7.由权利要求5所述的数据画像的构建方法,其特征在于,所述计算所述目标数据的数据价值包括:
获取源头数据的质量值以及各数据处理过程的合理度值;
根据预设算法计算所述目标数据的数据价值。
8.一种数据画像的构建装置,其特征在于,包括:
匹配模块,适于根据目标数据与预设的数据源得到相关数据及其层次结构,其中,所述数据源来源于企业内部的各类系统数据;
生成模块,适于生成包含若干信息节点的拓扑关系图,其中,所述信息节点包含主节点与若干相关节点,所述主节点包含所述目标数据及其层次结构,每个所述相关节点包含一相关数据及其层次结构;
标注模块,适于将所述相关数据与所述目标数据之间的数据处理过程或所述相关数据之间的数据处理过程标注在所述拓扑关系图上,形成数据画像;
输出模块,适于将所述数据画像输出至用户界面。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述数据画像的构建方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述数据画像的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910843336.7A CN110704699A (zh) | 2019-09-06 | 2019-09-06 | 数据画像的构建方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910843336.7A CN110704699A (zh) | 2019-09-06 | 2019-09-06 | 数据画像的构建方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110704699A true CN110704699A (zh) | 2020-01-17 |
Family
ID=69194723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910843336.7A Pending CN110704699A (zh) | 2019-09-06 | 2019-09-06 | 数据画像的构建方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704699A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651475A (zh) * | 2020-08-07 | 2020-09-11 | 北京每日优鲜电子商务有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN111709843A (zh) * | 2020-05-09 | 2020-09-25 | 中国人民财产保险股份有限公司 | 一种客户画像的生成方法、装置及电子设备 |
CN111813768A (zh) * | 2020-07-10 | 2020-10-23 | 北京思特奇信息技术股份有限公司 | 数据清理方法、装置、电子设备及存储介质 |
CN113626445A (zh) * | 2021-08-27 | 2021-11-09 | 中国银行股份有限公司 | 一种报表处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228747A (zh) * | 2017-12-20 | 2018-06-29 | 江苏数加数据科技有限责任公司 | 数据治理中的数据血缘关系可视化图形系统 |
US20180218055A1 (en) * | 2017-01-27 | 2018-08-02 | Sap Se | Design for hierarchical computations of nodes having non-tree topologies in relational database management systems |
CN108648017A (zh) * | 2018-05-14 | 2018-10-12 | 广东因特利信息科技股份有限公司 | 易于扩展的用户需求匹配方法、装置、设备及存储介质 |
CN109542901A (zh) * | 2018-11-12 | 2019-03-29 | 北京懿医云科技有限公司 | 数据处理方法、装置、计算机可读存储介质及电子设备 |
-
2019
- 2019-09-06 CN CN201910843336.7A patent/CN110704699A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180218055A1 (en) * | 2017-01-27 | 2018-08-02 | Sap Se | Design for hierarchical computations of nodes having non-tree topologies in relational database management systems |
CN108228747A (zh) * | 2017-12-20 | 2018-06-29 | 江苏数加数据科技有限责任公司 | 数据治理中的数据血缘关系可视化图形系统 |
CN108648017A (zh) * | 2018-05-14 | 2018-10-12 | 广东因特利信息科技股份有限公司 | 易于扩展的用户需求匹配方法、装置、设备及存储介质 |
CN109542901A (zh) * | 2018-11-12 | 2019-03-29 | 北京懿医云科技有限公司 | 数据处理方法、装置、计算机可读存储介质及电子设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709843A (zh) * | 2020-05-09 | 2020-09-25 | 中国人民财产保险股份有限公司 | 一种客户画像的生成方法、装置及电子设备 |
CN111709843B (zh) * | 2020-05-09 | 2023-07-28 | 中国人民财产保险股份有限公司 | 一种客户画像的生成方法、装置及电子设备 |
CN111813768A (zh) * | 2020-07-10 | 2020-10-23 | 北京思特奇信息技术股份有限公司 | 数据清理方法、装置、电子设备及存储介质 |
CN111813768B (zh) * | 2020-07-10 | 2023-12-01 | 北京思特奇信息技术股份有限公司 | 数据清理方法、装置、电子设备及存储介质 |
CN111651475A (zh) * | 2020-08-07 | 2020-09-11 | 北京每日优鲜电子商务有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN111651475B (zh) * | 2020-08-07 | 2020-12-01 | 北京每日优鲜电子商务有限公司 | 信息生成方法、装置、电子设备和计算机可读介质 |
CN113626445A (zh) * | 2021-08-27 | 2021-11-09 | 中国银行股份有限公司 | 一种报表处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704699A (zh) | 数据画像的构建方法、装置、计算机设备及存储介质 | |
WO2019238109A1 (zh) | 一种故障根因分析的方法及装置 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN110471945B (zh) | 活跃数据的处理方法、系统、计算机设备和存储介质 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN112364923A (zh) | 样本数据的处理方法及装置、系统、存储介质、电子设备 | |
CN113157315A (zh) | 一种软件不同版本的差异信息识别方法、装置、设备及介质 | |
CN113220657A (zh) | 数据处理方法、装置及计算机设备 | |
CN114493255A (zh) | 基于知识图谱的企业异常监控方法及其相关设备 | |
CN115237857A (zh) | 日志处理方法、装置、计算机设备及存储介质 | |
CN112416904A (zh) | 电力数据规范化处理方法及装置 | |
CN108021713B (zh) | 一种文档聚类的方法和装置 | |
CN111782728A (zh) | 一种数据同步方法、装置、电子设备及介质 | |
CN109597702B (zh) | 消息总线异常的根因分析方法、装置、设备及存储介质 | |
EP3009942A1 (en) | Social contact message monitoring method and device | |
CN114398315A (zh) | 一种数据存储方法、系统、存储介质及电子设备 | |
CN114049089A (zh) | 一种构建政务大数据平台的方法及系统 | |
CN111950623B (zh) | 数据稳定性监控方法、装置、计算机设备及介质 | |
WO2019041529A1 (zh) | 新闻主体企业识别方法、电子设备及计算机可读存储介质 | |
CN116795995A (zh) | 知识图谱构建方法、装置、计算机设备和存储介质 | |
CN115878864A (zh) | 一种数据检索方法、装置、设备及可读存储介质 | |
CN113093702B (zh) | 故障数据的预测方法和装置、电子设备和存储介质 | |
CN111177155B (zh) | 消息过滤方法、系统和计算机设备 | |
CN116094907A (zh) | 投诉信息的处理方法、装置及存储介质 | |
CN114971556A (zh) | 文件信息汇总方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200117 |
|
RJ01 | Rejection of invention patent application after publication |