CN117520337A - 一种业务数据聚合和查找方法及系统 - Google Patents
一种业务数据聚合和查找方法及系统 Download PDFInfo
- Publication number
- CN117520337A CN117520337A CN202311238727.9A CN202311238727A CN117520337A CN 117520337 A CN117520337 A CN 117520337A CN 202311238727 A CN202311238727 A CN 202311238727A CN 117520337 A CN117520337 A CN 117520337A
- Authority
- CN
- China
- Prior art keywords
- concept
- aggregation
- data
- entity
- concepts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 240
- 238000004220 aggregation Methods 0.000 title claims abstract description 240
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 230000002085 persistent effect Effects 0.000 claims abstract description 18
- 238000004806 packaging method and process Methods 0.000 claims abstract description 12
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 238000013499 data model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229920001971 elastomer Polymers 0.000 description 2
- 239000000806 elastomer Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种业务数据聚合和查找方法及系统,所述方法包括:获取关系型数据库,解析数据表结构,定义原子概念及其属性,将一个数据表映射成一个原子概念,以数据表中的字段定义原子概念的属性。从原子概念中选择一个主概念并将其与存在关系的其他作为从概念的原子概念关联起来,构建聚合概念。根据聚合概念中的基础属性和属性维度,查找对应的数据表,获取主概念及从概念的实体数据,封装成聚合实体。将聚合实体进行持久化存储,按预设规则进行数据更新。利用分布式搜索引擎查询数据,返回查询结果。本发明解决了传统数据聚合时效性低,应对复杂数据时操作难的问题,提高了数据聚合的效率和准确性。
Description
技术领域
本发明涉及数据聚合技术领域,尤其涉及一种业务数据聚合和查找方法及系统。
背景技术
数据聚合是一种通过重新组织和整合已有的数据模型和数据,以满足不同业务需求的信息聚合技术。数据聚合能够提供更全面和准确的数据视图,以展现数据之间关联,更好地支持决策制定和业务优化。
传统的数据聚合方式主要包括基于业务视图和基于数据集市两种方式。基于业务视图的数据聚合技术首先从系统业务数据库出发,根据业务需求场景制定相应的业务模型,并确定业务数据模型中各属性字段的来源。然后使用数据采集工具从相关业务库表中提取批量业务数据,按照规划的业务模型进行组装,形成聚合对象数据。基于数据集市的数据聚合技术则借助大数据相关技术,对接入系统的领域数据进行引接汇聚、拆分、组织和聚合,实现对业务数据的分层存储。通过构建面向不同业务需求的业务集市,满足对业务数据的查询、订阅、统计、分析等需求。
然而随着业务需求的变化,传统的数据聚合方式无法及时调整数据单元,重新构建数据的时效性较低。并且随着数据关系的复杂性增加,传统的数据聚合方式对数据字段属性维度的聚合模式操作难度较大,难以有效支持业务场景需求。
发明内容
鉴于此,本发明实施例提供了一种业务数据聚合和查找方法及系统,以消除或改善现有技术中存在的数据聚合时效性低、面对复杂数据时操作难的缺陷。
本发明的一个方面提供了一种业务数据聚合和查找方法,该方法包括以下步骤:
选取目标关系型数据库,解析所述目标关系型数据库中的各数据表,根据每个数据表的记载内容定义相应的原子概念,并将所述数据表中表字段作为对应原子概念的属性;
根据业务需求在各原子概念中选取一个原子概念作为主概念;
获取各原子概念之间的关联关系,并根据所述关联关系查找所述主概念对应的一个或多个从概念,将所述主概念及其对应的从概念构建为聚合概念;
将所述主概念的属性作为所属聚合概念的基础属性,将该主概念对应每个从概念的属性作为所属聚合概念的单个属性维度;
根据每个聚合概念的所述基础属性和各属性维度查找对应的数据表,以获得每个聚合概念中所述主概念及从概念的实体数据,并封装为聚合实体;
将各聚合实体进行持久化存储,以及按照预设规则更新所述聚合实体;
根据目标查询需求,利用分布式搜索引擎查找各聚合实体。
在本发明的一些实施例中,将所述数据表中表字段作为对应原子概念的属性之后,还包括:
在每个原子概念的属性中选择一个唯一的属性作为主键,以标识该原子概念对应的实体数据;
以及,抽取所述数据表中各数据项对应记录的数据,并映射关联至各原子概念的属性,组装成原子实体,以供按照聚合概念中所述主概念及从概念查找对应的原子实体并封装为对应的聚合实体。
在本发明的一些实施例中,获取各原子概念之间的关联关系,并根据所述关联关系查找所述主概念对应的一个或多个从概念,将所述主概念及其对应的从概念构建为聚合概念,还包括:
根据所述关联关系,查找所述从概念与其他未被关联的原子概念的关联关系,拓展所述关联关系的关系链路;
根据业务需求,提取主概念、对应的部分或全部从概念,及对应的部分或全部关系链路,将其构建为聚合概念;
所述关联关系包括直接关联两个原子概念的显性关系,以及通过中间概念间接关联两个原子概念的隐性关系;基于原子概念之间的属性与属性值相等建立所述直接关联的关联关系。
在本发明的一些实施例中,将各聚合实体进行持久化存储,以及按照预设规则更新所述聚合实体,包括:
根据每个聚合概念的所述基础属性和各属性维度查找对应的数据表查询更新所述实体数据并进一步更新聚合实体。
在本发明的一些实施例中,将各聚合实体进行持久化存储,以及按照预设规则更新所述聚合实体,包括:
当所述主概念对应的实体数据发生变更时,利用主概念的主键找到对应的聚合实体,将变更的主概念实体数据基于其对应的主概念的属性,映射到聚合概念的基础属性,重新组合成新的聚合实体;
当所述从概念对应的实体数据发生变更时,利用所述关联关系找出对应的主概念;若没有对应的主概念,结束更新;若找到对应的主概念,利用主概念的主键找到对应的聚合实体,将变更的从概念实体数据根基于其对应的从概念的属性,映射到聚合概念的属性维度上,重新组合成新的聚合实体;
当所述主概念对应的实体数据删除时,利用所述关联关系,基于所述主概念的主键找到对应的聚合实体,删除该聚合实体的数据;
当所述从概念对应的实体数据删除时,利用所述关联关系找出所述从概念对应的主概念,利用主概念的主键找到对应的聚合实体,再删除该从概念对应的聚合实体的属性维度数据。
在本发明的一些实施例中,将各聚合实体进行持久化存储,以及按照预设规则更新所述聚合实体,包括:
在设定的一段时间内,只记录发生变更的实体数据,不对所述实体数据进行更新;当到达设定时间后,对所述发生变更的实体数据按权利要求5所述步骤进行全量更新。
在本发明的一些实施例中,所述分布式搜索引擎采用Elasticsearch引擎。
在本发明的一些实施例中,所述数据服务还包括对于检索到的所述聚合数据按类封装,包括主概念的属性信息,以及所述聚合概念的属性维度信息。
本发明的另一方面提供了一种业务数据聚合和查找系统,该系统包括:
概念构建模块,用于选取目标关系型数据库,解析所述目标关系型数据库中的各数据表,根据每个数据表的记载内容定义相应的原子概念,并将所述数据表中表字段作为对应原子概念的属性;
数据聚合模块,用于根据业务需求在各原子概念中选取一个原子概念作为主概念;获取各原子概念之间的关联关系,并根据所述关联关系查找所述主概念对应的一个或多个从概念,将所述主概念及其对应的从概念构建为聚合概念;将所述主概念的属性作为所属聚合概念的基础属性,将该主概念对应每个从概念的属性作为所属聚合概念的单个属性维度;根据每个聚合概念的所述基础属性和各属性维度查找对应的数据表,以获得每个聚合概念中所述主概念及从概念的实体数据,并封装为聚合实体;将各聚合实体进行持久化存储,以及按照预设规则更新所述聚合实体;
数据检索模块,用于根据目标查询需求,利用分布式搜索引擎查找各聚合实体。
本发明的另一方面提供了一种计算机可读存储介质,该程序被处理器执行时实现如上述方法的步骤。
本发明的有益效果至少是:
本发明提供了一种业务数据聚合和查找方法及系统,该方法包括:获取关系型数据库,解析数据表结构,定义原子概念和属性。将一个数据表映射成一个原子概念,以数据表中的字段定义原子概念的属性。根据具体业务需求,,从原子概念中选择一个主概念并将其与存在关系的其他作为从概念的原子概念关联起来,构建聚合概念。根据聚合概念中的基础属性和属性维度,查找对应的数据表,获取主概念及从概念的实体数据,封装成聚合实体。将聚合实体进行持久化存储,按照预设规则进行数据更新。利用分布式搜索引擎查询数据。本发明解决了传统数据聚合在时效性和操作复杂度方面存在的问题,通过知识图谱中的概念和关系来组织和更新数据,提高了数据聚合的效率和准确性。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述一种业务数据聚合和查找方法的流程图。
图2为本发明另一实施例所述数据聚合模型的架构示意图。
图3为本发明另一实施例所述聚合实体构建流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
本发明的实施例提出一种业务数据聚合和查找方法,基于知识图谱中的概念、属性、关系与实体,将知识图谱中的概念作为数据聚合的组成单位,通过引接数据服务、数据库的方式构建抽取业务数据的属性字段,构建单个原子概念。
数据聚合是指从不同的数据源中收集和合并信息,形成更全面、更丰富的数据集。本发明的实施例通过将知识图谱中的概念作为聚合的组成单位,实现数据的聚合。
知识图谱是一种以图的形式表示和组织知识的结构。它将现实世界中的实体、概念、属性和它们之间的关系进行建模和描述,形成一个复杂的网络结构。知识图谱用于存储和组织各种概念、属性、关系和实体之间的信息。
原子概念是指构成聚合知识的最小单位,类似于数据库中的表。每个原子概念具有一定的属性字段,用于描述特定的业务数据。
聚合实体是指通过汇聚关联关系中各原子概念的实体数据,并根据聚合概念模型重新组织形成的实体。即将相关联的原子概念的数据汇总在一起,形成更高层次的实体。
本发明的一个实施例提供了一种业务数据聚合和查找方法,该方法包括以下步骤S101~S105:
步骤S101:选取目标关系型数据库,解析所述目标关系型数据库中的各数据表,根据每个数据表的记载内容定义相应的原子概念,并将所述数据表中表字段作为对应原子概念的属性。
其中,关系型数据库是指以关系模型为基础的数据库系统。该模型使用表格的形式来存储数据,表格由行和列组成。每个表格中的全部行数据表示一个原子概念的实体集合,每一行代表一个实体,每一列则代表实体的属性。
其中,表字段是指关系型数据库中表格的列。每个表字段代表表格中的一个属性或数据项。
步骤S102:根据业务需求在各原子概念中选取一个原子概念作为主概念。获取各原子概念之间的关联关系,并根据关联关系查找主概念对应的一个或多个从概念,将主概念及其对应的从概念构建为聚合概念。将主概念的属性作为所属聚合概念的基础属性,将该主概念对应每个从概念的属性作为所属聚合概念的单个属性维度。
步骤S103:根据每个聚合概念的基础属性和各属性维度查找对应的数据表,以获得每个聚合概念中主概念及从概念的实体数据,并封装为聚合实体。
步骤S104:将各聚合实体进行持久化存储,以及按照预设规则更新聚合实体。
步骤S105:根据目标查询需求,利用分布式搜索引擎查找各聚合实体。
在步骤S101中,将数据表中表字段内记载的数据项作为对应原子概念的属性之后,还包括:
在每个原子概念的属性中选择一个唯一的属性作为主键,以标识该原子概念对应的实体数据。
抽取数据表中各数据项对应记录的数据,并映射关联至各原子概念的属性,组装成原子实体,以供按照聚合概念中主概念及从概念查找对应的原子实体并封装为对应的聚合实体。将组装的原子实体存储到图数据库中,选取的图数据库包括neo4j图数据库。
在步骤S101中,获取各原子概念之间的关联关系,并根据关联关系查找各主概念对应的一个或多个从概念,将每个主概念及其对应的从概念构建为聚合概念,还包括:
根据关联关系,查找从概念与其他未被关联的原子概念的关联关系,拓展关联关系的关系链路。
根据业务需求,提取主概念、对应的部分或全部从概念,及对应的部分或全部关系链路,将其构建为聚合概念。
关联关系包括直接关联两个原子概念的显性关系,以及通过中间概念间接关联两个原子概念的隐性关系。基于原子概念之间的属性与属性值相等建立直接关联的关联关系。
在步骤S103中,将各聚合实体进行持久化存储,以及按照预设规则更新聚合实体,包括:
根据每个聚合概念的基础属性和各属性维度查找对应的数据表查询更新实体数据并进一步更新聚合实体。
在本发明的一些实施例中,将各聚合实体进行持久化存储,以及按照预设规则更新聚合实体,包括:
当主概念对应的实体数据发生变更时,利用主概念的主键找到对应的聚合实体,将变更的主概念实体数据基于其对应的主概念的属性,映射到聚合概念的基础属性,重新组合成新的聚合实体;
当从概念对应的实体数据发生变更时,利用关联关系找出对应的主概念;若没有对应的主概念,结束更新;若找到对应的主概念,利用主概念的主键找到对应的聚合实体,将变更的从概念实体数据根基于其对应的从概念的属性,映射到聚合概念的属性维度上,重新组合成新的聚合实体;
当主概念对应的实体数据删除时,利用关联关系,基于主概念的主键找到对应的聚合实体,删除该聚合实体的数据;
当从概念对应的实体数据删除时,利用关联关系找出从概念对应的主概念,利用主概念的主键找到对应的聚合实体,再删除该从概念对应的聚合实体的属性维度数据。
在本发明的一些实施例中,将各聚合实体进行持久化存储,以及按照预设规则更新聚合实体,包括:
在设定的一段时间内,只记录发生变更的实体数据,不对实体数据进行更新;当到达设定时间后,对发生变更的实体数据按预设规则的步骤进行全量更新。
在本发明的一些实施例中,分布式搜索引擎采用Elasticsearch引擎。
在本发明的一些实施例中,数据服务还包括对于检索到的聚合数据按类封装,包括主概念的属性信息,以及聚合概念的属性维度信息。
本发明的实施例另一方面提供了一种业务数据聚合和查找系统,该系统包括:
概念构建模块,用于选取目标关系型数据库,解析目标关系型数据库中的各数据表,根据每个数据表的记载内容定义相应的原子概念,并将数据表中表字段作为对应原子概念的属性;
数据聚合模块,用于根据业务需求在各原子概念中选取一个原子概念作为主概念;获取各原子概念之间的关联关系,并根据关联关系查找主概念对应的一个或多个从概念,将主概念及其对应的从概念构建为聚合概念;将主概念的属性作为所属聚合概念的基础属性,将该主概念对应每个从概念的属性作为所属聚合概念的单个属性维度;根据每个聚合概念的基础属性和各属性维度查找对应的数据表,以获得每个聚合概念中主概念及从概念的实体数据,并封装为聚合实体;将各聚合实体进行持久化存储,以及按照预设规则更新聚合实体;
数据检索模块,用于根据目标查询需求,利用分布式搜索引擎查找各聚合实体。
本发明的另一个实施例提供了一种业务数据聚合和查找方法,本实施例的数据聚合模型架构如图1所示,该方法包括以下步骤S201~S205:
步骤S201:原子概念是聚合概念的聚合基本单位,通过对关系型数据源的引接构建原子概念,将数据库中数据表信息进行解析转换,以数据表的表名作为原子概念的默认名称,表字段列表为原子概念的属性列表,同时设置原子概念的显示名称,属性的数据类型、主键信息。
步骤S202:根据业务需求,依据原子概念间的显性关系和隐性关系,定义其中的中心原子概念为主概念,其它概念为从概念,重新组装形成新的聚合结构基础属性和属性维度,形成聚合概念数据模型。
其中,显性关系是两个原子概念之间具有直接的关系。隐性关系是指两给原子概念之间没有直接的关系,通过中间概念产生关系链路。
步骤S203:聚合知识抽取,是根据聚合概念的聚合子图信息,抽取各原子概念的实体数据,其关系不会在聚合实体中显示体现,但会按照聚合子图的的关系将具有关系作为匹配条件获取各原子概念的实体数据,进而按照聚合概念的属性映射信息进行数据对应封装,从而形成具有聚合概念的聚合实体。
其中,子图是指根据原子概念的关联关系,获取具有关联关系的多个原子概念形成的图谱。将子图中各原子概念的实体数据汇聚并根据聚合概念模型重新组织形成聚合实体。
步骤S204:聚合缓存与更新,聚合知识抽取后得到的聚合实体,需要将其持久化到缓存中。同时依据聚合概念的属性映射配置,支持原子概念的实体变更对聚合实体数据的动态更新。
步骤S205:聚合概念的资源数据服务。聚合数据缓存使用分布式搜索引擎Elasticsearch,以实现对聚合实体数据资源的统一使用。Elasticsearch能够提供聚合实体数据复杂的数据的缓存,同时利用其索引机制对缓存的聚合实体进行数据检索,并在此基础上对外提供Restfu1方式的访问聚合资源功能。
在一些实施例中,聚合概念中原子概念的属性能够隐藏,并能够对子图进行关系编辑和属性裁剪,展示不同的数据应用效果。
在步骤S201中,构建原子概念具体包括以下步骤S2021~S2024:
步骤S2021:选择关系型数据库,连接访问数据库的表,选取预先创建的表作为一个原子概念的数据源,表字段作为原子概念的属性。
步骤S2022:根据实际业务需求在原子概念的属性列表中选取一个属性作为原子概念的唯一主键,一般选取具有唯一性的一个属性。唯一主键可以为原子概念的实体数据确认其唯一性。
步骤S2023:设置概念名称和概念的显示名称,显示名称支持根据多属性和文本自由组成而成,显示名称是概念实体显示名称的依据。
步骤S2024:通过数据库引接原子概念的数据源,将数据库中数据表的数据抽取出来映射到原子概念的结果属性上,组装成原子概念实体,并存储到图数据库中,选取的图数据库包括neo4j图数据库。
在步骤S202中,构建聚合概念具体包括以下步骤S2021~S2025:
步骤S2021:选取一个原子概念作为聚合概念的中心原子概念,即为聚合概念的主概念,通过该主概念检索出具有显性和隐性关系的原子概念和原子概念之间的关系图谱,即子图,在此基础上,对当前的子图中的其他原子概念进行进一步探索,探索是以当前的原子概念节点为基础,发现其在图谱中未在当前子图中展示的其他具有关系的图谱,使其聚合选择的子图集合范围得到扩展。从而形成聚合可选子图。
步骤S2022:从聚合可选子图中,选取主概念和若干个从概念形成一个构建聚合的子图作为聚合子图,主概念需与每一个从概念有显性或者隐性的关系,即不能出现一个单独的不具有任何关系的概念出现。并可以在此基础上,重新组织各节点与中心节点的关联关系,支持对各概念节点和关系子图进行聚合前调整编辑。形成聚合子图。
步骤S2023:聚合过程是需要对主概念与从概念的属性分别与聚合概念的属性进行映射,映射过程为主概念的属性直接映射作为聚合概念的基础属性;即在聚合概念中是直接继承主概念的的属性。聚合子图中的一个从概念的全部属性映射成聚合概念的一个属性维度,属性维度是聚合概念的一个特殊的复杂属性,根据实际业务需求,这个复杂属性的类型可以定义为复杂类型(0BJECT)或者复杂数组(LIST<OBJECT>),对于映射的复杂属性,需定义其属性的显示编码、属性的显示名称、属性的类型、标签。从而映射成一个聚合概念的属性。对于从概念的属性组,可以自定义其各属性是否显示,达到属性隐藏的效果,即属性裁剪效果。
步骤S2024:添加聚合概念的输出属性,其中包括聚合后的概念的显示名称,该显示名称为后续聚合实体的显示名称的依据,支持根据多属性和文本自由组成。
步骤S2025:对生成的聚合概念的配置和映射进行存储,从物理存储上固化聚合概念的生成。存储包括聚合概念本身基础属性信息、从概念属性映射信息及聚合子图,基础属性信息包括显示名称、聚合主概念id。聚合子图的原子概念和关系信息为聚合概念的聚合实体的组合用到各原子概念下的实体选取条件提供关系配置的依据。
聚合概念创建存储完成后在分布式搜索引擎Elasticsearch创建对应的Elasticsearch索引,用于存储聚合实体资源数据。
在步骤S203中,聚合知识抽取,即聚合实体的构建流程如图3所示,通过聚合子图的原子概念关系信息,拼出获取各原子概念的图库查询语句,进而查询概念实体对应的各原子实体,获取到这些原子概念实体后再依据聚合概念的属性映射信息,将主概的属性值赋值到聚合概念对应的基础属性上,聚合概念的属性列表转换成复杂类型或者复杂数组,从概念的属性值加入到对应的从概念映射的属性上对应的fieldList上。根据聚合属性的输出属性获取到聚合实体的显示名称等信息,从而形成的一个新的聚合实体。
在步骤S204中,将聚合实体持久化到缓存中并更新的方法,具体包括以下步骤S2041~S2043:
步骤S2041:聚合缓存,通过知识抽取获取到的聚合实体,在聚合概念创建时就会创建相对应的Elasticsearch索引及对应缓存的结构和类型,支持应对不同的业务场景,设置特定属性的全文索引,提升查询效率;将聚合实体通过Elasticsearch的存储接口缓存道对应索引中去。
步骤S2042:聚合数据支持订阅原子概念的数据,同样支持根据原子概念数据的变更类型动态调整聚合数据并增量更新缓存,原子概念数据变更后,会依据原子概念找到涉及到的聚合概念,并依次对这些聚合概念进行更新缓存,出现更新分以下几种情况:
当原子概念有数据新增情况下:
1)主概念有新增数据时;通过聚合子图配置信息,获取该条数据关联的从概念实体,将该数据和关联的实体依据聚合属性映射规则重新组装成新的实体,再将组装后的实体记录新增到缓存中。
2)从概念有新增数据时;通过聚合子图配置信息找出对应的主概念数据,没有找到则直接结束。找到情况下根据主概念和聚合概念的属性映射规则中主概念的主键即聚合概念的主键。找到聚合实体后,将从概念按照聚合概念的属性映射信息中该从概念的映射规则,新增对应的复杂属性加入到聚合实体中去。
当原子概念实体数据变更情况下:
1)主概念实体数据变更;通过聚合子图配置信息,获取该条数据关联的从概念实体,将该数据和关联的实体依据聚合概念配置规则重新组装成新的实体,再将组装后的实体记录通过聚合概念主键更新到缓存中。
2)从概念实体数据变更;通过聚合子图配置信息找出对应的主概念数据,根据主概念和聚合概念的主键的属性映射规则,通过主键更新聚合数据对应的复杂属性复杂属性下的fieldList字段去。
原子概念删除情况下:
1)主概念实体数据删除;通过聚合子图配置信息,根据主概念与聚合概念的主键的属性映射规则,删除指定主键的聚合数据。
2)从概念实体数据删除;通过聚合子图配置信息找出对应的主概念数据,根据主概念和聚合概念的主键的属性映射规则,通过主键删除聚合数据对应的复杂属性。
步骤S1043:通过源数据的变更对聚合实体进行动态更新,这种方式时效性高。但当变更频率过高或者变更数据庞大,实时动态更新会给服务带来过高的压力,此时可以通过定时任务对变更过的聚合概念进行全量的更新,设置定时任务,将变更的实体按照类型进行记录,时间到时候将当前存在的全部变更的原子数据按照步骤4-2中进行统一批量处理。
在步骤S205中,支持数据服务具体包括以下步骤S2051~S2052:
步骤S2051:数据服务支持聚合实体名称的关键字查询、多维索引。请求到达数据服务提供方,转化为查询语句将数据检索出来,并对数据进行返回。
步骤S2052:对于检索的聚合资源,数据服务会对其进行简单封装。其中包括属性列表和从概念列表,属性列表用于存储基础属性信息及主概念的属性信息,从概念列别为属性维度信息列表,记录的是从节点映射的属性信息。
综上所述,本发明提供一种业务数据聚合和查找方法及系统,该方法包括:引接关系型数据库,构建原子概念及其属性。根据业务需求选取主概念,利用原子概念之间关系构建聚合概念。根据聚合概念中的基础属性和属性维度,获取对应的主概念及从概念的实体数据,封装成聚合实体。对聚合实体进行缓存及数据的更新。将聚合资源对外提供数据服务来对聚合资源数据的访问和使用。本发明能应对复杂数据的聚合问题并及时对数据进行更新和调整,解决了传统数据聚合时效性低的问题,提高了数据聚合的效率和准确性。
与上述方法相应地,本发明还提供了一种系统,该系统包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种业务数据聚合和查找方法,其特征在于,该方法包括以下步骤:
选取目标关系型数据库,解析所述目标关系型数据库中的各数据表,根据每个数据表的记载内容定义相应的原子概念,并将所述数据表中表字段作为对应原子概念的属性;
根据业务需求在各原子概念中选取一个原子概念作为主概念;
获取各原子概念之间的关联关系,并根据所述关联关系查找所述主概念对应的一个或多个从概念,将所述主概念及其对应的从概念构建为聚合概念;
将所述主概念的属性作为所属聚合概念的基础属性,将该主概念对应每个从概念的属性作为所属聚合概念的单个属性维度;
根据每个聚合概念的所述基础属性和各属性维度查找对应的数据表,以获得每个聚合概念中所述主概念及从概念的实体数据,并封装为聚合实体;
将各聚合实体进行持久化存储,以及按照预设规则更新所述聚合实体;
根据目标查询需求,利用分布式搜索引擎查找各聚合实体。
2.根据权利要求1所述的业务数据聚合和查找方法,其特征在于,将所述数据表中表字段作为对应原子概念的属性之后,还包括:
在每个原子概念的属性中选择一个唯一的属性作为主键,以标识该原子概念对应的实体数据;
以及,抽取所述数据表中各数据项对应记录的数据,并映射关联至各原子概念的属性,组装成原子实体,以供按照聚合概念中所述主概念及从概念查找对应的原子实体并封装为对应的聚合实体。
3.根据权利要求1所述的业务数据聚合和查找方法,其特征在于,获取各原子概念之间的关联关系,并根据所述关联关系查找所述主概念对应的一个或多个从概念,将所述主概念及其对应的从概念构建为聚合概念,还包括:
根据所述关联关系,查找所述从概念与其他未被关联的原子概念的关联关系,拓展所述关联关系的关系链路;
根据业务需求,提取主概念、对应的部分或全部从概念,及对应的部分或全部关系链路,将其构建为聚合概念;
所述关联关系包括直接关联两个原子概念的显性关系,以及通过中间概念间接关联两个原子概念的隐性关系;基于原子概念之间的属性与属性值相等建立所述直接关联的关联关系。
4.根据权利要求1所述的业务数据聚合和查找方法,其特征在于,将各聚合实体进行持久化存储,以及按照预设规则更新所述聚合实体,包括:
根据每个聚合概念的所述基础属性和各属性维度查找对应的数据表查询更新所述实体数据并进一步更新聚合实体。
5.根据权利要求2所述的业务数据聚合和查找方法,其特征在于,将各聚合实体进行持久化存储,以及按照预设规则更新所述聚合实体,包括:
当所述主概念对应的实体数据发生变更时,利用主概念的主键找到对应的聚合实体,将变更的主概念实体数据基于其对应的主概念的属性,映射到聚合概念的基础属性,重新组合成新的聚合实体;
当所述从概念对应的实体数据发生变更时,利用所述关联关系找出对应的主概念;若没有对应的主概念,结束更新;若找到对应的主概念,利用主概念的主键找到对应的聚合实体,将变更的从概念实体数据根基于其对应的从概念的属性,映射到聚合概念的属性维度上,重新组合成新的聚合实体;
当所述主概念对应的实体数据删除时,利用所述关联关系,基于所述主概念的主键找到对应的聚合实体,删除该聚合实体的数据;
当所述从概念对应的实体数据删除时,利用所述关联关系找出所述从概念对应的主概念,利用主概念的主键找到对应的聚合实体,再删除该从概念对应的聚合实体的属性维度数据。
6.根据权利要求5所述的业务数据聚合和查找方法,其特征在于,将各聚合实体进行持久化存储,以及按照预设规则更新所述聚合实体,包括:
在设定的一段时间内,只记录发生变更的实体数据,不对所述实体数据进行更新;当到达设定时间后,对所述发生变更的实体数据按权利要求5所述步骤进行全量更新。
7.根据权利要求1所述的业务数据聚合和查找方法,其特征在于,所述分布式搜索引擎采用Elasticsearch引擎。
8.根据权利要求1所述的业务数据聚合和查找方法,其特征在于,所述数据服务还包括对于检索到的所述聚合数据按类封装,包括主概念的属性信息,以及所述聚合概念的属性维度信息。
9.一种业务数据聚合和查找系统,其特征在于,该系统包括:
概念构建模块,用于选取目标关系型数据库,解析所述目标关系型数据库中的各数据表,根据每个数据表的记载内容定义相应的原子概念,并将所述数据表中表字段作为对应原子概念的属性;
数据聚合模块,用于根据业务需求在各原子概念中选取一个原子概念作为主概念;获取各原子概念之间的关联关系,并根据所述关联关系查找所述主概念对应的一个或多个从概念,将所述主概念及其对应的从概念构建为聚合概念;将所述主概念的属性作为所属聚合概念的基础属性,将该主概念对应每个从概念的属性作为所属聚合概念的单个属性维度;根据每个聚合概念的所述基础属性和各属性维度查找对应的数据表,以获得每个聚合概念中所述主概念及从概念的实体数据,并封装为聚合实体;将各聚合实体进行持久化存储,以及按照预设规则更新所述聚合实体;
数据检索模块,用于根据目标查询需求,利用分布式搜索引擎查找各聚合实体。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311238727.9A CN117520337A (zh) | 2023-09-22 | 2023-09-22 | 一种业务数据聚合和查找方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311238727.9A CN117520337A (zh) | 2023-09-22 | 2023-09-22 | 一种业务数据聚合和查找方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117520337A true CN117520337A (zh) | 2024-02-06 |
Family
ID=89740773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311238727.9A Pending CN117520337A (zh) | 2023-09-22 | 2023-09-22 | 一种业务数据聚合和查找方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520337A (zh) |
-
2023
- 2023-09-22 CN CN202311238727.9A patent/CN117520337A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920716B (zh) | 基于知识图谱的数据检索与可视化系统及方法 | |
CN108874971B (zh) | 一种应用于海量标签化实体数据存储的工具和方法 | |
CN105122243B (zh) | 用于半结构化数据的可扩展分析平台 | |
US10180992B2 (en) | Atomic updating of graph database index structures | |
Mihaila et al. | Using Quality of Data Metadata for Source Selection and Ranking. | |
Wang et al. | A flexible spatio-temporal indexing scheme for large-scale GPS track retrieval | |
JP5152877B2 (ja) | 文書ベースシステムにおける文書データ記憶方法およびその装置 | |
CN108509543B (zh) | 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法 | |
CN107451225A (zh) | 用于半结构化数据的可缩放分析平台 | |
US20170255708A1 (en) | Index structures for graph databases | |
CN102193983B (zh) | 图形数据库基于关系路径的节点数据过滤方法 | |
CN111506621A (zh) | 一种数据统计方法及装置 | |
CN113568995A (zh) | 基于检索条件的动态瓦片地图制作方法及瓦片地图系统 | |
Pokorný | Database architectures: Current trends and their relationships to environmental data management | |
CN107273443B (zh) | 一种基于大数据模型元数据的混合索引方法 | |
CN108241709A (zh) | 一种数据集成方法、装置和系统 | |
CN110020001A (zh) | 字符串数据的存储、查询方法以及相应的设备 | |
Li et al. | Aggregate nearest keyword search in spatial databases | |
CN111460012A (zh) | 基于Spark的气象历史台站沿革数据可视化方法及系统 | |
Rafanelli et al. | The aggregate data problem: a system for their definition and management | |
Rashid et al. | Challenging issues of spatio-temporal data mining | |
CN116467278A (zh) | 一种面向MongoDB存储的时态RDF四元组模型及冗余属性消除方法 | |
CN110263108A (zh) | 一种基于道路网的关键词Skyline模糊查询方法及系统 | |
CN104301182A (zh) | 一种慢速网站访问异常信息的查询方法及装置 | |
CN117520337A (zh) | 一种业务数据聚合和查找方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |