CN115544177A - 数据处理方法和装置、处理器及电子设备 - Google Patents
数据处理方法和装置、处理器及电子设备 Download PDFInfo
- Publication number
- CN115544177A CN115544177A CN202211242580.6A CN202211242580A CN115544177A CN 115544177 A CN115544177 A CN 115544177A CN 202211242580 A CN202211242580 A CN 202211242580A CN 115544177 A CN115544177 A CN 115544177A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- information
- attribute
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法和装置、处理器及电子设备,涉及人工智能技术领域,该方法包括:确定待处理的目标数据集,其中,所述目标数据集由来自不同数据源的各类型的数据组成;依据所述目标数据集中的数据和所述目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,所述目标信息至少包括数据之间关联性信息和数据的属性信息;建立所述三元结构数据模型与所述目标数据集之间的映射关系,并依据所述映射关系和所述三元结构数据模型对所述目标数据集进行管理。通过本申请,解决了相关技术中的各类数据模型无法消除数据冗余的问题。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种数据处理方法和装置、处理器及电子设备。
背景技术
目前数据存储方式多种多样,如文本、数据库、元数据、知识图谱等,大数据技术的核心是数据价值挖掘和数据分析计算,然而由于数据形式的多样化和数据体量的庞大,目前的大数据治理思路和技术并不能很好的解决所面临的问题。
首先要解决的是数据形式的多样化问题,如内部数据/外部数据、实时数据/批处理数据、结构化数据/半结构化数据/非结构化数据、本地数据/云端数据、单机数据/分布式数据等,目前的解决方案是使用元数据来描述这些数据,将所有类型的数据都转为了元数据。这样的做法使得杂乱无章的各类数据得到了统一,但同时不同类型的数据也导致的元数据种类的多样性,如技术元数据、业务元数据、社会元数据等,通过各种不同类型的元数据来管理数据时,但种类繁多的元数据同样带来了业务逻辑的复杂性。其次是各数据源之间的数据冗余问题,这个问题是导致数据规模大爆发的一个重要因素。数据的冗余表现在各个方面,如多个业务系统可能会维护相同的数据如客户、公共信息等,同时业务系统内部也可能会在多个地方维护相同的数据,如交易表中的业务编码、消费类型等。
针对相关技术中的各类数据模型无法消除数据冗余的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种数据处理方法和装置、处理器及电子设备,以解决相关技术中的各类数据模型无法消除数据冗余的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据处理方法。该方法包括:确定待处理的目标数据集,其中,所述目标数据集由来自不同数据源的各类型的数据组成;依据所述目标数据集中的数据和所述目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,所述目标信息至少包括数据之间关联性信息和数据的属性信息;建立所述三元结构数据模型与所述目标数据集之间的映射关系,并依据所述映射关系和所述三元结构数据模型对所述目标数据集进行管理。
进一步地,在建立所述三元结构数据模型与所述目标数据集之间的映射关系之后,所述方法还包括:检测所述目标数据集中的数据的属性信息和所述目标数据集中的数据的关联性信息是否发生变化;若所述属性信息和/或所述关联性信息发生变化,则获取变化信息;依据所述变化信息,对所述三元结构数据模型进行更新处理。
进一步地,在依据所述变化信息,对所述三元结构数据模型进行更新处理之后,所述方法还包括:将所述变化信息作为目标训练集;通过所述目标训练集训练神经网络模型,得到目标神经网络模型,其中,所述目标神经网络模型用于预测所述目标数据集的变化趋势。
进一步地,在建立所述三元结构数据模型与所述目标数据集之间的映射关系之后,所述方法还包括:若检测到对所述目标数据集中的目标数据的查询信息,则依据所述查询信息遍历所述三元结构数据模型,得到所述目标数据的关联性信息和所述目标数据的属性信息;依据所述目标数据的关联性信息和所述目标数据的属性信息,从所述目标数据集中确定所述目标数据对应的数据集。
进一步地,所述三元结构数据模型中包括至少包括:对象元,所述对象元用于描述所述目标数据集中的事物对象;连接元,所述连接元用于描述所述关联性信息;属性元,所述属性元用于描述所述属性信息。
进一步地,所述对象元中包括所述对象元对应的第一连接元和所述对象元对应的第一属性元,其中,所述第一连接元用于连接和所述对象元有关联关系的对象元,所述第一属性元用于记录所述对象元的属性信息;所述连接元中包括所述连接元对应的第一对象元和所述连接元对应的第二属性元,其中,所述第一对象元用于记录通过所述连接元连接的对象元,所述第二属性元用于记录所述连接元的属性信息;所述属性元中包括所述属性元对应的第二对象元和所述属性元对应的第二连接元,其中,所述第二对象元用于记录所述属性元描述的对象元,所述第二连接元用于连接和所述属性元有关联关系的属性元。
进一步地,所述对象元、所述连接元和所述属性元中的数据信息是依据所述数据信息对应的预设的重要程度进行排序存储的。
为了实现上述目的,根据本申请的另一方面,提供了一种数据处理装置。该装置包括:第一确定单元,用于确定待处理的目标数据集,其中,所述目标数据集由来自不同数据源的各类型的数据组成;构建单元,用于依据所述目标数据集中的数据和所述目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,所述目标信息至少包括数据之间关联性信息和数据的属性信息;建立单元,用于建立所述三元结构数据模型与所述目标数据集之间的映射关系,并依据所述映射关系和所述三元结构数据模型对所述目标数据集进行管理。
进一步地,所述装置还包括:第一检测单元,用于在建立所述三元结构数据模型与所述目标数据集之间的映射关系之后,检测所述目标数据集中的数据的属性信息和所述目标数据集中的数据的关联性信息是否发生变化;获取单元,用于若所述属性信息和/或所述关联性信息发生变化,则获取变化信息;更新单元,用于依据所述变化信息,对所述三元结构数据模型进行更新处理。
进一步地,所述装置还包括:第二确定单元,用于在依据所述变化信息,对所述三元结构数据模型进行更新处理之后,将所述变化信息作为目标训练集;训练单元,用于通过所述目标训练集训练神经网络模型,得到目标神经网络模型,其中,所述目标神经网络模型用于预测所述目标数据集的变化趋势。
进一步地,所述装置还包括:第二检测单元,用于在建立所述三元结构数据模型与所述目标数据集之间的映射关系之后,若检测到对所述目标数据集中的目标数据的查询信息,则依据所述查询信息遍历所述三元结构数据模型,得到所述目标数据的关联性信息和所述目标数据的属性信息;第三确定单元,用于依据所述目标数据的关联性信息和所述目标数据的属性信息,从所述目标数据集中确定所述目标数据对应的数据集。
进一步地,所述三元结构数据模型中包括至少包括:对象元,所述对象元用于描述所述目标数据集中的事物对象;连接元,所述连接元用于描述所述关联性信息;属性元,所述属性元用于描述所述属性信息。
进一步地,所述对象元中包括所述对象元对应的第一连接元和所述对象元对应的第一属性元,其中,所述第一连接元用于连接和所述对象元有关联关系的对象元,所述第一属性元用于记录所述对象元的属性信息;所述连接元中包括所述连接元对应的第一对象元和所述连接元对应的第二属性元,其中,所述第一对象元用于记录通过所述连接元连接的对象元,所述第二属性元用于记录所述连接元的属性信息;所述属性元中包括所述属性元对应的第二对象元和所述属性元对应的第二连接元,其中,所述第二对象元用于记录所述属性元描述的对象元,所述第二连接元用于连接和所述属性元有关联关系的属性元。
进一步地,所述对象元、所述连接元和所述属性元中的数据信息是依据所述数据信息对应的预设的重要程度进行排序存储的。
为了实现上述目的,根据本申请的一个方面,提供了一种处理器,处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的数据处理方法。
为了实现上述目的,根据本申请的一个方面,提供了一种电子设备,电子设备包括一个或多个处理器和存储器,存储器用于存储一个或多个处理器实现上述任意一项所述的数据处理方法。
通过本申请,采用以下步骤:确定待处理的目标数据集,其中,目标数据集由来自不同数据源的各类型的数据组成;依据目标数据集中的数据和目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,目标信息至少包括数据之间关联性信息和数据的属性信息;建立三元结构数据模型与目标数据集之间的映射关系,并依据映射关系和三元结构数据模型对目标数据集进行管理,解决了相关技术中的各类数据模型无法消除数据冗余的问题。根据目标数据集的数据和目标数据集中的数据之间的目标信息,构建对应的三元结构数据模型,并建立三元结构数据模型与目标数据集之间的映射关系,最后通过三元结构数据模型对目标数据集进行管理,三元结构数据模型包括了目标数据集中的属性信息和关联性信息,在使用过程中不会产生大量的冗余数据,进而达到了解决数据的统一和冗余的问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的数据处理方法的流程图;
图2是根据本申请实施例提供的三元结构数据模型的示意图;
图3是根据本申请实施例提供的三元结构数据模型描述事物的示意图;
图4是根据本申请实施例提供的三元结构数据模型描述人物关系的示意图;
图5是根据本申请实施例提供的三元结构数据模型描述三个和尚的示意图;
图6是根据本申请实施例提供的数据处理装置的示意图;
图7是根据本申请实施例提供的电子设备的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
下面结合优选的实施步骤对本发明进行说明,图1是根据本申请实施例提供的数据处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,确定待处理的目标数据集,其中,目标数据集由来自不同数据源的各类型的数据组成;
步骤S102,依据目标数据集中的数据和目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,目标信息至少包括数据之间关联性信息和数据的属性信息;
步骤S103,建立三元结构数据模型与目标数据集之间的映射关系,并依据映射关系和三元结构数据模型对目标数据集进行管理。
目前数据存储方式多种多样,如文本、数据库、元数据、知识图谱等。数据本身是用于描述事物的,除了描述事物本身,还有事物的属性和关系。现有的关系型数据库,通过表记录事物的本身和各项属性,除此之外,还使用关系表记录事物之间的关系,为了数据库模型的规范和避免冗余,设计了数据库的第一、第二、第三范式等。这种设计模式本身就存在冗余,如实体表之间的联系,通过各自的主键建立联系,这些主键本身就是冗余的数据,此外,数据库表的范式设计要求和数据属性本身之间存在着矛盾,因为随着事物的发展变化,事物的属性和事物间的关系都在不断发生变化,第一范式则不能满足事物属性变化的要求,如属性变得多样化,同时存在多个数值。而且表的结构是固定的,修改表结构是一项巨大且风险很高的操作。
事物对象的属性和关系是相互独立但又对立统一的结构,因此数据模型需要将对象、属性和关系三者独立描述但又能通过随时变化的关系进行联系起来。因此本申请提出了通过三元结构数据模型对数据集进行处理,实现对大量多类型数据的管理工作。
具体地,随着技术的发展,大数据的体量在不断提升,数据的形式越来越多,而在这些各式各样的数据中,冗余的数据将越来越大。在解决这些数据问题时,可以通过将多种多样的数据转化为三元结构数据模型进行存储,可以采用该模型对冗余的数据进行整合,同时记录数据的变化信息。
通过统一的三元结构数据模型记录各类数据和数据之间的关系,同时对数据本身和数据之间的关系增加属性描述,通过三元互相约束和互相联系的功能,描述各类数据。
首先,确定待处理的目标数据集,目标数据集中包括来自不同数据库的各种类型的数据。然后,根据待处理的目标数据集中数据本身和数据之间的关联性信息和属性信息(即上述的目标信息)建立目标数据集对应的三元结构数据模型。例如,对所有的用户、商品等进行三元结构数据的建模,形成统一的用户和用户之间、用户与商品之间、商品和商品之间关系的三元结构数据模型。最后,建立三元结构数据模型和目标数据集中的数据之间的映射关系,以通过三元结构数据模型实现对目标数据集的管理。
综上所述,根据目标数据集的数据和目标数据集中的数据之间的目标信息,构建对应的三元结构数据模型,并建立三元结构数据模型与目标数据集之间的映射关系,最后通过三元结构数据模型对目标数据集进行管理,三元结构数据模型包括了目标数据集中的属性信息和关联性信息,在使用过程中不会产生大量的冗余数据,进而达到了解决数据的统一和冗余的问题。
在本申请实施例提供的数据处理方法中,在建立三元结构数据模型与目标数据集之间的映射关系之后,还包括:检测目标数据集中的数据的属性信息和目标数据集中的数据的关联性信息是否发生变化;若属性信息和/或关联性信息发生变化,则获取变化信息;依据变化信息,对三元结构数据模型进行更新处理。
将变化信息作为目标训练集;通过目标训练集训练神经网络模型,得到目标神经网络模型,其中,目标神经网络模型用于预测目标数据集的变化趋势。
具体地,在构建完三元结构数据模型后,能够主动检测目标数据集中的数据变化,当检测到目标数据集中的数据的属性信息和/或目标数据集中的数据的关联性信息发生变化时,通过变化信息实时修改三元结构数据模型中相应的数据,同时旧版本的数据也会保存下来。
数据的属性变化数据(如某商品的价格和历史价格数据)以及数据的关系变化数据(如某用户喜欢A种类商品,当A种类商品发生某些变化时,用户不再喜欢A种类商品,而是转为了商品种类B,在其他用户对于商品种类A和商品种类B也有相同的变化),作为训练集,用于持续进行神经网络模型训练,可以得到具有数据关系和属性变化的推断能力的目标神经网络模型(例如,推测商品价格变化、推测之前喜欢商品种类A的客户转向喜欢商品种类B),并使用目标神经网络模型的推断能力进行推断和预测数据关系和数据属性。并且成功预测的数据可以用于反向对神经网络模型进行训练,提高神经网络模型的预测和推理能力。
在一可选的实施例中,通过推测出客户的喜好从商品种类A转向商品种类B,进而对该客户推荐商品种类B,结果发现客户真的喜欢商品种类B,从而使用该客户从喜欢商品种类A转向喜欢商品种类B的数据对神经网络模型算法进行加强训练。
并且,通过上述的三元结构数据模型可以智能的查找所有关联的数据,具体地包括以下内容:若检测到对目标数据集中的目标数据的查询信息,则依据查询信息遍历三元结构数据模型,得到目标数据的关联性信息和目标数据的属性信息;依据目标数据的关联性信息和目标数据的属性信息,从目标数据集中确定目标数据对应的数据集。
综上所述,通过三元结构数据模型可以智能的查找所有关联的数据,并能通过推断能力推荐数据和预测数据变化,形成业务价值。
在本申请实施例提供的数据处理方法中,三元结构数据模型中包括至少包括:对象元,对象元用于描述目标数据集中的事物对象;连接元,连接元用于描述关联性信息;属性元,属性元用于描述属性信息。
对象元中包括对象元对应的第一连接元和对象元对应的第一属性元,其中,第一连接元用于连接和对象元有关联关系的对象元,第一属性元用于记录对象元的属性信息;连接元中包括连接元对应的第一对象元和连接元对应的第二属性元,其中,第一对象元用于记录通过连接元连接的对象元,第二属性元用于记录连接元的属性信息;属性元中包括属性元对应的第二对象元和属性元对应的第二连接元,其中,第二对象元用于记录属性元描述的对象元,第二连接元用于连接和属性元有关联关系的属性元。
对象元、连接元和属性元中的数据信息是依据数据信息对应的预设的重要程度进行排序存储的。
具体地,三元结构数据模型通过元的方式来描述对象、属性和关系这三类数据,三元分别是对象元、连接元和属性元。
每个元下都有两组其他元,对象元下有连接元组和属性元组,连接元组用于记录连接和该对象有关联关系对象的连接元,属性元组用于记录描述该对象的属性元。连接元下有对象元组和属性元组,对象元组是记录该连接元连接的对象元,属性元组是记录该连接元的属性元。属性元下有对象元组和连接元组,对象元组用于记录该属性元描述的对象元,连接元组用于记录属性元之间的关系,连接元在描述属性元之间关系时,作为特殊的连接元,其下属性元组为与当前属性元存在关系的属性元,这种连接元可以通过属性元对其进行标记。
三元结构数据模型结构如图2所示,对象元、属性元和连接元三元相互关联和制约,每个元下的其他两组元均是数组形式,具有顺序性,如对象元下属性元组中的各个属性元均是用于描述对象元的属性元,其下连接元组中各个连接元组中的各个连接元是用于记录对象元与其他对象元的关系,这些属性元组和连接元组的重要性决定了对象元的属性和关系的顺序。
三元结构数据模型描述事物的结构如图3所示,对象元下的属性元组记录了对象元的各个属性,同时属性元也会记录其所描述的对象元。对象元下连接元组记录了与其他对象元具有关联关系的连接元。连接元下的属性元组记录了描述连接元的各个属性,这些属性也会记录其描述的连接元,连接元在承担连接作用时,其下的对象元组中对象元可以有多个,用于关联整个群体。此外,同一个属性元可以用来描述多个对象元或连接元,用于描述某些群体。
在一可选的实施例中使用三元结构数据模型可以用来描述事物,例如,张三和李四是好朋友,都住在王家村,李四很调皮。使用三元结构数据模型来描述后如图4所示。
使用三元结构数据模型记录数据可以很好的记录数据实体和关系的各项属性以及数据实体之间的关系,实现对事物各个细节的描述和记录。同时,三元结构数据模型具有极强的可扩展性,其结构中的对象元可以与任意对象元之间建立联系,可以任意增删属性,关系元可以任意增删其用于描述关系的对象元以及描述关系元的属性元。这种强扩展性使得三元结构数据模型可以迅速、完整的记录事物的变化和变化痕迹。
在一可选的实施例中使用三元结构数据模型描述三个和尚的故事:山上有座庙,庙里有个小和尚,他每天挑水、念经和敲木鱼,生活过的安稳自得。不久,庙里来了个长和尚,他一到庙里就把水喝光了,小和尚叫他去挑水,长和尚想着一个人挑水太吃亏了,便要喊着小和尚一起去抬水喝。后来,又来了一个胖和尚,他也想喝水,但庙里没水,胖和尚自己挑来水自己喝光了,从此谁也不去挑水,三个和尚就没了水喝。长此以往,庙里没了水,花草也枯萎了,夜里老鼠打翻了烛台,燃起大火,三个和尚才一起奋力救火,后来三个和尚改过自新,同心协力一起打水喝。
从打水的角度描述三个和尚行为如图5所示,这个三元结构数据模型清晰的记录了各个时段每个和尚打水的行为,以及各个时段的变化和发生的事情,在此模型上还可以进一步的增加细节,如增加小和尚的工作、胖和尚自己打水、老鼠打翻烛台等,具有很高的扩展性。
随着技术的发展,大数据的体量在不断提升,数据的形式越来越多,而在这些各式各样的数据中,冗余的数据将越来越大。在解决这些数据问题时,可以通过将多种多样的数据转化为三元结构数据模型进行存储,可以采用该模型对冗余的数据进行整合,同时记录下数据变化的记录。
三元结构数据模型融合了元数据和知识图谱,通过统一的三元结构数据模型记录各类数据和数据之间的关系,同时对数据本身和数据之间的关系增加属性描述,通过三元互相约束和互相联系的功能,描述各类数据,形成统一且庞大的知识库,并通过知识库产生数据智能,进而实现数据智能分析和智能推荐。
本申请实施例提供的数据处理方法,通过确定待处理的目标数据集,其中,目标数据集由来自不同数据源的各类型的数据组成;依据目标数据集中的数据和目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,目标信息至少包括数据之间关联性信息和数据的属性信息;建立三元结构数据模型与目标数据集之间的映射关系,以通过三元结构数据模型对目标数据集的管理,解决了相关技术中的各类数据模型无法消除数据冗余的问题。根据目标数据集的数据和目标数据集中的数据之间的目标信息,构建对应的三元结构数据模型,并建立三元结构数据模型与目标数据集之间的映射关系,最后通过三元结构数据模型对目标数据集进行管理,三元结构数据模型包括了目标数据集中的属性信息和关联性信息,在使用过程中不会产生大量的冗余数据,进而达到了解决数据的统一和冗余的问题。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种数据处理装置,需要说明的是,本申请实施例的数据处理装置可以用于执行本申请实施例所提供的用于数据处理方法。以下对本申请实施例提供的数据处理装置进行介绍。
图6是根据本申请实施例的数据处理装置的示意图。如图6所示,该装置包括:第一确定单元601,构建单元602和建立单元603。
第一确定单元601,用于确定待处理的目标数据集,其中,目标数据集由来自不同数据源的各类型的数据组成。
构建单元602,用于依据目标数据集中的数据和目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,目标信息至少包括数据之间关联性信息和数据的属性信息。
建立单元603,用于建立三元结构数据模型与目标数据集之间的映射关系,并依据映射关系和三元结构数据模型对目标数据集进行管理。
本申请实施例提供的数据处理装置,通过第一确定单元601,用于确定待处理的目标数据集,其中,目标数据集由来自不同数据源的各类型的数据组成;构建单元602,用于依据目标数据集中的数据和目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,目标信息至少包括数据之间关联性信息和数据的属性信息;建立单元603,用于建立三元结构数据模型与目标数据集之间的映射关系,并依据映射关系和三元结构数据模型对目标数据集进行管理,解决了相关技术中的各类数据模型无法消除数据冗余的问题。根据目标数据集的数据和目标数据集中的数据之间的目标信息,构建对应的三元结构数据模型,并建立三元结构数据模型与目标数据集之间的映射关系,最后通过三元结构数据模型对目标数据集进行管理,三元结构数据模型包括了目标数据集中的属性信息和关联性信息,在使用过程中不会产生大量的冗余数据,进而达到了解决数据的统一和冗余的问题。
可选地,在本申请实施例提供的数据处理装置中,该装置还包括:第一检测单元,用于在建立三元结构数据模型与目标数据集之间的映射关系之后,检测目标数据集中的数据的属性信息和目标数据集中的数据的关联性信息是否发生变化;获取单元,用于若属性信息和/或关联性信息发生变化,则获取变化信息;更新单元,用于依据变化信息,对三元结构数据模型进行更新处理。
可选地,在本申请实施例提供的数据处理装置中,该装置还包括:第二确定单元,用于在依据变化信息,对三元结构数据模型进行更新处理之后,将变化信息作为目标训练集;训练单元,用于通过目标训练集训练神经网络模型,得到目标神经网络模型,其中,目标神经网络模型用于预测目标数据集的变化趋势。
可选地,在本申请实施例提供的数据处理装置中,该装置还包括:第二检测单元,用于在建立三元结构数据模型与目标数据集之间的映射关系之后,若检测到对目标数据集中的目标数据的查询信息,则依据查询信息遍历三元结构数据模型,得到目标数据的关联性信息和目标数据的属性信息;第三确定单元,用于依据目标数据的关联性信息和目标数据的属性信息,从目标数据集中确定目标数据对应的数据集。
可选地,在本申请实施例提供的数据处理装置中,三元结构数据模型中包括至少包括:对象元,对象元用于描述目标数据集中的事物对象;连接元,连接元用于描述关联性信息;属性元,属性元用于描述属性信息。
可选地,在本申请实施例提供的数据处理装置中,对象元中包括对象元对应的第一连接元和对象元对应的第一属性元,其中,第一连接元用于连接和对象元有关联关系的对象元,第一属性元用于记录对象元的属性信息;连接元中包括连接元对应的第一对象元和连接元对应的第二属性元,其中,第一对象元用于记录通过连接元连接的对象元,第二属性元用于记录连接元的属性信息;属性元中包括属性元对应的第二对象元和属性元对应的第二连接元,其中,第二对象元用于记录属性元描述的对象元,第二连接元用于连接和属性元有关联关系的属性元。
可选地,在本申请实施例提供的数据处理装置中,对象元、连接元和属性元中的数据信息是依据数据信息对应的预设的重要程度进行排序存储的。
数据处理装置包括处理器和存储器,上述的第一确定单元601,构建单元602和建立单元603等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来(本发明的目的)。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行数据处理方法。
如图7所示,本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:确定待处理的目标数据集,其中,目标数据集由来自不同数据源的各类型的数据组成;依据目标数据集中的数据和目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,目标信息至少包括数据之间关联性信息和数据的属性信息;建立三元结构数据模型与目标数据集之间的映射关系,并依据映射关系和三元结构数据模型对目标数据集进行管理。
可选地,在建立三元结构数据模型与目标数据集之间的映射关系之后,该方法还包括:检测目标数据集中的数据的属性信息和目标数据集中的数据的关联性信息是否发生变化;若属性信息和/或关联性信息发生变化,则获取变化信息;依据变化信息,对三元结构数据模型进行更新处理。
可选地,在依据变化信息,对三元结构数据模型进行更新处理之后,该方法还包括:将变化信息作为目标训练集;通过目标训练集训练神经网络模型,得到目标神经网络模型,其中,目标神经网络模型用于预测目标数据集的变化趋势。
可选地,在建立三元结构数据模型与目标数据集之间的映射关系之后,该方法还包括:若检测到对目标数据集中的目标数据的查询信息,则依据查询信息遍历三元结构数据模型,得到目标数据的关联性信息和目标数据的属性信息;依据目标数据的关联性信息和目标数据的属性信息,从目标数据集中确定目标数据对应的数据集。
可选地,三元结构数据模型中包括至少包括:对象元,对象元用于描述目标数据集中的事物对象;连接元,连接元用于描述关联性信息;属性元,属性元用于描述属性信息。
可选地,对象元中包括对象元对应的第一连接元和对象元对应的第一属性元,其中,第一连接元用于连接和对象元有关联关系的对象元,第一属性元用于记录对象元的属性信息;连接元中包括连接元对应的第一对象元和连接元对应的第二属性元,其中,第一对象元用于记录通过连接元连接的对象元,第二属性元用于记录连接元的属性信息;属性元中包括属性元对应的第二对象元和属性元对应的第二连接元,其中,第二对象元用于记录属性元描述的对象元,第二连接元用于连接和属性元有关联关系的属性元。
可选地,对象元、连接元和属性元中的数据信息是依据数据信息对应的预设的重要程度进行排序存储的。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:确定待处理的目标数据集,其中,目标数据集由来自不同数据源的各类型的数据组成;依据目标数据集中的数据和目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,目标信息至少包括数据之间关联性信息和数据的属性信息;建立三元结构数据模型与目标数据集之间的映射关系,并依据映射关系和三元结构数据模型对目标数据集进行管理。
可选地,在建立三元结构数据模型与目标数据集之间的映射关系之后,该方法还包括:检测目标数据集中的数据的属性信息和目标数据集中的数据的关联性信息是否发生变化;若属性信息和/或关联性信息发生变化,则获取变化信息;依据变化信息,对三元结构数据模型进行更新处理。
可选地,在依据变化信息,对三元结构数据模型进行更新处理之后,该方法还包括:将变化信息作为目标训练集;通过目标训练集训练神经网络模型,得到目标神经网络模型,其中,目标神经网络模型用于预测目标数据集的变化趋势。
可选地,在建立三元结构数据模型与目标数据集之间的映射关系之后,方法还包括:若检测到对目标数据集中的目标数据的查询信息,则依据查询信息遍历三元结构数据模型,得到目标数据的关联性信息和目标数据的属性信息;依据目标数据的关联性信息和目标数据的属性信息,从目标数据集中确定目标数据对应的数据集。
可选地,三元结构数据模型中包括至少包括:对象元,对象元用于描述目标数据集中的事物对象;连接元,连接元用于描述关联性信息;属性元,属性元用于描述属性信息。
可选地,对象元中包括对象元对应的第一连接元和对象元对应的第一属性元,其中,第一连接元用于连接和对象元有关联关系的对象元,第一属性元用于记录对象元的属性信息;连接元中包括连接元对应的第一对象元和连接元对应的第二属性元,其中,第一对象元用于记录通过连接元连接的对象元,第二属性元用于记录连接元的属性信息;属性元中包括属性元对应的第二对象元和属性元对应的第二连接元,其中,第二对象元用于记录属性元描述的对象元,第二连接元用于连接和属性元有关联关系的属性元。
可选地,对象元、连接元和属性元中的数据信息是依据数据信息对应的预设的重要程度进行排序存储的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
确定待处理的目标数据集,其中,所述目标数据集由来自不同数据源的各类型的数据组成;
依据所述目标数据集中的数据和所述目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,所述目标信息至少包括数据之间关联性信息和数据的属性信息;
建立所述三元结构数据模型与所述目标数据集之间的映射关系,并依据所述映射关系和所述三元结构数据模型对所述目标数据集进行管理。
2.根据权利要求1所述的方法,其特征在于,在建立所述三元结构数据模型与所述目标数据集之间的映射关系之后,所述方法还包括:
检测所述目标数据集中的数据的属性信息和所述目标数据集中的数据的关联性信息是否发生变化;
若所述属性信息和/或所述关联性信息发生变化,则获取变化信息;
依据所述变化信息,对所述三元结构数据模型进行更新处理。
3.根据权利要求2所述的方法,其特征在于,在依据所述变化信息,对所述三元结构数据模型进行更新处理之后,所述方法还包括:
将所述变化信息作为目标训练集;
通过所述目标训练集训练神经网络模型,得到目标神经网络模型,其中,所述目标神经网络模型用于预测所述目标数据集的变化趋势。
4.根据权利要求1所述的方法,其特征在于,在建立所述三元结构数据模型与所述目标数据集之间的映射关系之后,所述方法还包括:
若检测到对所述目标数据集中的目标数据的查询信息,则依据所述查询信息遍历所述三元结构数据模型,得到所述目标数据的关联性信息和所述目标数据的属性信息;
依据所述目标数据的关联性信息和所述目标数据的属性信息,从所述目标数据集中确定所述目标数据对应的数据集。
5.根据权利要求1所述的方法,其特征在于,所述三元结构数据模型中包括至少包括:
对象元,所述对象元用于描述所述目标数据集中的事物对象;
连接元,所述连接元用于描述所述关联性信息;
属性元,所述属性元用于描述所述属性信息。
6.根据权利要求5所述的方法,其特征在于,
所述对象元中包括所述对象元对应的第一连接元和所述对象元对应的第一属性元,其中,所述第一连接元用于连接和所述对象元有关联关系的对象元,所述第一属性元用于记录所述对象元的属性信息;
所述连接元中包括所述连接元对应的第一对象元和所述连接元对应的第二属性元,其中,所述第一对象元用于记录通过所述连接元连接的对象元,所述第二属性元用于记录所述连接元的属性信息;
所述属性元中包括所述属性元对应的第二对象元和所述属性元对应的第二连接元,其中,所述第二对象元用于记录所述属性元描述的对象元,所述第二连接元用于连接和所述属性元有关联关系的属性元。
7.根据权利要求5所述的方法,其特征在于,所述对象元、所述连接元和所述属性元中的数据信息是依据所述数据信息对应的预设的重要程度进行排序存储的。
8.一种数据处理装置,其特征在于,包括:
第一确定单元,用于确定待处理的目标数据集,其中,所述目标数据集由来自不同数据源的各类型的数据组成;
构建单元,用于依据所述目标数据集中的数据和所述目标数据集中的数据之间的目标信息,构建三元结构数据模型,其中,所述目标信息至少包括数据之间关联性信息和数据的属性信息;
建立单元,用于建立所述三元结构数据模型与所述目标数据集之间的映射关系,并依据所述映射关系和所述三元结构数据模型对所述目标数据集进行管理。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的数据处理方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211242580.6A CN115544177A (zh) | 2022-10-11 | 2022-10-11 | 数据处理方法和装置、处理器及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211242580.6A CN115544177A (zh) | 2022-10-11 | 2022-10-11 | 数据处理方法和装置、处理器及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115544177A true CN115544177A (zh) | 2022-12-30 |
Family
ID=84733312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211242580.6A Pending CN115544177A (zh) | 2022-10-11 | 2022-10-11 | 数据处理方法和装置、处理器及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115544177A (zh) |
-
2022
- 2022-10-11 CN CN202211242580.6A patent/CN115544177A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111527506B (zh) | 利用动态关系认知的数据交互平台 | |
CN108885634B (zh) | 一种基于时空数据库的对数据对象的检索方法 | |
Phaneendra et al. | Big Data-solutions for RDBMS problems-A survey | |
CN112699175A (zh) | 一种数据治理系统及其方法 | |
CN106407469B (zh) | 一种描述事物时间属性并基于所述描述进行查找的方法 | |
CN109660574B (zh) | 数据提供方法及装置 | |
CN106294888A (zh) | 一种基于时空数据库的对象数据的订阅方法 | |
Stachowicz et al. | Episodic-like memory for cognitive robots | |
CN106446278B (zh) | 一种基于时空数据库的对数据对象的检索方法 | |
US20150254289A1 (en) | Database architecture for storing multi-structured data | |
CN112580914A (zh) | 汇集多源数据的企业级数据中台系统的实现方法及装置 | |
CN106294439A (zh) | 一种数据推荐系统及其数据推荐方法 | |
CN114579584B (zh) | 数据表处理方法、装置、计算机设备和存储介质 | |
US20220058499A1 (en) | Multidimensional hierarchy level recommendation for forecasting models | |
Zhang et al. | Opportunities of innovation under challenges of big data | |
Khan et al. | Predictive performance comparison analysis of relational & NoSQL graph databases | |
Bouneffouf | Situation-aware approach to improve context-based recommender system | |
KR101467707B1 (ko) | 지식 베이스의 개체 매칭 방법 및 이를 위한 장치 | |
CN108875087A (zh) | 一种描述事物空间属性并基于所述描述进行查找的方法 | |
Hbibi et al. | Big data: Framework and issues | |
CN115544177A (zh) | 数据处理方法和装置、处理器及电子设备 | |
Billot et al. | Introduction to big data and its applications in insurance | |
CN114298525A (zh) | 一种数据库风险评估方法及装置 | |
CN111858527A (zh) | 一种日志数据建模分析方法及计算机可读存储介质 | |
Saleem | Location analytics for location-based social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |