CN112286979B - 数据筛选方法和装置、电子设备及存储介质 - Google Patents

数据筛选方法和装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112286979B
CN112286979B CN202011198249.XA CN202011198249A CN112286979B CN 112286979 B CN112286979 B CN 112286979B CN 202011198249 A CN202011198249 A CN 202011198249A CN 112286979 B CN112286979 B CN 112286979B
Authority
CN
China
Prior art keywords
screening
data
target
condition
conditions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011198249.XA
Other languages
English (en)
Other versions
CN112286979A (zh
Inventor
张泽宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202011198249.XA priority Critical patent/CN112286979B/zh
Publication of CN112286979A publication Critical patent/CN112286979A/zh
Application granted granted Critical
Publication of CN112286979B publication Critical patent/CN112286979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供的数据筛选方法和装置、电子设备及存储介质,涉及数据处理技术领域。在本申请中,首先,确定待筛选的目标关系类型。其次,基于目标关系类型和预先确定的对应关系确定目标筛选条件,其中,该筛选条件包括实体筛选条件和关系筛选条件中的至少一种。然后,基于目标筛选条件,对分布式图数据库中的数据进行筛选处理,得到目标数据,其中,实体筛选条件用于筛选该分布式图数据库中的点数据,关系筛选条件用于筛选该分布式图数据库中的边数据。基于上述方法,可以改善现有技术中存在的数据处理效率不高的问题。

Description

数据筛选方法和装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种数据筛选方法和装置、电子设备及存储介质。
背景技术
随着数据处理技术的需求不断提高,其发展也得到了不断扩展。例如,可以通过图数据库进行数据存储,以在需要进行计算时,可以筛选出需要的数据。但是,经发明人研究发现,在现有的数据处理技术中,存在着数据处理(筛选)效率不高的问题。
发明内容
有鉴于此,本申请的目的在于提供一种数据筛选方法和装置、电子设备及存储介质,以改善现有技术中存在的数据处理效率不高的问题。
为实现上述目的,本申请实施例采用如下技术方案:
一种数据筛选方法,包括:
确定待筛选的目标关系类型;
基于所述目标关系类型和预先确定的对应关系确定目标筛选条件,其中,该对应关系中包括至少一种关系类型和对应的至少一种筛选条件,该筛选条件包括实体筛选条件和关系筛选条件中的至少一种;
基于所述目标筛选条件,对分布式图数据库中的数据进行筛选处理,得到目标数据,其中,所述实体筛选条件用于筛选该分布式图数据库中的点数据,所述关系筛选条件用于筛选该分布式图数据库中的边数据。
在本申请实施例较佳的选择中,在上述数据筛选方法中,所述基于所述目标筛选条件,对分布式图数据库中的数据进行筛选处理,得到目标数据的步骤,包括:
在分布式图数据库中,获取属于所述目标关系类型的待筛选数据;
在所述待筛选数据中,基于所述目标筛选条件筛选出目标数据。
在本申请实施例较佳的选择中,在上述数据筛选方法中,所述在所述待筛选数据中,基于所述目标筛选条件筛选出目标数据的步骤,包括:
确定所述实体筛选条件是否包括主体筛选条件和客体筛选条件,其中,该主体筛选条件用于筛选属于第一类型的点数据,该客体筛选条件用于筛选属于第二类型的点数据,该第一类型和该第二类型基于预先配置形成;
在所述实体筛选条件包括所述主体筛选条件和所述客体筛选条件时,将该主体筛选条件和该客体筛选条件中的一个作为目标筛选条件、另一个作为其它筛选条件,其中,基于所述目标筛选条件和所述关系筛选条件形成第一任务,基于所述其它筛选条件形成第二任务;
基于所述待筛选数据分别执行所述第一任务和所述第二任务,以在所述待筛选数据中筛选出目标数据。
在本申请实施例较佳的选择中,在上述数据筛选方法中,基于所述待筛选数据执行所述第一任务的步骤,包括:
针对所述待筛选数据中的每一个数据集合,基于所述目标筛选条件对该数据集合中对应类型的点数据进行第一筛选处理,并确定进行该第一筛选处理是否得到第一筛选数据,其中,若该目标筛选条件为主体筛选条件,则该目标筛选条件的对应类型为所述第一类型,若该目标筛选条件为客体筛选条件,则该目标筛选条件的对应类型为所述第二类型;
针对所述第一筛选数据对应的每一个数据集合,基于所述关系筛选条件对该数据集合中的边数据进行第二筛选处理,得到第二筛选数据;
基于所述第一筛选数据和所述第二筛选数据得到目标数据。
在本申请实施例较佳的选择中,在上述数据筛选方法中,所述针对所述待筛选数据中的每一个数据集合,基于所述目标筛选条件对该数据集合中对应类型的点数据进行第一筛选处理的步骤,包括:
针对所述待筛选数据中的每一个数据集合,将该数据集合中的点数据缓存至映射集合中,并将该点数据从该数据集合中移除,其中该点数据基于该数据集合中键ID的反序列化结果确定;
针对每一个所述映射集合,基于所述目标筛选条件对该映射集合中对应类型的点数据进行第一筛选处理。
在本申请实施例较佳的选择中,在上述数据筛选方法中,所述将该主体筛选条件和该客体筛选条件中的一个作为目标筛选条件、另一个作为其它筛选条件的步骤,包括:
将所述主体筛选条件作为目标筛选条件,其中,该主体筛选条件和所述关系筛选条件用于形成所述第一任务;
将所述客体筛选条件作为其它筛选条件,该客体筛选条件用于形成所述第二任务。
在本申请实施例较佳的选择中,在上述数据筛选方法中,所述在所述待筛选数据中,基于所述目标筛选条件筛选出目标数据的步骤,还包括:
在所述实体筛选条件包括所述主体筛选条件或所述客体筛选条件时,基于该主体筛选条件和所述关系筛选条件形成第一任务,或基于该客体筛选条件和所述关系筛选条件形成第一任务;
基于所述待筛选数据执行所述第一任务,以在所述待筛选数据中筛选出目标数据。
本申请实施例还提供了一种数据筛选装置,包括:
关系类型确定模块,用于确定待筛选的目标关系类型;
筛选条件确定模块,用于基于所述目标关系类型和预先确定的对应关系确定目标筛选条件,其中,该对应关系中包括至少一种关系类型和对应的至少一种筛选条件,该筛选条件包括实体筛选条件和关系筛选条件中的至少一种;
目标数据筛选模块,用于基于所述目标筛选条件,对分布式图数据库中的数据进行筛选处理,得到目标数据,其中,所述实体筛选条件用于筛选该分布式图数据库中的点数据,所述关系筛选条件用于筛选该分布式图数据库中的边数据。
在上述基础上,本申请实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
与所述存储器连接的处理器,用于执行该存储器存储的计算机程序,以实现上述的数据筛选方法。
在上述基础上,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被执行时,实现上述的数据筛选方法。
本申请提供的数据筛选方法和装置、电子设备及存储介质,通过先确定待筛选的目标关系类型,然后,可以基于该目标筛选类型确定目标筛选条件,最后,再基于目标筛选条件对分布式图数据库中的数据进行筛选。如此,可以在对分布式图数据库中的数据进行筛选时,更具有针对性,从而提高筛选的效率,进而改善现有的数据处理技术中存在的数据处理(筛选)效率不高的问题,保证基于筛选得到的数据进行其它数据处理(如图计算、图谱挖掘等)的效率,使得具有较高的实用价值。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本申请实施例提供的电子设备的结构框图。
图2为本申请实施例提供的数据筛选方法的流程示意图。
图3为本申请实施例提供的点数据和边数据的效果示意图。
图4为图2中步骤S130包括的子步骤的流程示意图。
图5为图4中步骤S133包括的子步骤的流程示意图。
图6为图4中步骤S133包括的其它子步骤的流程示意图。
图7为本申请实施例提供的Big Table模型的示意图。
图8为本申请实施例提供的基于Big Table模型中的单元包括的子集的数据存储逻辑结构示意图。
图9为本申请实施例提供的数据筛选装置的方框示意图。
图标:10-电子设备;12-存储器;14-处理器;100-数据筛选装置;110-关系类型确定模块;120-筛选条件确定模块;130-目标数据筛选模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本申请实施例提供了一种电子设备10,可以包括存储器12、处理器14和数据筛选装置100。
其中,所述存储器12和处理器14之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据筛选装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器12中的软件功能模块。所述处理器14用于执行所述存储器12中存储的可执行的计算机程序,例如,所述数据筛选装置100所包括的软件功能模块及计算机程序等,以实现本申请实施例提供的数据筛选方法(如后文所述)。
可选地,所述存储器12可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。
并且,所述处理器14可以是一种通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)等。
可以理解,图1所示的结构仅为示意,所述电子设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。例如,所述电子设备10还可以包括用于与其它设备进行信息交互的通信单元。
其中,所述电子设备10可以是一种具备数据处理能力的服务器。
结合图2,本申请实施例还提供一种可应用于上述电子设备10的数据筛选方法。其中。所述数据筛选方法有关的流程所定义的方法步骤,可以由所述电子设备10实现。下面将对图2所示的具体流程,进行详细阐述。
步骤S110,确定待筛选的目标关系类型。
在本实施例中,在需要从分布式图数据库中筛选出需要的数据时,所述电子设备10可以先确定待筛选的目标关系类型,也就是说,所述电子设备10需要先确定需要筛选出的数据的类型。
步骤S120,基于所述目标关系类型和预先确定的对应关系确定目标筛选条件。
在本实施例中,在基于步骤S110确定所述目标关系类型之后,所述电子设备10可以基于该目标关系类型和预先确定的对应关系,确定该目标关系类型对应的目标筛选条件。
其中,所述对应关系中包括至少一种关系类型和对应的至少一种筛选条件,该筛选条件包括实体筛选条件和关系筛选条件中的至少一种。
步骤S130,基于所述目标筛选条件,对分布式图数据库中的数据进行筛选处理,得到目标数据。
在本实施例中,在基于步骤S120确定所述目标筛选条件之后,所述电子设备10可以基于该目标筛选条件,对所述分布式图数据库中的数据进行筛选处理,如此,可以筛选出需要的目标数据。
其中,所述实体筛选条件用于筛选所述分布式图数据库中的点数据,所述关系筛选条件用于筛选该分布式图数据库中的边数据。
可以理解的是,上述的点数据和边数据可以分别是指,节点的属性数据和节点之间的边的属性数据。如图3所示,“用户1”、“电话”、“用户2”可以称为节点,“用户1”与“电话”这两个节点之间的边为“边1”,“用户2”与“电话”这两个节点之间的边为“边2”。
其中,“用户1”这个节点对应的数据“姓名:赵一”可以是指该节点的属性数据,“边1”这条边对应的数据“时间:2020-10-26”可以是指该边的属性数据。并且,在一种可以替代的示例中,在“用户1”与“电话”这两个节点中,“用户1”可以是指主体节点,“电话”可以是指客体节点。
基于上述方法,可以在对分布式图数据库中的数据进行筛选时,更具有针对性,从而提高筛选的效率,进而改善现有的数据处理技术中存在的数据处理(筛选)效率不高的问题,保证基于筛选得到的数据进行其它数据处理(如图计算、图谱挖掘等)的效率。
第一方面,对于步骤S110需要说明的是,确定所述目标关系类型的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,可以响应用户的选择操作生成所述目标关系类型。又例如,在另一种可以替代的示例中,可以从其它设备(如通信连接的终端设备)获取所述目标关系类型。
可以理解的是,在上述示例中,关系类型的具体内容不受限制,可以根据实际应用需求进行配置。例如,在一种可以替代的示例中,一种关系类型可以是通话关系(如图3所示的数据)。
第二方面,对于步骤S120需要说明的是,确定所述目标筛选条件的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,预先建立有对应关系(可以是基于不同的用户需求分别建立不同的对应关系,也可以是不考虑用户的个别需求而建立的整体对应关系,即用户可以选择待筛选的关系类型,不能选择筛选条件),然后,可以基于所述目标关系类型在所述对应关系中进行映射,从而得到对应的目标筛选条件。
其中,在一种具体的应用示例中,若所述目标关系类型为类型1(如通话关系),所述目标筛选条件可以包括实体筛选条件和关系筛选条件;若所述目标关系类型为类型2(如非通话关系),所述目标筛选条件可以包括实体筛选条件。
第三方面,对于步骤S130需要说明的是,对分布式图数据库中的数据进行筛选处理的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,可以直接基于所述目标筛选条件,对所述分布式图数据库中的数据进行筛选处理。
又例如,在另一种可以替代的示例中,为了提高筛选的效率,改善因对过多的数据进行筛选而导致电子设备10的计算资源消耗过多的问题,结合图4,步骤S130可以包括步骤S131和步骤S133,具体内容如下所述。
步骤S131,在分布式图数据库中,获取属于所述目标关系类型的待筛选数据。
在本实施例中,在基于步骤S110确定所述目标关系类型之后,可以基于该目标关系类型,在所述分布式数据库中获取属于所述目标关系类型的待筛选数据,如此,可以实现数据的初步筛选。
步骤S133,在所述待筛选数据中,基于所述目标筛选条件筛选出目标数据。
在本实施例中,在基于步骤S131获取到所述待筛选数据之后,可以基于所述目标筛选条件,在所述待筛选数据中筛选出目标数据。如此,由于在执行步骤S133之前,已经基于步骤S131进行初步筛选,使得基于步骤S133进行实际的筛选处理的数据量降低,从而提高筛选的效率。
例如,在一种具体的应用示例中,可以先在所述分布式图数据中获取出通话关系对应的待筛选数据,然后,再从该待筛选数据中基于所述目标筛选条件筛选出目标数据,如筛选出图3所示的姓名为赵一的相关数据。
可选地,执行步骤S133以筛选出所述目标数据的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,结合图5,步骤S133可以包括步骤S133a、步骤S133b和步骤S133c,具体内容如下所述。
步骤S133a,确定所述实体筛选条件是否包括主体筛选条件和客体筛选条件。
在本实施例中,考虑到基于不同的需求,可能会对所述实体筛选条件配置不同的筛选内容,因而,在所述目标筛选条件中包括实体筛选条件时,可以先确定该实体筛选条件是否包括主体筛选条件和客体筛选条件。
其中,所述主体筛选条件用于筛选属于第一类型的点数据(如前述的主体节点的属性数据),所述客体筛选条件用于筛选属于第二类型的点数据(如前述的客体节点的属性数据),该第一类型和该第二类型可以基于预先配置形成。并且,在所述实体筛选条件包括所述主体筛选条件和所述客体筛选条件时,可以执行步骤S133b。
步骤S133b,将所述主体筛选条件和所述客体筛选条件中的一个作为目标筛选条件、另一个作为其它筛选条件。
在本实施例中,在基于步骤S133a确定所述实体筛选条件包括所述主体筛选条件和所述客体筛选条件时,可以将该主体筛选条件和该客体筛选条件中的一个作为目标筛选条件、另一个作为其它筛选条件(例如,在将所述主体筛选条件作为目标筛选条件时,可以将所述客体筛选条件作为其它筛选条件;在将所述客体筛选条件作为目标筛选条件时,可以将所述主体筛选条件作为其它筛选条件)。
其中,可以基于所述目标筛选条件和所述关系筛选条件形成第一任务,基于所述其它筛选条件形成第二任务。
步骤S133c,基于所述待筛选数据分别执行所述第一任务和所述第二任务,以在所述待筛选数据中筛选出目标数据。
在本实施例中,在基于步骤S133b以确定目标筛选条件和其它筛选条件,从而形成第一任务和第二任务时,可以分别执行所述第一任务和所述第二任务(例如,在一种可以替代的示例中,可以并行执行所述第一任务和所述第二任务,如此,可以提高任务执行的效率,从而保证数据筛选的效率),以在所述待筛选数据中筛选出目标数据。
可以理解的是,在上述示例中,执行步骤S133b以确定目标筛选条件和其它筛选条件的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,在一种可以替代的示例中,步骤S133b可以包括以下子步骤:
首先,将所述客体筛选条件作为目标筛选条件,其中,该客体筛选条件和所述关系筛选条件用于形成所述第一任务;其次,将所述主体筛选条件作为其它筛选条件,该主体筛选条件用于形成所述第二任务。
又例如,在另一种可以替代的示例中,经过本申请的发明人的研究发现,由于主体节点和客体节点的分类一般是基于用户的配置完成,因而,为了更为有效地进行筛选,步骤S133b可以包括以下子步骤:
首先,将所述主体筛选条件作为目标筛选条件,其中,该主体筛选条件和所述关系筛选条件用于形成所述第一任务;其次,将所述客体筛选条件作为其它筛选条件,该客体筛选条件用于形成所述第二任务。
也就是说,在本实施例中,一方面,可以将主体筛选条件和关系筛选条件作为一个任务以一起进行筛选;另一方面,可以将客体筛选条件作为另一个任务以进行筛选。
可以理解的是,在上述示例中,执行步骤S133c以执行所述第一任务的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,可以分别基于所述主体筛选条件和所述关系筛选条件进行筛选处理,然后,将基于分别得到的结果进行合并处理(如进行OR(或运算)、AND(与运算)的计算等),从而得到执行第一任务的最后结果。
又例如,在另一种可以替代的示例中,为了进一步提高进行筛选的效率,改善因进行过多的筛选处理而导致计算资源被浪费的问题,步骤S133c可以包括以下子步骤:
首先,针对所述待筛选数据中的每一个数据集合,基于所述目标筛选条件对该数据集合中对应类型的点数据进行第一筛选处理,并确定进行该第一筛选处理是否得到第一筛选数据,其中,若该目标筛选条件为主体筛选条件,则该目标筛选条件的对应类型为所述第一类型,若该目标筛选条件为客体筛选条件,则该目标筛选条件的对应类型为所述第二类型;
其次,针对所述第一筛选数据对应的每一个数据集合,基于所述关系筛选条件对该数据集合中的边数据进行第二筛选处理,得到第二筛选数据;
然后,基于所述第一筛选数据和所述第二筛选数据得到目标数据。
也就是说,在本实施例中,每一个数据集合可以包括一个节点的点数据和对应的边的边数据。如此,基于上述子步骤,可以先对数据集合中的点数据进行第一筛选处理,然后,基于本申请的发明人长期的研究结果“若进行第一筛选处理未筛选出任何数据,说明对应的节点不满足需求,因而,对应的边也不会满足需求”,可以将先确定进行第一筛选处理是否有筛选出数据,并且,只有在有筛选出数据,才针对对应的数据集合进行第二筛选处理,使得筛选的效率更高。
基于此,可以分别基于第一筛选处理和第二筛选处理得到第一筛选数据和第二筛选数据,然后,可以基于实际需求对该第一筛选数据和该第二筛选数据进行处理(如进行OR、AND的计算等)得到目标数据。
其中,在上述示例中,进行所述第一筛选处理的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,为了提高进行第一筛选处理的有序性,可以基于以下子步骤以进行所述第一筛选处理:
首先,针对所述待筛选数据中的每一个数据集合,将该数据集合中的点数据缓存至映射集合中,并将该点数据从该数据集合中移除,其中,该点数据基于该数据集合中键(key)ID的反序列化结果(对点数据进行确定时基于键ID的反序列化结果的原因在于,在基于分布式图数据库,如HBase中,进行数据存储时,一个节点的键ID会被序列化为64位的二进制码)确定;其次,针对每一个所述映射集合,基于所述目标筛选条件对该映射集合中对应类型的点数据进行第一筛选处理。
也就是说,若所述目标筛选条件为主体筛选条件,可以对所述映射集合中主体节点的点数据进行第一筛选处理。若所述目标筛选条件为客体筛选条件,可以对所述映射集合中客体节点的点数据进行第一筛选处理。
可选地,在上述示例的基础上,若基于步骤S133a确定所述实体筛选条件不包括所述主体筛选条件和所述客体筛选条件时,具体的处理方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,结合图6,步骤S133还可以包括步骤S133d和步骤S133e,具体内容如下所述。
步骤S133d,在所述实体筛选条件包括所述主体筛选条件或所述客体筛选条件时,基于该主体筛选条件和所述关系筛选条件形成第一任务,或基于该客体筛选条件和所述关系筛选条件形成第一任务。
在本实施例中,考虑到基于一定的需求,所述实体筛选条件可以包括所述主体筛选条件和所述客体筛选条件中的一种,如包括主体筛选条件,或包括客体筛选条件。因此,可以基于该主体筛选条件和所述关系筛选条件形成第一任务(也就是说,在此示例中,可以不再基于客体筛选条件形成第二任务),或者,基于该客体筛选条件和所述关系筛选条件形成第一任务(也就是说,在此示例中,可以不再基于主体筛选条件形成第二任务)。
步骤S133e,基于所述待筛选数据执行所述第一任务,以在所述待筛选数据中筛选出目标数据。
在本实施例中,在基于步骤S133d形成所述第一任务之后,可以执行该第一任务,如此,可以基于所述主体筛选条件和所述关系筛选条件在所述待筛选数据中筛选出目标数据,或基于所述客体筛选条件和所述关系筛选条件在所述待筛选数据中筛选出目标数据。
最后,为了便于对所述分布式图数据库中的数据存储结构进行理解,以Janusgraph图谱数据在HBase数据库中采用边切割的方式进行图谱数据的存储为例进行说明。
其中,结合图7,Janusgraph图谱数据可以通过Big Table模型存储于数据库,在Big Table模型中,每一个表是行的集合,由一个键(key)唯一标识。每一行由任意数量单元(cell)组成,每一个单元可以包括第一子集(column)和第二子集(value),column和value可以理解为单元中的两种子集,column可以唯一标识对应的一个单元。
并且,在图7中,沿着列方向(即行与行之间)可以基于key的大小进行排序,沿着行方向上(即列与列之间)可以基于column进行排序。
结合图8,示例性的说明了基于边形成的数据(Edge)和基于节点形成的数据(Property)在单元(cell)中的存储逻辑结构。例如,对于基于边形成的数据,column中可以包括边类型的id(lable id)、图的方向(direction)、边的属性(sort key,即上文所述的边数据)、对应(目标)节点的id(adjacent vertex id)、边的全局唯一id(edge id),value中可以包括边的签名key(signature key)、边的其他属性(other properties)。
又例如,对于基于节点形成的数据,column中可以包括属性类型(label)对应的id(key id),value中可以包括属性的唯一id(property id)、属性值(property value)。
结合图9,本申请实施例还提供一种可应用于上述电子设备10的数据筛选装置100。其中,该数据筛选装置100可以包括关系类型确定模块110、筛选条件确定模块120和目标数据筛选模块130。
所述关系类型确定模块110,可以用于确定待筛选的目标关系类型。在本实施例中,所述关系类型确定模块110可以用于执行图2所示的步骤S110,关于所述关系类型确定模块110的相关内容可以参照前文对步骤S110的描述。
所述筛选条件确定模块120,可以用于基于所述目标关系类型和预先确定的对应关系确定目标筛选条件,其中,该对应关系中包括至少一种关系类型和对应的至少一种筛选条件,该筛选条件包括实体筛选条件和关系筛选条件中的至少一种。在本实施例中,所述筛选条件确定模块120可用于执行图2所示的步骤S120,关于所述筛选条件确定模块120的相关内容可以参照前文对步骤S120的描述。
所述目标数据筛选模块130,可以用于基于所述目标筛选条件,对分布式图数据库中的数据进行筛选处理,得到目标数据,其中,所述实体筛选条件用于筛选该分布式图数据库中的点数据,所述关系筛选条件用于筛选该分布式图数据库中的边数据。在本实施例中,所述目标数据筛选模块130可用于执行图2所示的步骤S130,关于所述目标数据筛选模块130的相关内容可以参照前文对步骤S130的描述。
在本申请实施例中,对应于上述的数据筛选方法,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序运行时执行上述数据筛选方法的各个步骤。
其中,前述计算机程序运行时执行的各步骤,在此不再一一赘述,可参考前文对所述数据筛选方法的解释说明。
综上所述,本申请提供的数据筛选方法和装置、电子设备及存储介质,通过先确定待筛选的目标关系类型,然后,可以基于该目标筛选类型确定目标筛选条件,最后,再基于目标筛选条件对分布式图数据库中的数据进行筛选。如此,可以在对分布式图数据库中的数据进行筛选时,更具有针对性,从而提高筛选的效率,进而改善现有的数据处理技术中存在的数据处理(筛选)效率不高的问题,保证基于筛选得到的数据进行其它数据处理(如图计算、图谱挖掘等)的效率,使得具有较高的实用价值。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种数据筛选方法,其特征在于,包括:
确定待筛选的目标关系类型;
基于所述目标关系类型和预先确定的对应关系确定目标筛选条件,其中,该对应关系中包括至少一种关系类型和对应的至少一种筛选条件,该筛选条件包括实体筛选条件和关系筛选条件中的至少一种;所述实体筛选条件和所述关系筛选条件分别用于筛选分布式图数据库中的点数据和边数据;
在分布式图数据库中,获取属于所述目标关系类型的待筛选数据;
在所述待筛选数据中,基于所述目标筛选条件筛选出目标数据;
其中,所述在所述待筛选数据中,基于所述目标筛选条件筛选出目标数据的步骤,包括:
确定所述实体筛选条件是否包括主体筛选条件和客体筛选条件,其中,该主体筛选条件用于筛选属于第一类型的点数据,该客体筛选条件用于筛选属于第二类型的点数据,该第一类型和该第二类型基于预先配置形成;
在所述实体筛选条件包括所述主体筛选条件和所述客体筛选条件时,将该主体筛选条件和该客体筛选条件中的一个作为目标筛选条件、另一个作为其它筛选条件,其中,基于所述目标筛选条件和所述关系筛选条件形成第一任务,基于所述其它筛选条件形成第二任务;
基于所述待筛选数据分别执行所述第一任务和所述第二任务,以在所述待筛选数据中筛选出目标数据。
2.根据权利要求1所述的数据筛选方法,其特征在于,基于所述待筛选数据执行所述第一任务的步骤,包括:
针对所述待筛选数据中的每一个数据集合,基于所述目标筛选条件对该数据集合中对应类型的点数据进行第一筛选处理,并确定进行该第一筛选处理是否得到第一筛选数据,其中,若该目标筛选条件为主体筛选条件,则该目标筛选条件的对应类型为所述第一类型,若该目标筛选条件为客体筛选条件,则该目标筛选条件的对应类型为所述第二类型;
针对所述第一筛选数据对应的每一个数据集合,基于所述关系筛选条件对该数据集合中的边数据进行第二筛选处理,得到第二筛选数据;
基于所述第一筛选数据和所述第二筛选数据得到目标数据。
3.根据权利要求2所述的数据筛选方法,其特征在于,所述针对所述待筛选数据中的每一个数据集合,基于所述目标筛选条件对该数据集合中对应类型的点数据进行第一筛选处理的步骤,包括:
针对所述待筛选数据中的每一个数据集合,将该数据集合中的点数据缓存至映射集合中,并将该点数据从该数据集合中移除,其中该点数据基于该数据集合中键ID的反序列化结果确定;
针对每一个所述映射集合,基于所述目标筛选条件对该映射集合中对应类型的点数据进行第一筛选处理。
4.根据权利要求1所述的数据筛选方法,其特征在于,所述将该主体筛选条件和该客体筛选条件中的一个作为目标筛选条件、另一个作为其它筛选条件的步骤,包括:
将所述主体筛选条件作为目标筛选条件,其中,该主体筛选条件和所述关系筛选条件用于形成所述第一任务;
将所述客体筛选条件作为其它筛选条件,该客体筛选条件用于形成所述第二任务。
5.根据权利要求1所述的数据筛选方法,其特征在于,所述在所述待筛选数据中,基于所述目标筛选条件筛选出目标数据的步骤,还包括:
在所述实体筛选条件包括所述主体筛选条件或所述客体筛选条件时,基于该主体筛选条件和所述关系筛选条件形成第一任务,或基于该客体筛选条件和所述关系筛选条件形成第一任务;
基于所述待筛选数据执行所述第一任务,以在所述待筛选数据中筛选出目标数据。
6.一种数据筛选装置,其特征在于,包括:
关系类型确定模块,用于确定待筛选的目标关系类型;
筛选条件确定模块,用于基于所述目标关系类型和预先确定的对应关系确定目标筛选条件,其中,该对应关系中包括至少一种关系类型和对应的至少一种筛选条件,该筛选条件包括实体筛选条件和关系筛选条件中的至少一种;所述实体筛选条件和所述关系筛选条件分别用于筛选分布式图数据库中的点数据和边数据;
目标数据筛选模块,用于:在分布式图数据库中,获取属于所述目标关系类型的待筛选数据;在所述待筛选数据中,基于所述目标筛选条件筛选出目标数据;
其中,所述目标数据筛选模块,具体用于:
确定所述实体筛选条件是否包括主体筛选条件和客体筛选条件,其中,该主体筛选条件用于筛选属于第一类型的点数据,该客体筛选条件用于筛选属于第二类型的点数据,该第一类型和该第二类型基于预先配置形成;
在所述实体筛选条件包括所述主体筛选条件和所述客体筛选条件时,将该主体筛选条件和该客体筛选条件中的一个作为目标筛选条件、另一个作为其它筛选条件,其中,基于所述目标筛选条件和所述关系筛选条件形成第一任务,基于所述其它筛选条件形成第二任务;
基于所述待筛选数据分别执行所述第一任务和所述第二任务,以在所述待筛选数据中筛选出目标数据。
7.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
与所述存储器连接的处理器,用于执行该存储器存储的计算机程序,以实现权利要求1-5任意一项所述的数据筛选方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被执行时,实现权利要求1-5任意一项所述的数据筛选方法。
CN202011198249.XA 2020-10-30 2020-10-30 数据筛选方法和装置、电子设备及存储介质 Active CN112286979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011198249.XA CN112286979B (zh) 2020-10-30 2020-10-30 数据筛选方法和装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011198249.XA CN112286979B (zh) 2020-10-30 2020-10-30 数据筛选方法和装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112286979A CN112286979A (zh) 2021-01-29
CN112286979B true CN112286979B (zh) 2024-01-30

Family

ID=74353047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011198249.XA Active CN112286979B (zh) 2020-10-30 2020-10-30 数据筛选方法和装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112286979B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442613A (zh) * 2019-06-28 2019-11-12 厦门快商通信息咨询有限公司 目标确定方法、装置、设备及存储介质
CN110780970A (zh) * 2019-10-30 2020-02-11 深圳前海微众银行股份有限公司 数据筛选方法、装置、设备及计算机可读存储介质
CN111382183A (zh) * 2018-12-29 2020-07-07 阿里巴巴集团控股有限公司 一种数据查询方法及装置
CN111708897A (zh) * 2020-06-11 2020-09-25 中国建设银行股份有限公司 目标信息确定方法、装置和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2731023B1 (en) * 2012-11-12 2015-03-25 Software AG Method and system for processing graph queries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382183A (zh) * 2018-12-29 2020-07-07 阿里巴巴集团控股有限公司 一种数据查询方法及装置
CN110442613A (zh) * 2019-06-28 2019-11-12 厦门快商通信息咨询有限公司 目标确定方法、装置、设备及存储介质
CN110780970A (zh) * 2019-10-30 2020-02-11 深圳前海微众银行股份有限公司 数据筛选方法、装置、设备及计算机可读存储介质
CN111708897A (zh) * 2020-06-11 2020-09-25 中国建设银行股份有限公司 目标信息确定方法、装置和设备

Also Published As

Publication number Publication date
CN112286979A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN108573279A (zh) 图像标注方法及终端设备
CN104391951A (zh) 网页热力图的加载方法和装置
CN108038130A (zh) 虚假用户的自动清理方法、装置、设备及存储介质
CN111899243A (zh) 一种图像清晰度评价方法、设备和计算机可读存储介质
CN112529061A (zh) 一种光伏功率异常数据的识别方法、装置及终端设备
CN111126822A (zh) 一种工业机器人健康评估方法、装置及存储介质
US11106908B2 (en) Techniques to determine document recognition errors
CN112286979B (zh) 数据筛选方法和装置、电子设备及存储介质
CN114117612A (zh) DWG图纸与Revit模型相关性的检测方法、装置、介质及设备
CN117290420A (zh) 一种用于财务数据提取的企业财务管理方法及系统
CN116911867A (zh) 问题处理方法、装置、计算机设备和存储介质
CN112861874B (zh) 一种基于多滤波器去噪结果的专家场去噪方法及系统
CN114707029A (zh) 一种图谱数据的处理方法、装置及电子设备
CN114037700A (zh) 面板缺陷检测方法、装置、电子设备及存储介质
CN106790160A (zh) 密级标识与校验方法及装置
CN111652741A (zh) 用户偏好分析方法、装置及可读存储介质
CN111414582A (zh) 一种光伏理论功率计算方法、装置、设备和存储介质
CN112131082A (zh) 一种软件系统状态检测的实现方法、装置及存储介质
CN111857604A (zh) 分组管理映射反查表快速重建方法、装置、设备及介质
CN118010782B (zh) 一种基于农业废弃物的富硅生物炭检测方法及系统
CN111563033B (zh) 一种模拟数据的生成方法和装置
CN117076748B (zh) 数据采集方法、装置、计算机设备、存储介质
US20140201339A1 (en) Method of conditioning communication network data relating to a distribution of network entities across a space
CN112487039B (zh) 一种数据处理方法、装置、设备及可读存储介质
CN109739839A (zh) 数据空值处理方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant