CN113434607A - 基于图数据的行为分析方法、装置、电子设备和存储介质 - Google Patents

基于图数据的行为分析方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113434607A
CN113434607A CN202110748087.0A CN202110748087A CN113434607A CN 113434607 A CN113434607 A CN 113434607A CN 202110748087 A CN202110748087 A CN 202110748087A CN 113434607 A CN113434607 A CN 113434607A
Authority
CN
China
Prior art keywords
data
entity
graph
behavior
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110748087.0A
Other languages
English (en)
Inventor
吕志军
熊忠全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cognitive Computing Nanjing Information Technology Co ltd
Original Assignee
Cognitive Computing Nanjing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cognitive Computing Nanjing Information Technology Co ltd filed Critical Cognitive Computing Nanjing Information Technology Co ltd
Priority to CN202110748087.0A priority Critical patent/CN113434607A/zh
Publication of CN113434607A publication Critical patent/CN113434607A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图数据的行为分析方法、装置、电子设备和存储介质,其中,该方法包括:获取图数据集中目标用户的行为增量数据;将所述行为增量数据拆分为实体数据、关系数据以及实体关联关系数据;统计所述实体数据、所述关系数据和所述实体关联关系数据的可视化信息,其中,可视化信息至少包括实体名称、业务关系以及实体关系标识;基于所述可视化信息进行可视化展示。本发明实施例通过使用增量数据进行可视化展示,可提高用户行为分析的实时性,将增强数据拆分为实体和关系,降低数据规模大导致的统计难度,可提高用户行为分析的准确性。

Description

基于图数据的行为分析方法、装置、电子设备和存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种基于图数据的行为分析方法、装置、电子设备和存储介质。
背景技术
随着数字互联时代的到来,海量数据逐渐充斥着社会生活的方方面面,用户的生活逐渐与数字系统的各种实体产生关联信息,用户的海量数据可以在不同领域以不同的形式存在,例如,用户网页浏览信息、用户沟通会话记录以及用户网约车行动轨迹等,为了向用户提供更优质的定制化服务,往往需要对不同用户不同领域的海量数据进行分析,从而定制合适的服务规则。这些跨领域跨服务商的海量数据往往杂乱无章且不便处理。
现有的数据解决方案往往只将海量数据存储为图数据,处理仅包括图数据的搜索呈现展示,数据分析过程中对于增量数据与历史数据的融合较少,无法对用户的实时行为进行分析,导致服务质量过低。此外,由于图数据涉及的增量数据规模往往可以达到亿级别,导致用户行为分析存在困难。
发明内容
本发明提供一种基于图数据的行为分析方法、装置、电子设备和存储介质,以实现海量数据的处理,提高用户行为分析的准确性。
第一方面,本发明实施例提供了一种基于图数据的行为分析方法,其中,该方法包括:
获取图数据集中目标用户的行为增量数据;
将所述行为增量数据拆分为实体数据、关系数据以及实体关联关系数据;
统计所述实体数据、所述关系数据和所述实体关联关系数据的可视化信息,其中,可视化信息至少包括实体名称、业务关系以及实体关系标识;
基于所述可视化信息进行可视化展示。
第二方面,本发明实施例还提供了一种基于图数据的行为分析装置,该装置包括:
数据获取模块,用于获取图数据集中目标用户的行为增量数据;
数据拆分模块,用于将所述行为增量数据拆分为实体数据、关系数据以及实体关联关系数据;
信息统计模块,用于统计所述实体数据、所述关系数据和所述实体关联关系数据的可视化信息,其中,可视化信息至少包括实体名称、业务关系以及实体关系标识;
数据展示模块,用于基于所述可视化信息进行可视化展示。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的基于图数据的行为分析方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明实施例中任一所述的基于图数据的行为分析方法。
本发明实施例,通过图数据集中采集目标用户的行为增量数据,将该行为增强数据拆分为实体数据、关系数据以及实体关联关系数据,分别对实体数据、关系数据以及实体关联关系数据进行统计以获取可视化信息,基于可视化信息进行展示,实现了图数据的可视化处理,使用增量数据进行可视化展示,可提高用户行为分析的实时性,将增强数据拆分为实体和关系,降低数据规模大导致的统计难度,可提高用户行为分析的准确性。
附图说明
图1是本发明实施例一提供的一种基于图数据的行为分析方法的流程图;
图2是本发明实施例二提供的一种基于图数据的行为分析方法的流程图;
图3是本发明实施例二提供的一种基于图数据的行为分析方法的示例图;
图4是本发明实施例三提供的一种基于图数据的行为分析装置的结构示意图;
图5是本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构,此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
图1是本发明实施例一提供的一种基于图数据的行为分析方法的流程图,本实施例可适用于海量数据情景下辅助用户行为分析的情况,该方法可以由基于图数据的行为分析装置来执行,该装置可以采用硬件和/或软件的方式来实现,参见图1,本发明实施例提供的方法具体包括如下步骤:
步骤110、获取图数据集中目标用户的行为增量数据。
其中,图数据集可以是以图形结构存储的数据,数据以结点集和连接节点的关系构成,结点集就由数据实体组成,连接节点的关系由数据实体间的关系组成。行为增量数据可以是存储的相较于前一次存储的新增行为数据,行为增量数据可以是某个时刻后数据库中新增的数据。
在本发明实施例中,图数据集可以存储在本地数据库或者远端服务器,可以使用目标用户的唯一标识号查找存储图数据集的数据库或者存储文件中查找与对应的增量数据。
步骤120、将行为增量数据拆分为实体数据、关系数据以及实体关联关系数据。
其中,实体数据可以是图数据中的结点,该结点可以表示人或物,关系数据可以是图数据中的连接结点的关系,可以反映人与物、人与人或物与物之间的联系,实体关联关系数据可以是表示实体与关系的对应关系的数据。
在本发明实施例中,可以将行为增量数据按照图数据的存储结构进行拆分,可以将行为增量数据中的结点作为实体数据、将行为增量数据中的连线作为关系数据,以及将结点与连线的对应关系作为实体关联关系。
步骤130、统计实体数据、关系数据和实体关联关系数据的可视化信息,其中,可视化信息至少包括实体名称、业务关系以及实体关系标识。
其中,可视化信息可以是进行展示的信息,包括实体数据中展示实体的实体名称、关系数据中的业务关系以及实体关联关系数据作为唯一标识号的实体关系标识等。可视化信息的统计要求可以由用户设定,例如,可以用户指定统计的实体类型或者关系类型又或者实体关联的关系的数量等可视化信息的统计要求,可以根据这些统计要求在统计实体数据、关系数据和实体关联关系数据中统计可视化信息。
在本发明实施例中,可以分别对实体数据、关系数据和实体关联关系数据中的信息进行统计,统计的内容可以包括但不限于实体名称、业务关系以及实体关系标识等,例如,可以将实体数据、关系数据和实体关联关系数据分布读取到大数据分析平台,针对每类数据统计其中不同字段的信息作为可视化信息。
步骤140、基于可视化信息进行可视化展示。
具体的,可以将获取到的可视化信息进行展示,可以将可视化内容展示在统计表或统计图,可以将生成的统计表进行展示,进一步的,还可以将可视化信息转换为视图关系图进行展示。示例性的,可以基于可视化信息生成统计直方图,可以将该统计直方图进行可视化展示,并将可视化信息对应的实体关系图展示在上述统计直方图周围,辅助用户基于实体关系图以及统计直方图进行目标用户的行为分析。
本发明实施例,通过采集图数据集中目标用户的行为增量数据,将获取到的行为增量数据拆分为实体数据、关系数据和实体关联关系数据,统计上述的实体数据、关系数据和实体关联关系数据中的可视化信息,将获取的可视化信息进行展示,实现图数据的可视化展示,在增量数据中提取可视化信息,提高信息分析的实时性,将增量数据按照不同类型拆分后统计,降低大规模数据情景下的数据统计难度,可提高用户分析效率。
图2是本发明实施例二提供的一种基于图数据的行为分析方法的流程图,本发明实施例是在上述发明实施例基础上的具体化,参见图2,本发明实施例提供的方法具体包括如下步骤:
步骤210、在Hadoop分布式文件系统中获取目标用户产生的行为增量数据;其中,行为增量数据包括经过子图拆解的子图信息,其中,子图信息包括实体数据和关系数据。
其中,Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)可以是采用主从结构模型的分布式文件系统,HDFS中的数据集可以通过流式方式进行访问,在本发明实施例中,图数据集可以存储在HDFS中。
具体的,行为增量数据可以是经过子图拆解的子图信息,行为增量数据以视图数据和关系数据的形式存在,示例性的,行为增量数据在Hadoop分布式文件系统中可以Avro文件的文件格式存储。其中,子图拆解可以是将全局的图像拆分一个或者多个子图的过程,可以包括基于子图通过问题进行子图拆解或者基于社区检测问题进行子图拆解等。子图信息可以是反映各子图的数据,可以包括子图结点和子图边等,子图结点可以表示图数据中的实体数据,子图边可以表示图数据中的关系数据。
在本发明实施例中,可以在HDFS以目标用户的唯一标识号查找对应的图数据集,可以在查找到的图数据集作为行为增量数据集。
步骤220、基于历史行为数据对行为增量数据进行去重。
其中,历史行为数据可以当前存储的目标用户的行为数据,历史行为数据是某个时刻前HDFS中存储的图数据集,历史行为数据可以存储在HDFS中,也可以存储在本地。
在本发明实施例中,可以基于历史行为数据对增量数据进行去重,可以剔除增量数据中已经处理过的数据,可以降低数据处理规模,可以理解的是,在不存在历史行为数据时,无需对增量数据集进行去重操作。进一步的,可以将新获取的增量数据和当前的历史行为数据进行合并后作为新的历史行为数据。
步骤230、根据用户配置规则确定行为增量数据中的删除实体和删除关系。
其中,用户配置规则可以是用户配置的统计可视化信息的规则,可以包括删除和/或保留增量数据中实体数据以及关系数据的规则,例如,可以包括删除存在关系数量小于2的实体以及将实体类型为1的实体删除等。删除实体可以是增量数据中需要被剔除的实体数据,删除关系可以是增量数据中需要被剔除的关系数据。
在本发明实施例中,可以按照用户配置规则对行为增量数据进行筛选,确定增量数据中需要删除的实体数据以及需要删除的关系数据,可以根据用户需要保留增量数据中需要统计的实体数据和关系数据,降低可视化信息统计过程的信息处理量。
步骤240、根据删除实体和删除关系清理行为增量数据。
具体的,可以对行为增量数据中的实体数据和关系数据进行清理,分别删除实体数据中的删除实体以及关系数据中的删除关系。
步骤250、基于连通子图计算规则确定行为增量数据的孤立点子图和非孤立点子图。
其中,连通子图计算规则可以是确定增量数据中包括的连通子图的处理规则,连通子图计算规则可以包括深度优先生成树规则、广度优先生成树规则、普里姆最小生成树规则和克鲁斯卡尔最小生成树规则等。孤立点子图可以是与其他连通子图不相连的孤立结点集合,非孤立点子图可以是通过连通子图计算规则确定出的连通子图。
在本发明实施例中,由于删除实体和删除关系的清理将会导致行为增量数据中部分客体和关系的连接方式发生改变,导致行为增量数据丢失部分数据特征,为了提高行为分析的准确性,需要降低清理删除实体和删除关系的对数据特征的影响,可以按照连通子图计算规则对行为增量数据进行处理,生成一个或多个连通子图作为非孤立点子图,并将行为增量数据中与各连通子图相互孤立的各结点对应的集合作为孤立点子图,可以利用孤立点子图和非孤立电子图共同保留行为增量数据的数据特征,以提高用户行为分析的准确性。
步骤260、确定孤立点子图和非孤立点子图对应的全量图,并确定全量图中点与子图的对应关系作为实体数据以及将全量图中边与子图的对应关系作为关系数据。
具体的,可以将孤立点子图与非孤立点子图的集合作为全量图,该全量图中可以包括各非孤立点子图对应的连通子图以及孤立点子图对应的结点。可以统计结点与所属子图的对应关系,以及统计边与所属子图的对应关系,可以将结点与所属子图的对应关系以及将边与所属子图的对应关系。可以理解的是,全量图中每个子图可以标识一组存在联系的实体关联关系,其中,结点与所属子图的对应关系可以作为实体数据,边与所属子图的对应关系可以作为关系数据。
步骤270、将实体数据、关系数据和实体关联关系数据分别以数据表的形式存储到分布式存储数据库。
其中,分布式存储数据库可以是用于大数据存储的数据库,可以包括HDFS或hbase等。
在本发明实施例中,可以将获取到的实体数据、关系数据以及实体关联关系数据存储到分布式存储数据库中,为了便于数据统计,实体数据、关系数据以及实体关联关系数据可以分别存储到分布式存储数据库中的一个数据表,每类数据对应的数据表的表明开头可以使用对应的标识信息记录,例如,可以使用表名V_开头的数据表存储实体数据,可以使用表名E_开头的数据表存储关系数据,还可以使用表名G_开头的数据表存储实体关联关系数据。
步骤280、查询统计各数据表内的实体数量、关系数量以及实体关联关系数量。
其中,实体数量可以是数据表中存储的不同实体数据的数量,关系数量可以是数据表中存储的实体关系的数量,实体关联关系可以是数据表中存储的实体数据与关系数据具有联系的数量,可以反映出与目标用户相关的实体业务关系数量,例如,用户访问网站的次数,用户打开广告页的次数以及用户观看视频的次数等。
具体的,可以对数据表中存储的信息分别进行统计以获取到实体数据对应的实体数量,关系数据对应的关系数量以及实体关联关系数据对应的实体关联关系数量等。可以理解的是,统计各数据表中的信息可以不限于实体数量、关系数量和实体关联关系数量等,可以根据用户需求自定义统计信息的种类。
步骤290、将实体数量、关系数量和实体关联关系数量存储到分布式存储数据库内统计表对应字段,并将统计表作为可视化信息。
具体的,可以将获取到的实体数量、关系数量和实体关联关系数量存储到统计表中,每个统计信息可以分别存储到统计表中一个字段,该统计表可以存储在分布式数据库,以便进行可视化展示。可以理解的是,统计表的各字段可以由用户根据需求设置,便于控制可视化信息展示的统计信息种类和数量。
步骤2100、将各数据表以及统计表转换为大数据处理平台使用的文件格式。
在本发明实施例中,为了提高数据表与统计表的通用性,还可以对数据表与统计表的存储文件格式进行转换,便于可视化信息的跨平台展示。可以针对不同的平台设置不同的文件格式转换规则,在对应平台进行可视化展示前,可以选择对应的文件转换规则将数据表与统计表的文件格式转换为对应平台使用的文件格式。
步骤2110、将转换格式后的统计表加载到大数据分析组件kylin,并将生成的数据在预设前端进行可视化展示。
其中,大数据分析组件kylin可以是建立在分布式计算平台之上,提供数据查询与分析能力的组件,可以充分利用MapReduce的并行处理能力,可以对大规模数据进行查询和处理,可以根据预先定义查询温度进行计算。
在本发明实施例中,可以将统计表加载到大数据分析组件kylin中,便于对统计表中的信息进行分析。可以使用kylin对统计表进行处理生成统计数据,可以将统计数据在预设前端对应的界面中进行展示,实现可视化信息的展示。
本发明实施例中,在Hadoop分布式文件系统中获取目标用户产生的行为增量数据,去除行为增量数据中与历史行为数据的重复部分,根据用户配置规则在行为增量数据中确定删除实体和删除关系,剔除行为增量数据中的删除实体和删除关系,按照连通子图计算规则确定行为增量数据中的孤立点子图和非孤立点子图,生成包括孤立点子图与非孤立点子图的全量图,将全量图中结点与所属子图的对应关系作为实体数据以及边与所属子图的对应关系作为关系数据,存储实体数据、关系数据和实体关联关系数据到分布式数据库的数据表,统计各数据表中的实体数量、关系数量和实体关联关系数量等统计信息,将统计信息存储到统计表的对应字段作为可视化信息,转换数据表与统计表的存储格式为大数据处理平台的文件格式,加载统计表到大数据分析组件kylin并获取对应的数据进行可视化展示,实现了根据可视化信息的动态展示,有助于提高海量数据分析的准确性,降低了数据处理过程的数据规模,可提高图数据计算效率。
进一步的,在上述发明实施例的基础上,所述根据用户配置规则确定所述行为增量数据中的删除实体和删除关系,包括:
确定所述行为增量数据中各实体对应的关系数量;判断各所述关系数量是否所述用户配置规则中的关系数量阈值,若不满足则将对应的所述实体确定为删除实体,若满足则将对应的所述实体确定为保留实体;在所述行为增量数据将各所述删除实体对应的关联关系作为删除关系。
在本发明实施例中,关系数量可以是行为增量数据中一个代表实体的结点的连线数量,在图中被称为度,可以包括入度和出度;关系数量阈值用于筛选实体数据或关系数据的临界值,关系数量阈值可以根据用户经验设定。
具体的,可以将行为增量数据转换为实体关系图,可以针对实体关系图中的结点确定各实体对应的关系数量,也就对应结点上连线的数量,可以各实体的关系数量与用于配置规则中设置的关系数量阈值进行比较,若该关系数量不满足关系数量阈值的要求,其中,不满足可以包括关系数量大于或小于关系数量阈值。当一个实体的实体关系不满足关系数量阈值,则可以将该实体标记为删除实体,当一个实体的实体关系满足关系数量阈值,则可以将该实体标记为保留实体。由于实体被删除时,该实体连接的关系可以需要被删除,则可以将实体相关联的关系数据标记为删除关系。
进一步的,在另一个实施例中,与确定删除实体相似,可以在用户配置规则中配置一个关系删除规则,当关系满足该规则的要求时,也可以将满足关系删除规则的关系数据标记为删除关系。
进一步的,在上述发明实施例的基础上,所述确定所述孤立点子图和所述非孤立点子图对应的全量图,包括:
将所述孤立点子图以及所述非孤立点子图的合并为全量图。
在本发明实施例中,可以将各孤立电子图与各非孤立电子图合并到同一个图像中,可以将合并生成的图像作为全量图。
在一个示例性的实施方式中,图3是本发明实施例二提供的一种基于图数据的行为分析方法的示例图,参见图3,针对海量数据提出一种行为分析方法,包括数据来源、过程存储、中间转换和结果存储等几个过程,通过增量图数据与历史存量图数据融合的行为分析过程的主要包括以下步骤:
步骤一:基于实体产生的增量事件信息按照子图拆解方式生成增量子图信息,生成的增量子图信息以avro文件的形式存储在HDFS上。子图拆解过程可以是常规的子图拆解,可以与点边标注过程相仿。
步骤二:通过大数据计算引擎Spark从HDFS中读取数据,并进行汇总计算。其中,读取数据的规模较大。可以将avro文件形式的增量子图信息解析生成ELP数据,其中,ELP数据可以存储实体的边信息、子图、点信息以及实体生成索引(graph_index),实体生成索引是离散的avro文件形式的点边数据的关系聚合。
步骤三:根据步骤二生成的ELP数据,根据涉及的graph_index在hbase中分别构建实体entity(表名V_)、关系link(表名E_)和实体关联关系graphinde(表名G_)的hbase表,并统计数据量保存在统计表segment中。
步骤四:根据步骤三的entity、link和graphindex相关的hbase表可以基于spark转换生成hfile文件,将segment表中的OLAP数据加载至kylin中,在kylin中进行数据统计。
步骤五:加载ELP数据的索引index至ElasticSearch(es)。可以基于kylin快速显示需要的统计数据结果,还可以使用es查询快速得到明细数据,再配合前端进行可视化展示,实现图数据的明细汇总的高效展现。
步骤二的子图计算场景较复杂。现对步骤二的过程详细描述,先使用spark从步骤一中avro文件生成的RDD,然后对vertex rdd判断是否全量构建,判断过程可以包括:若不是全量构建,则求出新增边和上版本的交集,将新增边和上版本的边union作为新的edgerdd。若是全量构建,则直接对edge rdd去重。然后根据边的数量计算代表实体的每个点的度,可以按照度和/或点的类型或数量确定裁减点或保留点。之后,根据裁减点确定裁减边和保留边。
进一步的,若vertex rdd为全量构建,若否,则从保留的边中排除新增边和上版本的历史数据的交集。若是,则根据保留的边构建图。针对vertex rdd构建连通子图,根据保留的点和边计算孤立点子图以及非费孤立点子图,合并孤立和非孤立点子图为全量图。统计全量图中的子图总数,以及各子图中点的个数,保存点和所属子图的对应关系,保存为parquet,还可以保存边与所属子图的对应关系,保存为parquet。
实施例三
图4是本发明实施例三提供的一种基于图数据的行为分析装置的结构示意图,可执行本发明任意实施例所提供的基于图数据的行为分析方法,具备执行方法相应的功能模块和有益效果。该装置可以由软件和/或硬件实现,具体包括:数据获取模块301、数据拆分模块302、信息统计模块303和数据展示模块304。
数据获取模块301,用于获取图数据集中目标用户的行为增量数据。
数据拆分模块302,用于将所述行为增量数据拆分为实体数据、关系数据以及实体关联关系数据。
信息统计模块303,用于统计所述实体数据、所述关系数据和所述实体关联关系数据的可视化信息,其中,可视化信息至少包括实体名称、业务关系以及实体关系标识。
数据展示模块304,用于基于所述可视化信息进行可视化展示。
本发明实施例,通过数据获取模块在图数据集中采集目标用户的行为增量数据,数据拆分模块将该行为增强数据拆分为实体数据、关系数据以及实体关联关系数据,信息统计模块分别对实体数据、关系数据以及实体关联关系数据进行统计以获取可视化信息,数据展示模块基于可视化信息进行展示,实现了图数据的可视化处理,使用增量数据进行可视化展示,可提高用户行为分析的实时性,将增强数据拆分为实体和关系,降低数据规模大导致的统计难度,可提高用户行为分析的准确性。
进一步的,在上述发明实施例的基础上,所述数据获取模块301具体用于:在Hadoop分布式文件系统中获取所述目标用户产生的行为增量数据;其中,所述行为增量数据包括经过子图拆解的子图信息,其中,子图信息包括实体数据和关系数据。
进一步的,在上述发明实施例的基础上,所述数据拆分模块302包括:
去重单元,用于基于历史行为数据对所述行为增量数据进行去重。
删除确定单元,用于根据用户配置规则确定所述行为增量数据中的删除实体和删除关系。
数据清理单元,用于根据所述删除实体和所述删除关系清理所述行为增量数据。
特征确定单元,用于基于连通子图计算规则确定所述行为增量数据的孤立点子图和非孤立点子图。
数据处理单元,用于确定所述孤立点子图和所述非孤立点子图对应的全量图,并确定所述全量图中点与所属子图的对应关系以及所述全量图中边与所属子图的对应关系。
进一步的,在上述发明实施例的基础上,所述删除确定单元包括:
数量确定子单元,用于确定所述行为增量数据中各实体对应的关系数量。
实体判断单元,用于判断各所述关系数量是否所述用户配置规则中的关系数量阈值,若不满足则将对应的所述实体确定为删除实体,若满足则将对应的所述实体确定为保留实体。
关系判断单元,用于在所述行为增量数据将各所述删除实体对应的关联关系作为删除关系。
进一步的,在上述发明实施例的基础上,所述数据处理单元具体用于:将所述孤立点子图以及所述非孤立点子图的合并为全量图。
进一步的,在上述发明实施例的基础上,所述信息统计模块303包括:
数据表单元,用于将所述实体数据、所述关系数据和所述实体关联关系数据分别以数据表的形式存储到分布式存储数据库。
信息统计单元,用于查询统计各所述数据表内的实体数量、关系数量以及实体关联关系数量。
可视预备单元,用于将所述实体数量、所述关系数量和所述实体关联关系数量存储到所述分布式存储数据库内统计表对应字段,并将所述统计表作为可视化信息。
进一步的,在上述发明实施例的基础上,所述数据展示模块304包括:
格式转换单元,用于将各所述数据表以及所述统计表转换为大数据处理平台使用的文件格式。
展示处理单元,用于将转换格式后的所述统计表加载到大数据分析组件kylin,并将生成的数据在预设前端进行可视化展示。
实施例四
图5是本发明实施例四提供的一种电子设备的结构示意图,如图5所示,该电子设备包括处理器40、存储器41、输入装置42和输出装置43;电子设备中处理器40的数量可以是一个或多个,图5中以一个处理器40为例;电子设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的基于图数据的行为分析方法对应的程序指令/模块(例如,基于图数据的行为分析装置中的数据获取模块301、数据拆分模块302、信息统计模块303和数据展示模块304)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的基于图数据的行为分析方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于图数据的行为分析方法,该方法包括:
获取图数据集中目标用户的行为增量数据;
将所述行为增量数据拆分为实体数据、关系数据以及实体关联关系数据;
统计所述实体数据、所述关系数据和所述实体关联关系数据的可视化信息,其中,可视化信息至少包括实体名称、业务关系以及实体关系标识;
基于所述可视化信息进行可视化展示。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于图数据的行为分析方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述基于图数据的行为分析装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于图数据的行为分析方法,其特征在于,所述方法包括:
获取图数据集中目标用户的行为增量数据;
将所述行为增量数据拆分为实体数据、关系数据以及实体关联关系数据;
统计所述实体数据、所述关系数据和所述实体关联关系数据的可视化信息,其中,可视化信息至少包括实体名称、业务关系以及实体关系标识;
基于所述可视化信息进行可视化展示。
2.根据权利要求1所述的方法,其特征在于,所述获取图数据集中目标用户的行为增量数据,包括:
在Hadoop分布式文件系统中获取所述目标用户产生的行为增量数据;
其中,所述行为增量数据包括经过子图拆解的子图信息,其中,子图信息包括实体数据和关系数据。
3.根据权利要求1所述的方法,其特征在于,所述将所述行为增量数据拆分为实体数据、关系数据以及实体关联关系数据,包括:
基于历史行为数据对所述行为增量数据进行去重;
根据用户配置规则确定所述行为增量数据中的删除实体和删除关系;
根据所述删除实体和所述删除关系清理所述行为增量数据;
基于连通子图计算规则确定所述行为增量数据的孤立点子图和非孤立点子图;
确定所述孤立点子图和所述非孤立点子图对应的全量图,并确定所述全量图中点与所属子图的对应关系以及所述全量图中边与所属子图的对应关系。
4.根据权利要求3所述的方法,其特征在于,所述根据用户配置规则确定所述行为增量数据中的删除实体和删除关系,包括:
确定所述行为增量数据中各实体对应的关系数量;
判断各所述关系数量是否所述用户配置规则中的关系数量阈值,若不满足则将对应的所述实体确定为删除实体,若满足则将对应的所述实体确定为保留实体;
在所述行为增量数据将各所述删除实体对应的关联关系作为删除关系。
5.根据权利要求3所述的方法,其特征在于,所述确定所述孤立点子图和所述非孤立点子图对应的全量图,包括:
将所述孤立点子图以及所述非孤立点子图的合并为全量图。
6.根据权利要求1所述的方法,其特征在于,所述统计所述实体数据、所述关系数据和所述实体关联关系数据的可视化信息,包括:
将所述实体数据、所述关系数据和所述实体关联关系数据分别以数据表的形式存储到分布式存储数据库;
查询统计各所述数据表内的实体数量、关系数量以及实体关联关系数量;
将所述实体数量、所述关系数量和所述实体关联关系数量存储到所述分布式存储数据库内统计表对应字段,并将所述统计表作为可视化信息。
7.根据权利要求6所述的方法,其特征在于,所述基于所述可视化信息进行可视化展示,包括:
将各所述数据表以及所述统计表转换为大数据处理平台使用的文件格式;
将转换格式后的所述统计表加载到大数据分析组件kylin,并将生成的数据在预设前端进行可视化展示。
8.一种基于图数据的行为分析装置,其特征在于,所述装置包括:
数据获取模块,用于获取图数据集中目标用户的行为增量数据;
数据拆分模块,用于将所述行为增量数据拆分为实体数据、关系数据以及实体关联关系数据;
信息统计模块,用于统计所述实体数据、所述关系数据和所述实体关联关系数据的可视化信息,其中,可视化信息至少包括实体名称、业务关系以及实体关系标识;
数据展示模块,用于基于所述可视化信息进行可视化展示。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于图数据的行为分析方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的基于图数据的行为分析方法。
CN202110748087.0A 2021-07-02 2021-07-02 基于图数据的行为分析方法、装置、电子设备和存储介质 Pending CN113434607A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110748087.0A CN113434607A (zh) 2021-07-02 2021-07-02 基于图数据的行为分析方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110748087.0A CN113434607A (zh) 2021-07-02 2021-07-02 基于图数据的行为分析方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113434607A true CN113434607A (zh) 2021-09-24

Family

ID=77758651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110748087.0A Pending CN113434607A (zh) 2021-07-02 2021-07-02 基于图数据的行为分析方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113434607A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806600A (zh) * 2021-09-29 2021-12-17 中国平安人寿保险股份有限公司 业务数据的家庭关系网络构建方法、装置、设备及介质
CN114579673A (zh) * 2022-02-23 2022-06-03 深圳市惟客数据科技有限公司 用户画像唯一标识生成方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806600A (zh) * 2021-09-29 2021-12-17 中国平安人寿保险股份有限公司 业务数据的家庭关系网络构建方法、装置、设备及介质
CN113806600B (zh) * 2021-09-29 2023-09-15 中国平安人寿保险股份有限公司 业务数据的家庭关系网络构建方法、装置、设备及介质
CN114579673A (zh) * 2022-02-23 2022-06-03 深圳市惟客数据科技有限公司 用户画像唯一标识生成方法

Similar Documents

Publication Publication Date Title
US20200160297A1 (en) Tracking processed machine data
CN107451149B (zh) 流量数据查询任务的监控方法及其装置
US11494395B2 (en) Creating dashboards for viewing data in a data storage system based on natural language requests
US20230396633A1 (en) Method and Apparatus for Detecting Security Event, and Computer-Readable Storage Medium
CN111708774B (zh) 一种基于大数据的产业分析系统
CN113434607A (zh) 基于图数据的行为分析方法、装置、电子设备和存储介质
CN110321446B (zh) 相关数据推荐方法、装置、计算机设备及存储介质
CN112100138A (zh) 一种日志查询方法、装置、存储介质和电子设备
US10901811B2 (en) Creating alerts associated with a data storage system based on natural language requests
WO2023123182A1 (zh) 多源异构数据的处理方法、装置、计算机设备及存储介质
CN110134663B (zh) 组织结构数据处理方法、装置、电子设备
CN115022153B (zh) 故障根因分析方法、装置、设备和存储介质
CN107704620B (zh) 一种档案管理的方法、装置、设备和存储介质
CN115544519A (zh) 对计量自动化系统威胁情报进行安全性关联分析的方法
CN113656407A (zh) 一种数据拓扑生成方法、装置、电子设备及存储介质
US10250550B2 (en) Social message monitoring method and apparatus
KR20220069229A (ko) 필드 간 유사도 분석을 이용한 이종 데이터 결합 방법
CN113051460A (zh) 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质
CN114116872A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111984625B (zh) 数据库负载特征处理方法、装置、介质和电子设备
CN111680072B (zh) 基于社交信息数据的划分系统及方法
CN112836124A (zh) 一种画像数据获取方法、装置、电子设备及存储介质
CN110827049A (zh) 一种数据推送方法及装置
US9824140B2 (en) Method of creating classification pattern, apparatus, and recording medium
CN114880308A (zh) 一种基于大数据的元数据处理方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination